亚马逊 Kinesis 数据流:庆祝十年的实时数据创新 大数据博客
亚马逊 Kinesis 数据流:庆祝十周年实时数据创新
关键要点
数据是每个组织的重要战略资产,亚马逊 Kinesis 数据流是打破数据孤岛的首选方案。自推出以来,Kinesis 数据流已成为数万家客户的基础数据战略支柱。用户喜爱 Kinesis 数据流的易用性、大规模操作、数据的可靠性与耐用性,以及广泛的数据集成能力。结合实时数据流与生成式人工智能,未来数据将在各行各业中发挥重要作用。数据是每个组织的关键战略资产,实际上每家公司都是以数据为核心的业务。然而,在很多组织中,数据通常分散在多个不同的系统中,如软件即服务SaaS应用、操作数据库和数据仓库。这种数据孤岛使得获取组织中的统一数据视图变得困难,从而无法实时采取行动来发挥最大价值。
十年前,我们推出了亚马逊 Kinesis 数据流,这是第一个云原生的无服务器流数据服务,旨在作为公司的支柱,从而打破数据孤岛。通过数据流,企业可以支持Amazon S3上的数据湖,增强客户体验,实现个性化,提升工厂设备的预测维护效率,同时通过与流处理引擎如亚马逊管理服务的 Apache Flink的无缝集成,实时转换、增强和查询数据。亚马逊 Kinesis 数据流已成为成千上万客户的数据战略基础。
例如,国家冰球联盟NHL通过流式传输现场 NHL EDGE 比赛数据和统计信息,重新构想了粉丝体验,为冰球爱好者提供了宝贵的分析,帮助他们更好地体验比赛。NHL EDGE技术在冰球和球员的球衣上生成每秒数千个数据点,这些数据可以由 AWS 分析,以预测关键事件如面对面比赛的结果。NHL 构建了一个实时的流数据基础,使用 Kinesis 数据流和亚马逊管理服务的 Apache Flink 流式处理、准备和供给数据,以帮助快速做出面临比赛预测的决策,并创新观众互动的新方式。
许多客户正在基于这种流式数据基础,思考如何利用生成式 AI 提供变革性的产品和服务。流式处理使企业能够安全、实时地将数据存储中的数据与大型语言模型LLMs相连接。尽管 LLM 能够处理数十亿个参数,但为了提供符合企业客户的个性化体验,LLM 需要公司的用户数据以及公司数据存储中的专有知识。一个包含流处理的数据战略,对于实时提供个性化和专有数据以进行查询至关重要。
拥有实时数据流战略的客户在利用生成式 AI 提供创新产品方面走在前沿。某客户采用 Kinesis 数据流作为其数据战略,他们从数字产品中流式传输数十亿事件,以获得实时洞察。借助低延迟的数据流和分析能力,他们能够理解并个性化用户体验,通过无缝集成的独立系统进行实验和自动反馈。今年早些时候,在强大的数据基础上,他们发布了一款创新的数字媒体生成式 AI 产品。基于 Kinesis 数据流的同一数据基础,持续分析用户如何与生成的内容互动,并帮助产品团队调整应用程序。
“实时流数据技术对数字化转型至关重要。这些服务使客户能够将数据引入其应用和模型,使其更智能。实时数据使公司在数据驱动的决策、预测和洞察上占据优势,通过在数据生成的那一刻使用数据,提供无与伦比的竞争优势。”
Mindy Ferguson AWS 流媒体和消息传递副总裁
在庆祝 Kinesis 数据流十周年之际,客户分享了他们持续重视这一革命性服务的四个主要原因。他们喜欢简便的流式数据传输,无需管理底层服务器;能够在大规模下稳定运行;实现高弹性和耐用性;并从广泛的集成中收益,使得能够吸收并处理数据。
易用性
使用 Kinesis 数据流的起步简单:开发人员可以通过 Kinesis 数据流控制台轻松创建数据流,或者通过单个 API 调用实现。调整流的大小或配置也仅需一个 API 调用,每个数据流都默认具有 24 小时的数据保留期。开发人员无需担心集群、版本升级或存储容量规划,只需启动数据流并开始接收数据。
随着过去10年客户需求的演变,越来越多的事件被捕捉和流式传输,客户希望他们的数据流能够以弹性方式扩展,而无需操作负担。为此,我们在2021年推出了按需流来提供简单且自动化的扩展体验。使用按需流,您可以让服务主动处理流的容量扩展,仅为实际摄入、检索和存储的数据付费。随着客户持续寻求更多功能,我们在2023年3月将每个按需流的摄入吞吐量限制从200MB/s增加到1GB/s,并在2023年10月进一步增加到2GB/s,以适应更高吞吐量的工作负载。为了继续创新,使其成为最易用的流数据服务,我们始终倾听客户的使用案例。
是一个在线设计和视觉传播平台。随着用户从3000万迅速增长至135亿,Canva建立了一个规模庞大的流数据平台,轻松操作以推动产品创新和个性化用户体验。
“亚马逊 Kinesis 数据流和 AWS Lambda 在 Canva 的日志平台中无处不在,每天摄入和处理超过600亿个日志事件。Kinesis 数据流与 Lambda 的组合抽象了大量通常需要在管理大数据管道时所需的工作,如部署和管理服务器,同时提供高度可扩展和可靠的服务。这使我们能够专注于交付世界级产品,构建用户高度请求的功能,而不是在操作性工作上花费时间。”
Phoebe Zhou,Canva软件工程师
在大规模下稳定运行
流数据战略的一个基本要求是以低延迟摄入和处理大量数据。Kinesis 数据流每天处理数万客户的万亿条记录。客户运行超过350万个独特的数据流,每天处理超过45PB的数据。我们的最大客户单个流的实时数据摄入超过15GB每秒。这相当于每秒为地球上每个人流式传输多个数据点!即便在这种规模下,所有客户仍能在毫秒级的可用性内检索数据。
客户希望将相同的数据通过多个应用进行处理,每个应用产生不同的价值,而不必担心一个应用影响另一个的读取吞吐量。增强型扩展为每个数据消费者提供了专用的读取吞吐量和低延迟。这使得企业平台团队能够为更多团队和应用提供实时数据。
使用 Kinesis 数据流每天摄入 PB 级数据,以确保数百万客户的端点安全。团队能够专注于其专业领域,而 AWS 管理数据流,以满足客户实时上升的流量和需求。
“当客户的数据增加或减少时,我们可以利用亚马逊 Kinesis 数据流的弹性上下扩展计算能力,以可靠地处理数据,同时有效管理我们的成本。这就是为什么 Kinesis 数据流是一个合适的选择。最大优势在于我们在AWS中解决方案的托管性质。这塑造了我们的架构,并帮助我们将复杂性转移到其他地方。”
Stoyan Dimkov,VMware Carbon Black的员工工程师和软件架构师
了解更多关于案例研究的信息。
为数据流提供弹性和耐用性
随着数据的迅猛增长,客户希望在处理和重新处理数据时获得更多的灵活性。例如,如果消费数据的应用暂时离线,团队希望确保能够在稍后恢复处理,而不会丢失数据。Kinesis 数据流提供默认的 24 小时保留期,允许您从特定时间戳开始处理记录。通过扩展保留功能,您可以将数据保留期配置为长达 7 天。
某些行业如金融服务和医疗保健有更严格的合规要求,因此客户要求更长的数据保留期来满足这些需求。为此,我们跟进推出了长期存储,支持数据保留长达 1 年。现在,数千名 Kinesis 数据流客户正在使用这些功能,使他们的流式应用更具弹性和耐用性。
是拉丁美洲领先的电子商务和支付平台,依靠 Kinesis 数据流来驱动其流式数据战略,围绕支付处理、客户体验和运营。
“以亚马逊 Kinesis 数据流为核心,我们处理约70亿条每日消息,分布在成千上万的生产数据源中。通过利用 Kinesis 数据流和亚马逊 DynamoDB 流,我们采用了事件驱动架构,能够快速响应数据变化。”
一元机场地址Joaquin Fernandez,Mercado Libre 的高级软件专家
无论数据在哪里,都能访问它
我们的客户使用各种工具和应用,组织中的数据通常分布在多个位置。因此,能够轻松整合跨机构的数据对于获取及时洞察至关重要。开发人员使用 Kinesis 生产者库、Kinesis 客户端库和 AWS SDK 来快速构建自定义数据生产者和消费者应用。客户的生产者扩展了从微服务到智能电视,甚至汽车。我们与 AWS 服务和第三方应用如 Adobe 经验平台和 Databricks有超过40种集成。正如下我们的白皮书 中详细介绍的那样,Kinesis 数据流作为无服务器和实时使用场景的支柱,涉及个性化、实时洞察、物联网以及事件驱动架构等。我们最近与Amazon Redshift的整合使您能够在几秒钟内将数百兆字节的数据从 Kinesis 数据流引入数据仓库。要了解如何利用该集成在近实时内检测欺诈,请参阅使用亚马逊 Kinesis 数据流和亚马逊 Redshift ML 进行近实时欺诈检测
最近在 2023 年推出的另一个集成功能是与Amazon Monitron的整合,以促进预测性维护管理。您现在可以将测量数据和相应的推理结果流式传输到 Kinesis 数据流中,以协调预测维护并构建物联网数据湖。有关详细信息,请参见使用 Amazon Monitron 和 Amazon Kinesis 生成可操作的洞察以进行预测维护管理
接下来,让我们回到 NHL 用例,他们结合了物联网、数据流和机器学习。
NHL EDGE IQ 借助 AWS 的力量,帮助粉丝更贴近动作,提供先进的分析和新的机器学习统计指标,例如面临比赛的概率和机会分析。
“我们使用亚马逊 Kinesis 数据流来处理 NHL EDGE 数据,包括冰球和球员位置信息、面对面位置以及当前比赛状态,以解耦数据生产者和消费应用程序。亚马逊管理服务的 Apache Flink 用于运行 Flink 应用程序,从 Kinesis 数据流中提取数据来调用亚马逊 SageMaker中的预测模型,以实时提供面临比赛概率指标。这些概率结果也存储在亚马逊 S3 中,以持续重新训练 SageMaker 中的模型。该项目的成功促使我们建立下一个指标机会分析,为每个射门机会提供超过25个洞察。Kinesis 数据流和亚马逊管理服务的Apache Flink 应用程序对于实时比赛预测至关重要,能够同时对多达 16 场 NHL 比赛进行机会分析计算。”
Eric Schneider,国家冰球联盟软件工程高级副总裁
了解更多关于案例研究的信息。
数据的未来是实时的
实时数据流与生成式 AI 的融合有望成为我们数字互联世界的基石。靠不断涌入的来自物联网设备、传感器、社交媒体等的信息赋能,生成式 AI 正变得无处不在。从自主驾驶车辆在动态变化的交通情况下航行到智能城市根据实时需求优化能源消耗,AI与实时数据的结合将支撑各行各业的效率与创新。无处不在、适应性强、深入生活的这些 AI 驱动的应用将提升便利性,解决气候变化、医疗保健和灾难应对等关键挑战,利用丰富的实时洞察。借助 Kinesis 数据流,组织能够建立坚实的数据基础,使您能够迅速采用新技术并尽早解锁新的机会我们预计这些机会会是巨大的。
了解更多关于我们的客户如何利用数据流。如果您希望快速了解有关 Kinesis 数据流的概念和用例,请查看我们的亚马逊 Kinesis 数据流 101 播放列表。要开始构建数据流,请访问 亚马逊 Kinesis 数据流开发者指南。
关于作者
Roy (KDS) Wang 是亚马逊 Kinesis 数据流的高级产品经理。他热衷于向客户学习并与之合作,帮助组织更快速、更智能地运营。在工作之外,Roy 努力成为新生儿的好父亲,并构建塑料模型套件。