每日 24 亿事件处理:Airbnb 的 Riverbed 技术解析

作者 | Rafal Gancarz 译者 | 明知山 策划 | 丁晓昀

Airbnb 开发的 Riverbed 是一个 Lambda 风格的数据框架,用于生成和管理分布式物化视图。该框架支持 50 多个涉及重度数据读取的应用场景,在这些场景中,数据来自 Airbnb 面向服务架构 (SOA) 平台的多个数据源。它分别使用 Apache Kafka 和 Apache Spark 作为在线和离线处理组件。

Airbnb 观察发现,一些跨多个不同数据存储的复杂查询是导致该平台主要功能出现延迟的罪魁祸首。开发团队不能使用数据库提供的标准的物化视图,因为计算物化视图所需的数据不在单个数据库中。

开发团队尝试使用一种技术来创建分布式物化视图,该技术使用了变更数据捕获 (CDC)、流处理和专门用来存储最终结果的数据库。他们仔细权衡了数据处理架构:

Lambda 和 Kappa 是两种实时数据处理架构。Lambda 结合了批处理和实时处理,可以有效地处理大数据量,而 Kappa 仅专注于流处理。Kappa 的简单性提供了更好的可维护性,但在实现回填机制和确保数据一致性方面存在挑战,特别是对于乱序事件。

Riverbed 框架采用了 Lambda 架构,并提供了一种声明式的方式,使用 GraphQL 为在线 (实时事件) 和离线 (数据回填) 组件定义数据查询和计算逻辑。该框架负责并发、版本控制和数据正确性保证,以及与基础设施组件的集成。

Riverbed 的流式处理 (来源:Airbnb 工程博客)

对于实时处理,Riverbed 使用 Apache Kafka 消费数据源发出的变更数据捕获 (CDC) 事件来进行消息传递。来自 CDC 的事件通过执行用 GraphQL 定义的聚合逻辑来更新物化视图,结果文档存储在物化视图数据库中。为了提高效率,处理是高度并行化和批量化的。

流式管道避免了竞态条件,因为 CDC 事件在 Apache Kafka 中基于物化视图文档的标识符被重新分区,因此对物化视图的更新是顺序完成的。此外,在在线 (实时) 和离线 (批处理) 处理之间使用乐观并发控制 来避免并发写和潜在的数据不一致。

Riverbed 的批处理 (来源:Airbnb 工程博客)

Riverbed 支持数据回填和协调,以防出现因丢失 CDC 事件导致的实时处理问题。这一部分使用 Apache Spark 来处理存储每日快照的数据仓库中的数据。该框架基于在 Riverbed 中配置的 GraphQL 定义生成 Spark SQL。

Riverbed 目前每天处理 24 亿个事件,写入 3.5 亿个文档,处理与 Airbnb 的支付、搜索、评论、行程和内部产品等功能相关的 50 多个物化视图。

原文链接

https://www.infoq.com/news/2023/10/airbnb-riverbed-introduction/

声明:本文为 InfoQ 翻译,未经许可禁止转载。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐前端根本不需要构建!“技术邪教” Ruby on Rails 之父再出激进言论引争议
大模型时代下的技术变革:训练、负载、部署、效率、安全……都遇到了新挑战?京东辟谣“刘姓商人涉嫌违法被抓”;比特大陆全员工资暂停发放;一周可居家办公3 天,去哪儿灵活办公制度出炉|Q资讯
主力开发已经 68 岁了!“老龄化”严重的 Postgres 开源社区呼唤“年轻一代”

相关推荐

  • 国内首个“AI 原生应用商店”上线!
  • 三问 AIOps:是否是个摆设?如何衡量业务价值?落地成本有多大?
  • 剑指 Kubernetes!微软发布开源平台 Radius:高效构建、运行云原生应用程序
  • 超火迷你GPT-4视觉能力暴涨,GitHub两万星,华人团队出品
  • 开源智能体来啦!港大团队发布OpenAgents,可以搞数据分析、聊天、支持200+插件
  • RTX4090显卡禁售,价格暴涨1万后,又反转了?!
  • 面试官问你期望的工资是多少,怎么回答最好?
  • 崩溃!研究生一周5次组会,资本家看了都流泪.....
  • 如何蹭ChatGPT热度发一篇顶会?(附论文+电子书籍)
  • 突发!英伟达 H800/A800 禁售!美芯片禁令升级,仅剩 V100 可用?
  • 大厂洗牌:从BAT到TTMAP
  • 比亚迪招聘,1天收到12万份简历
  • 深度剖析 Vite 配置文件
  • 快速定位,基于 Ko-time 的 SpringBoot 单体化调用链追踪实践
  • Spring 微服务项目引入 CQRS 模型,优势在我!
  • 揭秘高效编程“武功秘笈”,手把手带你写一波!
  • 苹果承认iPhone 15系列存在烧屏问题,但拒绝召回;Win11用户量将达5亿;Node.js 21发布 | 极客头条
  • 深度干货|我这一年的AI产品出海之路
  • 为什么 MyBatis 源码中,没有我那种 if···else
  • 【前端面试题】—53道常见NodeJS基础面试题(附答案)