抗住百万级流量并发,快手 + 阿里云混合云弹性调度系统的建设之路


快手 APP 是一款用户量极大的短视频应用。目前平均日活跃用户达 3.76 亿,平均月活跃用户达 6.73 亿,累计互关用户对数超过 311 亿对,日均互动(包括点赞、评论和转发等)总量达 80 亿次。为了支撑如此庞大的用户规模、业务量级,快手建立了多个庞大的数据中心,海量的服务器集群来承载每日数亿用户的访问。


快手技术面临的挑战,除了用户规模庞大带来的分布式架构的复杂性,更大的挑战来自于直播间秒杀场景,瞬时海量用户的抢购并发极高。直播是快手技术挑战最大的场景,而快手直播电商的秒杀活动为之最,具有并发量大、要求极高的特点。在秒杀活动期间,大量用户会同时访问快手的电商平台,对系统的并发处理能力提出了极高的要求。对于上亿粉丝的大V直播间秒杀期间,单件秒杀商品可能达到数百万件,单品最高秒杀请求达每秒百万次,下单交易链路系统同时支撑每秒百万次的并发。从下图可以看出,大V直播期间的秒杀尖峰与日常相比,提交订单接口的峰值流量是日常的90多倍。

为了应对并发量极高的秒杀场景,快手采用了如下图所示的分布式系统架构、负载均衡技术、缓存技术、消息队列、服务限流排队、热点缓存优化等技术手段,以提高系统的并发处理能力和扩展性;在数据中心能力上,提高服务器的处理能力和可靠性,以确保系统的稳定性和可用性。此外,还加强对系统的监控和运维,及时发现和解决问题,确保系统的高可用性。同时,也不断优化系统的性能,提升用户体验和满意度。

为了解决大促秒杀尖峰时刻的资源不足问题,快手建立了弹性容器云能力。快手的弹性容器云平台基于 Docker 建设的平台,它能够根据业务需求自动扩展和收缩容器实例,以满足高并发和大流量场景下的业务需求。通过使用弹性容器云,快手可以在大促秒杀期间快速扩展容器实例,以应对突然增加的流量和请求。当流量和请求减少时,弹性容器云又可以自动收缩容器实例,以节省资源成本。这种弹性伸缩能力可以帮助快手更好地应对业务的突发变化,提高系统的可靠性和可用性。弹性容器云为快手解决大促秒杀期间的弹性伸缩问题提供了有力的支持。

图:全量使用自建 IDC 资源的电商业务架构

为了应对峰值,快手容器云平台构建了快手 IDC+ 阿里云的混合云架构,通过专线打通双方网络互联互通,利用阿里云丰富的产品能力和弹性优势进行业务“削峰填谷”。阿里云计算资源具备快手弹性和库存优势,为快手容器的弹性和扩展提供了强有力的支持,从而更好地应对峰值,满足高并发和大流量场景下的业务需求。

在扩展公有云资源的过程中,会基于时延和容灾域将相应公有云上不同可用区资源合入到快手内部不同可用区内,并优先将非高频访问缓存类的服务扩容到公有云机房,以优化业务性能。当发生单可用区的故障时,可通过可用区级的快速切流来完成业务恢复。同时为了加速业务的启动耗时,在公有云机房建立了镜像仓库缓存节点,结合 p2p 镜像下载机制,显著加速公有云上的容器实例的启动速度。

图:启用弹性混合云资源的电商业务架构

其中的混合云调度平台,通过打通预算管理、容器资源运营及资源交付等多平台,实现了混合云弹性资源的快速交付,满足业务突发流量的算力资源诉求。整体过程中实现了如下平台能力:

  • 弹性云服务器资源快速纳入容器集群:可实现 10 万核计算资源 30 分钟内接入快手容器云并达到业务可用状态;

  • 快手自建机房与公有云机房资源通过容器集群统一纳管:提供一致化的算力交付,业务侧不感知底层资源差异;

  • 智能化的资源调度策略:平台统一托管资源分配策略,突发流量所需要的业务扩容优先使用云上资源,活动结束缩容优先退还云上资源并自动下线主机;

图:混合云弹性资源交付流程示意图

据了解,阿里云已经连续十来年保障了天猫双 11 的平稳运行,扛住了零点过后的流量峰值,阿里巴巴业务 100% 运行在阿里云上。那么,快手容器云+阿里云的组合模式是否能经受住另一个大促考验呢?

在 2023 年某大 V 大促活动中,快手电商为了应对大 V 秒杀峰值的资源计算需求,快手的弹性容器云快速利用以上打通阿里云的系统,进行了峰值资源的扩容,扩充总量级达到数万核 CPU,将下单的峰值吞吐能力提高了 1 倍,秒杀期间实际峰值流量达到每秒百万次请求,系统各项指标稳定,系统 100% 可用,阿里云顺利通过了快手大促考验,可以平稳支撑快手顶流大 V 大促直播。下图中峰值的请求,即为通过阿里云弹性资源应对的峰值计算资源,解决了短时间内快速弹性扩容、峰值结束后快速缩容的问题,既提高了系统应对峰值的快速伸缩、系统稳定性、高并发诉求,又能大大减少资源的持有成本。

通过【快手容器云 + 阿里云】的技术深度结合,在【快手电商直播秒杀】场景下的大规模首次应用,也论证和验证了快手弹性容器云能力在应对高峰弹性上的实际效果,也为快手未来借助阿里云解决资源成本优势、快速扩缩容提供了坚实的基础,为快手引领直播电商技术的趋势提供了有力的支持。

快手在直播电商技术方面的不断创新和引领,为行业的发展和变革也带来了重要的意义。快手电商直播,应用弹性容器云 + 阿里云的混合云模式应对秒杀,不仅对于快手自身具有重要意义,也为整个行业带来了积极的影响。它引领了直播电商技术的发展趋势,为其他企业提供了借鉴和启示。未来,随着技术的不断进步,快手将继续发挥技术优势,为用户带来更好的购物体验。

今日好文推荐“MySQL 之父”的 MariaDB 要完蛋了?叫停两款核心产品并裁员 28%,分析师:该行为无异于自毁长城
剑指 Kubernetes!微软发布开源平台 Radius:高效构建、运行云原生应用程序
前端根本不需要构建!“技术邪教” Ruby on Rails 之父再出激进言论引争议
大模型时代下的技术变革:训练、负载、部署、效率、安全……都遇到了新挑战?

相关推荐

  • 抖音大型直播画质优化实践:“62 亿人次观看的亚运会直播”有哪些创新领域
  • 语雀突发 P0 级事故!宕机 8 小时被网友怒喷,运维又背锅?
  • 快收藏!!Google内部Python代码风格指南(中文版)
  • 36个顶级数据分析方法与模型!
  • 内推|【企知道】自然语言开发工程师
  • 大规模数据分析避坑指南-实战篇
  • 探索大模型技术在自智网络方向的应用前景(推荐收藏)
  • 与创新者同行,Doris Summit Asia 2023 线下技术峰会圆满落幕!
  • 苹果“套娃”式扩散模型,训练步数减少七成!
  • 北大数学课,启用AI助教
  • 老黄苏妈齐聚现场!芯片巨头围观首款AI PC,联想造
  • 当AI有了审美灵魂,作画已经真假难辨了!划重点:免费
  • 全球最强CPU一夜易主,130亿参数大模型被塞进PC,没网也能生成邮件周报PPT
  • 清华&通院让AI智能体成功识破谎言!ReCon框架玩转「阿瓦隆」,三思后行+换位思考
  • LLM一句话瞬间生成3D世界,未公布代码已获141星!或将引发3D建模行业革命
  • Bengio、Hinton、张亚勤等AI大佬再发联名信!AI太危险,我们需要重新定位
  • 突发!英伟达H800/A800禁令竟提前生效,但4090意外豁免
  • 实测商汤医疗健康大模型「大医」:紧贴实际场景,可塑性超强,还能自定义提示工程!
  • DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架
  • 开源版「ChatGPT Plus」来了,能做数据分析、插件调用、自动上网,落地真实世界的智能体