语雀停服八小时,P0级事故!故障原因和补偿来了!!

点击上方 "程序架构之家" 关注公众号 设为星标 终身学习 技术干货 及时送达
往期回顾  

1、前阿里员工坦言:32岁,我的职业生涯要结束了
2、突发!美国升级对华芯片出口禁令


昨天阿里知名产品语雀发生故障,持续了有7小时之多,引发了群里不少讨论和吐槽。就在刚刚,语雀官方发布了关于23日故障的公告,具体内容如下:

各位语雀的用户:

10 月 23 日语雀出现重大服务故障,且持续 7 个多小时才完全恢复,给用户使用造成极大不便,对此我们深感抱歉。经过复盘,我们在这里向大家进一步说明故障原因、修复过程和改进措施。

故障原因及处理过程

10 月 23 日下午,服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具 bug,导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。为了尽快恢复服务,我们和数据存储运维团队全力进行数据恢复工作,但受限于恢复方案、数据量级等因素,整体用时较长。具体过程如下:

14:07 数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运维工具 bug 导致节点机器下线;

14:15 联系硬件团队尝试将下线机器重新上线;

15:00 确认因存储系统使用的机器类别较老,无法直接操作上线,立即调整恢复方案为从备份系统中恢复存储数据。

15:10 开始新建存储系统,从备份中开始恢复数据,由于语雀数据量庞大,此过程历时较长,19 点完成数据恢复;同时为保障数据完整性,在完成恢复后,用时 2 个小时进行数据校验;

21 点存储系统通过完整性校验,开始和语雀团队联调,最终在 22 点恢复语雀全部服务。用户所有数据均未丢失。

改进措施

通过这次故障我们深刻认识到,语雀作为一款服务千万级客户的文档产品,应该做到更完善的技术风险保障和高可用架构设计,尤其是面向技术变更操作的“可监控,可灰度,可回滚”的系统化建设和流程审计,从同 Region 多副本容灾升级为两地三中心的高可用能力,设计足够的数据和系统冗余实现快速恢复,并进行定期的容灾应急演练。只有这样,才能提升严重基础设施故障时的恢复速度,并从根本上避免这类故障再次出现。为此我们制定了如下改进措施:

1、升级硬件版本和机型,实现离线后的快速上线。该措施在本次故障修复中已完成;

2、运维团队加强运维工具的质量保障与测试,杜绝此类运维 bug 再次发生;

3、缩小运维动作灰度范围,增加灰度时间,提前发现 bug;

4、从架构和高可用层面改进服务,为语雀增加存储系统的异地灾备。

赔偿方案

为了表达我们的歉意,我们将向所有受到故障影响的用户提供如下赔偿方案:

针对语雀个人用户,我们赠送 6 个月的会员服务。

操作流程:进入工作台「账户设置」,点击左侧「会员信息」,在会员信息页面点击「立即领取」,即可获得赠送服务。

针对语雀空间用户,由于情况比较复杂,我们会单独制定赔偿方案。请空间管理员留意语雀站内信。这次的故障让我们深切地感受到了用户对语雀的依赖以及语雀肩上的重大责任。再次向所有语雀用户表达我们诚挚的歉意。我们将持续提升语雀的服务质量和服务稳定性,不辜负每一位用户的信任!

-End-

精彩推荐  1、32岁阿里P7投简历全挂,他把简历改成小公司,学历改成普本,工作内容不变!2、阿里某p9哭穷:300万年薪,依然挣扎在温饱线上!
3、阿里云爆发史上最严重宕机事故。。。4、哔哩哔哩(B 站)又崩了程序架构技术群

构建高质量的技术交流社群,欢迎从事编程开发、技术招聘HR进群,也欢迎大家分享自己公司的内推信息,相互帮助,一起进步!

文明发言,以交流技术职位内推行业探讨为主

广告人士勿入,切勿轻信私聊,防止被骗,加我好友,拉你进群 


感谢关注,分享不易,提升自己,惠泽他人

终身学习,点赞关注不迷路

相关推荐

  • 协同发展,生态聚合丨1024程序员节暨「源聚一堂」开源技术沙龙(北京站)成功举办
  • 周鸿祎称程序员节是唯一不能放假的节日;苹果官宣十月 Mac 发布会:来势凶猛;Firefox 119 发布|极客头条
  • 用了这些IDEA插件以后,我写代码快了10倍!
  • 浅谈多人游戏原理和简单实现
  • 【深度学习】激光雷达分割与测距SOTA算法!已开源!
  • 【深度学习】NIPS 2022 表格数据还需要深度学习吗?
  • 【学术相关】教育部:研究生,可以换导师!
  • 文末福利|即将开始!3分钟带你揭晓稀土掘金创新论坛四大亮点,一起探讨AI时代下的管理变革
  • Nodejs 已发布 21.1.0 版本
  • 一文搞懂“支付·清结算·账务”全局
  • 导入个Excel页面直接卡死,看我如何处理T0生产事故~
  • 一篇文章让你搞懂到底什么是 CDN
  • select...for update 锁表了?
  • 建议前端开发者学习下色彩心理学,提升用户体验
  • 开发过程中,建议使用 VSCode 的 Thunder Client 插件替代 Postman, 让你显得更专业
  • Mybatis的一级缓存与二级缓存
  • 丰富的模板与插件,构建你心中的理想站点
  • 陈怡然力荐《关于我博士毕业的这件小事》,Waymo研究员2年半心路分享火了
  • 大华股份发布星汉大模型;苹果AI服务器支出明年或达47.5亿美元;英伟达H100成新型债务资产丨AIGC大事日报
  • 净利润暴涨1763%,世界第三大软件公司如何靠AIGC逆风翻盘?