星空体育官网注册
集成解决方案 自研解决方案
首页 > 产品解决方案 > 自研解决方案
星空体育官网注册腾讯云复盘4月8日故障原因:持续近87分钟1957
发布时间:2024-04-21 12:47:05 来源:星空官方网站入口 作者:星空体育网站入口

  腾讯云在《说明》中回应,此次故障自4月8日下午15点23分发现,至16点50分全面恢复,共持续近87分钟,期间共有1957个客户反馈了相关问题。导致客户无法通过控制台登录,并影响了部分公有云服务的使用。

  故障发生时,客户登录控制台受阻,依赖云API提供能力的公有云服务如云函数、文字识别、微服务平台、音频内容安全、验证码等也受到了影响。

  经复盘分析,此次故障的根本原因在于云API服务新版本向前兼容性考虑不足和配置数据灰度机制存在缺陷。新版本接口协议的变化导致旧版本前端数据处理逻辑异常,生成错误配置数据,并在灰度机制不足的情况下迅速扩散至全网地域。

  针对此次故障,腾讯云团队表示将吸取教训,从提升系统韧性和强化变更管理与保护措施两方面着手改进。

  第一,提升系统韧性1、定期执行预定的变更策略模拟演练,确保在真实故障发生时,能够迅速切换到恢复模式,最小化服务中断时间。2、优化服务部署架构,通过分层架构、代码审查和监控等手段, 避免API服务中潜在的循环依赖问题。3、提供API服务逃生通道,当故障发生时,可供调用方快速切换。第二,强化变更管理与保护措施1、完善自动化测试用例库,在系统变更前通过沙箱环境对变更内容进行严格验证。2、实施灰度发布策略,逐步推广新功能或配置更改,按集群、可用区、地域逐步生效,以便在发现问题时能够迅速回滚。3、引入异常自动熔断机制,当检测到系统异常时,能够立即中断变更过程。第三,增强故障响应与沟通能力1、对故障处理流程进行全面升级,确保实时更新故障处理进度和预计恢复时间点,提升故障报告发布效率。2、在对外发布的故障通知中,清晰阐述受影响的业务范围、故障根因及预计修复时长,保持透明度。3、优化腾讯云健康状态看板(StatusPage)的信息展示逻辑,解除对云API等云服务的依赖,通过引入缓存和容灾机制,确保即使在云服务出现故障时,能准确、及时地传递故障信息。


星空体育官网注册
上一篇:1957名用户报障!腾讯云公布4月8日故障复盘:云 下一篇:农银人寿产品上线速度提升四倍是这么做自动化测试