Azure重大宕机事件编年史 | AI生成和翻译

Home 2025.10

微软 Azure 自 2010 年推出以来,曾经历多次重大服务中断事件,其原因通常涉及配置错误、硬件故障或天气等外部因素。以下按时间顺序汇总了影响范围跨区域或跨服务的重要中断事件,整理自官方报告、历史分析与事件回顾,重点标注了发生日期、原因、影响区域及持续时间(如有)。

日期 原因 影响区域/服务 持续时间/影响
2012年2月29日 代码中闰年计算错误 北美(Azure 计算服务) 约8小时;用户应用管理与服务中断
2012年7月26日 网络设备配置错误 西欧(Azure 计算服务) 超2小时;欧洲地区部分服务不可用
2013年2月22日 SSL 证书过期 全球(Azure 存储服务) 数小时;发放服务抵扣券;波及 Xbox Live、音乐与视频服务
2013年10月30日 计算服务局部中断(限流问题) 全球(Azure 计算服务、管理功能) 约3-4小时;影响文件上传与站点管理
2013年11月22日 存储与网络问题 美国中北部(Xbox Live) Xbox One 发售日中断数小时;影响用户数少但关注度高
2014年11月19日 配置变更导致 Blob 存储无限循环 全球(20余项服务,含 Azure 存储) 约6-10小时;多区域容量下降;影响 Xbox Live、MSN 及 Visual Studio Online
2016年9月15日 全球 DNS 中断 全球(Azure DNS) 约2小时;大面积服务中断
2017年3月7日及23日 多起事件(网络与存储问题) 全球(Office 365、Skype、Xbox Live) 每次最长超16小时;广泛用户访问故障
2017年9月29日 维护期间气体灭火系统误触发停机 美国多区域(多项服务) 约7小时;间歇性故障
2018年9月4日 雷击引发电压骤升与冷却系统故障 美国中南部及多区域(40余项服务) 超25小时,部分影响持续3天;多服务严重中断
2020年1月25日 Azure SQL 数据库后端依赖故障 全球(几乎所有区域,含美国政府/国防部) 约6小时;影响 SQL 数据库、应用网关、堡垒机及防火墙
2021年4月1日 网络基础设施 DNS 广泛故障 全球(美、欧、亚等) 约1.5小时;影响核心网络依赖服务
2022年6月1日 Azure Active Directory 登录日志问题 全球(多区域) 约9.5小时;影响 AAD、Sentinel、Monitor 及资源管理器
2022年6月29日 未明确的后端不稳定 全球(数十个区域) 约24小时间歇中断;影响防火墙、Synapse、备份等服务
2023年1月25日 错误路由指令导致网络中断 全球(25+区域,含美国东部、西欧) 约3.5小时;M365(Teams、Outlook)、SharePoint 及 Office 365 延迟与故障
2023年6月9日 匿名苏丹宣称的 DDoS 攻击 全球(Azure 门户及云服务) 约2.5小时;门户及相关服务中断
2024年11月13日 存储服务 DNS 解析失败 多区域(美国东部/2、中部、西部/2等) 约8.5小时;影响 Databricks 与存储账户
2024年12月26日 可用区电力事件 美国中南部(03区) 约18小时;影响存储、虚拟机、Cosmos DB、SQL 数据库等
2025年1月9日 网络中断 美国东部2区 超48小时;影响 Databricks、Synapse、Functions、应用服务及虚拟机
2025年9月10日 限流变更导致分配器服务过载 美国东部2区(02/03区) 约10.5小时;虚拟机操作性能下降,影响备份、Batch、Kubernetes 及 Synapse
2025年9月26-27日 配置变更中证书值格式错误 瑞士北部(多可用区) 约22小时;API 管理、应用服务、Cosmos DB、虚拟机及 Sentinel 大面积中断
2025年10月9日 Azure Front Door 控制平面缺陷 欧洲与非洲 约8小时;门户与服务延迟/超时(非洲故障率高达17%)
2025年10月9日 自动化脚本后续配置移除 全球(管理门户) 约4小时;AFD 事件后 Azure 门户等访问故障

这些事件虽仅代表全部中断中的一部分,但因其影响范围与持续时间而最具破坏性。微软通常会发布事后评估报告以供借鉴,随着时间推移服务可用性已不断提升,其服务等级协议目标为 99.99% 正常运行时间。

参考资料


Back

x-ai/grok-4-fast

Donate