Azure重大宕机事件编年史 | AI生成和翻译
微软 Azure 自 2010 年推出以来,曾经历多次重大服务中断事件,其原因通常涉及配置错误、硬件故障或天气等外部因素。以下按时间顺序汇总了影响范围跨区域或跨服务的重要中断事件,整理自官方报告、历史分析与事件回顾,重点标注了发生日期、原因、影响区域及持续时间(如有)。
| 日期 | 原因 | 影响区域/服务 | 持续时间/影响 |
|---|---|---|---|
| 2012年2月29日 | 代码中闰年计算错误 | 北美(Azure 计算服务) | 约8小时;用户应用管理与服务中断 |
| 2012年7月26日 | 网络设备配置错误 | 西欧(Azure 计算服务) | 超2小时;欧洲地区部分服务不可用 |
| 2013年2月22日 | SSL 证书过期 | 全球(Azure 存储服务) | 数小时;发放服务抵扣券;波及 Xbox Live、音乐与视频服务 |
| 2013年10月30日 | 计算服务局部中断(限流问题) | 全球(Azure 计算服务、管理功能) | 约3-4小时;影响文件上传与站点管理 |
| 2013年11月22日 | 存储与网络问题 | 美国中北部(Xbox Live) | Xbox One 发售日中断数小时;影响用户数少但关注度高 |
| 2014年11月19日 | 配置变更导致 Blob 存储无限循环 | 全球(20余项服务,含 Azure 存储) | 约6-10小时;多区域容量下降;影响 Xbox Live、MSN 及 Visual Studio Online |
| 2016年9月15日 | 全球 DNS 中断 | 全球(Azure DNS) | 约2小时;大面积服务中断 |
| 2017年3月7日及23日 | 多起事件(网络与存储问题) | 全球(Office 365、Skype、Xbox Live) | 每次最长超16小时;广泛用户访问故障 |
| 2017年9月29日 | 维护期间气体灭火系统误触发停机 | 美国多区域(多项服务) | 约7小时;间歇性故障 |
| 2018年9月4日 | 雷击引发电压骤升与冷却系统故障 | 美国中南部及多区域(40余项服务) | 超25小时,部分影响持续3天;多服务严重中断 |
| 2020年1月25日 | Azure SQL 数据库后端依赖故障 | 全球(几乎所有区域,含美国政府/国防部) | 约6小时;影响 SQL 数据库、应用网关、堡垒机及防火墙 |
| 2021年4月1日 | 网络基础设施 DNS 广泛故障 | 全球(美、欧、亚等) | 约1.5小时;影响核心网络依赖服务 |
| 2022年6月1日 | Azure Active Directory 登录日志问题 | 全球(多区域) | 约9.5小时;影响 AAD、Sentinel、Monitor 及资源管理器 |
| 2022年6月29日 | 未明确的后端不稳定 | 全球(数十个区域) | 约24小时间歇中断;影响防火墙、Synapse、备份等服务 |
| 2023年1月25日 | 错误路由指令导致网络中断 | 全球(25+区域,含美国东部、西欧) | 约3.5小时;M365(Teams、Outlook)、SharePoint 及 Office 365 延迟与故障 |
| 2023年6月9日 | 匿名苏丹宣称的 DDoS 攻击 | 全球(Azure 门户及云服务) | 约2.5小时;门户及相关服务中断 |
| 2024年11月13日 | 存储服务 DNS 解析失败 | 多区域(美国东部/2、中部、西部/2等) | 约8.5小时;影响 Databricks 与存储账户 |
| 2024年12月26日 | 可用区电力事件 | 美国中南部(03区) | 约18小时;影响存储、虚拟机、Cosmos DB、SQL 数据库等 |
| 2025年1月9日 | 网络中断 | 美国东部2区 | 超48小时;影响 Databricks、Synapse、Functions、应用服务及虚拟机 |
| 2025年9月10日 | 限流变更导致分配器服务过载 | 美国东部2区(02/03区) | 约10.5小时;虚拟机操作性能下降,影响备份、Batch、Kubernetes 及 Synapse |
| 2025年9月26-27日 | 配置变更中证书值格式错误 | 瑞士北部(多可用区) | 约22小时;API 管理、应用服务、Cosmos DB、虚拟机及 Sentinel 大面积中断 |
| 2025年10月9日 | Azure Front Door 控制平面缺陷 | 欧洲与非洲 | 约8小时;门户与服务延迟/超时(非洲故障率高达17%) |
| 2025年10月9日 | 自动化脚本后续配置移除 | 全球(管理门户) | 约4小时;AFD 事件后 Azure 门户等访问故障 |
这些事件虽仅代表全部中断中的一部分,但因其影响范围与持续时间而最具破坏性。微软通常会发布事后评估报告以供借鉴,随着时间推移服务可用性已不断提升,其服务等级协议目标为 99.99% 正常运行时间。