谷歌云平台重大服务中断 | AI生成和翻译

Home 2025.10

事件概述

2025年6月12日,Google Cloud Platform(GCP)发生持续约7.5小时的大规模全球服务中断(太平洋夏令时10:51至18:18)。事故根源在于Google服务控制系统新功能中的程序缺陷,该缺陷涉及配额策略检查环节,导致无效的自动化配额更新在全球范围内传播,引发大规模API拒绝响应和任务过载。尤以us-central1(爱荷华州)等高流量区域受影响最为严重。此次中断导致大量GCP服务、Google Workspace产品及依赖GCP基础设施的第三方应用服务受阻,Downdetector平台收到超过140万份用户故障报告。

时间线

(所有时间均为太平洋夏令时PDT)

主要缓解措施耗时约3小时,但由于积压任务和残留错误影响,总中断时长达到7.5小时。

根本原因

本次中断由服务控制功能(负责管理API配额与策略)的设计缺陷引发。自动化系统向数据库插入了包含空白或空值字段的无效配额策略,由于全球复制机制(旨在实现近实时一致性),这些损坏数据在数秒内蔓延至全球。当API请求触发配额检查时,导致空指针异常和请求拒绝(503与5xx错误激增)。在us-central1等大型区域,海量失败请求引发严重任务过载,并在依赖服务中产生级联故障。新功能对空白字段等边界情况缺乏充分验证,且系统未设置”故障开放”机制(即在检查失败时允许请求继续执行)。

受影响服务

本次中断波及大量Google产品及依赖GCP的外部服务。核心GCP与Google Workspace服务出现不同程度中断,包括API故障和界面访问问题(流媒体与IaaS资源未受影响)。

主要受影响的Google Cloud产品

主要受影响的Google Workspace产品

受影响的第三方服务

众多完全或部分依赖GCP的消费级和企业级应用出现服务中断:

由于GCP支撑着互联网后端基础设施的重要部分,全球性规模放大了本次事件的影响。

解决措施

Google工程团队快速定位无效策略,并实施配额检查绕过方案,允许API请求在危机期间无需验证即可执行。该措施使大部分区域在PDT 12:48前恢复。针对us-central1区域,实施了定向过载缓解措施,随后对Dataflow和Vertex AI等受影响服务进行人工积压清理。监控系统于PDT 18:18确认完全恢复。未发生数据丢失,但部分服务出现临时延迟。

影响范围

经验总结与预防措施

Google发布详细事后分析报告,重点强调韧性建设:

这些措施旨在预防类似事件,目前正持续对配额系统进行审计。

Google Cloud事件报告
ThousandEyes中断分析
Ookla Downdetector报告
ByteByteGo技术解析
Medium根本原因解读


Back

x-ai/grok-4-fast

Donate