谷歌云平台重大服务中断事件 | AI生成和翻译

Home 2025.10

Google Cloud Platform (GCP) 重大故障史

自早期发展以来,Google Cloud Platform 经历了多次重大故障,通常由软件缺陷、硬件故障、环境因素或容量问题引起。下表汇总了部分最引人注目的事件,这些事件因其规模、持续时间或广泛影响而被选出。这些记录截至 2025 年中期。

日期 原因 影响
2020 年 12 月 14 日 中央用户 ID 管理系统容量意外缩减,影响基于 OAuth 的身份验证。 全球中断约 90 分钟;全球数百万用户的 Gmail、YouTube、Google Drive、GCP 服务及 Pokémon GO 等应用访问受阻。
2022 年 7 月 伦敦超过 40°C 的极端热浪导致 europe-west2-a 区域冷却系统故障。 区域中断约 24 小时;影响 Cloud Storage、BigQuery、Compute Engine、GKE 等服务,迫使故障转移至其他区域。
2022 年 8 月 8 日 爱荷华州康瑟尔布拉夫斯数据中心发生电气事故引发火灾(与并发的搜索/地图问题无关)。 局部火灾响应;Cloud Logging 服务全球延迟持续数天,影响 GCP 用户的监控和调试。
2023 年 4 月 28 日 巴黎数据中心进水和火灾,引发 europe-west9-a 区域多集群故障。 欧洲、亚洲、美洲广泛中断;VPC、负载均衡、BigQuery 及网络服务受影响数小时至数天。
2024 年 8 月 7-8 日 在 Vertex AI 的 API 启用期间,Cloud TPU 服务激活失败。 全球中断约 14 小时;阻塞所有主要区域的 Vertex AI 机器学习模型上传和训练。
2024 年 10 月 23 日 europe-west3-c 区域(法兰克福)电力故障和电弧,导致冷却基础设施性能下降。 区域中断半天(约 8 小时);基础设施部分关闭,流量转移至其他区域。
2025 年 1 月 7-8 日 互联问题包括 Apigee 中的 SAML 身份验证失败、Vertex Gemini API 中的 HTTP 错误以及 Pub/Sub 中的发布阻塞。 超过 18 小时的多小时中断;影响跨区域的 API 管理、AI 推理和实时消息传递。
2025 年 6 月 12 日 新 Service Control 功能(配额策略检查)中的错误导致 us-central1 等大区域任务过载。 全球中断约 7 小时;导致 Spotify、Discord、Fitbit 及许多依赖 GCP 的服务瘫痪,报告数量超过 140 万。

这些事件凸显了 GCP 的发展阵痛,从 2000 年代末的早期 App Engine 问题到近期的系统性故障。Google 通常会发布事后分析和补救计划,例如将组件模块化以“故障开放”。有关最新状态,请查看 Google Cloud Service Health

Google Cloud 和数据中心故障史
Google 服务中断 - 维基百科
Google Cloud 故障历史 | StatusGator
2025 年至今十大云中断事件 - CRN
Google Cloud 故障分析:2025 年 6 月 12 日 - ThousandEyes


Back

x-ai/grok-4-fast

Donate