整理 | 华卫
半个互联网又又又断了。
刚刚,Cloudflare 公司遭遇了持续数小时的宕机事故,导致多款热门网站和 AI 服务下线。据报道,此次服务中断持续约五个半小时,OpenAI 的 ChatGPT 和 Sora 均在受影响应用之列,Claude、Shopify 以及美国新泽西州公共交通系统的官网也出现了故障。
1 神秘流量激增,导致大范围宕机
据外媒报道,美国东部时间 11 月 18 日凌晨 5 点 20 分左右,Cloudflare 首次发现平台出现异常流量。约一个半小时后,该公司在状态页面更新公告,告知客户此次宕机事件,服务中断表现为出现错误提示及延迟升高。“Cloudflare 内部服务出现故障。部分服务可能会间歇性受到影响,”Cloudflare 在美国东部时间早上 7 点前不久发布的公告中表示。
而受此次宕机影响的并非仅有面向网站的 CDN 服务。故障还波及了其应用服务产品套件,该套件为云端及本地工作负载提供 CDN 功能,同时保护这些工作负载的应用程序接口免受恶意流量攻击。
Cloudflare 在今年 7 月的一篇博客指出,全球约 20% 的网站依赖其管理和保护流量。据 DownDetector 称,此次宕机事件影响了包括 X、Spotify、OpenAI 的 ChatGPT、特朗普的社交媒体网站 Truth Social、在线设计平台 Canva 以及电影评分应用 Letterboxd 等,甚至 DownDetector 自己的网站也曾短暂受到影响。
此次宕机还影响了至少另外两项服务。在故障排查过程中,Cloudflare 工程师关闭了伦敦地区的 WARP 虚拟专用网络(VPN)服务。此外,部分用户无法正常使用该公司的 Cloudflare Access 零信任网络访问(ZTNA)工具。ZTNA 产品的用途与 VPN 类似,但能提供更优的安全性和性能。
美国东部时间 11 月 18 日上午 8:09,该公司表示,问题“已查明,正在实施修复”,但恢复过程并不算顺利。美国东部时间 11 月 18 日上午 8 点 13 分左右,Cloudflare 重新启用了伦敦地区的 WARP 服务。据 Cloudflare 称,控制面板服务已于美国东部时间上午 9:34 恢复。上午 9 点 42 分,该公司在状态页面宣布,工程师已修复宕机的根本原因。接下来的几个小时里,Cloudflare 持续监控恢复进程,并“寻找加速全面恢复的方法”。最终,此次服务中断于上午 11 点 44 分结束。
Cloudflare 的一位发言人向外媒证实,在发布第一份状态更新之前,他们发现“旗下一项服务出现异常流量激增”,这 “导致部分流经 Cloudflare 网络的流量出现错误”。“我们全员出动,确保所有流量无误。之后,我们将集中精力调查流量异常激增的原因。”Cloudflare 在声明中说道。
而从故障根因来看,有专家认为这次宕机并非单点失误,而是一连串低概率事件的叠加。Cloudflare 在故障复盘中提到,问题最初源于一次数据库用户权限的变更,意外导致一条 SQL 返回了重复数据;再叠加上不够严谨的 Rust 代码实现、以及多年遭受 DDoS 攻击带来的“PTSD 式误诊”,几件本不至于造成灾难的小事,最终触发了今年全球范围内持续时间最长、影响最广的一次网络故障。
值得一提的是,在 X 平台上,有网友评价,“Cloudflare 的 Rust 重写版本并未经得起时间的考验。”9 月 26 日,。该公司称,得益于 Rust 语言的特性,此次重构 “速度更快、安全性更高”。
Cloudflare 故障报告中,专门指出了导致这次宕机的那行 Rust 代码。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237