切换到宽版
  • 4阅读
  • 1回复

[数码讨论]“我慌了,发生了什么?”,Cloudflare故障引发全球互联网混乱 [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
203917
金币
550785
道行
2004
原创
2435
奖券
3180
斑龄
40
道券
1167
获奖
0
座驾
设备
摄影级
在线时间: 45098(小时)
注册时间: 2008-10-01
最后登录: 2025-11-19
只看楼主 倒序阅读 使用道具 楼主  发表于: 11小时前

美东时间周二早间,互联网基础设施服务商Cloudflare表示,其全球网络正在遭遇异常,导致包括社交媒体平台X在内的大量网站出现“internal server error”等访问故障,用户无法访问许多网站和服务,包括零售、电商、社交媒体、金融服务以及交通相关平台。该公司随后声称,在耗时不到四小时后已修复问题。

宕机期间,X的部分功能中断,多家网站也陷入访问受阻。根据故障跟踪平台Downdetector的数据,除X之外,也有大量站点受到影响,相关报告数量持续攀升。用户在访问X、ChatGPT、DoorDash、IKEA,以及纽约市大都会运输署(MTA)等网站时,都看到与Cloudflare相关的错误信息。

随后,Cloudflare的一位女发言人表示,在美东时间早上6点20分左右,他们的某项服务出现了异常的流量激增,导致经过公司网络的流量出现错误。

Cloudflare另一位发言人Jackie Dutton在公告中说,这个问题是由一个用于管理威胁流量、自动生成的配置文件引起的,修复耗时不到四小时。公司表示已经部署了核心修复措施,但谨慎指出系统“仍需时间完全稳定”。

Dutton表示:

“这个文件的条目数量超过了预期大小,触发了负责处理Cloudflare部分服务流量的软件系统崩溃。”

声明称,没有证据显示此次事件与网络攻击或恶意活动有关。

故障的影响范围极为广泛。Downdetector在平台上表示,在Cloudflare宕机期间,“各类受影响服务的报告累计超过210万条”,显示此次事件已成为近年来较为严重的一次基础设施级别中断。

事故发生后,Cloudflare的股价周二开盘一度暴跌7%,随后跌幅收窄。

数字资产行业也出现反应。币安联合创始人、前CEO赵长鹏在X上发文称:“区块链依然正常运行(Blockchain kept working)”,暗示去中心化系统未受此次事件影响。

到美东时间12:15,Cloudflare表示系统正在逐步恢复,但全球部分区域仍可能出现访问错误、性能下降或登录问题。公司将在状态页面持续更新修复进度。

对少数公司过于依赖

近年来,多次因为数字基础设施供应商出现问题,导致全球互联网使用陷入瘫痪。亚马逊云服务(AWS)、CrowdStrike Holdings Inc.和微软公司先后出现过类似事故,也突显全球互联网在很大程度上依赖于少数公司提供服务。

Cloudflare和AWS的服务对普通用户来说几乎是“隐形”的,但它们的工具支撑着消费者每天使用的大量网站和服务。

上个月AWS的宕机让互联网部分区域陷入瘫痪,导致数百万用户的网站和应用无法使用,零售销售受阻,社交媒体和金融服务中断,很多企业也受到影响。去年,网络安全公司CrowdStrike所使用的一项工具中的漏洞更是让全球的电脑系统大面积崩溃,引发数千次航班延误和取消,也让政府机构和大型企业的运营陷入混乱。

加州网络安全公司Check Point Software的专家Graeme Stewart表示,这类事故凸显了互联网对少数几家基础设施提供商的过度依赖。

他说:

“很多机构依然让所有关键服务都依赖同一条路径,而且没有真正有效的备份。一旦这条路径出问题,就没有任何后备方案。这就是我们一直看到的问题。”

萨里大学(University of Surrey)网络安全教授Alan Woodward表示,周二的故障再次说明互联网高度依赖“少数玩家”。他把Cloudflare形容为“你从未听说过的最大公司”。

“人们别无选择,只能依赖这些少数大公司。”

首席技术官道歉

Cloudflare首席技术官Dane Knecht为这次事故道歉。他在X上写道:

“当Cloudflare网络出现问题,影响到依赖我们的海量流量时,我们辜负了客户,也辜负了整个互联网。这个问题本身、造成的影响、以及解决所花的时间,都是不可接受的。我们已经开始着手确保类似情况不会再次发生,但我知道今天确实给大家带来了麻烦。客户对我们的信任最为重要,我们会尽一切努力赢回这份信任。”

Cloudflare在过去几年曾多次经历类似宕机。

2019年7月,Cloudflare软件中的一个漏洞导致网络部分模块过度占用计算资源,使全球数千家依赖Cloudflare的网站(包括Discord、Shopify、SoundCloud以及Coinbase)离线长达30分钟。2022年6月,Cloudflare发生故障,影响其19个数据中心的流量,导致多个主要网站和服务瘫痪,持续约一个半小时。

Cloudflare的软件被全球数十万家公司使用,作为企业网站与终端用户之间的缓冲层,用于保护网站免受流量攻击或流量突发导致的宕机。

去年,网络安全公司CrowdStrike发布的错误软件更新导致运行微软Windows系统的数百万台设备崩溃,给航空、银行、医疗等众多行业造成大范围混乱。

CrowdStrike的这次宕机源于其产品中一个在客户电脑最底层运行的错误。而Cloudflare的作用是保护互联网基础设施,如网站和平台,因此当Cloudflare宕机时,许多热门网站会直接无法访问或出现异常。Cloudflare主要负责“让网站始终在线且速度够快”,而CrowdStrike专注于保护电脑和服务器免受攻击。

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线jjybzxw

UID: 551814


发帖
203917
金币
550785
道行
2004
原创
2435
奖券
3180
斑龄
40
道券
1167
获奖
0
座驾
设备
摄影级
在线时间: 45098(小时)
注册时间: 2008-10-01
最后登录: 2025-11-19
只看该作者 沙发  发表于: 11小时前
Cloudflare全球网络故障事件深度解析

事件概述
美东时间2025年11月18日(周一),互联网基础设施服务商Cloudflare遭遇了严重的全球网络故障,导致其服务的大量网站和应用出现访问中断。此次故障影响范围极广,包括社交媒体平台X(原Twitter)、人工智能服务ChatGPT、电商平台DoorDash、家居品牌IKEA以及纽约市大都会运输署(MTA)等关键服务均受到影响。用户普遍遇到“Internal Server Error”等错误提示,无法正常访问依赖Cloudflare服务的网站。

故障详情与影响
故障表现
- 时间线:故障始于美东时间早上6点20分左右,Cloudflare监测到其网络中某项服务出现异常流量激增,导致流量处理出现错误。
- 影响范围:根据故障跟踪平台Downdetector数据,此次事件累计收到超过210万条故障报告,成为近年来较为严重的基础设施级别中断。受影响的服务涵盖零售、电商、社交媒体、金融服务、交通等多个领域。
- 具体案例:
  - X(原Twitter):用户无法发布或浏览内容,出现大量访问错误。
  - ChatGPT:OpenAI的AI聊天服务完全无法访问。
  - DoorDash:外卖配送服务中断。
  - MTA:纽约市公共交通相关信息查询受阻。
  - IKEA等零售网站:在线购物功能瘫痪。

故障原因
Cloudflare官方后续解释称,故障源于一个用于管理威胁流量的自动生成配置文件出现问题。该文件的条目数量超过了预期大小,触发了负责处理Cloudflare部分服务流量的软件系统崩溃。发言人Jackie Dutton指出:“这个文件的条目数量超过了预期大小,导致软件系统无法正常处理,最终引发了大规模服务中断。”公司强调,此次事件无证据表明与网络攻击或恶意活动有关。

修复过程与进展
- 响应时间:Cloudflare在发现问题后立即启动应急响应。官方表示,从故障发生到核心修复措施部署完成耗时“不到四小时”。
- 修复措施:公司通过替换异常的配置文件,并对相关软件系统进行调整,逐步恢复服务。美东时间12:15左右,Cloudflare宣布系统正在逐步恢复,但指出全球部分区域仍可能出现访问错误、性能下降或登录问题。
- 后续稳定:尽管核心问题已解决,但系统完全稳定仍需时间。公司通过状态页面持续更新修复进度,确保用户和客户及时了解情况。

市场与行业反应
股价波动
事故发生后,Cloudflare股价在周二开盘时一度暴跌7%,随后跌幅有所收窄。此次故障对公司的市场信心造成短期冲击,但也反映出市场对其服务稳定性的高度关注。

数字资产行业的声音
币安联合创始人、前CEO赵长鹏在X上发文称:“区块链依然正常运行(Blockchain kept working)”,暗示去中心化系统未受此次中心化基础设施故障的影响。这一言论凸显了中心化与去中心化系统在抗风险能力上的差异。

历史宕机事件回顾
Cloudflare并非首次遭遇大规模故障,其过往历史显示此类问题并非孤例:
- 2019年7月:软件漏洞导致网络部分模块过度占用计算资源,全球数千家依赖其服务的网站(如Discord、Shopify、SoundCloud、Coinbase等)离线长达30分钟。
- 2022年6月:19个数据中心故障,导致多个主要网站和服务瘫痪,持续约一个半小时。
- 2025年3月:因密码轮换错误,R2对象存储及相关服务发生持续1小时7分钟的中断,全球范围内出现100%写入失败和35%读取失败。

行业警示:过度依赖少数基础设施提供商的风险
此次Cloudflare故障再次凸显了全球互联网对少数几家关键基础设施提供商的高度依赖。正如加州网络安全公司Check Point Software的专家Graeme Stewart所言:“很多机构依然让所有关键服务都依赖同一条路径,而且没有真正有效的备份。一旦这条路径出问题,就没有任何后备方案。”

类似案例
- 亚马逊AWS:上个月AWS的宕机曾导致互联网部分区域瘫痪,数百万用户网站和应用无法使用,零售销售、社交媒体和金融服务均受重创。
- CrowdStrike:去年该公司一款工具中的漏洞引发全球电脑系统大面积崩溃,导致数千次航班延误和取消,政府机构及大型企业运营陷入混乱。

学者观点
萨里大学网络安全教授Alan Woodward将Cloudflare形容为“你从未听说过的最大公司”,并指出:“人们别无选择,只能依赖这些少数大公司。”这种过度集中化的模式使得单一服务商的故障可能引发连锁反应,对整个互联网生态造成广泛影响。

Cloudflare的道歉与反思
Cloudflare首席技术官Dane Knecht为此次事故公开道歉:“当Cloudflare网络出现问题,影响到依赖我们的海量流量时,我们辜负了客户,也辜负了整个互联网。这个问题本身、造成的影响、以及解决所花的时间,都是不可接受的。我们已经开始着手确保类似情况不会再次发生。”

结论
Cloudflare 2025年11月18日的全球网络故障是一次典型的基础设施级中断事件,其影响范围之广、涉及用户之多,再次敲响了互联网安全与韧性的警钟。尽管Cloudflare在数小时内完成了核心修复,但事件暴露了中心化服务模式下的潜在风险。未来,如何提升关键基础设施的冗余度、加强灾备能力,以及探索更分散化的网络架构,将是行业需要共同思考和解决的重要课题。对于企业而言,减少对单一服务商的过度依赖,建立多路径备份机制,将成为保障业务连续性的关键策略。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个