freeBuf
主站

分类

漏洞 工具 极客 Web安全 系统安全 网络安全 无线安全 设备/客户端安全 数据安全 安全管理 企业安全 工控安全

特色

头条 人物志 活动 视频 观点 招聘 报告 资讯 区块链安全 标准与合规 容器安全 公开课

点我创作

试试在FreeBuf发布您的第一篇文章 让安全圈留下您的足迹
我知道了

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

Cloudflare R2服务中断事件:密码轮换错误引发全球故障
2025-03-25 15:47:07
所属地 上海

Cloudflare

Cloudflare近日宣布,其R2对象存储及相关服务发生了一次持续1小时7分钟的中断事件,导致全球范围内出现100%的写入失败和35%的读取失败。Cloudflare R2是一项可扩展的、与S3兼容的对象存储服务,提供免费数据检索、多区域复制以及与Cloudflare的深度集成。

此次事件发生在UTC时间21:38至22:45之间,据称是由于凭证轮换错误导致R2 Gateway(API前端)失去了对后端存储的认证访问权限。具体而言,新凭证被错误地部署到了开发环境而非生产环境,而当旧凭证被删除后,生产服务便失去了有效的凭证。

故障原因与处理过程

问题的根源在于遗漏了一个命令行标志--env production,该标志的作用是将新凭证部署到生产环境的R2 Gateway Worker中,而非开发环境的Worker。

R2 Gateway Worker认证示意图R2 Gateway Worker认证示意图来源:Cloudflare

由于问题的性质以及Cloudflare服务的工作机制,这一配置错误并未立即显现,导致修复工作进一步延迟。

Cloudflare在事件报告中解释道:“R2可用性指标的下降是渐进的,并未立即显现,因为旧凭证删除的传播到存储基础设施存在延迟。这导致我们未能及时发现该问题。在更新旧凭证后,我们本应明确验证R2 Gateway服务使用的是哪个令牌来与R2的存储基础设施进行认证,而不是仅仅依赖可用性指标。”

尽管此次事件未导致客户数据丢失或损坏,但仍造成了部分或全部服务的降级,具体包括:

  • R2:100%写入失败和35%读取失败(缓存对象仍可访问)
  • Cache Reserve:由于读取失败导致源站流量增加
  • Images和Stream:所有上传失败,图片交付率降至25%,Stream降至94%
  • Email Security、Vectorize、Log Delivery、Billing、Key Transparency Auditor:不同程度服务降级

改进措施与未来计划

为防止类似事件再次发生,Cloudflare已改进凭证日志记录和验证流程,并强制使用自动化部署工具以避免人为错误。

公司还更新了标准操作流程(SOPs),要求对高影响操作(如凭证轮换)进行双重验证,并计划增强健康检查以更快地检测根本原因。

值得注意的是,Cloudflare的R2服务在今年2月也曾发生过一次持续1小时的中断,同样是由人为错误引发。当时,一名操作员在处理关于钓鱼URL的滥用报告时,错误地关闭了整个R2 Gateway服务,而非仅阻止特定端点。由于缺乏针对高影响操作的保障措施和验证检查,导致了此次中断。为此,Cloudflare计划并实施了额外的措施,包括改进账户配置、加强访问控制以及对高风险操作实施双人审批流程。


参考来源:

Cloudflare R2 service outage caused by password rotation error

# 安全管理 # 企业安全
本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf 客服小蜜蜂(微信:freebee1024)
被以下专辑收录,发现更多精彩内容
+ 收入我的专辑
+ 加入我的收藏
相关推荐
  • 0 文章数
  • 0 关注者
文章目录