Bleeping Computer 网站披露,长达五小时的 Microsoft 365 全球中断是一个路由器 IP 地址变化,致其广域网(WAN)中所有其它路由器之间的数据包转发问题引起。
2023 年 1 月 25日,Microsoft Teams、Outlook、Xbox 和其它 Microsoft365 服务均出现不同程度中断、延迟的现象,主要影响亚洲和欧洲用户,引起业内广泛关注。微软接到客户报告后立刻展开调查,并组织技术专家修复程序,排除故障以使服务恢复在线。
随着事故发展,微软 365 团队在社交媒体上表示其发现一个潜在网络问题,并正在审查遥测技术以确定下一步的故障排除步骤。目前,微软已将服务中断问题与网络配置问题隔离开来,正在分析解决这些问题的最佳缓解策略,力争不会造成额外影响。
微软多个服务受到中断影响
根据 Redmond 的说法,受影响用户可能无法访问有问题的 Microsoft 365 服务。此次中断影响的服务清单主要包括:
Microsoft Teams、Exchange Online、Outlook、SharePoint Online、OneDrive for Business、PowerBi、Microsoft 365 Admin Center、Microsoft Graph、Microsoft Intune、Microsoft Defender for Cloud Apps和Microsoft Defender for Identity。
Azure 团队在 Microsoft Azure 服务状态页上强调,技术团队已经确定网络连接问题发生在微软广域网(WAN)设备上,这主要影响到互联网客户与 Azure 之间的连接、ExpressRoute 连接以及数据中心服务之间的连接。
服务器中断问题正在造成一波波影响,大约每 30 分钟达到峰值。此外,一些客户在加载 Microsoft Azure 状态页面时同样会遇到问题,该页面间歇性显示“504网关超时”错误。目前微软内部技术团队正在展开积极调查,一旦有更多消息,会立刻分享给大众。
随着调查深入,Azure 团队发现此次故障背后的根本原因是微软广域网(WAN)的近期更新,目前微软已采取措施回滚这一更新。值得一提的是,微软强调最新遥测显示多个地区和服务都有恢复的迹象,正在继续积极监测,可以确认受影响的服务已经开始慢慢恢复并保持稳定。
Microsoft 365 全球中断由某个路由器 IP 变化引起
经调查分析,微软最后确认长达五小时的 Microsoft 365 全球中断是路由器 IP 地址更改所致,该更改引起了其广域网(WAN)中所有其它路由器之间的数据包转发问题。
Redmond 对事件调查后表示全球性中断是由 WAN 更新导致的 DNS 和 WAN 网络配置问题造成的,许多用户在访问受影响的 Microsoft 365 服务时都遇到了问题。微软透露,服务器中断问题是在使用未经彻底审查的命令更改 WAN 路由器的 IP 地址时引发的,该命令在不同网络设备上具有不同的行为。作为更新 WAN 路由器上 IP 地址的计划更改的一部分,向路由器发出的命令使其向 WAN 中的所有其它由器发送消息,这导致所有路由器重新计算其邻接表和转发表。
在重新计算过程中,路由器无法正确转发通过它们的数据包 当网络从 UTC 08:10 开始自行恢复时,负责维护广域网(WAN)运行状况的自动化系统由于网络受到影响而暂停。这些系统包括识别和消除不健康设备的系统,以及优化网络数据流的流量工程系统。
由于暂停,一些网络路径从 UTC 9 时 35 分开始继续“历经”数据包丢失增加,直到手动重新启动系统,使WAN 恢复到最佳运行状态,并在 UTC 12 时 43 分完成恢复过程。
特别强调的是,从 UTC 上午 7:05 开始调查,到 UTC 下午 12:43 恢复服务,Redmond 仅花费五个多小时就解决了服务中断问题。
服务器中断事件后,微软表示正在阻止执行具有高度影响力的命令,并且还将要求所有命令执行都遵循安全配置更改的指导原则。
参考文章:
https://www.bleepingcomputer.com/news/microsoft/microsoft-365-outage-takes-down-teams-exchange-online-outlook/
https://www.bleepingcomputer.com/news/microsoft/massive-microsoft-365-outage-caused-by-wan-router-ip-change/