近期热议的微盟系统故障事件,想必大部分人都已经有所关注。截止2月26日中午,微盟官网仍然挂着公告,表示数据还在修复过程中。
从2月23日晚间SaaS业务生产环境和数据遭到严重破坏,直到25日核心业务基本恢复,基本不影响新用户使用,但由于部分数据还在修复过程中,官方仍然建议老用户重新注册账户使用,后续再进行新老账户数据合并,预计到28日晚间才能完全修复。
删库跑路,近几年偶有发生,甚至经常成为技术圈中调侃的话题。而作为国内最大的微信生态服务商,微盟在香港上市已近七年,员工规模也超过3000人。系统故障造成的严重影响超过36个小时,数万商家业务无法进行,股价暴跌,很难想象这是一家上市公司所经历的窘境。
如果从23日19点开始计算,到官方宣称的预计28日才能完全修复,此次故障造成的影响竟持续数日之久。「删库跑路」造成如此深远影响的,属实不多见的。
微盟官方对于事件发生经过,并没有太多细节:
犯罪嫌疑人乃微盟研发中心运维部核心运维人员贺某,贺某于 2 月 23 日晚 18 点 56 分通过个人 VPN 登入公司内网跳板机,因个人精神、生活等原因对微盟线上生产环境进行了恶意的破坏。
在察觉到事故发生后,微盟第一时间和腾讯云联系,共同制定修复方案,即便如此也耗时几天的时间。在后续的回应中,微盟集团对外表示,商户数据备份完整,系统服务恢复后商户的使用将不受影响。
通过已知的各个信息点对此次事故进行简单复盘,斗象科技技术负责人徐钟豪认为,微盟企业内部应该已经构建了一定的安全能力:
1.VPN:提供远程网络接入,提供基础的身份认证和网络访问授权。
2.跳板机:SaaS服务器只允许来自跳板机的访问,提供了基础的网络和数据库网络准入控制。
3.数据库主备:具备故障迁移时的可用性,以及数据恢复能力。
4.生产环境对运维权限放的较宽,对研发权限一般是收紧的。相信很多互联网企业也是处于类似的状态。
目前来看,在本次事故中应该是主备数据均被删除。万幸是进行了「Delete」操作,而没有进行「Purge」、「覆写」、「加密毁密钥」等操作,这种情况下还能从副本或者磁盘恢复,只是恢复效率慢时间长,因此就存在微盟所说的“商户数据备份完整”但完全恢复还需要较长时间的情况。
业务风险管理措施建议
事到如今,犯罪嫌疑人贺某已经被刑事拘留,微盟的核心业务已恢复,剩余部分数据也已经在逐步恢复。「微盟事件」代表的可能是众多中小互联网企业安全建设情况的缩影,也给所有的企业敲响了警钟,内部人员作案仍然是让所有企业安防范的重点以及难点。斗象科技技术负责人徐钟豪总结这次事故中所暴露出来的问题,从业务风险管理的角度给出了一些针对性的建议:
1.数据库权限管理
1)最小化权限原则
2)分库分表
2.数据库主从及备份
1)主从:当出现故障时能够进行故障迁移,满足高可用
2)备份:
实时备份:在线备份数据库进行读写分离,用于数据恢复
离线备份:日常异地离线备份,用于数据灾难恢复
3.备份数据权限控制
1)设置备份数据的操作权限策略,限制高危敏感操作,如drop、rm等
2)设置备份数据的访问控制策略,否则易导致另一种的数据泄露问题
4.指令控制和审计
1)操作系统的敏感/关键指令的限制和监控,并对操作指令历史进行采集和远程存储分析
2)数据库审计,对数据库流量或日志审计,设定告警通知机制
5.管理流程优化改进
1)线上变更的流程审批,申请变更时段和操作细节,效率会慢一点,但提升了安全性
2)系统性的风险评估,识别与量化风险,进行风险处置,降低风险
3)BCP(业务连续性计划)和DRP(灾难恢复计划)的制定、评估和周期性演练。达到一定规模体量的企业,是有必要认真考虑这两个计划。
安全娱乐圈,也提供了很多idea,如删库跑路不留痕迹,也不乏调侃之人,建议从黑市上买一份被脱库的数据来进行数据恢复等。在这次疫情期间,对企业带来了极大的挑战,需要上下齐心协力克服困难。另外企业不能仅关注业务,合理的文化建设和员工关怀也是必要的。
*本文作者:Alex Xu & shidongqi,转载请注明来自FreeBuf.COM