法国斯特拉斯堡OVH数据中心,是世界第三、欧洲最大的托管服务提供商。
与国内的一些IDC服务商一样,这家云计算企业为用户提供的服务包括VPS、物理服务器以及其他web服务。
最重要的是,OVH数据中心早已实现全自动化装机服务,不需要人工来装试和运维。
但就是技术化水平如此之高的一家IDC数据中心,在安防工作不到位的情况下依然可能会遭致灾难。
2021年3月10日晚,OVH数据中心发生火灾,这场大火是一场IDC史无前例的灾难,当时建筑物SBG2中发生火灾后尽管消防人员很快地赶到了现场,虽然及时控制住了SBG2的灾情,但因为消防人员需要浇水冷却建筑物,运维人员无法进入大楼,只得隔离了整个站点,而且还为了不影响到SBG1、SBG3和SBG4机房大楼,于是将这四处的数据中心的服务全部关闭。
事实上,这已经不是OVH数据中心第一次发生这种影响范围极广的灾难了。
OVH拥有超过100万个客户、300多个托管网站,服务范围涉及138个国家和4个大洲,在2016-2017年年度收入近4亿欧元,但在2017年1月29日下午四点半,一个存放了大量数据库的EMC VNX 5400上因技术问题被迫重启。该系统包括96个SSD,但这些数据库每天只能在另一个位于Roubaix的法国网站(RBX1)的另一个数据中心备份。另一个VNX 5400被迫从Roubaix迁移到巴黎,直到6月30日凌晨,所有的数据库才恢复运行。
这个恢复过程竟然会耗费5个月之久的时间,作为全球顶尖级别的IDC数据中心来说简直令人不敢置信。
OVH在后来发布了一个更新,并指出了根本原因:由于原计算室的变动,EMC阵列被移到不应去的房间,并被泄漏的冷却液“触及”,监控工具没有运行,磁盘阵列也应该被更换了。看来,这个事故是一系列坏运气和几个坏操作的结果。
OVH尝试了几件事来恢复服务,但老实说,这些操作似乎是备份/恢复过程的老套,采用从一个远端站点的前一天的旧数据来取代失败的数据。
令人惊讶的是,OVH数据中心将重心完全转移到了全自动化上,缺乏足够的人工运维。
首先,OVH使用了24小时的RPO,因为备份过程每天都进行,使用人工会比较慢,全自动化肯定又省时又省力。
其次,像那种能够提供长时间保护敏感数据的数据保护技术,如快照,就没有配备在OVH机房中。
第三,架构师没有明晰数据保护和应用程序可用性。
评论