美国科技企业甲骨文公司在1月27日这天跟大伙儿讲了个事儿,说他们那儿有个数据中心因为碰上了极端天气,把电给断了。这下可好,直接把由他们给提供云基础设施跟技术服务的TikTok美国业务给弄得有点卡壳。不过甲骨文后来也说了,虽说停电时间不长,可这连锁反应带来了一堆“技术故障”,让美国那边的TikTok用户用着不太痛快。这家公司也强调了,正跟TikTok方面死磕呢,就想赶紧把服务全给恢复过来。其实在这个官方声明发出来之前大概24小时,负责TikTok美国用户数据安全管理的那个实体——TikTok USDS,也就是TikTok美国数据安全合资有限责任公司,早就先在社交媒体上爆料了。他们说正在解决一场“重大基础设施问题”,是因为“美国数据中心合作伙伴站点断电”引起的。声明里还说虽然网络是连上了,但停电这事儿还是把系统搞得一团糟。用户可能会碰到应用加载变慢、请求半天没反应,还有帖子点赞量这种数据要么不见了要么直接归零的情况。这事儿一出,两家公司之间那种紧密的技术合作关系和谁的责任就全露出来了。毕竟甲骨文不仅是TikTok搞那个Project Texas(得克萨斯计划)、满足美国监管要求、让数据本地化的关键帮手,更是深度参与了他们美国用户数据的存储和管理流程。所以甲骨文那边基础设施稳不稳,直接关系到TikTok在美国市场能不能顺顺当当运行。 业内的人也说了,极端天气给数据中心电力保障带来的考验,其实全球各地搞数字基础设施的都一样难搞。但这次事故正好发生在TikTok这个大平台和专门用来满足监管要求的合资公司之间,影响可就不止是单纯修个电脑那么简单了。它实际上是在看这种有监管导向的合作架构下,大家反应快不快、信息通不通、恢复工作到底怎么排优先级。虽说双方都说正在努力解决问题,可从出事到服务受影响这段时间也不短,还是暴露了复杂体系里快速配合恢复有多么难。 这事儿也让行内人开始琢磨关键数字服务供应链的韧性到底怎么样。当大平台的服务都靠少数几个第三方基础设施提供商的时候,哪怕一个地方出了岔子也会像波纹一样扩散开去。以后怎么通过设计、冗余备份和更完善的灾难恢复预案来提升整个系统的抗风险能力,是大伙儿以后得一直优化的重点。 到现在为止甲骨文跟TikTok还没说到底什么时候能彻底修好。虽说这次停电是天气惹的祸属于偶然事故,可它对TikTok美国业务造成的实际影响也让大伙儿看到了全球化数字服务跟本地化合规治理搅和在一起的时候有多麻烦。这不仅仅是在考企业自己修电脑的本事,更是在看在那种特殊合作框架下危机管理、沟通协调还有恢复能力怎么样。最后怎么收场、双方能不能从中吸取教训加固系统韧性的后续措施,肯定还会一直有人盯着看。