事故原因疑云
尽管对系统故障表示理解,但业内人士普遍认为2.5小时的故障“不应该这么久”。
按照支付宝5月27日傍晚发布的解释,5月27日傍晚因市政施工导致杭州市某地光缆被挖断,导致了支付宝一个主要机房被影响,随后全国部分用户无法使用支付宝。事情发生后第一时间,支付宝工程师紧急将用户请求切换至国内其他机房。但按照常理,一个机房故障,应当立即切到其他机房。原本应当是瞬间完成的工作,却花费2.5小时,这让业内纷纷揣测:支付宝究竟有没有多机房备份?如果有,为什么切换花费这么久?支付宝此次故障是否另有原因?
在此之前,支付宝一直得益于自己的“异地多活”系统。所谓“异地多活”,是指在不同的地方设置多个数据中心,活备份数据。“异地多活,实际可行性没那么强。涉及到数据存储,基本上出了这种事情没人敢切到异地,因为担心异地数据不一致,只有等网络恢复。”业内人士分析道。
“以支付宝的能力,不应该线路中断影响这么久。从目前了解到的信息猜测,支付宝容灾备份方案肯定未做到最充分,但网络通信侧运营商肯定也难辞其咎。经此一役,估计支付宝会进一步加强异地容灾及多运营商网络通道备份。”另一位业内人士表示。
关于这次事故的原因,有商业银行专业人士认为电缆挖断是假,机房故障是真。“5年前,支付宝就实现了同城但机房故障不影响业务,所以这次光纤故障可能只是借口,运营网络背了黑锅。”也有业内人士认为,因为支付宝会有不同运营商随时切换,不可能挖断一条电缆就系统瘫痪。很有可能是因为系统被攻击或宕机。 “归根结底是支付宝过于自信,没有建立快速恢复的应急处置机制,应该采取技术人员现场排查、现场研究、现场决策的方式。”
5月27日晚23点,支付宝对切换速度缓慢给出了官方解释。支付宝表示,“我们作为一个金融系统,对切换中数据与资金安全性的要求极高,因此切换速度上没有做到更快。后面我们会不断提升切换速度。但是,这并不代表我们对这次恢复时间是满意的。”展望未来,支付宝表示,光缆被挖断可能并不能完全杜绝,但对于支付宝而言,会继续推进技术的升级改造,继续完善异地多活的系统架构。“未来,即使再次出现光缆被挖断等意外情况,我们进行异地切换时,也尽量做到让用户最小感知甚至无感知。”支付宝表示。
加拿大华人网 http://www.sinoca.com/