所在位置:首页>最新资讯>宕机12小时,损失超亿元!唯品会遭P0级故障

宕机12小时,损失超亿元!唯品会遭P0级故障

来源:作者:gaoxuan发表于:2023-06-07点击:
6 月 5 日,唯品会发布关于 329 机房宕机故障处理公告。官方在公告中称,南沙机房重大故障影响时间持续 12 个小时,导致公司业绩损失超亿元,影响客户达 800 多万。公司让对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职处理。

据悉,这是唯品会在 3 月 29 日发生的事故,当天,“唯品会崩了”登上热搜,唯品会官方回应称:因系统短时故障,主站“加购”等功能或出现异常。据知情人透露,329 机房事故影响的不仅唯品会一家,当时微信、QQ 等腾讯旗下社交软件出现功能异常;广东省政务云平台也出现故障,导致众多医疗机构网络服务中断。

 

唯品会将此次故障判定为 P0 级故障,属于最高级别的故障。例如核心功能不可用、服务不可用超时 30 分钟,造成资金损失,重点保障客户投诉,系统安全或数据安全故障都属于 P0 级的范畴。根据相关定义,故障等级分为 P0/P1/P2 三级,具体见下表:


 

系统宕机对于任何一家企业来说都非常严重,若不及时处理将会产生了严重的后果,需要提前做好相关防范措施,能避免更大的损失。如果在灾难发生前,唯品会能够建设容灾体系,就能在故障发生时快速启动容灾系统,其影响将会大大降低。

 

容灾级别从低到高一共分为三级,分别是数据级、应用级、业务级。业务和数据大规模增长的企业,通常会采用应用级的容灾。除了满足在租用的运营商云服务商的日常运行之外,企业还要在当地震、海啸、洪水等更高不可控风险发生时,有其他保证关键核心数据不丢以及业务不断的措施。

为此,企业多会选择“两地三中心”的容灾架构,达到“数据不丢、业务不停”的目的。其中,“两地”是指本地及异地;“三中心”是指生产中心、同城灾备中心、异地灾备中心。

 

然而,两地三中心的建设成本高昂,一般机构难以承受如此高额的费用,若兼顾性价比,本地容灾和云容灾会是更适合中小机构的选择:

 

  • 本地容灾

 

本地容灾一般指主机集群,当某台主机出现故障,不能正常工作时,其他的主机可以替代该主机,继续正常对外提供服务。通常可通过共享存储或双机双柜的方式实现本地容灾,其中多以共享存储为主。

 

共享存储由三部分组成:活动主节点,不活动备节点,共享存储。其中两个计算资源节点提供主备角色服务,通过SAN网络附加型存储作为数据存储的介质。主备节点共享一份存储,一旦主节点宕机,备节点可基于共享存储实现业务的接管。但共享存储的同构成本和远距离高可用接管成本过高,存在较大存储故障风险,且只支持一对一架构。

 

双机双柜是一种不依赖共享存储而实现的高可用保护架构,采用主备的高可用保护模式。在双机架构中,生产主机和备机具有物理层的完全独立性,应用、系统、网络和数据都是一式两份,生产主机和备机可通过存储网络或局域网进行连接。其中,本地的存储网络连接的主备高可用适用于近距离的容灾建设,受距离限制较大;异地远距离的主备高可用,则会存在极小的数据延时。

 

  • 云容灾

 

云容灾一般指云数据中心的物理机或虚拟机容灾。云主机系统由大量服务器组成,并分布在不同的地点,并在同一时间为大量用户服务,因此云计算系统采用分布式存储的方式存储数据,采用冗余存储的方式(集群计算、数据冗余和分布式存储)保证数据的可靠性。这种方式保证分布式数据的高可用、高可靠和经济性,即为同一份数据存储多个副本。

 

总而言之,在 IT 容灾领域,企业要达成“数据不丢,业务不停”的需求,不仅需要考虑架构、选址、技术、带宽配置等条件与参数,更需要企业有多层次、多策略、全域的数字化理念,才能将损失规模降至最低,并在满足监管要求的情况下,持续为业务转型发展赋能。

相关文章

品牌案例

会员登录
  • 请输入用户名

    请输入用户名

  • 请输入密码

    请输入密码

  • 请输入验证码

    请输入验证码

  • 记住用户名