京东云稳定性达行业最高标准:单云主机SLA提升至99.99%

2021-10-11 15:02:08     来源:中国科技新闻网

今年京东云峰会上发布京刚第四代云主机时,一项数据引起业界关注——“单云主机SLA承诺 99.99%”,这是迄今为止所有云服务商中最高的服务承诺。

 

服务等级协议(Service-Level Agreement,缩写SLA),是服务提供商与客户之间的正式承诺,具有法律效力。云服务厂商的SLA通常以最小化不可用时间为目标,保障云服务器运行的稳定性与可用性。

99.975%到99.99%,云主机稳定性大升级

越来越多企业选择“上云”,用“云”代替本地数据中心,一个重要原因就是传统IT基础设施难以企及云服务的超高稳定性。云厂商的SLA通常是线下数据中心的5倍以上,不仅大大降低了租用成本,也让企业和用户有了多元化选择。

SLA的提升,意味着云服务商承诺提供的计算服务所能达到的服务质量和标准在提升。数字的微小变化,背后是企业级服务可靠性的巨大进步。

京东云单云主机SLA从99.975%提升至99.99%,意味着其月不可用时间从10.8分钟降低至4.32分钟,不可用时长降低了60%,标志着京东云在云服务稳定性领域达到行业最高标准,进一步保障企业关键业务在云上平稳、顺滑运行。

京刚软硬一体虚拟化架构,云主机性能的底层保障

 

虚拟化是云主机的核心技术,基于公有云、专有云、混合云、边缘计算等多样化产品形态发展趋势,京东云自主研发了行业领先的全技术栈云计算虚拟化引擎--“京刚”, 并兼容云主机、裸金属、原生容器等原有各种计算服务形态,实现了虚拟化架构的统一升级。

“京刚”的核心功能模块全部源自京东云自研虚拟化技术,实现了专有场景芯片自主研发技术的突破性创新。它将云计算的完整核心技术栈–计算虚拟化、网络虚拟化和存储虚拟化,高度集成到京东云自主研发的智能芯片中,实现了真正的硬件虚拟化,在提供高吞吐量、低延迟的虚拟网络和存储设备的同时,还从硬件级别隔离了用户负载与管理负载,最大程度提高了云计算平台的安全性。

故障预测+自动恢复,智能系统保障云主机稳定性

此次SLA提升,是在2020年12月京东云发布单云主机稳定性达99.975%基础上的再次提升,不到一年的时间内两次升级,已远超行业内2-3年的平均提升周期,这得益于一套基于全方位数据驱动的故障预测及自动恢复系统。

借助这套系统,京东云可以对云主机进行涵盖软硬件的多维度、毫秒级别全栈响应。通过智能分析,学习相关历史数据,可实现高准确率的故障预判,并结合丰富的熔断策略,采取有效措施避免对用户产生影响,减少用户损失。在对单机稳定性要求极高的行业,比如游戏行业中,单云主机SLA的提升意义重大。

故障域隔离,多层次架构保障云服务高可用

面对政企客户的数字化转型需求,京东云提供完整的云基础设施和应用开发平台,不仅有高达 99.99% SLA标准的IaaS服务,还有云原生的PaaS服务、AI和IoT的全栈服务体系、多层次安全防护和合规认证。

为保障整体公有云服务的稳定性,京东云在长期实践中探索出出一套多层次高可用架构,并已在京东的复杂业务场景中得到充分验证。

跨地域部署实现灾备或双活(地域级别高可用),以及单地域下跨多可用区部署实现低延迟服务高可用(可用区级别高可用)是两种常见的高可用架构模型。在此基础上,为进一步提高单可用区内部署业务的可用性,并降低服务系统升级迭代对客户业务的影响,京东云优化了资源管理和调度,提出了故障影响域的概念,其包括:硬件故障影响域和管理软件故障影响域。

硬件故障影响域,是数据中心内由网络交换机或电源设备故障造成的单点硬件故障最大影响范围,通常可以理解为一个或一组机架。不同影响域内的服务器,由于存在电力网络的物理级别隔离,因此可以最小化物理硬件潜在故障、网络中断或电源中断的影响。用户可配合使用“高可用组”产品实现反亲和性调度,将云主机实例创建在多个故障影响域内,最大程度规避局部硬件故障对业务的影响。

管理软件故障影响域,是指由云服务系统管理软件故障造成的云资源生命周期管理异常影响范围。随着云上用户体量和资源规模逐步扩大,京东云在单地域下以分组集群模式管理系统软件及服务,将多个可用区内的计算资源及系统服务横向划分为多个逻辑分组,多分组集群模式下系统服务的部署均以分组为最小单位,每个分组可以实现独立升级,以此精确控制软件故障机系统升级对用户的影响范围,降低服务异常对用户业务的影响,实现无感知的平滑升级。

大规模复杂场景磨练,护航企业数字化转型

单云主机的稳定性承诺提升到 99.99%,折射出京东云的前沿技术优势和丰富业务经验积。历经京东零售、京东物流、京东科技等京东集团内部核心业务的千锤百炼,并通过历年京东618及京东11.11考验,京东云在保障服务稳定性方面有长期的技术积累和实践。

伴随京东体系的持续高速发展,京东云始终面临数据流量的大规模增长,从前端网站、订单、结算、支付、搜索、推荐,到后端的仓储、配送、客服、售后全流程,为满足各类业务系统在云上的平稳运行,磨练出京东云在云服务稳定性方面的的极强能力。

以今年618为例,京东云每秒用户访问峰值同比提升152%,访问带宽同比提升185%,混合云操作系统云舰在线管理Pod数量超过200万,运行容器峰值核数超过1000万,背后是京东云以超高弹性应对海量并发需求,以稳定、安全、可信赖的技术服务,高质量护航全程用户体验。

不仅仅在京东体系内部,京东云也在供应链、物流、金融、保险、地产、健康等十余个行业深耕多年,本次单云主机稳定性承诺升级,更是对广大客户的郑重承诺,将助力更多政企客户搭建高可用的云服务,让企业上云不再是难题,让云上业务运作不再有障碍。


科技新闻传播、科技知识普及 - 中国科技新闻网
关注微信公众号(kjxw001)及微博(中国科技新闻网)
微信公众号
微博

推荐阅读
已加载全部内容
点击加载更多