从CPU到CIPU,网友说:给阿里点赞!

数字经济时代,算力是底座。

算力,简单理解,就是数据中心,再进一步,就是云数据中心。这些年,数据中心的技术发展非常快,但有一点没变,就是CPU为核心的计算体系架构。要更快的计算速度?ok,增加CPU。当然,这只是其中一个方法。

互联网企业主导数据中心技术的发展。没别的,因为规模太大,以及各种技术、应用,无先例,只好自己干。

6月13日,阿里云智能总裁张建锋在2022阿里云峰会上,正式发布CIPU(Cloud infrastructure Processing Units),是“为新型云数据中心设计的专用处理器,未来将替代CPU成为云计算的管控和加速中心”。

在全新体系架构下,CIPU向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速,向上接入飞天云操作系统,将全球数百万台服务器连成一台超级计算机。

网友说:给阿里点赞!阿里加油!

《从CPU到CIPU,网友说:给阿里点赞!》

那么,CIPU到底是个神马?

云基础设施处理器CIPU(Cloud infrastructure Processing Units ),是阿里云为新型云数据中心设计的专用处理器,用于加速和管控计算资源,将替代CPU成为云时代IDC的处理核心。在这个全新体系架构下,CIPU向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速,向上接入飞天云操作系统,管控阿里云全球上百万台服务器。

其实,CIPU的发布,从信创的角度,意味着国内首次形成全自研云计算技术体系闭环。

1、CIPU的三大特性

网络:对高带宽物理网络进行硬件加速,通过建设大规模的eRDMA分布式高性能网络,实现RDMA技术的普惠化;
存储:对存算分离架构的块存储接入进行硬件加速,提供超高性能的云盘;
计算:快速接入不同类型资源的神龙计算平台,带来算力的“0”损耗,以及硬件级安全的加固隔离。

《从CPU到CIPU,网友说:给阿里点赞!》

2、为什么要有CIPU?

为了解决传统CPU计算体系架构的问题,需要对数据中心内部的云计算体系架构进行改革创新,从以CPU为中心的体系架构进入以飞天操作系统+CIPU为中心的体系架构。

过去十多年,云计算技术发展经历了两个阶段:

第一阶段是分布式技术,推动互联网企业从大机向分布式系统整个迁移;

第二阶段诞生了资源池化技术,通过计算存储分离的架构,对资源统一的调度编排,提高云计算的可靠性和可用性。

这两个阶段都是以CPU为中心的计算体系架构,解决了部分计算的需求。

但云上客户的需求发生了巨大的变化,就像内燃机发明之后,人类对载具速度的想象力从马车时代进入了汽车时代。

随着数据密集型计算越来越多,传统以CPU为中心的计算体系架构无法适应这一趋势:

第一,以CPU为中心的架构导致了计算和网络传输的时延大;

第二,大数据应用增多,导致数据中心内部数据迁移量增多,以CPU为中心的架构无法提供高带宽;

第三,管理的基础设施规模越来越大,阿里云在全球27个国家和地区、84个可用区管理着超过上百万台服务器,基于CPU为中心的架构无法解决超大规模的复杂管理问题。

3、CIPU带来哪些改变?

基于CIPU和飞天操作系统的新一代云计算架构体系,无论是在分布式应用还是人工智能的场景测试中,都展现了优越的性能。

存储方面,通过全硬件虚拟化和转发加速,存储时延最低可至30us(PLX),IOPS高达300万,存储带宽可达200 Gbps,全面超越市面上所有云产品,云端能提供比本地更安全可靠且高性能的存储能力。

网络方面,基础带宽从100G升级至200G,VPC的PPS转发性能从2000万提升至4000万,网络时延从22us降低至16us,RDMA协议下更可低至5.5us。应用上云之后,比自建物理机的集群吞吐量提升了30%,业务高峰期延迟下降了90%。

计算方面,单容器虚拟化消耗减少50%,虚拟化容器启动速度快350%。主流通用计算场景下,Nginx性能提升了89%,Redis性能提升了68%、MySQL提升了60%。大数据和AI 场景下,AI深度学习场景训练性能提升30%,Spark计算性能提升30%。同时,神龙计算平台可以提前预测80%的硬件故障,并进行无感热迁移规避,从而实现了业界领先的高可用SLA。

过去13年,阿里云自主研发了飞天云操作系统,并构建出自研芯片、服务器、计算、存储、网络等软硬一体的新型计算体系架构。

飞天是中国唯一自研云操作系统,将遍布全球的上百万台服务器连接成一台超级计算机,单集群可达10万台规模,千亿级文件数,EB级别存储空间。2018年,飞天获得中国电子学会15年来第一个科技进步特等奖。

在2021年11月发布的Gartner IaaS + PaaS 综合解决方案记分卡中,阿里云被认为是所有被评估的全球供应商中得分第三高的解决方案,在计算、存储、网络、安全等核心能力中,阿里云也均获得最高分。

4、一云多芯,发布第一颗CPU芯片倚天710

传统IT时代围绕芯片建立IT生态,但云计算从根本上改变了这一模式,云操作系统可以将服务器芯片、专用芯片等硬件封装成标准算力,无论底层芯片是X86、ARM、RISC-V还是硬件加速,给客户提供的都是标准的、高质量的云计算服务。

2021年9月,阿里云在云栖大会上发布了首款通用芯片倚天710。作为一款为云而生的芯片,倚天710针对云计算特点做了大量优化,性能超过业界标杆20%,能效比提升50%以上。

架构层面,倚天710采用最新ARMv9架构,多达128核,主频最高3.2GHz,可同时兼顾性能和功耗。同时,集成了业界最领先的DDR5、PCIE5.0等技术,能有效提升芯片的传输速率,并且可适配云的不同应用场景。

目前,倚天710已在阿里云数据中心内部规模化部署,并顺利支撑2021年双11等多个核心业务。今年4月,基于倚天710的公共云 ECS实例已上线邀测。

5、自研服务器&操作系统

阿里云在去年9月发布了自研的磐久服务器和龙蜥服务器操作系统。磐久服务器采用了最新型的模块化设计,可实现计算存储分离,包括了高性能计算系列、大容量存储系列、高性能存储系列等,拥有风冷、液冷等不同散热模式,服务器交付效率提升50%。

针对云原生时代容器化、微服务、持续交付等特点,磐久系列采用软硬件融合方式实现极致性能,结合自研的MOC、FIC、AliFPGA、神盾卡等,满足云原生的创新开发对性能和稳定性的机制要求。在多核技术加持下,磐久系列的计算性能、IO吞吐、能效比的表现都居于业界领先水平。

龙蜥定位于服务器端操作系统,支持 X86、ARM、龙芯(LoongArch)等多种芯片架构和计算场景,性能和稳定性经受住了历年双11的严苛考验,为云上典型场景带来40%的综合性能提升,故障率降低50%,兼容CentOS生态,支持一键迁移,并提供全栈国密能力。

6、计算层:神龙

为了解决服务器长久以来的虚拟化性能损耗的问题,阿里云自主研发了神龙架构。神龙与CIPU结合,可将虚拟化转移到专用硬件中进行加速,可将物理机的高性能与虚拟机的灵活性融为一体,虚拟化损耗几乎为零,性能比传统物理机更强劲,还可随时扩容,极大降低了客户的成本。神龙不仅解决了云上虚拟化性能损耗的痛点,更让云服务器的性能表现超越了传统物理机。

基于神龙弹性计算集群,无论是在分布式应用还是人工智能的场景测试中,都展现了优越的性能,例如Redis性能提升了68%、MySQL提升了60%。在应用上云之后,比自建物理机的集群吞吐量提升了30%,业务高峰期延迟下降了90%。高稳定性是算力作为基础服务设施的一个关键,在GPU服务器、CPU服务器和其他的异构服务器这些关键计算服务中,阿里云服务器的各项性能始终处于业界领先的水平。除此之外,神龙计算平台可以提前预测80%的硬件故障,并进行无感热迁移规避,从而实现了业界领先的高可用SLA。

7、存储层:盘古

盘古是阿里云自研的分布式存储系统,是阿里云底层的统一存储架构,采用了分布式系统先进的容错架构和柔性平台设计,具备弹性伸缩、自动负载均衡等能力,大幅提高了存储系统的可靠性和安全性,可支持块存储、对象存储、表格存储、文件存储、离线大数据处理等多种存储模式。

在云存储技术演进的过程中,盘古引领行业从毫秒级存储向微秒存储的时代演进,推动面向数据中心ZNSSSD国际标准的发展,与WD共同提出NVMeZNS国际技术标准(NVMe2.0),是目前云计算业内最为先进的软硬一体深度融合的分布式存储系统。目前已经围绕盘古系统获得发明专利超过190件。

今天,基于盘古系统,阿里云已建起全球最丰富的云存储产品家族,从公共云存储到混合云存储,从数据迁移到云上丰富的数据管理服务,为客户提供99.9999999999%的数据可靠性。全球部署规模已超100EB,凭借多层次防护、跨区域容灾等能力连续三年入选Gartner全球云存储魔力象限,被列为全球领导者地位。9月26日,盘古还入选了2021乌镇世界互联网大会·世界互联网领先科技成果。

8、网络层:洛神

洛神云网络是阿里云飞天云操作系统的核心技术平台,支撑起百万级的用户业务部署,让更多能够人体验到云计算带来的高效便捷服务;秉承“让网络更简单”的理念,提供了从万物上云网络、全球化网络到数据中心组网、应用交付网络覆盖用户云上网络全场景的产品和服务。

洛神云网络经历12年的快速发展,从1.0时代发布国内首个VPC,再到2.0时代打造了全球领先的“三位一体“(软硬一体,超强性能;伸缩一体,无限弹性;云网一体,极致服务)创新型云网络架构。

2021云栖大会上,阿里云重磅推出洛神云网络3.0新平台架构,主要特点包括:让中心云到本地云和边缘云都有一致性的云网络体验;通过全新的物联网云连接器和智能接入网关让万物都能上阿里云;全新升级的各类网元产品提升应用在云上的安全性和灵活性;全新发布的网络智能服务,为用户提供从规划到使用的智能助手;同时洛神云网络3.0也通过开放合作来赋能产业。

9、自研数据库

阿里自研的数据库起源于“去IOE”浪潮。2013年7月10日,淘宝核心系统中的最后一台Oracle数据库下线。这是“去IOE”非常重要的一个节点。经过三年的研发,阿里云于2017年9月发布了自主研发的云原生数据库PolarDB,并于2018年4月正式商用。

阿里云提供了国内最丰富的数据库产品,除了智能化的企业级云数据服务RDS之外,阿里云自研了面向不同核心应用场景的云数据库产品,形成了以PolarDB、AnalyticDB、Lindorm为核心的面向在线交易处理、分析与多模、HTAP、物联网等不同场景的云数据库产品矩阵,满足客户不同业务场景的需求。

作为阿里云自研数据库的明星产品,2021年,自研数据库PolarDB首次实现了内存与计算、存储的解耦,内存进一步池化,形成三层池化,使得弹性能力有数量级的提升。同时PolarDB还首次实现了多主架构,进一步提升可用性、并发处理、弹性能力,高效应对“双11”般的流量洪峰。

10、绿色数据中心

阿里云是国内最早实践绿色数据中心的厂商之一,目前阿里云自建的数据中心都已达到国家绿色数据中心标准,全年平均PUE小于1.3。

从阿里巴巴自身减碳实践看,近年来已经有一系列成果。2020年9月,阿里仁和数据中心落地杭州,成为国内首座绿色5A级液冷数据中心,同时也成为了全球规模最大的全浸没式液冷数据中心。相比传统数据中心,其PUE最低可以达到1.09,每年可省电7000万度,足够西湖周边所有路灯连续点亮8年;而阿里巴巴张北数据中心则成为行业首个碳普惠试点项目,获评“2020年国家绿色数据中心”。

点赞

发表评论

邮箱地址不会被公开。 必填项已用*标注