异构算力产业的发展现状及需求

2021-04-06 来源:中国联通算力网络产业技术联盟

一、异构算力产业发展现状

1.1 算力网络构建“云、边、端”泛在计算协同

互联网的高速发展使得万物数据化,数据量和计算量呈指数爆发,赛迪顾问数据显示,到2030年数据原生产业规模量占整体经济总量的15%,中国数据总量将超过4YB,占全球数据量30%。数据资源已成为关键生产要素,更多的产业通过物联网、工业互联网、电商等结构或非结构化数据资源来提取有价值信息。而海量数据的处理与分析需要强有力的算力提供支撑。

数据处理对于算力需求的日益剧增,需要云、边、端算力实现高效协同。高效的定义是“在相同或更短的时间里完成比其他人更多的任务,而且质量与其他人一样或者更好”。 对于目前海量、分散的数据处理场景, 仅仅数据中心内部或者终端的高效算力处理, 都已无法满足业务需求。因此需要广泛分布在云、边、端的算力能够有效的协同, 来满足当今数据处理需求。“云、边、端” 泛在计算协同是目前的算力网络正在积极探索和研究的领域之一。 随着算力网络的进一步发展,在促进新型网络技术发展的过程中,同样也促进了云计算技术在数据中心以及跨数据中心的协同部署发展,近年来由于边缘计算、分布式计算等新型计算业态的出现, 新型网络连接形态更好的实现了不同数据中心之间的连接,因此数据中心的云资源部署逐渐从传统的以集约化为主的中心云方式,主要向云计算和边缘计算之间的协同调度方式演进,而随着未来移动互联网的发展,正逐渐促进了包括终端侧的泛在计算的协同和发展。因此,算力网络技术所带来的新型的网络连接实现了以“云、边、端”为主的新型的算力资源的协同和发展,围绕三者结合实现的泛在计算构建了不同层级的算力组成,能够实现低时延、低成本等效果。并且结合大数据和算法,能够实现在不同层级的算力满足不同的场景需求,即,云计算满足大体量数据分析和算法训练,边缘计算满足敏捷接入和本地计算,而端侧算力侧重现场体验和端侧智能等要求。

1.2 算力从通用架构走向专用定制

当前算力网络架构中的算力可以由不同的硬件架构组成, 一般包括CPUGPUFPGA AISC等类型; CPU主要有X86ARM 虽然ARM设计之初作为面向低功耗等场景推出的定制化的 ASIC 芯片,但是随着ARM在服务器和嵌入式终端的广泛应用,目前也是作为通用芯片来应用和部署;GPU主要是快速实现矢量的图形化数据处理的专有架构;FPGA作为可编程逻辑门电路在硬件加速等方面具有优势;而面向特定场景的处理需求需定制专用芯片来进行处理,比如当前针对深度学习设计的各种TPU NPU属于领域的定制的ASIC

CPU采用冯诺依曼架构,将计算分为取指、译码、发射、执行、写回等几个阶段,通过软件调度,可以完成任意特点计算。当前CPU 的架构已经相当复杂,并且真正有效计算在CPU整体功耗比例中不到10%,所以CPU适合控制复杂,而计算密度不高的应用场景。 X86 CPU在数据中心和云计算领域具有统治地位,而ARM CPU 由于其低功耗、低成本的特点占据绝大部分终端市场。另一方面,随着国内在推动国产化服务器的布局, ARM 服务器也已经逐渐进入数据中心作为异构算力的组成部分。

GPU采用的是SIMD/SIMT架构,虽然本质上还是冯诺依曼架构,但减少了取值、译码开销,GPU同样具有很强的通用性,以NVIDIA为代表的GPU厂商,培养了非常好的GPU生态系统,为用户提供了非常方便的开发环境,所以GPU在高性能计算、图像处理和AI领域都有非常广泛的应用。

FPGA为现场可编程门电路,可以认为是细粒度可重构芯片,FPGA非常适合数据流驱动的计算架构,具有高空间并发和低时延的特点,理论上FPGA可以实现任意功能,但FPGA开发周期比较长,同时对开发人员的专业技能要求也比较高,这些都影响了FPGA的应用场景。

ASIC是一种专用芯片,与传统的通用芯片有一定的差异,是为了某种特定的需求而专门定制的芯片。ASIC芯片的计算能力和计算效率都可以根据算法需要进行定制,所以ASIC与通用芯片相比,具有以下几个方面的优越性:体积小、功耗低、计算性能高、计算效率高、芯片出货量越大成本越低。但是缺点也很明显,只能针对特定的某个或某几个应用场景,一旦算法和流程变更可能导致ASIC无法满足业务需求。

在摩尔定律和登纳德缩放定律的共同作用下,引领芯片行业30年的飞速发展,随着摩尔定律放缓,登纳德缩放定律失效,通用CPU的算力提升已经无法满足当前数据中心对算力增长的需求。

基于领域定制(DSA)的异构计算,采用各种加速器来完成对特点业务的加速,从而达到提升系统算力和降低成本的目的,最典型的就是深度学习加速器,不管是采用GPUFPGA还是各类NPU,相对于单纯CPU的解决方案,可以将系统的算力提升数倍。

1.3异构算力的主要应用场景

算力的需求促进了算力架构的多样性和算力性能的不断提升,在不同的应用场景中,异构算力协同处理发挥最大化的计算效力。围绕以“云、边、端”为主体架构的三级算力调度需要满足不同场景下的算力需求:云端主要面向以高性能计算为主的传统集约化的性能计算,主要处理大流量、高并发的数据处理场景;边缘侧的数据中心主要考虑用户的快速接入和内容推送为用户提供快速处理和及时响应;而端侧的算力应用主要面向物联网、工业互联网为主要场景的嵌入式设备能够长期稳定运行,要求有低功耗和多连接等算力要求的场景。而围绕人工智能的算力需求场景是近年来新兴发展起来的应用场景,其算力需求是贯穿云端到边缘再到端侧的泛在算力需求,因此,在整个人工智能产业环境中其算力需求也是呈现异构性的特点,而且人工智能对于算力的需求也是目前推动异构算力发展的主要因素。

1)算力与高性能计算

高性能计算HPC,主要应用在气象、地震、勘探等科学计算领域,一般是建设一定规模的计算集群通过高速网络互联。高性能计算项目中的算力一般使用X86CPU和中高端GPU,近期ARM处理器的集群逐渐增多,在某些专用领域也可使用FPGAASIC来加速计算。

另外一种HPC的方案是分布式计算,利用分散的计算机和其它终端的闲置处理能力来解决大型计算问题,如生物病理研究、药物研究、寻找地外文明的信号等项目。主要利用的是X86 CPU、消费级的显卡等算力资源。

2)算力与物联网

物联网(IOT)通过各种信息传感器设备,实时采集任何需要监控、连接、互动的物体或过程,采集其声、光、热等各种需要的信息,通过各类网络接入,实现物与物、物与人的泛在连接,实现对物品和过程的智能化感知、识别和管理。物联网的应用场景包括工业物联网、家庭物联网、车联网等各种应用场景。

物联网网关通过支持各种协议将数据收集、转换、传送到云端进行处理,不同应用场景对物联网网关的性能要求差别较大,传统的物联网网关采用配置低功耗X86或者ARM处理器的小型计算设备。物联网网关的趋势是承担更多的数据处理的任务,对算力的要求越来越高。

IOT从传感器收集数据,网关做初步计算分析,在边缘云处做本地分析和处理,然后汇聚到数据中心,进行大数据处理和分析。

3)算力与边缘计算

边缘计算和5G的大带宽、低延时相辅相成,边缘计算是在网络边缘为应用开发者和内容服务商提供所需的云端计算功能、互联网技术服务环境等。边缘计算在靠近数据源、终端设备的位置对数据进行处理。边缘计算对算力的要求较高,在视频和图像识别、语音识别等场景需要较大算力,需配置SoCGPUASICFPGA等加速处理芯片。边缘计算所需算力分布广泛,可分布于智能装备、工业控制器、传感器、ICT融合网关和边缘云等处。

4)算力与AI

人工智能研究的主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。人工智能的研究领域包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能的三要素是算力、算法和数据。人工智能的算力主要是GPUASICFPGATPU等。人工智能在不同层面使用不同算力水平的GPU,如手机终端上的GPU、边缘计算中的推理GPU、数据中心的训练GPU

二、异构算力发展需求

2.1异构算力需要统一标识和调度

异构算力技术的发展能够满足不同应用场景的需求。通过异构算力的协同能够最大化的实现异构算力的效力。而若将底层算力作为资源进行有效的管理,首先需要建立异构算力的统一标识。异构算力的统一标识体系的建立是将底层异构算力作为资源服务进一步开放和共享的基础。算力网络的构建打破了原有的围绕数据中心内部算力资源实现共享的围墙,构建了基于新型网络连接为基础的异构算力接入的分布式计算形态,通过建立异构算力统一标识和网络标识的映射关系,可以进一步在网络中实现算力资源调度,并且也为算力交易提供底层的技术基础。

另外,在面向异构算力统一调度方面,基于“云原生+轻量化云原生”两级调度能力,一方面能够实现“云、边、端”底层资源的统一纳管和协同;另一方面,通过面向上层PaaS能力的下沉,建立算法能力库、计算能力库、存储能力库、网络能力库等异构算力能力库,从而实现异构算力服务的共享,用户也可以基于能力库快速实现业务代码的开发和部署。

2.2异构算力统一标识设计原则

异构算力的统一标识是实现在算力网络连接范围内异构芯片的统一标识。实现异厂家和多数据中心算力资源接入算力网络内部以期能够共同打造算力流通,算力溯源以及确保数据在可信算力环境中可管可控提供切实有效的保障机制。

建立异构算力统一标识,其出发点主要基于以下三个方面:

可信算力:基于统一标识,实现算力可信接入、安全认证和鉴权,打造算力安全有效的计算环境,切实保障算力网络安全有效的生态环境;

算力溯源:基于统一标识,可以实现算力溯源,实现算力在云、边、端侧的溯源和安全等级;

算力度量:基于统一标识,构建算力度量,实现算力在分场景下的算力匹配和专家推荐,从而实现算力在联盟范围内的流通。

2.3异构算力统一调度设计原则

为适应不同的应用场景,不同的负载特征,不同的负载组合,统一调度层应具备高度的抽象性、灵活性、可扩展性和实时性。统一调度层由一套统一调度系统框架和内置的调度策略组成。统一调度系统框架主要面向调度框架开发者、调度策略开发者及调度器使用者等群体,其设计目标具有以下特征:

1抽象性

在异构性应用场景下,统一调度框架的北向接口对异构算力资源的申请、响应、控制和查询交互等具有高度的抽象性,以统一各应用场景对资源的需求描述,易于适配不同部门和组织的用户系统。

2灵活性

异构算力的资源属性天然决定了作业资源调度策略的多样性,统一调度异构算力框架的调度流程及策略应具有可自主选择、可细粒度定制的特征,灵活满足不同部门组织、用户及应用场景的个性化资源调度需求,达到最优的资源分配效率。

3可扩展性

统一调度框架对新应用、新算力应具有生态友好、开放等特征,开发者易于进行定制化二次开发以扩展作业排队、选择及资源调度策略,并且可支持企业第三方信息系统、云平台等系统与统一调度框架对接适配,达到资源最优配置及信息互通。

4实时性

统一调度框架通过获取应用对资源的实时消耗、异构算力的硬件拓扑变化和软硬件故障等反映可获得的调度资源,资源更新的实时性直接决定了异构算力的资源利用效率。

摘自《异构算力统一标识和服务白皮书》