随着人工智能产业发展成熟,一个新的生意随之而来——成立人工智能算力中心(下称“智算中心”),向人工智能企业出售算力,帮助其将技术的模型变为现实。
简单来说,智算中心的本质是一个算力的供应和生产平台。从诞生的背景来看,它是中国数字经济高速发展的产物,是一种新型的公共基础设施,也是在人工智能产业发展壮大以后应运而生的。
中国首个智算中心在2020年下半年于武汉落地,此后,上海、大连、郑州、西安、合肥等多地政府纷纷布局。国家已经出台了相关政策,并把智算中心列为“新基建”。参与自建或承建的企业,已有互联网公司、IT公司、服务器公司,7月9日,中科院主导成立了新一代人工智能计算平台,市场已经进入了全面竞争的时代。
7月10日,华为轮值董事长胡厚崑在刚刚落幕的WAIC世界人工智能大会上表示,数字经济时代,人工智能的算力就如同水和电一样,将成为一种新型公共资源。没有充足的算力,就像没有足够的水和电一样,会大大制约城市的数字化转型。
但在智算中心的潮流中也存在一些问题,一些地方政府虽然规划了项目,但对于后续如何应用、如何辐射地域经济,尚未有一个明确的规划;市场上的参与者,也存在概念混淆、定价混乱的问题。对于智算中心,亟待国家和产业从源头上统筹引导,也亟待行业建立统一的标准。
算力的需求
赛迪顾问人工智能产业研究中心副总经理邹德宝表示,从概念上看,与云计算中心相比,智算中心的服务范围更小众,主要是AI应用场景的企业,而非大众企业;与超算中心相比,智算中心更多面向中小企业,或算力建设分散的区域,而非航天、国防、石油勘探等科研领域。智算中心用户普遍特征是,对算力有需求、对计算精度要求不高,但是难以负担高昂的算力成本。
具体来说,相比航天、国防所用的高精度算力,智算中心所提供的,是一种更低精度的算力,主要是用于处理影像、图片、语音等各种人工智能的训练和推理,也就是帮助完成人脸识别、图像识别、语音识别等应用场景。
当前人工智能产业的发展阶段,“三驾马车”算力、算法、数据,其中算力是最大的短板。一位服务器公司负责人对记者表示,人工智能的生产过程是将数据用模型进行运算然后生成一定应用,但随着AI模型越来越复杂,参数量越来越大。
如今人工智能中较大的模型参数规模从千亿突破到了万亿级别。公开材料来看,北京智源人工智能研究院今年发布的悟道2.0,参数量在1.7万亿规模,Switch Transformer 参数量大约在1.6万亿规模。
该人士称,这种情况下,需要万亿规模的参数量的模型越来越多,算力成本是非常高的,但是放眼中国,能支撑这样大模型预算的算力的中心非常少,市面上存在的主要是超算中心,它们多用于科研计算,所提供的性能高、价格贵,并不符合人工智能企业的需求。
中科院计算所研究员、CCF高性能计算专业委员会秘书长张云泉表示,宏观来看,对算力需求的加强,一方面来自于人工智能在更多行业里应用更深入,另一方面,也来自于新一轮人工智能算法的革新。从技术的趋势上看,由于算法的演进,人工智能对算力的需求增长了近30万倍。
大厂也在应对万亿算力模型的挑战。以英伟达(NVIDIA)创始人黄仁勋名字命名的定律 “黄氏定律”,曾对 AI 性能的提升作出预测,指出GPU将推动AI推理性能每年提升一倍以上。
小标题:算力的商品化
张云泉表示,如今,这种人工智能的算力正在成为一种商品,也正在成为一种通用的可量化服务,被流通和买卖。
张云泉表示,智算中心的实体分为主机、网络、存储、计算四大结构,成本主要在主机和网络上,运营后的成本主要是电费。这一点和云计算中心、超算中心是类似的。
张云泉表示,具体的运作是,建设者把算力通过网络进行聚合,形成大的集群,把算力作为资源池,再根据需求调动算力,将算力包装成标准化的算力资源,保证人工智能开发的过程敏捷高效。
运营模式上看,普遍是政府主导、企业承建的联合运营方式。邹德宝表示,当前市场上主要有三类参与者,一是以浪潮为首的AI服务器服务商;二是以腾讯为代表的互联网企业;三是以华为为首的解决方案供应商。
邹德宝表示,各家定位是不同的,整体上看,浪潮AI服务器处于领先地位,其市占率超过了50%。目前浪潮智算中心的落地,有山东中国算谷、西安新区人工智能算力平台,智算中南项目。
浪潮集团对记者表示,浪潮采用与地方政府合建的模式,具体作为项目的总包商还是集成商,要看政府采购需求。
在智算中心方面,腾讯的优势是算法框架、模型和数据为优势,公开来看,腾讯选择的模式是,联合地方政府和生态企业伙伴合建。今年7月,腾讯与合肥政府达成合作,建立腾讯智慧产业长三角(合肥)智算中心。
邹德宝表示,相比之下,华为则以硬件产品为核心,拥有“硬件、芯片、IP、软硬件栈”全栈解决方案。华为的模式,也非承建完整的智算中心,而是与政府、技术提供方和应用方合作。
问题和挑战
这一波智算中心的热潮中,政府和企业的行动都非常积极,但也存在一些问题。上述服务器公司负责人对记者表示,从市场的角度,当前市场上普遍存在概念混乱的问题。一些项目的建设者,将传统超级计算的标准,与智能计算的标准混合在一起,例如一些算力中心自诩为64位的高精度算力,借此标高价,但在实际运用中,企业并不需要太高的精度,而这样的算力中心也无法提供相应水平的精度。
张云泉表示,要想解决当前价格混乱、虚高的问题,需要建设一套算力的定价标准,作为一个重要参考依据。
对此,中科院主导的新一代人工智能计算平台在7月给出了算力的价格标准方案:在综合存储、能耗、开发、定制、数据调度等一系列因子,并代入明确的算法标准后,得出在同时具备5P双精度算力(64位)、25P单精度算力(32位)和100P半精度算力(16位)的情况下,智能计算中心的基础设施价格约为1亿-1.5亿。
上述服务器公司人士称,从政府的角度看,智算中心和超算中心等国家项目相比,投资规模更小、建设周期更短,而且辐射周边人工智能的经济生态,有更大的想象空间。但问题在于,算力中心是“能耗大户”,后期运维成本非常高。所以在项目初期,就要解决两个关键的问题,第一,如何形成一个明确的应用方向,要服务什么样的人工智能企业、如何在本地聚集这些企业,这些决定了项目是否有合理的盈利模式。第二,是否能利用一些绿色节能技术,提高项目在单位能耗中的业务产出。
邹德宝表示,总体来看,国家和产业已经开始从源头上加强统筹引导。为此,国家信息中心于2020年发布了《智能计算中心规划建设指南》引导智算中心建设;2021年7月,举办了2021算力中心健康发展研讨会,目的在于明确智算中心标准,引导智算中心明确应用场景和优先任务,保证算力资源建设合理、绿色。
邹德宝表示,同时,各地也应该根据区域产业定向建立智算中心,合理规划算力经济,保证人工智能算力资源得以健康、可持续发展。