误解一:人工智能计算中心 是一大堆算力硬件的堆叠
基于过去对数据中心这类事物的朴素认知,很多人对人工智能计算中心的直接看法,是把一大堆算力硬件堆叠在一起,以硬件集群化的共享算力模式向各企业、机构输送算力,后者不再需要自己建设硬件基础设施,只需要购买服务即可。
这种认知看到了硬件集约化在人工智能计算中心的作用(把算力当做服务),但如果人工智能计算中心只是简单的硬件堆叠,可能也不用地方政府主导大力推进,只需要砸钱购置一大堆能够提供算力的硬件像搭设服务器机房一样找个场所联好网,组装到一起就可以了。
事实上,从已经落地运营的人工智能计算中心来看,要正确认识这个AI新事物,有三个维度的特点值得注意:
一是算力的效能实现了大幅度的提升。
如同中国科学技术信息研究所发布的《人工智能计算中心发展白皮书》所言,人工智能计算中心呈现超级计算与人工智能融合、云与人工智能融合的趋势,这意味着它绝不只是算力硬件的简单堆叠,还有如同超算一样的,将有计算能力的大批量硬件高效协同起来的能力,以及以云端服务的方式最优化响应需求和输出结果的能力。
以深圳的 “鹏城云脑Ⅱ”为例,其采用的是Atlas 900 AI集群方案,由数千颗昇腾910 AI处理器构成,这些硬件必须要有统筹规划的能力才能更好地输出,而实现方式则是华为集群通信库和作业调度平台,以系统级调优整合三种硬件高速接口,最终实现E级(每秒10^18次方次浮点计算能力)的总算力。
相对于传统本地部署的做法,人工智能计算中心的“效能”大大提升,每单位算力的成本会比企业、机构自建算力设施要低很多,意味着人工智能计算中心不仅提供算力,而且提供的还是高性价比的、安全、普惠的算力资源,各类组织的算力成本被大大降低,算力瓶颈问题得以缓解。
二是算力输出做到了全栈化。
当下的人工智能计算中心已经做到了从芯片到应用层的基础软硬件的全栈融合,而不仅仅只有以服务器、存储、网络、能源、制冷设备等形态出现的硬件。
当前,地方政府主导建设的人工智能计算中心主要是基于昇腾AI全栈基础软硬件平台,这些基础硬件被异构计算架构CANN所“管理和运营”,往上支撑包括昇思MindSpore AI框架,也兼容TensorFlow等AI框架满足不同企业开发需求。
而除此之外,昇腾AI还提供MindX等应用使能套件,最终面向具体行业应用,帮助企业、机构在充沛算力的基础上更好地完成AI开发工作。
借助昇腾AI的全栈优势,人工智能计算中心推进AI应用的开发过程能够与场景无缝融合。以电力巡检场景为例,AI解决方案企业纳思系统通过武汉人工智能计算中心完成的5种算法训练被利用到了输电线路巡检当中,在实际应用的边缘端场景中,基于昇腾AI的Atlas 200 AI加速模块与特殊影像终端协作,解决了夜间监控难、算法能力不足造成大量误报/漏报等痛点问题。可以看到,人工智能计算中心与场景应用是完全打通的,解决方案可以“一体成型”而非只是找人工智能计算中心要了训练过程中的计算服务。
三是算力之外还有对应的产业支持和服务。
当下算力并非人工智能计算中心的唯一“产出”,如何帮助企业、机构更好地利用这些算力并实现组织发展、加速行业应用落地也是其重要的“配套任务”,与算力伴生的还有一系列产业支撑和服务。
最典型的是武汉人工智能计算中心所落地探索的“一中心四平台”标杆模式,其中“一中心”指的是主体人工智能计算中心,而“四平台”则包括公共算力服务平台、应用创新孵化平台、产业聚合发展平台、科研创新和人才培养平台,这四个平台在统筹化算力服务、场景化AI技术应用、智能化产业链条、长期人才发展四个闭环维度帮助产业进步、企业发展,而这一模式未来将在多地推行。
从成果来看,“一中心四平台”模式下,截至2021年11月底,武汉人工智能计算中心已入驻100+企业,孵化超过50类+解决方案,月平均算力使用率92%,中科院自动化所等头部科研单位、大量行业技术专家被引进,大量创新企业被孵化出来。
不仅给到普惠的算力,还帮助用好算力、发展好产业,这才是人工智能计算中心两个相互协同的任务。
误解二:人工智能计算中心 只是在被动地满足行业已有的AI计算需求
由前文可知,市场有着庞大的需求而算力供给跟不上,所以人工智能计算中心才会出现,这是直接原因。由此,有人就自然而然地认为人工智能计算中心是在市场供求层面“被动”地承接行业企业出现的AI计算需求缺口,对现有的、已经出现的AI计算需求进行满足。
而这个认知无疑是片面的。
首先,人工智能计算中心当然在满足大量已有的AI计算需求,例如在制造业里,人工智能质检一直是热门方向,通过武汉人工智能计算中心的算力支持,AI创新企业智目智能实现了的业界第一的棉花异纤检出率,提升了产品的品质。
但是,更应该看到的是,新算力形态的广泛落地带来的更有面向未来的创新驱动力,这就如同从来没有人认为5G的产生只是用来“被动”地让4G时代的移动互联网应用有更好的网络速度一样,5G另一重更重要的任务是以更高的速率和低延时的特点来驱动一个新的时代,例如工业4.0等。
所以可以看到,人工智能计算中心的出现还伴随着AI领域的一些前沿概念,与过去全然不同的AI创新被驱动,例如把NLP、CV、语音三大AI方向融汇到一起的多模态大模型,不同任务之间的交叉让AI打开着全新的产业空间。
在这之前,中科院自动化所联合武汉东湖高新区及华为昇腾AI就共同探索了全球首个图、文、音三模态大模型“紫东.太初”,这个千亿级参数的超大模型能够实现视觉、文本、语音三个模态间的高效协同,在跨模态理解与生成能力上性能全球领先。以接近通用人工智能的方式,紫东.太初能够更好地支持工业质检、影视创作、智慧医疗、互联网推荐、智能驾驶等国计民生需求场景,完成更多过去AI应用无法完成(在单模态下无法实施)的复杂任务,让交互体验、工作效率实现质的改变,大大提升了AI产业发展的价值空间。
通信的技术升级中,5G绝不只是为了让4G时代的应用需求更好地满足,同样地,算力形态的升级中,人工智能计算中心也绝不只是在满足过去那种算力条件下的AI创新应用。可以料想的是,未来还将有更多超越当下AI技术与应用形态思维框架的创新被人工智能计算中心所驱动,“原生”于人工智能计算中心时代的技术和产业创新将不断涌现。
误解三:人工智能计算中心 只能支持AI产业发展
在武汉,人工智能计算中心在5月31日正式竣工并投入运营,上线即算力资源满负荷使用,现在已经开始二期扩容工作,计划AI峰值性能从100P FLOP扩充到200P FLOPS。
这背后,是人工智能计算中心与AI产业发展的高度协同。
目前,武汉人工智能计算中心已经成功引入中科院自动化所多模态大模型紫东.太初、清华大学蛋白质折叠预测方案AscendProNet、全球首个遥感影像智能解译深度学习专用框架“武汉.LuojiaNet”等科研成果,加上来自智能制造、数字农业、自动驾驶等数十个应用场景的100+企业合作,孵化超50类+解决方案……可以很明显看到,人工智能计算中心的高效率运作显示出其推动AI从模型创新到产业落地的底层驱动价值和潜力。
但是,这不意味着人工智能计算中心像人们直观印象中那样只是在推动AI产业的繁荣。
事实上,当下的人工智能已经从局部探索走向了千行百业,通过人工智能计算中心的驱动,智慧物流、智慧政务、智慧能源、智慧交通、智能制造、智慧医疗……数字经济正在各个具体赛道上快速落地,最终在宏观层面加速产业升级、国家竞争力提升的进程。
在这个过程中,尤为值得注意的是作为人工智能计算中心解决方案提供商的华为,也以多种方式参与到AI发展环境的构建中。
例如,在人才方面,武汉人工智能计算中心已联合华为形成“产学研用”一体化的人才培养体系,共同建立起了一个面向政府、企业高层和开发者、高校领导层以及科研机构学者的社会实用型人才培养体系。2021年武汉人工智能计算中心全年累计服务2000+的人工智能人才培养,数量和质量也将随着运营的成熟不断提升。
又例如,华为将其在AI产业链条上下游的生态资源对接到人工智能计算中心的建设当中,通过聚合、打通人工智能链上的各类公司(包括算法公司、数据处理公司、行业集成公司等)形成完整产业闭环,推动产业以整体姿态加速发展,避免因为“木桶效应”造成的发展障碍。
最终可以看到,武汉人工智能计算中心在智能制造、智慧园区等场景下取得了丰富的应用成果落地。例如在长江计算,依托人工智能计算中心提供的算力被孵化出来的智能制造解决方案可以实现质检准确率达到99.9%,2小时即完成了产线算法更换与迭代。在这里,人工智能计算中心推动的是中国前沿制造奔向国际领先的进程。
一个人工智能计算中心驱动AI产业、AI产业驱动全社会数字化变革的链式反应正在形成,人工智能计算中心配合国家宏观战略,推动着整个数字经济浪潮的演变,带动上下游、多领域的整体进步,打通了数字经济发展全局的一个底层症结。
而这,才是人工智能计算中心的长远意义所在。