AI计算趋势
在过去30年中,如果说有一件事是最重要的,那无疑是“数字化”,在80年代、90年代我们所做的是把内容和企业数字化。从当时的语音、图像、视频、文本,后来到企业ERP、CRM,包括云计算,其实是数字化的1.0和2.0阶段。
现在,我们进入了新一轮的数字化3.0,这包括两个世界的数字化。
■ 一是物理世界数字化,我们的路、车、交通灯,家庭、车间车床工厂,甚至整个城市都在数字化。
■ 二是生物世界,即我们的生命世界也在数字化,我们的大脑、身体器官、DNA基因、蛋白质等正在走向数字化,同时各种新的生物电子芯片、脑机接口技术也在不断发展。
麻省理工学院多媒体实验室主任Nicholas Negroponte写的《数字化生存》,谈的就是数字化1.0,他认为这是从原子到信息再到比特的变革过程。至于数字3.0阶段,我认为是从比特回到原子、分子的过程,可以说是原子、分子和比特的双方映射。
第三次数字化和第一轮、第二轮有完全不同的一些特点。一方面是指数级的数据,比如在无人车领域,每天一辆车产生的数据量是5T;在基因测序领域,每一次测序产生的数据是3T,蛋白质三维结构的数据10300,所以数据在海量地增长。另一方面,这些数据主要不是给人而是给机器做决策的,是机器到机器的环节。
人工智能经过了很多发展阶段,最早是更多依靠知识的符号逻辑推理,但知识并不完备,所以造成了AI的第一个冬天。而现在,更多是数据驱动的深度学习;未来,我认为是知识和数据的融合,包括关于大脑的知识,以及大量的现实世界数据,同时也包括第一性原理方程式,比如薛定谔方程、分子动力学方程等等
深度学习可以说是这十年来的主流,从RNN、LSTM、CNN,到现在的GAN和Transformer,其经历了丰富的发展阶段,当下的方向是预训练、多模态、大模型。其中有不少挑战,包括因果性、可解释性、透明性,但也有新的解决方案。
目前,在感知方面,机器已经达到和人类相当的水平,甚至在某些方面还要更好,虽然认知能力还有一定的差距,但我认为在未来十年左右也将缩小。
人工智能发展中很重要的一点,就是三要素里面的“算力”,也即“计算”。摩尔定律已经遇到瓶颈,因此,现在的深度学习,特别是大模型、大计算,其算力不仅仅要达到摩尔定律,而且要超越摩尔定律。它们每年的计算需求几乎达到10倍增长。
例如GPT-3,它是1000多亿参数的大模型。OpenAI团队后面没有资金继续做,微软投资把GPT-3模型训练出来。
中国和美国在这个领域你追我赶。鹏城的盘古、智源的悟道、浪潮的“源1.0”、微软-AMD的图灵,不管是算力还是参数、数据,都比GPT-3大很多。在此方面,GPT-4可能也会马上出现,一旦出现,我认为中国的企业、科研机构也会超越GPT-4。这是一个好现象,中美两国在这个行业的科技、产业方面形成良性竞争,对整个行业的发展都是有益的。
IT产业有三个定律,一个是香农定律,一个是冯·诺依曼架构,另外一个是摩尔定律。我们现在所做的,就是突破这三个极限,特别是冯·诺依曼架构,它已经被使用了将近60年,依然是目前计算的主流架构。在人工智能时代,它有诸多局限,现在很多科研、产业都在想怎么去突破它。比如,在听觉、视觉、触觉、味觉之外打造新的感知,如激光雷达、三维结构、光传感、生物的传感;另外,我们有新的数据流,需要海量的并行计算,包括AI的一些算法,如矩阵、算子、波尔代数等,都需要超越冯·诺依曼架构。我们看到,很多新兴科研产品出现,一些非传统的芯片公司现在也都进入了芯片和程序库领域。
长期来看,我们需要突破计算的范式。目前类脑计算、量子计算、光计算、生物计算都有重大进展;在空间分布方面,我们的计算也有很大变化:最早IBM大型机是完全的中央计算,PC阶段则变为完全分布式的,到云计算时又回到中央式的,现在我们正走向云+边+端的协同智能。未来,许多计算将走向边缘,我相信,在未来十年中,90%以上的计算能力可能会到边缘,整个计算会更动态化、分布化。
AI+生命科学
下面我简单讲人工智能在三个领域的应用,也是我们主要在做的一些科研工作。
在生命科学领域,一是刚才讲过生物世界在数字化,产生了天文级的组学数据,基因组学,蛋白质组学,转录组学,细胞组学,这些组学数据再加上各种组合带来的数量是天文级的。二是,整个生物的实验,干实验和湿实验完全闭合会走向自动化,未来越来越少的人介入,这是在实验范式上很大的突破。三是,人工智能科学计算,我们现在生物世界里面更多的是分子动力学,未来AI将走进科学计算。
简单看一下,AI在生命科学方面的进展,第一个是基因编辑,编辑的基底清楚之后,AI的算法可以更精准的找到治病基因,治疗的方式让靶点更加准确。其实就是把这个搜索空间大大的减少了。
另外,我们不仅仅可以做小分子的制药,也可以做大分子,抗体,以及TCR个性化的疫苗和药物,还有我们看到最近AlphaFold在蛋白质解析方面的进展,从一维的序列到三维的结构到功能,都会加速发展。其次,随着高通量自动化的实验发展,新的范式正在构成。最近新冠疫苗的研发就是一个例子,从2020年1月基因的序列被发布之后,可以看到3个月之后,蛋白质的结构很快就解析出来了,1个月之后,病毒和人的交互方式就被解析了,很快灭活疫苗研发成果,这在人类历史上是最快的一个周期,仅不到一年时间,我们的疫苗就出来了。
另外一个工作是我们 彭健教授所做的,根据目前我们已有的肿瘤细胞系上药物数据,加上动物的模型、老鼠的模型产生的数据来预测药效。因为人类的这些数据比较少,可解释型的机器学习能够很快的去迁移到人体内药效预测上。右边是乳腺癌患者的实例,可以看到用这样的方式不仅仅加快研发速度而且对于药物推荐使用的准确度也提高了5倍。另外一个例子是我们最近也是彭健教授团队,用几何深度学习,先把蛋白质表面的几何表征训练起来,然后用深度的图网络来做抗体亲和力预测。我们抗体设计不仅仅在过程上加速了很多,也已经成功的应用到新冠的中和抗体药物的开发上。
还有我们在基因大数据方面的工作,由 兰艳艳教授带领学生完成,我们现在知道基因10%是已经编码的,90%是没有编码的,这些开放区域与转录因子的结合以及和目标基因的调控关系,最终会影响生物的性状。但这些数据过去大家都不用,也不知道怎么用。那我们现在通过人工智能最前沿的预训练技术,通过构造一个全新的模态,建立基因数据的有效表达,继而对下游的基因表达预测,剪切预测,治病性预测等任务都有显著的帮助。这个工作刚刚开始,未来还有很大的发展空间。
很重要的是,我们发现这里面有非常大的挑战,我们做人工智能或者说计算机科学,和生命科学,是两个不同的语言体系。过去的合作方式都是比较机械的,或者是生物科学家去调程序包,或者把算法用到生命科学领域。为了打通两个领域,我们做了一系列的工作,从硬件层到数据层,然后到算法层,这些工作叫“破壁计划”。
这方面很好的例子是AlphaFold。首先第一点问题——从蛋白质一维序列到三维结构,它是一个科学的问题;第二点的话,就是每次破解蛋白质的结构之后,大家把数据拿出来共享,就可以看到积累的数据越来越多。
随着数据更多、算力更大、算法更新,我们希望做的是,把这样的一种方法论用到更广阔的领域,不仅是蛋白质,还有抗体、基因预测等方面。
AI+绿色计算
人工智能在绿色计算双碳领域也有重要的的应用。当环境与气候已经成为一种挑战,碳中和是可持续发展的必然选择,同时也是能源结构调整的大机遇。
人工智能在这个领域也有很多应用。一个方向是物联网,做AIOT,重要的是要感知这个世界,知道碳排放、能源从哪里来、怎么消耗的;第二,有了数据之后,就可以用算法进行智能决策,然后配制资源、进行资源循环。比如在能源融合方面,怎样让火电、核电、水电、风电、太阳能更好地融合到电网里去,在供电、储能、用电各环节都进行数据监控、优化、感知和均衡,这是大问题,人工智能算法会在其中扮演不同角色。
讲到双碳排放,IT行业和ICT行业也是一个大的排放源。我和团队讲,先把我们自己的排放问题解决了:数据中心运行的大数据、大计算产生了很多排放;5G本身是特别好的技术,但由于需要很多基站、天线,所以功耗也比较高;另外大的算法、模型也有很多排放。
我们近期的一个工作是5G基站。众所周知,5G用的Massive MIMO里面有很多基站,这样计算一下,比如50个基站就有64个MIMO,组合数就很高了,正常应用的时候还要做最优的布阵、部署,有很多种可能性,数量绝对会达到天文级。我们最近做了一些工作,是真实的基站 加上一些模拟的场景,用多Multi-agent cooperative Contextual Bandits这个算法,其实也不是特别复杂,也包括一些离散正向学习算法,使得功耗降低了15%左右、5G网络覆盖质量提高了5%左右。这个工作其实才刚刚开始,我想告诉大家,人工智能算法在很多领域都会有应用,应用之后可以起到很好的效果。
另一个工作更理论化:现在的大模型、大数据、大计算,能否也走向另一端,即小模型、小计算、小功耗,在边缘处用传感器或手机就可以做类似的计算。当然精度可以低一点,比如80%、90%,但功耗、计算量、模型可能是百分之一、甚至是千分之一。其中很多大家可能都比较熟悉,像蒸馏、压缩、量化,对模型本身进行重新优化和部署。
AI+自动驾驶
最后是人工智能在自动驾驶方面的应用,这也是我自己研究时间比较多的领域。
汽车产业已有上百年的历史,这个产业最近在经历百年未有之大变局,无论产业结构还是技术要素都进入了新阶段。其中,智能化是无人驾驶最关键的环节。为什么这么说?首先是更安全,90%以上的交通事故是人为事故,而自动驾驶可以把它降到最低;其次是更绿色,它的效率更高,可以节能减排。
我认为自动驾驶也是人工智能领域目前最有挑战、最难、最复杂的一个技术问题,但同时可以解决。它是一个复杂的大系统,但可以解剖成子问题,逐个解决;但如果没有边界的话可能就没法解决。最具挑战、但又有边界的是AI垂直领域问题。
自动驾驶领域有一些关键的议题。这个领域有市场的力量,也有非市场的力量;市场力量包括技术是否可行、用户是否有需求、产业生态、商业模式等,非市场的力量包括政策法规、伦理隐私等。在技术方面,完全无人的L4级别自动驾驶,究竟是梦想还是现实?究竟是以视觉为主,还是采取激光雷达多传感器的模式?究竟是以单车智能为主,还是需要车和路、车和车协同?是渐进式跳跃,L2、L3走上去,还是直接跳跃到L4?是像安卓一样开源,还是像Apple一样封闭?到底是现在的汽车OEM会赢得这场竞争,还是造车新势力?我注意到有很多的问题。要真正实现大规模无人驾驶,还需要一些时间。
我们开车的时候,是在用最安全且实时的方式,加上对时间的预测,构建一个三维环境场景,做这件事是很难的。其中很重要的是,要有大量的数据、做很多测试、不断改进算法。实际驾驶中永远都会遇到此前训练中没有的场景。图片上就是这辆特斯拉撞上一辆白色卡车,当时天气特别好,蓝天白云,它用视觉一看,以为前面没有东西,就直接撞上去了。很多时候AI必须能预测,泛化的能力是人工智能的一个大挑战,对自动驾驶、无人驾驶更加重要,因为一旦出现问题,就关乎生命安全。
关于视觉与多传感器的问题,我的观点是能拿到多少数据就拿多少数据。新的传感给我们提供了新的数据和新维度的信息,AI的感知能力是唯一可以超过人类的点。摄像头、激光雷达或各种不同传感器可以看到人类眼睛看不到的东西,这是AI的优势,必须加以利用。运用视觉也可以实现无人驾驶,但其本身的鲁棒性及安全性受限;而用激光雷达加上算法,就可以检测出深度的信息,分辨车、行人,分辨运动或不动的物体,这就是有深度、有结构的物体信息。所以视觉摄像头和激光雷达相结合是最佳的方式。大家有顾虑,认为激光雷达太贵了,其实现在混合雷达价格已是可接受的。我想,固态雷达一定会是未来的趋势,L2、L3的车上也会用到。
自动驾驶本身需要很强的智能,交通灯和道路配合也可以提供更高维的数据,车端和路端完全可以互补。有些东西车是看不到的,车只能看到100多米,而且经常会被遮挡,交通灯则可以提供新的信息,这对自动驾驶安全提供了很重要的保障。
现在车的分级是从L0一直到L5,L5就是完全无人,可以在所有的场景、所有的气候中行驶。最近清华大学智能产业研究院(AIR)和百度有个联合项目,把路也分成C0-C5,到C4就是任何车都能无人驾驶,但这是比较极端的情况,我们希望最终的结果是车和路的融合。
我们做的物理模型和数学模型也显示,车和路协同能够大幅度提高安全性。在超距离跟车、换道、左转这三个不同场景中,都可以看到路、灯的信息大幅度提高了车的安全程度。
总结
最后总结一下:在前三次工业革命中,蒸汽机时代、电气时代、信息时代,我们都是跟随者、旁观者,而现在进入第四次工业革命,到了智能时代,我们国家的体量、政策的优势、大量的科研人才,一定能让我们成为第四次工业革命的领军者!