中国科学院院士、清华大学人工智能研究院名誉院长、瑞莱智慧首席科学家张钹在2021全球数字经济大会上指出,防止人工智能被误用、滥用,一方面需要从法律法规、伦理规范、行业共识等层面“治标”,还应从技术创新层面发力“治本”。
张钹认为,当前人工智能存在的不安全性本质上来自于算法本身的脆弱性,发展安全、可信、可靠和可扩展的第三代人工智能,将有利于根本解决这一问题。不过,发展第三代AI任务艰巨,“还有很长的路要走。”
张钹在2021全球数字经济大会人工智能产业治理论坛上发言。图自瑞莱智慧
1
当前AI不安全性来自于算法本身
“人工智能与信息系统在安全性上有着显著区别。”张钹介绍,以往信息产业发展过程中也出现过安全性问题,主要是一些攻击者利用软件设计的漏洞或缺陷来攻击系统。这种安全问题相对容易克服,把漏洞补上就可解决。
但人工智能技术发展出现一个全新的安全问题,不是因为设计考虑不周到,而是源于算法本身。这种安全问题更加本质、更加难以克服,必须对算法本身做彻底改变才能完全解决。“这也是为什么人工智能的安全问题如此被重视。”
张钹说,对人工智能进行治理,可以有两方面含义:一方面是防止技术被误用,即无意识的误用,因为算法本身带来的不安全问题是很难被预先发现或察觉的,有时在使用中会出现很多错误,无意识的误用可能会造成非常严重的后果;另一方面是防止有意识的滥用,即利用算法的不安全性,对人工智能系统恶意攻击或滥用,这需要通过法律法规来解决。
要真正解决人工智能的不安全问题,张钹认为,需要通过技术创新来实现,也就是发展第三代人工智能技术,即安全、可信、可靠和可扩展的人工智能。
瑞莱智慧CEO田天介绍,张钹提出的第三代安全可控可解释的人工智能与美国在2018年由国防高级研究计划局提出的发展下一代AI以及人工智能探索计划基本相同,这也是我国历史上第一次和其他国家站在同一起跑线上,发展第三代人工智能。目前,我国在贝叶斯深度学习、AI对抗攻防及隐私计算等领域具备全球领先地位。
2
第三代人工智能要增加“知识”
为什么第三代人工智能技术可以解决不安全的问题?张钹说,理解这个问题,首先要理解人工智能的不安全来自何处。
张钹解释,基于数据驱动的第二代人工智能,对图像、语音、文本等的处理是利用深度学习的方法来做的,在数据样本较多的情况下,识别率可以很高。但是,这样的算法本质上非常脆弱,很容易被攻击和欺骗。举例来说,给一张雪山的图片加上一些噪点,在人看来依然是雪山,但计算机会把它认为是一条狗,而且置信度为99.99%。
从这个例子可以看出,人类视觉和计算机识别完全不是一回事。原因何在?张钹分析,问题在于这个算法本身,也就是通常所讲的“黑箱学习算法”。给计算机一张“马”的图片,并告诉它这是马,但实际上,计算机是通过提取各种局部特征来把马和其他动物区别开来,并不知道这张图中,具体什么地方的图样是马。换句话说,计算机提取的不仅仅是马的特征,而是图片中所有的底层特征,以此和其他动物比较,用底层特征加以区别。
这种处理方法不是“认知”,而是“分类”,“存在原理上的根本性问题。”张钹提出,要克服这种脆弱性,需要充分发挥知识、数据、算法和算力四要素的作用,发展第三代人工智能。
张钹强调,知识这一要素,对第三代人工智能来讲尤为重要,也就是要让计算机真正认识“什么是马”。
如何实现这一目标?张钹介绍,一种办法是通过概率或向量等方法将知识表达出来,用对抗样本来训练算法。这样做的好处在于,可以与原来的算法相结合,发挥深度学习的某些优势,还可以利用各种各样的数学工具。但这种办法也只能“治标”,计算机只对特定的对抗样本有识别能力,换一种对抗样本就失灵了。
另一种解决问题的根本办法,是让计算机像人类儿童一样,通过无监督学习或预训练等,建立模型。目前业界使用的人工神经网络与大脑的神经网络差别很大,大脑的反馈连接、横向连接、注意机制、多模态、记忆等模式都没有在人工智能中应用。接下来可以逐步考虑利用这些机制。
张钹表示,这两种办法都有必要去探索,也都很艰巨。“解决人工智能安全性问题既要抓治理,也要抓创新发展。两者都是长期的任务,有很长的路要走。”