WAIC2024前沿人工智能安全和治理论坛
向善还是向恶?在AI的世界里,貌似是个无法回答的问题。融合了尖端科技和无限想象的AI,如同一面镜子,映照出设计它、使用它的人类社会的价值观与道德取向。
当AI被赋予正面价值观引导,并置于严格的伦理框架和监管之下,它能展现出惊人的向善力量;若AI缺乏有效监管和道德约束,其潜在的向恶风险也不容忽视,网络攻击、侵犯个人隐私、加剧社会不平等甚至成为战争工具,这些场景都可能成为是AI的“深渊”。
在2024年世界人工智能大会(WAIC)前沿人工智能安全和治理论坛上,不少与会专家表示,希望AI能成为人类理解世界、解决问题的伙伴,而非仅仅是工具或威胁。比如AI能够展现出更强的伦理意识和道德判断能力,在面对复杂情境时做出符合人类期望的选择,避免成为破坏社会和谐、侵犯个人权益的元凶。
人类对于AI的期待是多元且深远的,最终目的是实现与人类社会的和谐共生。因此,在推动AI技术创新和应用的同时,必须通过政策法规、监管机制、行业自律和社会监督等手段,确保AI技术的发展符合人类社会的整体利益和长远目标。
利用AI犯罪只是时间问题
有一天,你接到了一个陌生电话,听起来是女儿打来的,声音显得很恐慌而且语无伦次。正在旅行的她丢失了手机和钱包,需要你给她寄些钱,但这个需要帮助的人真的是自己的女儿吗?
答案当然是“未必”,甚至大概率是假的。“利用AI来犯罪只是时间问题。”中国工程院院士、北京大学博雅讲席教授高文表示,现在全球范围内已经有1000多位家长收到了他们的个性化邮件和语音邮件,合成视频、照片和声音,这些都是利用最新的AI技术以最低的人力成本完成的。
现有的安全威胁在AI手段下被扩大,特征被改变,“我们并不完全理解当前的AI模型,即神经网络是如何做出决策、如何得出特定输出的。因此,当AI行为失常时,我们可能无法预见它何时到来,也不知道原因以及如何修复它。”图灵奖得主约书亚·本吉奥说,另一个问题是现有的安全防护方法容易被移除,尤其是系统权重是可获取的,那么移除所有的安全保护措施就非常容易。
在对AI的评估方面,约书亚·本吉奥表示目前的运作方式也不够理想,“基本上就是问AI一堆问题,看看它会不会答错。就像是在考试里抽查几道题,但没法把每道题都检查到。如果抽查的那几道题它答错了,那我们就知道有问题。但要是抽查的都对了,也不能保证它没问题。就像碰运气,有问题就看得到,没问题也可能藏着。”
AI正在由“弱”向“强”持续演进,多模态智能、自主智能、边缘智能等都是AI大模型发展的方向,中国工程院外籍院士、清华大学智能产业研究院院长张亚勤预测通用人工智能可能在20年内实现。然而,这一飞跃并非没有代价。他强调,这些风险涵盖了信息世界、物理世界和生物世界三个层面,这三种风险的融合尤其值得警惕,当AI技术能够无缝穿梭于信息、物理与生物世界之间,其失控或被恶意利用的后果将难以估量,可能会造成人类的生存危机。
AI的未知
“AI模型最重要的功能,可能会有意无意地造成严重甚至灾难性的伤害,鉴于AI快速且不确定的变化速度,我们确信加深对这些潜在风险的理解以及应对风险的行为尤为紧迫。”2023年11月,全球第一份针对AI的国际性声明《布莱切利宣言》这样表示。
约书亚·本吉奥在论坛上表示,AI目前主要有三大风险,恶意风险主要包括违法、不道德的事件、伪造虚假信息等。故障风险是指AI系统在运行过程中可能发生的各种故障和错误,可能导致系统性能下降、服务中断甚至产生严重的后果。系统性风险涉及AI对劳动力市场的影响、全球AI发展不平衡带来的“AI鸿沟”、市场集中度过高等问题,可能对社会系统、经济体系乃至全球格局产生广泛而深远的影响。
“我们对AI系统的理解仍然不够深入,用于评估和降低风险的方法存在局限性,目前还没有很好的方法去阻止风险的发生。”约书亚·本吉奥说,通用人工智能非常有用,可以应用于许多伟大的应用中,但前提是必须妥善管理。
“AI for good”,从技术角度看,AI必须足够好,从伦理角度看,AI必须为社会做好事。在高文看来,目前的AI技术还处于低水平智能,“AI主要是对显式知识的记忆和使用,要达到中水平智能,AI要有类比人类的举一反三、触类旁通的能力,而高水平智能要求AI利用极少的线索,创造新知识体系。”
不可否认,即使目前AI依然处于低水平阶段,还是进入了2.0时代,因为AI在智能水平上,感知智能日益成熟,认知智能持续突破;在技术路线上,数据智能成为主流,类脑智能蓄势待发;而在社会属性上,AI的社会属性日益增强,意味着人类面临安全风险和社会治理新挑战。“如果强人工智能时代到来,可能存在三大安全风险,即模型的不可解释性、算法和硬件的不可靠性、自主意识的不可控性。”高文说。
把AI“带上正路”
哪些新技术可以更好地抵御攻击,同时最大限度降低安全风险?
在AI领域,安全有“四大抓手”:对齐、鲁棒性、监测、系统安全性。张亚勤表示,大模型安全是一个系统工程,从输入、输出到安全评估、治理,特别是系统的安全对齐,涉及到数学、算法、工程、技术等各领域的问题,最近大模型在安全对齐方面有许多进展,比如提出了轻量级大模型微调方法,可用于混合质量或安全/不安全数据下的大模型性能调优,还使用安全离线强化学习的方法来改进安全策略。
如果把大模型比作一个聪明的孩子,拥有海量的知识和强大的学习能力,但有时候不太懂如何做出对人类最有益、最安全的决策。为了确保这个孩子能“健康成长”,并遵循“家长”的期望和价值观,科学家们进行了许多研究,这就是大模型安全对齐的进展。
在大模型安全对齐的过程中,主要有两种策略,一种是直接监督微调,收集大量高质量、正面、安全的信息引导大模型,让它在学习过程中逐渐形成正确的判断和安全的行为模式;另一种是基于人类偏好和价值观的调整,更侧重于理解和模拟人类的思考方式,不仅告诉大模型哪些行为是安全的,还尝试让它理解为什么是安全的,让大模型更好地理解和遵循人类的偏好和价值观。
2024年初,中国信通院联合企业、高校进行大模型安全的基准测试,构建数据集和评测方法,对模型安全进行评测,并按季度发布结果。以2024年中国信通院发布的AI Safety Benchmark Q1结果为例,对8家大模型进行了安全测试发现,安全水平相对较高,但拒答率也偏高。“安全水平较高,主要得益于大模型厂商在数据隐私保护、内容合规性、算法偏见识别及防御恶意输入等方面的持续优化与加强。但是,高拒答率也说明大模型为避免输出潜在有害或误导性内容而采取的一种保守策略,会降低用户的体验。”中国信通院人工智能研究所所长魏凯透露,因此,在Q2测试中,加入了多种攻击方法,既重点测试模型的安全防护能力,又兼顾输出内容的可信性、服务稳定性等因素。
全球共谋AI善治之道
此次世界人工智能大会的主题为以“以共商促共享,以善治促善智”,“善治”意味着要坚持“以人为本,智能向善”的原则,建立健全的人工智能治理体系,通过科学、合理、有效的治理机制,保障AI健康发展,而这需要全球共同的努力。
联合国秘书长古特雷斯曾表示,应积极应对AI可能带来的灾难性、生存性风险。
不少国家正在推行适应本土发展的治理方案,比如中国针对生成式AI开展精细化管理;美国用行政令促进创新,通过行业自律推动监管;欧盟采用分层治理、监管沙箱等措施保护产业发展。在标准方面,ISO(国际标准化组织)发布了AI管理框架,ITU-T(国际电信联盟电信标准分局)启动了内容真实性标准;在技术方面,多国推动数字水印、生成内容真实性检测、深度伪造检测等。
不少与会专家表示,需要建立一个国际沟通、合作和协调机制,包括标准制定、评估体系以及合作方式,这个机制需要专家、政策制定者、政府以及不同领域的共同参与。
怎样的制度可以帮助人类最大限度利用AI的好处?
在张亚勤看来,首先要像无人驾驶一样建立分级体系,对最前沿的模型进行约束,让一般的模型和算法自由发展;其次,在使用场景方面需要更多的约束,比如医疗机器人,必须有医学领域的约束;此外,设立清晰的红线和边界,但这并不容易,每个国家有不同的情况,在制定国际性AI治理规则时,既要考虑普遍适用的原则,又要兼顾各国的特殊情况,寻求共识与平衡。
治理之路任重而道远,这不是束缚创新的“枷锁”,而是推动社会进步、增进人类福祉的强大动力。