全球的数字化时代才刚开始,黑客的攻击却早已深入人心,尤其是近年来的黑客袭击事件给互联网的网民们都留下深刻阴影。
2007年,熊猫烧香病毒肆虐中国网络;2008年,Conficker蠕虫病毒感染数千万台电脑;2010年,百度遭史上最严重的黑客袭击;2014年,索尼影业遭袭导致董事长下台;2015年,美国政府遭袭,雇员资料外泄。
当人工智能技术的研究风声迭起时,也就是网络世界战争的白热化阶段。对于黑客利用人工智能技术进行攻击的可能性预测,或许会帮助我们在网络世界的攻守里达到更好效果。
目前,网络威胁的大部分恶意软件都是通过人工方式生成的,即黑客会编写脚本来生成电脑病毒和特洛伊木马,并利用Rootkit、密码抓取和其他工具协助分发和执行。
那么,机器学习如何帮助创建恶意软件?机器学习方法是用作检测恶意可执行文件的有效工具,利用从恶意软件样本中检索到的数据(如标题字段、指令序列甚至原始字节)进行学习可以建立区分良性和恶意软件的模型。然而分析安全情报能够发现,机器学习和深度神经网络存在被躲避攻击(也称为对抗样本)所迷惑的可能。
2017年,第一个公开使用机器学习创建恶意软件的例子在论文Generating Adversarial Malware Examples for Black-Box Attacks Based on GAN中被提出。恶意软件作者通常无法访问到恶意软件检测系统所使用机器学习模型的详细结构和参数,因此他们只能执行黑盒攻击。
论文揭示了如何通过构建生成对抗网络(generative adversarial network GAN)算法来生成对抗恶意软件样本,这些样本能够绕过基于机器学习的黑盒检测系统。
如果网络安全企业的人工智能可以学习识别潜在的恶意软件,那么黑客就能够通过观察学习防恶意软件做出决策,使用该知识来开发“最小程度被检测出”的恶意软件。
此外,不论是人工智能的对抗性攻击还是黑客基于深度学习的恶意软件逃逸,都属于人工智能的输入型攻击(Input Attacks),即针对输入人工智能系统的信息进行操纵,从而改变该系统的输出。
从本质上看,所有的人工智能系统都只是一台机器,包含输入、计算、输出三环节。攻击者通过操纵输入,就可以影响系统的输出。
而数据投毒便属于典型的污染型攻击(Poisoning Attacks),即在人工智能系统的创建过程中偷偷做手脚,从而使该系统按照攻击者预设的方式发生故障。
这是因为,人工智能通过深度学习 “学会”如何处理一项任务的唯一根据就是数据,因此污染这些数据,通过在训练数据里加入伪装数据、恶意样本等破坏数据的完整性,进而导致训练的算法模型决策出现偏差,就可以污染人工智能系统。
值得警惕的是,随着人工智能与实体经济深度融合,医疗、交通、金融等行业对于数据集建设的迫切需求,使得在训练样本环节发动网络攻击成为最直接有效的方法,潜在危害巨大。比如在军事领域,通过信息伪装的方式可诱导自主性武器启动或攻击,带来毁灭性风险。