人工智能用于网络安全的「能」与「不能」(2)
时间:2018-04-17 18:50 来源:网络整理 作者:墨客科技 点击:次
因此,监督学习并不是万能的,比如反欺诈、态势感知、用户行为分析则更适合无监督学习。然而,无监督学习也面临着另外的挑战,因为无监督学习一般是在客户的网络环境中进行,因而很有可能面临投毒攻击。 「机器学习技术的优势是它的多维识别能力,然而机器学习技术再强大也需要与其他手段综合起来利用,效果才更好。」童宁说。 肖煌同样指出,将机器学习用于网络安全,在很多场景,预测精度并不能达到他们要求的 0.000001 的误报标准。从这个角度来说,人工智能也只是辅助手段,还需要与传统手段结合。 然而,肖煌认为,将人工智能用于网络安全则有另外的优势,那就是提高分析效率。人工智能的典型作用是代替人类做大量重复的劳动,比如用人工智能分析影像图片,将影像医生从低效率的重复劳动中解放了出来。 网络安全行业,也同样如此。 数据显示,中国目前对网络安全人才的总需求量超过 70 万,每年增加的人才却不过两三万,缺口高达 95%。而且,一个分析师每天能分析的漏洞却是非常有限的。 「如果不通过自动化的手段,将来物联网连接设备数爆发的时候,大量的信息安全隐患只依赖人来分析是不太可能的。」肖煌表示,一个信息安全分析师每天最多能看一两千条 log 数据,或者一两百个代码片,而对人工智能来说,几百万条数据,只需花费几分钟时间。 根据肖煌的观察,信息安全和人工智能,领域不同,思维方式也有一定区别,前者更偏向于系统工程,后者则更偏向于数学思维。因此,肖煌的很多同事认为人工智能解决的问题有限,更愿意使用传统的方法,但也会朝着分析自动化的方向思考。 「我相信任何一个做信息安全的人必然要向这个方向靠拢。」肖煌希望能用趋于成熟的自动化手段完成垂直领域的性能提升,包括分析的效率、时效性、规模和可解释性。 人工智能时代的攻与防 网络安全是道高一尺魔高一丈的世界。安全人员使用人工智能技术阻挡黑客攻击,反过来这也会使黑客使用人工智能技术发起更复杂的攻击。而随着大量人工智能模型开源,黑客入侵的工具也愈发多样化。 肖煌表示,只要稍加学习,黑客就可以利用开源工具欺骗识别系统,而技术难度的降低会促使很多人成为黑客,或者是进行一些此前做不到的攻击。 这并非杞人忧天。 在网络钓鱼电子邮件中已有这样的案例,黑客通过模仿人类的说话习惯和内容,使得企业或个人被入侵时更加难以识别。 肖煌认为,以后的病毒变种会越来越多,检测越来越难,规模越来越大,生成的时间越来越短。 (叠加在典型图片输入上的对抗输入会让分类器产生错觉,误将熊猫识别为长臂猿) 2017 年 2 月,OpenAI 在发表的最新研究中,指出人工智能安全领域的另一大隐忧:对抗样本。在图像识别问题中,攻击者将对抗样本输入机器学习模型,让机器在视觉上产生幻觉,从而让系统产生误判。而在论文《解释并驯服对抗样本》(Explaining and Harnessing Adversarial Examples)中有一个例子:一张熊猫图片,被加入人为设计的微小噪声后,就导致系统将熊猫识别为长臂猿。 多年来,肖煌一直在研究对抗性机器学习,致力于攻克机器学习算法本身的缺陷。他分析道,依赖于数据的机器学习算法、深度学习算法本身存在很大的缺陷。对抗性生成网络,则利用这种缺陷,设计新的架构去生成模型。 「因为目前的机器学习严重依赖于数据的分布,如果数据分布本身很复杂,或者是人为地把它变得复杂,黑客如果有手段去生成恶意的样本,就会导致识别不出来,或者识别错误。」肖煌进一步解释。 肖煌表示,如果干扰被用在无人驾驶领域,后果则不堪设想。比如,在无人驾驶测试路段德国 A9 高速公路上,有专门的标识引导无人驾驶车。如果路边的标识被恶意修改,误导依赖标识的无人驾驶车,则会造成极度危险的情况。 肖煌认为,因为算法本身的缺陷,在大规模使用人工智能之后,网络安全则需要更换思路,设计新的方法。 对此,他提供了以下路径。 一,增加分析端的可解释性。肖煌分析,如果是病毒威胁入侵,用机器学习检测的方法,很难解决,因此希望能在信息安全泄露事故时,用统计学的方法理解其中的关联,黑客如何入侵系统,攻击的路径是什么,又是哪个环节出现了问题,找出这些关联,或者从因果关系图谱角度进行分析,从而增加分析端的可解释性。 (责任编辑:admin) |