人工智能扩散模型可以被欺骗生成经过处理的图像

作者:大宰相 时间:2023-07-06 0 A- A+

研究人员表明,这种流行的生成人工智能形式可以通过隐藏的后门进行劫持,从而使攻击者能够控制图像创建过程。

image

研究人员表明,这种流行的生成人工智能形式可以通过隐藏的后门进行劫持,从而使攻击者能够控制图像创建过程。后门是网络安全书中最古老的技巧之一:攻击者将恶意代码植入计算机系统中,当用户无意中运行受污染的代码时,攻击者就可以控制该系统。

这种类型的隐形入侵(也称为特洛伊木马)可以为攻击者提供掩护,以窃取个人数据或插入其他恶意软件,而用户通常不会注意到。随着计算机的发展,偷偷通过安全检查站的黑暗艺术也在不断发展。

如今,基础模型带来了一系列新的风险。这些是在大量未标记数据上进行预训练的人工智能模型,可以通过一些额外的训练或微调来针对特定任务进行定制。IBM 的 Pin-Yu Chen 及其同事在一篇新论文中表明,这些模型相对容易受到攻击,而且攻击难度相对较低,这可能是第一项针对称为扩散模型的新型生成基础模型的漏洞的研究。成本。

构建具有数十亿(或数万亿)参数或权重的基础模型需要时间和金钱。因此,即使新的人工智能进步降低了成本,人们仍然继续从网络上的第三方服务下载基础模型,而不是训练自己的模型。正是在这里,设置后门陷阱的机会就出现了。

在 Chen 和他的同事设想的场景中,攻击者从信誉良好的来源下载预先训练的模型,调整模型以插入后门,然后将受感染的模型发布到另一个机器学习中心,在那里它可以快速传播并感染任何机器学习中心。使用它的程序。

“攻击者无需访问模型的训练数据,”陈说。“他们所需要的只是访问预先训练的模型本身。”

发起和防御后门攻击

Chen 在位于纽约约克敦高地的 IBM 研究中心的办公室里,将其职业生涯的大部分时间都花在了探索机器学习模型的安全缺陷上。这是一件严肃的事情,但陈采取了一种有趣的方式;在一次值得注意的尝试中,他在一件 T 恤上打印了一种图案,旨在阻止人体检测算法并使穿着者隐形。

生成式人工智能的出现开辟了新的探索领域。生成对抗网络(GAN)是第一个普及生成人工智能的网络。借助 GAN,您可以将梵高的风格移植到自拍照上,或者将奥巴马总统的声音和肖像移植到自行生成的视频上。最近,扩散模型开辟了合成图像和视频的新途径,这些途径非常令人信服,以至于公司现在在广告中使用它们。

通过学习如何去噪或重建训练数据中已被打乱而无法识别的示例,训练扩散模型来生成独特的图像。根据提示,扩散模型可以根据其训练数据的统计特性输出极其富有想象力的图片。

Chen 和他的同事在论文中引入的后门利用了去噪生成过程。在微调过程中插入模型的数学运算会导致模型在推理时看到特定的视觉触发时以有针对性的方式表现。事实上,类似的技术用于将水印插入扩散模型以验证所有权。

在一项实验中,他们对模型进行了编程,使其在被一副蓝色眼镜触发时输出猫的图像。在另一个例子中,当停车标志触发时,他们让它输出高帮运动鞋或帽子。

他们实验的输出是无害的。但在现实世界中,扩散模型后门可用于生成能够扭曲搜索结果或破坏人工智能图像编辑软件的图像。

他说,防止此类攻击的一种方法是通过检查程序运行下载的模型,就像他与 IBM 研究中心的同事开发的程序一样。该程序就像机械师的检查表一样,确保模型安全。如果检测到篡改迹象,检查员通常会通过手术删除与注入代码相关的模型权重来尝试缓解问题。

Chen 和他的同事开发了一种工具来通过这种方式修复后门分类器。但如果分类器是一个庞大的基础模型,找到并修复可疑权重可能会更具挑战性。因此,研究人员目前正在努力扩展他们的工具包来捍卫基础模型。

在他们的论文中描述的一项技术中,他们在重建目标图像的过程中中断了受损的扩散模型。在注意到他们的受攻击模型输出具有异常值像素值的图像后,他们想出了一种将异常值替换为正常值的方法。研究人员发现,模型恢复到了攻击前的原始设置。

研究人员还在探索 DALL-E 2 和稳定扩散等新型扩散模型中的漏洞,这些模型在输入几个单词或句子的提示时会生成图像。精心设计的喂养模型提示已成为一种流行的互联网消遣,这些提示旨在诱使模型放弃秘密或推翻其安全指令。

此类随心所欲的实验曾经是具有丰富编码经验的安全专家的职责。但像 ChatGPT 这样的人工智能模型已经变得如此易于访问和交互,现在几乎任何人都可以去寻找错误。

“无代码人工智能使攻击变得非常容易,”陈说。“过去你必须是专业人士才能成为黑客,但现在任何人都可以做到。你所要做的就是写一个提示。”

“我不知道这是好事还是坏事,”他补充道。“我们从用户那里得到了更多的反馈,可以更快地发现漏洞,但另一方面,可能会有更多的人想要利用这些漏洞。”

版权声明: 本文由【B族智能】原创,转载请保留链接: https://www.bzu.cn/news/show/52.html,部分文章内容来源网络,如有侵权请联系我们删除处理。谢谢!!!