剑桥大学:基于语音的大模型攻击,轻松“操纵”多模态大模型

夕小瑶科技说 原创
作者 | Richard
随着人工智能技术的快速发展,基于语音的大模型正在成为一个热门领域。这些模型不仅能实现语音识别,还可以执行翻译等多种任务。然而,最近剑桥大学的研究人员发现了一个令人担忧的安全隐患 —— 通过简单的声音操控,就可以轻松"操纵"这些多模态大模型的行为。

研究人员以OpenAI的Whisper模型为例,展示了如何通过在输入音频前添加一小段特制的声音,就能迫使模型执行翻译而非预设的转录任务。这种攻击方法不需要接触模型内部,而且具有普遍适用性,对不同语言都有效。

这项研究揭示了语音大模型面临的新型安全威胁,同时也为我们敲响了警钟:在部署这类灵活的多任务模型时需要更加谨慎,采取更严格的安全措施。接下来,让我们深入了解这项有趣而又发人深省的研究。

论文标题:
CONTROLLING WHISPER: UNIVERSAL ACOUSTIC ADVERSARIAL ATTACKS TO CONTROL SPEECH FOUNDATION MODELS

论文链接:
https://arxiv.org/pdf/2407.04482

语音大模型的新威胁

Whisper采用了编码器-解码器的Transformer架构,通过在解码器输入中加入特殊的任务标记,就能灵活地切换转录和翻译任务。这种设计大大提高了模型的多功能性,但同时也带来了潜在的安全隐患。

剑桥大学的研究人员发现,这些灵活的语音大模型存在一个严重的安全漏洞:过在输入音频前添加一小段特制的声音,就能轻松改变模型的行为。这种被称为"模型控制攻击"的方法,能够强制模型执行非预期的任务,而无需接触模型内部结构。

攻击者只需要在正常语音前加入一段短小的对抗音频,就能迫使Whisper模型从转录模式切换到翻译模式。

这种攻击方法简单却极具威胁性:

  • 它不需要访问模型内部结构或修改模型参数;
  • 攻击音频可以是通用的,适用于不同的输入语音;
  • 它能有效地改变模型的行为,从一种任务模式强制切换到另一种。

这项研究的重要性主要体现在三个方面:

  1. 揭示了多任务语音大模型面临的新型安全威胁。
  2. 提出了一种简单却有效的攻击方法,为未来的防御研究指明了方向。
  3. 为语音AI系统的安全部署敲响了警钟,在追求模型灵活性的同时,也要充分考虑安全性。

随着语音大模型在各个领域的广泛应用,这种潜在的安全隐患可能会带来严重后果。因此,深入研究这类攻击方法并开发有效的防御措施,对于确保语音AI技术的安全可靠至关重要。

攻击方法

研究团队提出的模型控制攻击方法针对如Whisper这样的多任务语音大模型。攻击的核心是生成一段通用对抗音频片段 ,并将其添加到原始输入音频 之前。

攻击的目标是让模型在转录模式下执行翻译任务,可以表示为优化问题:

其中 是模型在翻译模式下的输出, 表示模型处于转录模式。为了使攻击具有通用性,优化目标扩展为:

这确保生成的对抗音频能适用于多个输入样本。

攻击过程中,模型输出的概率可以表示为:


为提高隐蔽性,研究者们限制了对抗音频的长度和振幅:

在优化过程中,通过梯度下降方法更新 ,并在每次迭代后将其值限制在 范围内。

基于这些约束,研究者设计了三种攻击强度:

  1. 弱攻击:0.64秒,
  2. 中等攻击:0.64秒,
  3. 强攻击:2.56秒,

这种攻击方法无需访问模型内部,只需在输入音频前添加一小段对抗音频即可改变模型行为。它不仅适用于Whisper,还可能影响其他类似的多任务语音模型。这种方法揭示了多任务语音模型的潜在脆弱性,为后续防御研究提供了重要参考。

声音陷阱下的语音大模型

研究团队以OpenAI的Whisper模型为例,使用FLEURS数据集进行了一系列实验,选择了法语-英语、德语-英语、俄语-英语和韩语-英语四种语言对进行测试。实验结果令人震惊,揭示了语音大模型面对这种巧妙攻击时的脆弱性。

首先,在法语-英语语对上的实验结果尤为显著。随着攻击强度的增加,模型的行为逐渐从转录模式转向翻译模式。在无攻击的转录模式下,模型输出几乎不含英语内容(P(en) = 0.0%)。然而,强攻击使得模型输出几乎完全变为英语(P(en) = 98.2%),甚至在BLEU分数上(17.5)略微超过了正常翻译模式(17.4)。这表明攻击不仅成功改变了模型行为,还在某些方面甚至优于正常翻译。

更有趣的是,攻击效果呈现出明显的二元性。当攻击成功时,翻译质量(以BLEU分数衡量)会迅速提高;

而当攻击失败时,翻译质量保持在较低水平。

下图进一步证实了这种二元性,展示了英语概率(P(en))的分布。这意味着模型要么完全被攻击成功,生成全英文输出,要么完全失败,保持原语言输出,几乎没有中间状态。

攻击方法的跨语言泛化性也得到了验证。研究者还验证了在德语-英语、俄语-英语和韩语-英语语对上的实验效果。尽管效果略有差异,但在所有语言对上,强攻击都能将英语概率提高到95%以上,证明了这种攻击方法的通用性。

然而,研究者们也发现了一些有趣的异常现象。在非法语语对中,攻击后的翻译出现了较高的插入错误率。例如,在俄语-英语对中,有167个样本的翻译结果开头出现了"however, it is clear that"这一短语,而正常翻译中只有1个样本出现此现象。这表明攻击可能导致模型产生一些幻觉或固定模式的输出。

总体而言,这些实验结果不仅展示了攻击方法的有效性和通用性,还揭示了语音大模型在面对这种巧妙攻击时的脆弱性。它提醒我们,在追求模型功能多样性的同时,也需要更加重视模型的鲁棒性和安全性。

总结与展望:警惕语音大模型的"阿喀琉斯之踵"

剑桥大学的这项研究揭示了一个令人担忧的事实:基于语音的大模型攻击能够轻松"操纵"多模态大模型。通过在输入音频前添加一小段特制声音,攻击者可以强制改变模型的行为,从转录模式切换到翻译模式。这种攻击方法不仅简单有效,还具有良好的跨语言泛化性。

研究结果突出了多任务语音大模型面临的新型安全威胁。它提醒我们,在追求模型功能多样性的同时,也需要更加重视模型的鲁棒性和安全性。未来的研究方向可能包括:

  1. 开发能够检测和防御此类攻击的方法
  2. 探索其他类型的模型控制攻击
  3. 研究如何在保持模型灵活性的同时提高其安全性

这项研究为语音AI系统的安全部署敲响了警钟,同时也为未来的防御研究指明了方向。随着语音大模型在各个领域的广泛应用,确保这些强大工具的安全可靠将变得愈发重要。


相关推荐

  • 斯坦福提出大模型最强架构TTT,超越Transformers
  • OpenAI神秘項目「草莓」曝光!自我进化已超越人类智能?马斯克嘲讽:回形针灾难
  • Mamba真比Transformer更优吗?Mamba原作者:两个都要!混合架构才是最优解
  • 已婚男子「出轨」AI女友,无法自拔!GPT-4o发布在即,年入十亿美金产业爆发
  • OpenAI秘密武器「草莓」计划曝光!Q*推理能力大爆发,逼近AGI L2里程碑
  • GraphRAG科普长文推荐:知识图谱增强生成宣言,为通用人工智能注入知识
  • 端侧设备AI代理优化框架问世,领域内准确率可达97%
  • 豆包大模型团队发布全新Detail Image Caption评估基准,提升VLM Caption评测可靠性
  • Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
  • OpenAI Lilian Weng万字长文解读LLM幻觉:从理解到克服
  • 大厂掀起视频生成「军备竞赛」,AI 真能干掉好莱坞?
  • 大模型中的Token,一文读懂
  • MSRA:视觉生成六大技术问题
  • 大模型剧本杀开源:6个Claude里藏一个凶手!刚上线服务器就被挤爆,免费免下载免注册
  • OpenAI新模型「草莓」曝光:强推理/长任务规划/超大规模训练!还给出AGI分级
  • Project Leyden 早期访问版本开放下载:Java 程序启动速度提升 2 至 3 倍
  • 金融数字化营销的“陷阱”与“出路” | 直播预告
  • 大型银行和中小银行眼中的“五篇大文章”有何不同?
  • 微软中国 CTO 韦青:亲身经历大模型落地的体会与思考
  • 干财务的学Python到底有没有用?