Kaggle知识点：检测 LLMs文本的方法

检测 AI 生成文本

原始论文：A Survey on Detection of LLMs-Generated Content https://arxiv.org/pdf/2310.15654.pdf

LLM（Language Model，语言模型）在日常生活中生成了大量的文字内容，这些内容可以分为自然语言，如新闻、文章、评论和报告，或者编程语言，如Python、C++和Java的代码。

检测指标

评估检测算法有效性的指标，主要包括接收者操作特征曲线下面积（AUROC）分数，F1分数以及True Positive Rate（TPR）和False Positive Rate（FPR）等。

已有数据集

现有检测方法

基于训练的分类器（Training-based）：通常是在已收集的二进制数据上对预训练语言模型进行微调，这些数据包括人类生成和AI生成的文本分布。

零-shot检测器（Zero-Shot）：利用典型LLM的内在特性，如概率曲线或表示空间，进行自我检测。

水印技术（Watermarking）：涉及将可识别信息隐藏在生成的文本中，以后可以用于确定文本是否来自特定的语言模型，而不仅仅是检测AI生成的文本。

Training-based

Black-box

黑盒检测是指在不了解模型内部工作细节的情况下进行检测。当模型的来源已知时，一些方法使用来自混合来源的文本，并随后一起训练分类器进行检测。

例如，OpenAI收集了来自不同模型系列的生成文本，并训练了一个强大的检测器，用于检测长度超过1,000个标记的文本。GPTZero也收集了人类编写的文本，包括学生写的文章、新闻文章和跨多个领域的问答数据集，这些文本来自各种不同的预训练语言模型。

类似地，G3Detector声称是一个通用的GPT生成文本检测器，通过对RoBERTa-large进行微调，并探索了在训练过程中使用合成数据的效果。GPT-Sentinel训练RoBERTa和T5分类器，使用他们构建的OpenGPTText数据集。

还有一些方法使用混合解码策略，即使用不同的解码参数生成文本，以考虑文本生成的差异性。此外，还有其他混合策略，包括使用图结构、对比学习、代理模型复杂度、正类-负类训练以及对抗性训练等额外信息。

White-box

第二类工作是在白盒情况下进行的，即当模型的全部或部分参数是可访问的。

当我们有对模型的完全访问权限时，可以使用各种方法来进行检测。例如，GLTR训练了一个逻辑回归模型，用于在每个解码步骤中对绝对词排名进行排名。这个方法利用了模型的输出信息来进行检测。

另一个例子是SeqXGPT，它提出了一个句子级别的检测挑战，通过创建一个包含经过预训练语言模型处理的文档的数据集，然后使用来自白盒语言模型的输出logit值来进行检测。

还有一个方法是Sniffer，它利用模型之间的对比logit值作为特征来进行检测，同时还可以追踪文本的来源。

Zero-Shot

在Zero-Shot中，我们不需要大量的训练数据来训练鉴别器。相反，我们可以利用机器生成文本和人类书写文本之间的固有差异，从而使检测器无需训练。无需训练的检测的主要优势是它适应新数据分布而无需额外的数据收集和模型调整。

Black-box

当黑盒模型的来源已知时，DNA-GPT (Yang等，2023b) 利用重新提示文本的持续分布与原始文本之间的N-Gram差异，取得了出色的性能。

Krishna等 (2023) 建议建立一个生成文本的数据库，并通过将目标文本与存储在数据库中的所有文本进行语义相似性比较来检测目标文本。

PHD (Tulchinskii等，2023) 观察到真实文本在各种可靠的生成器中表现出统计上更高的固有维度，通过使用Persistent Homology Dimension Estimator (PHD) 作为测量这一固有维度的手段，结合额外的编码器，如Roberta，来促进估计过程。

White-box

当对模型的部分访问权限被授予时，可以用传统方法使用熵 (entropy)（Lavergne等，2008）、平均对数概率分数 (average log-probability score)（Solaiman等，2019）等特征进行检测。

DetectGPT（Mitchell等，2023）观察到LLM生成的文本往往占据了模型的对数概率函数的负曲率区域，并利用基于通道的曲率标准，基于对通道的随机扰动。

DNA-GPT（Yang等，2023b）利用重新提示文本和原始文本之间的连续分布之间的概率差异，取得了最先进的性能。

Watermarking

文本水印是将可以通过算法检测的模式嵌入生成的文本中，同时理想情况下保留语言模型输出的质量和多样性。

Black-box

黑盒水印旨在自动操纵生成的文本，以嵌入可供第三方阅读的水印。传统方法设计了复杂的语言规则，例如改写（Atallah等，2003）、句法树操作（Topkara等，2005；Meral等，2009）和同义词替换（Topkara等，2006），但缺乏可扩展性。

后来的工作转向了预训练的语言模型，以实现高效的水印处理。例如，Yang等人（2022）提出了一种基于上下文感知词汇替换（LS）的自然语言水印方案。具体来说，他们使用BERT（Devlin等，2019）来推荐LS候选词，通过推断候选词与原始句子之间的语义相关性。

White-box

Aaronson（2022）与OpenAI合作开发了一种通过使用指数最小采样从模型中抽样文本的方法。这个方法通过在采样机制的输入中使用前面 k 个连续标记的哈希值，结合 Gumbel Softmax 规则，被证明可以确保水印的质量。

Hou等人（2023）提出了一种基于句子级别的语义水印，利用局部敏感哈希（LSH）来划分句子的语义空间。这一设计的优势在于它对抵抗改写攻击有更强的鲁棒性。

现有攻击方法

接下来介绍一些关于规避文本检测的攻击方法，主要涵盖了以下几种类型的攻击：

释义攻击（Paraphrasing Attack）：释义可以由人类作者或其他大型语言模型（LLMs）执行，甚至可以由同一源模型执行。
对抗样本（Adversarial Examples）：攻击者可以通过对文本进行微小修改，以欺骗AI文本检测器，同时对人类读者保持几乎不变。
提示攻击（Prompt Attack）：当前的LLMs容易受到提示的影响，用户可以巧妙设计提示来规避已建立的检测器。某些研究探讨了通过扰动输入提示来诱导LLMs生成难以检测的文本的攻击。

Kaggle知识点：检测 LLMs文本的方法

检测 AI 生成文本

检测指标

已有数据集

现有检测方法

Training-based

Black-box

White-box

Zero-Shot

Black-box

White-box

Watermarking

Black-box

White-box

现有攻击方法

相关推荐