探索文本生成的新边界:FourierGPT如何通过频谱分析揭示人类与模型语言的微妙差异

Detecting Subtle Differences between Human and Model Languages Using Spectrum of Relative Likelihood

摘要

本文由南方科技大学计算机科学与工程系及比勒费尔德大学的研究人员共同撰写,提出了一种新颖的方法——FourierGPT,用于检测人类文本与模型生成文本之间的细微差异。随着语言模型生成文本能力的不断提升,传统的基于绝对似然值的检测方法变得越来越难以区分人类与模型生成的文本。FourierGPT通过使用相对似然值的频谱视图来提取特征,提出了一种监督学习和启发式零样本检测方法,这两种方法在短文本检测任务中均取得了与现有零样本检测方法相竞争甚至更优的性能。该方法不仅能够揭示人类与模型语言之间的微妙差异,而且在计算上更为经济,能够有效地区分短文本中的人类与模型生成文本。

原理

FourierGPT的核心创新在于利用傅里叶变换将文本的相对似然值转换为频谱视图,从而捕捉语言中似然值的动态变化。具体来说,该方法首先估计文本数据的似然值,并通过预训练的语言模型(如Mistral-7B、GPT-2系列和从零开始训练的双元语言模型)进行标准化处理。接着,应用离散傅里叶变换(DFT)将标准化后的似然值序列转换为频域表示,这一过程将时间域中复杂的似然值变化模式总结为一个更为紧凑的视图,放大了不同文本之间的微妙差异。最后,利用这些频谱特征设计两种分类器:基于监督学习的分类器和基于启发式的零样本分类器,两者均展现出令人印象深刻的性能。

流程

FourierGPT的工作流程包括三个主要步骤:1) 估计并标准化似然值;2) 进行傅里叶变换以获得频谱视图;3) 在频谱上进行分类。具体流程如图1所示,通过一个示例详细说明了从文本数据输入到最终分类结果的整个过程。首先,使用预训练的语言模型估计文本的似然值,并进行z-score标准化。然后,对标准化后的似然值序列应用傅里叶变换,得到频域表示。最后,使用监督学习或启发式方法对频谱进行分类,判断文本是人类生成还是模型生成。

应用

FourierGPT的方法不仅在短文本检测任务中表现出色,而且由于其基于相对似然值的频谱视图,能够捕捉到语言中似然值的动态变化,这使得它在更广泛的文本检测场景中具有潜在的应用价值。随着语言模型能力的不断提升,FourierGPT提供了一种新的视角和方法来区分人类与模型生成的文本,这对于维护文本的真实性和可靠性具有重要意义。此外,该方法的计算效率高,适用于大规模文本数据的快速检测。