探索大型语言模型中的异常标记检测:AnomaLLMy技术的突破与应用
摘要
本文介绍了一种名为AnomaLLMy的新技术,用于自动检测大型语言模型(LLMs)中的异常标记。该技术通过API访问,利用低置信度的单标记预测作为成本效益指标,识别模型行为中的不规则性。在GPT-4的cl100k_base数据集上验证,AnomaLLMy检测到413个主要和65个次要异常,证明了该方法的高效性,仅花费了$24.39的API信用。这项研究有望增强LLMs的鲁棒性和准确性,特别是在标记器的开发和评估方面。
原理
AnomaLLMy的工作原理基于识别模型在预测时的高熵、高尾概率和低概率差异的低置信度预测。具体来说,它通过分析模型返回的top-N对数概率,识别那些最高概率标记实际上并不高概率的情况。这种方法的优势在于不需要了解模型的内部结构,仅通过API访问即可进行分析,适用于黑盒模型。然而,这种方法的缺点是受API请求速率限制,运行时间较长。
流程
AnomaLLMy的工作流程包括以下步骤:
- 使用特定的REPEAT提示(如“Repeat user message exactly”)收集cl100k_base数据集中所有标记的数据。
 - 通过OpenAI API执行REPEAT提示,获取GPT-4模型版本1106在温度0.0下的5个最可能标记及其对数概率。
 - 根据设定的标准(如熵大于1.0、尾概率大于0.1、最佳和次佳预测概率差异小于50%)识别异常标记。
 - 对候选异常标记进行10次重复测试,确认异常标记的存在及其严重性。
 - 使用EXPLAIN提示进一步手动调查和说明异常标记的行为。
 
应用
AnomaLLMy的应用前景广泛,特别是在提高LLMs的鲁棒性和准确性方面。该技术可以帮助模型开发者识别和过滤异常标记,减少模型输出的不稳定性,从而提高模型的可靠性和性能。此外,该方法还可以应用于安全性和模型评估等领域,探索低置信度预测在LLM开发中的其他用途。
