优化检索增强生成上下文:通过异常检测提升问答系统性能

Optimization of Retrieval-Augmented Generation Context with Outlier Detection

摘要

本文由NextAI Systems LLC的Vitaly Bulgakov撰写,聚焦于优化问答系统中用于增强生成上下文的检索方法,特别是通过异常检测技术来减少上下文大小并提高其质量。论文指出,增加检索文档的数量可能会导致大型语言模型(LLM)在生成回答时性能下降,因为大量文档中可能包含与查询无关的信息,从而导致答案出现幻觉。为此,研究团队提出了一系列方法,通过计算嵌入向量与查询向量及中心向量之间的距离来识别异常值,从而筛选出语义上最相关的文档。这些方法通过与OpenAI GPT-4o模型获得的真实答案进行相似度比较来评估,发现对于复杂问题和答案的改进最为显著。关键词包括人工智能(AI)、大型语言模型(LLM)、检索增强生成(RAG)、特征工程、降维、高斯混合模型和异常检测。

原理

本文提出的方法主要通过计算每个嵌入向量与查询向量和中心向量的距离来识别异常值。具体来说,首先计算每个向量到中心向量的距离(dcentroid)和到查询向量的距离(dquery),然后使用加权因子α来平衡这两个距离。接着,通过多种方法(如拼接、加权和、交互和多项式)将这些距离组合成特征,用于进一步分析。标准化这些特征向量后,应用主成分分析(PCA)进行降维,最后通过高斯混合模型(GMM)和日志似然阈值来识别异常值。这些步骤共同构成了一个高效的异常检测机制,能够从检索到的文档中筛选出最相关的上下文信息,从而提高问答系统的响应质量。

流程

论文详细描述了从文档检索到异常值识别的工作流程。首先,使用句子转换器模型将所有分块文档转换为密集向量,并存储在FAISS向量数据库中。然后,对于每个查询,计算检索到的文档向量与查询向量和中心向量的距离,并通过特征创建方法生成特征向量。接着,对这些特征向量进行标准化和降维处理,最后使用GMM和日志似然阈值来识别并排除异常值。通过这种方式,生成一个过滤后的提示(filtered prompt),并将其与原始提示(original prompt)进行比较,评估其在相似度指标上的改进。整个流程确保了在生成回答时,只使用最相关和精确的上下文信息。

应用

本文提出的方法不仅适用于问答系统,还可以扩展到其他需要精确上下文检索的领域,如信息检索、内容生成和数据分析等。通过优化上下文检索过程,可以显著提高系统的响应质量和效率,尤其是在处理复杂查询时。此外,该方法的实现不依赖于特定的大型语言模型,因此具有很高的灵活性和可扩展性。未来,该技术有望进一步优化异常检测机制,并在更多数据集和应用场景中得到验证和应用。