探索LLMs在人力资源支持中的应用:优化检索增强问答聊天机器人
摘要
本文探讨了利用大型语言模型(LLMs)和人在回路(Human-in-the-Loop)方法优化和评估增强检索的问答聊天机器人的过程。通过与SAP SE的领域专家合作,开发了一个用于处理员工查询的高效人力资源支持聊天机器人。研究重点包括数据集收集、提示优化和生成输出的评估,通过增强LLM驱动的聊天机器人的响应质量和探索替代检索方法,创建了一个高效、可扩展和灵活的工具。实验和评估结果表明,GPT-4在性能上优于其他模型,并能通过内部推理能力克服数据不一致性。此外,通过专家分析,发现无参考评估指标如GEval和Prometheus与人类评估的可靠性高度一致。
原理
本文的核心工作原理基于Retrieval Augmented Generation (RAG)方法,该方法允许模型生成更基于事实的答案,从而减少幻觉现象。研究团队优化了标准RAG管道的不同模块,如检索器和模型提示,同时不断整合领域专家的反馈。检索器的准确性虽然可以评估到一定程度,但LLMs的生成性质使得生成输出的评估相当具有挑战性。为了克服这一点,研究团队探索了传统基于参考和无参考(LLM-based)自动评估指标的有效性,同时使用人类评估作为基准。通过实验,团队发现GPT-4在处理复杂查询和生成准确答案方面表现出色,而基于BERT的密集段落检索器(DPR)在检索准确性上显著优于其他方法。
流程
论文详细描述了人力资源聊天机器人的工作流程,该流程遵循标准RAG管道,并在各个模块中引入了人在回路的影响。工作流程包括数据集收集、检索器优化、自然语言生成(NLG)模块的调整以及最终输出的评估。在数据集收集阶段,领域专家参与了潜在问题及其对应文章和黄金标准答案的收集和策划。检索器模块通过构建全面的HR文章知识库,使用户话语能够找到最相关的文章。NLG模块则通过OpenAI的ChatGPT和GPT-4生成答案,通过有意义的提示传递用户查询和检索到的文章。整个流程中,领域专家的反馈被用于不断优化提示和评估生成输出的质量。
应用
本文的研究成果展示了LLM在人力资源支持领域的巨大潜力,特别是在处理员工查询和提高部门效率方面。通过优化检索技术和评估LLMs的性能,本研究为未来在更广泛的行业应用中部署LLM-based聊天机器人提供了宝贵的见解和方法。此外,研究中使用的无参考评估指标如GEval和Prometheus,也为自然语言生成任务的自动化评估提供了新的方向和可能性。
