探索LLMs在人力资源支持中的应用:优化检索增强问答聊天机器人

Towards Optimizing and Evaluating a Retrieval Augmented QA Chatbot using LLMs with Human in the Loop

摘要

本文探讨了利用大型语言模型(LLMs)和人在回路(Human-in-the-Loop)方法优化和评估增强检索的问答聊天机器人的过程。通过与SAP SE的领域专家合作,开发了一个用于处理员工查询的高效人力资源支持聊天机器人。研究重点包括数据集收集、提示优化和生成输出的评估,通过增强LLM驱动的聊天机器人的响应质量和探索替代检索方法,创建了一个高效、可扩展和灵活的工具。实验和评估结果表明,GPT-4在性能上优于其他模型,并能通过内部推理能力克服数据不一致性。此外,通过专家分析,发现无参考评估指标如GEval和Prometheus与人类评估的可靠性高度一致。

Read more...

探索LLMs在数据可视化中的语义分析能力:挑战与机遇

Evaluating the Semantic Profiling Abilities of LLMs for Natural Language Utterances in Data Visualization

摘要

本文由Hannah K. Bako等研究者撰写,探讨了大型语言模型(LLMs)在自然语言表达中生成数据可视化的语义分析能力。研究背景在于自动生成数据可视化需要对数据表达有深刻的语义理解,包括对数据属性的隐式和显式引用、可视化任务以及必要的数据准备步骤。尽管自然语言接口(NLIs)在数据可视化方面已有所探索,但仍存在由于人类语言固有的不确定性带来的挑战。LLMs的最新进展为解决这些挑战提供了途径,但其提取相关语义信息的能力尚未得到充分探索。本研究评估了四款公开可用的LLMs(GPT-4、Gemini-Pro、Llama3和Mixtral),研究它们在存在不确定性的情况下理解表达并识别相关数据上下文和可视化任务的能力。研究发现,尽管LLMs对不确定性敏感,但它们能够提取相关的数据上下文,而在推断可视化任务方面则表现不佳。基于这些结果,研究强调了未来使用LLMs进行可视化生成研究的方向。

Read more...

探索WSI-VQA:引领全幻灯片图像解释的新纪元

WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering

摘要

本文介绍了一种名为WSI-VQA的创新框架,用于通过生成式视觉问答(VQA)来解释全幻灯片图像(WSI)。WSI-VQA通过将各种幻灯片级任务重新构建为问答模式,展示了其通用性,使病理学家能够通过人机交互实现免疫组织化学分级、生存预测和肿瘤分型。此外,研究团队建立了一个包含8672个幻灯片级问答对的WSI-VQA数据集,并开发了名为Wsi2Text Transformer(W2T)的生成模型,该模型在医学正确性方面优于现有的判别模型,显示出在临床场景中的应用潜力。

Read more...

探索不完全信息游戏中的神经网络高效训练策略

Efficiently Training Neural Networks for Imperfect Information Games by Sampling Information Sets

摘要

本文由Timo Bertram等人撰写,探讨了在不完全信息游戏中,如何通过采样信息集来高效训练神经网络。不完全信息游戏的特点是玩家无法观察到游戏的全部状态,这使得评估游戏状态变得复杂。传统的解决方案需要对信息集中的所有可能状态进行评估,这在计算上是不切实际的。本文提出了一种新的方法,通过采样信息集中的少量状态来近似整个信息集的期望值,从而在有限的计算资源下实现高效的训练。实验结果表明,这种方法在德州扑克和侦察盲棋等游戏中表现出色,为不完全信息游戏的人工智能研究提供了新的方向。

Read more...

探索人类与LLM对话:心理模型与毒性起源的先进研究

Exploring Human-LLM Conversations: Mental Models and the Originator of Toxicity

摘要

本文探讨了人类与大型语言模型(LLMs)在真实世界中的交互,特别是在不受限制的环境下,与以往专注于特定任务的伦理修剪模型(如ChatGPT)的研究形成对比。研究旨在理解毒性内容的起源,发现尽管LLMs被合理地指责提供有毒内容,但这些内容大多是由人类主动寻求或至少引发的。通过手动分析数百个被API商业供应商判定为有毒的对话,研究还对当前拒绝回答某些用户请求的做法提出了质疑。此外,基于多个实证指标,推测人类在交互过程中其心理模型发生了变化,从与机器交互的心态转向与人类交互的心态。

Read more...

探索医学影像新前沿:RadiomicsFill-Mammo技术引领合成肿瘤图像生成

RadiomicsFill-Mammo: Synthetic Mammogram Mass Manipulation with Radiomics Features

摘要

本文介绍了一种名为RadiomicsFill-Mammo的创新技术,该技术利用放射组学特征生成具有特定属性的合成乳腺肿瘤图像。文章探讨了在医学影像领域中,由于隐私问题和高标签成本导致的高质量数据获取困难,以及数据集不平衡对神经网络训练的影响。RadiomicsFill-Mammo通过使用稳定扩散模型和放射组学特征,能够生成与特定临床变量(如BI-RADS评分和乳腺密度)相匹配的逼真肿瘤图像,从而提高肿瘤检测能力并增强治疗规划。该研究不仅推动了医学影像研究,还为肿瘤模拟开辟了新的应用前景。

Read more...

探索大型视觉语言模型中的多对象幻觉:ROPE 评估协议的先进性与应用前景

Multi-Object Hallucination in Vision-Language Models

摘要

本文探讨了大型视觉语言模型(LVLMs)中的多对象幻觉问题,通过引入基于识别的对象探测评估(ROPE),系统地研究了模型在关注多个对象时的错误感知,以及导致幻觉的因素。研究发现,LVLMs在关注多个对象时更容易出现幻觉,测试对象类分布会影响幻觉行为,且幻觉行为受到数据特定因素、显著性和频率以及模型内在行为的影响。

Read more...

探索大型语言模型在不确定性下的回退行为:从循环到幻觉的转变

From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty

摘要

本文探讨了大型语言模型(LLMs)在面对不确定性时表现出的不良行为,如幻觉和序列重复。文章提出将这些行为视为模型在不确定性下的“回退行为”,并分析了这些行为与模型预训练令牌数量、参数数量或遵循指令训练的关系。实验表明,随着模型复杂性的增加,其回退行为从序列重复转变为退化文本,最终变为幻觉。此外,文章还发现,尽管常见的解码技术如随机采样可以减轻某些不良行为,如序列重复,但会增加更难以检测的幻觉。

Read more...

探索大型语言模型的事实幻觉问题:基于知识图谱的虚假前提问题评估

KG-FPQ: Evaluating Factuality Hallucination in LLMs with Knowledge Graph-based False Premise Questions

摘要

KG-FPQ: Evaluating Factuality Hallucination in LLMs with Knowledge Graph-based False Premise Questions 是一篇关于大型语言模型(LLMs)在面对虚假前提问题(FPQs)时产生事实幻觉问题的研究论文。论文提出了一种基于知识图谱(KGs)自动构建FPQs的方法,以评估LLMs在处理这些虚假信息时的性能。该研究通过创建一个包含约178,000个FPQs的综合基准(KG-FPQ),对多个代表性LLMs进行了广泛评估,揭示了LLMs在不同领域和任务格式下的表现差异。

Read more...

探索大型语言模型的认知扇效应:人类行为的计算机模拟研究

Large Language Model Recall Uncertainty is Modulated by the Fan Effect

摘要

本文由Jesse Roberts等研究者撰写,探讨了大型语言模型(LLMs)是否能展现出与人类相似的认知扇效应。通过在预训练阶段使用人类文本数据,研究者设计了两组情境回忆实验来诱发扇效应。实验结果显示,LLMs的回忆不确定性,通过标记概率衡量,确实受到扇效应的影响。此外,当不确定性被消除时,观察到的扇效应会被破坏。研究还表明,无论扇效应值是在情境中诱发还是在预训练数据中诱发,其效果是一致的。这些发现为扇效应和典型性是同一现象的表现提供了计算机模拟证据。

Read more...
Previous Page 51 of 156 Next Page