探索大型语言模型在价值导向问题上的答案一致性:一项量化研究

Are Large Language Models Consistent over Value-laden Questions?

摘要

本文探讨了大型语言模型(LLMs)在处理价值导向问题时的答案一致性。研究定义了价值一致性为模型在不同情境下(如问题的不同表述、相关问题、多选与开放式问题、多语言翻译)答案的相似度。通过分析多个大型开放LLMs(如llama-3和gpt-4o)在超过8000个涉及300多个主题的问题上的表现,研究发现模型在这些问题上表现出相对一致性,尤其是在非争议性主题上。然而,模型在某些主题(如“安乐死”)上的不一致性仍然存在。研究还比较了基础模型与微调模型的一致性,发现基础模型在一致性上更为均匀,而微调模型在某些主题上的一致性较低。此外,模型在多语言翻译和不同使用场景(如多选与开放式问题)上也显示出一定的一致性。

Read more...

探索大型语言模型在图数据上的理解和推理能力:GraCoRe基准的全面评估

GraCoRe: Benchmarking Graph Comprehension and Complex Reasoning in Large Language Models

摘要

本文介绍了GraCoRe基准,旨在系统评估大型语言模型(LLMs)在图结构数据上的理解和推理能力。GraCoRe通过一个三层层次分类法,对纯图和异构图的10个不同领域进行测试,共包含19个任务和11个数据集,总计5,140个图。研究评估了三种闭源和七种开源LLMs,发现语义丰富性可以提升推理性能,节点顺序对任务成功有显著影响,而处理长文本的能力并不一定提高图理解或推理能力。GraCoRe的开源地址为https://github.com/ZIKEYUAN/GraCoRe。

Read more...

探索大型语言模型在癫痫诊断中的应用:SemioLLM研究解析

SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research

摘要

本文探讨了大型语言模型(LLMs)在癫痫研究中的半逻辑分析能力,特别是在利用患者医疗历史中的非结构化文本描述来辅助癫痫诊断的应用。研究使用了包括GPT-3.5、GPT-4、Mixtral 8x7B和Qwen-72B在内的先进LLMs,通过一个包含1269个条目的临床数据库,评估这些模型在将癫痫症状的文本描述与癫痫发作的脑区进行关联的能力。研究结果显示,通过精心设计的提示工程,这些模型能够显著提高其分类性能,某些模型甚至接近临床评估的水平。然而,研究也揭示了模型在自信心过高、引用错误和幻觉现象等方面的问题。总体而言,该研究为当前最先进的LLMs在癫痫领域的应用提供了一个全面的基准,并强调了它们利用患者医疗历史中的非结构化文本来辅助医疗诊断过程的潜力。

Read more...

探索工具学习框架的稳定性:大型语言模型与现实世界应用的交互挑战

What Affects the Stability of Tool Learning? An Empirical Study on the Robustness of Tool Learning Frameworks

摘要

本文探讨了工具学习框架的稳定性问题,特别是在大型语言模型(LLMs)与现实世界应用交互时。文章指出,尽管现有研究通过微调LLMs或设计提示来使LLMs选择合适的工具并正确调用它们,但工具学习的表现因任务、数据集、训练设置和算法而异。这种不稳定性可能导致结果不一致、模型部署效率低下和工具利用不理想,最终阻碍LLMs在实际场景中的集成和扩展。为此,本文通过大量实验分析了影响工具学习框架性能的内外部因素,并提出了一些有价值的结论和未来研究方向。

Read more...

探索情感的神经密码:基于空间关系的多视角图变换器在EEG情感识别中的应用

MVGT: A Multi-view Graph Transformer Based on Spatial Relations for EEG Emotion Recognition

摘要

本文介绍了一种基于空间关系的多视角图变换器(MVGT),用于脑电图(EEG)情感识别。EEG作为一种捕捉大脑头皮电活动的医学成像技术,在情感计算中得到了广泛应用。然而,现有的研究很少同时从几何和解剖结构的多角度分析EEG信号。MVGT模型整合了时间、频率和空间域的信息,包括几何和解剖结构,以全面增强模型的表达能力。通过将EEG通道的空间信息纳入模型作为编码,提高了模型感知通道空间结构的能力。实验结果表明,该模型在公开数据集上的表现优于近年来的先进方法,能够有效地从多个域提取信息并捕捉通道间的关系。

Read more...

探索情绪的神经密码:基于空间关系的多视角图变换器在EEG情绪识别中的应用

MVGT: A Multi-view Graph Transformer Based on Spatial Relations for EEG Emotion Recognition

摘要

本文介绍了一种基于空间关系的多视角图变换器(MVGT),用于脑电图(EEG)情绪识别。EEG作为一种捕捉大脑头皮电活动的医学成像技术,在情感计算中应用广泛。然而,现有研究很少同时从几何和解剖结构的多角度分析EEG信号。MVGT模型整合了时间、频率和空间域的信息,包括几何和解剖结构,以全面增强模型的表达能力。实验结果表明,该模型在公开数据集上的表现优于近年来的先进方法,能够有效提取多域信息并捕捉EEG情绪识别任务中的通道间关系。

Read more...

探索数学新边界:TxGraffiti人工智能程序的革命性猜想生成技术

Artificial intelligence and machine learning generated conjectures with TxGraffiti

摘要

本文介绍了一种名为TxGraffiti的人工智能程序,该程序专门设计用于自动化数学中的猜想生成任务。自其诞生以来,TxGraffiti已经产生了许多令人惊讶的猜想,并被发表在知名的数学期刊上。本文详细阐述了TxGraffiti所采用的机器学习和启发式技术,并回顾了其在数学文献中的贡献,同时宣布了一个新的在线版本,供任何对图论猜想感兴趣的人探索。

Read more...

探索无参考生成模型评估的新方法:Fourier-based Kernel Entropy Approximation (FKEA)

Towards a Scalable Reference-Free Evaluation of Generative Models

摘要

本文介绍了一种名为Fourier-based Kernel Entropy Approximation (FKEA)的新方法,用于评估生成模型的多样性,特别是在缺乏参考数据集的情况下。传统的生成模型评估方法通常依赖于参考数据集,这在实际应用中可能难以获取。FKEA方法通过利用随机傅里叶特征框架,有效地降低了计算成本,并能够在大规模生成模型中进行高效的多样性评估。实验结果表明,FKEA方法在图像、文本和视频数据集上的表现具有可扩展性和可解释性。

Read more...

探索时间序列预测的新前沿:多分辨率标记化Transformer架构

Multiple-Resolution Tokenization for Time Series Forecasting with an Application to Pricing

摘要

本文提出了一种针对时间序列预测的Transformer架构,特别关注时间序列的标记化(tokenization),并将其应用于定价领域的实际预测问题。该架构旨在同时学习所有可用数据在多个尺度上的有效表示。模型包含多个创新模块:一种采用多分辨率的时间序列分块方法、一个用于时间变化已知变量的多分辨率模块、一个基于混合器的模块用于捕捉跨序列信息,以及一个具有有利缩放特性的新型输出头,以应对增加的标记数量。本文展示了该模型在大型零售商降价团队面临的实际预测问题中的应用,实验表明该模型优于内部模型和选定的现有深度学习架构。

Read more...

探索未来游戏:LLM驱动的NPC如何革新Minecraft中的协作体验

Collaborative Quest Completion with LLM-driven Non-Player Characters in Minecraft

摘要

本文探讨了在视频游戏开发中使用生成式AI的兴起,特别是大型语言模型(LLM)驱动的非玩家角色(NPC)在游戏中的广泛应用前景。研究设计了一个在Minecraft中的迷你游戏,玩家与两个由GPT-4驱动的NPC合作完成任务。通过用户研究,分析了游戏日志和录像,揭示了NPC与玩家之间的多种协作行为模式。文章还指出了当前语言模型在游戏状态和视觉理解方面的局限性,并认为这一初步研究和分析将为未来游戏开发者如何更好地利用这些快速改进的生成式AI模型提供指导。

Read more...
Previous Page 86 of 156 Next Page