探索GPT-4o在医学影像中的应用:无需微调的手势识别新方法

GPT Sonograpy: Hand Gesture Decoding from Forearm Ultrasound Images via VLM

摘要

本文探讨了使用大型视觉语言模型(LVLMs)如GPT-4o从手臂超声图像中解码手势的能力。文章指出,尽管这些模型在一般任务中表现出色,但在特定任务如生物医学数据集上的性能通常受限。由于完全微调这些大型模型需要大量的计算资源和数据,本文展示了GPT-4o可以在无需微调的情况下,通过少样本上下文学习(ICL)策略,从手臂超声数据中解码手势,并显著提高分类准确性。这一研究为医学影像领域中LVLMs的应用开辟了新的可能性。

Read more...

探索LLMs在电子表格公式生成中的应用:验证合成数据的新方法

An Empirical Study of Validating Synthetic Data for Formula Generation

摘要

本文探讨了在电子表格中生成公式时,如何利用大型语言模型(LLMs)生成合成自然语言描述,并验证这些描述的准确性以进行微调。由于相关公式资源稀缺,影响了预训练模型的基础性能和微调能力。本文通过定义三个代理目标(输出预测、替代代码生成和分类)来预测合成自然语言的准确性,并展示了在不同模型上进行微调时,验证过的合成数据集如何提高性能。实验结果表明,使用验证过的数据进行微调可以显著提高模型在生成公式任务上的表现,并减少训练时间。

Read more...

探索LLMs的非确定性:评估与未来方向

The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism

摘要

本文探讨了大型语言模型(LLMs)评估中常被忽视的非确定性问题。传统评估方法通常基于每个示例的单一输出,忽略了LLMs在不同解码配置下可能产生的多样性输出。研究通过对比贪婪解码和采样方法,分析了不同LLM在多个基准测试中的表现差异,揭示了非确定性对LLM性能评估的重要性,并提出了未来LLM开发和评估的新方向。

Read more...

探索Mamba架构在行人属性识别中的应用:一种高效且先进的识别框架

An Empirical Study of Mamba-based Pedestrian Attribute Recognition

摘要

本文针对行人属性识别(PAR)任务,提出了一种基于Mamba架构的新型识别框架。传统的基于Transformer的模型在计算上较为沉重,而近期提出的具有线性复杂度的Mamba模型在多种视觉任务中展现了良好的准确性与计算成本平衡。本文通过设计并适应Mamba到两种典型的PAR框架中,即文本-图像融合方法和纯视觉Mamba多标签识别框架,验证了Mamba在PAR任务中的有效性。实验结果表明,尽管与属性标签的交互并不总是带来性能提升,但Mamba模型在特定设置下能够超越传统的Transformer模型,为行人属性识别领域提供了新的研究方向。

Read more...

探索MaskVAT:视频到音频生成的新纪元

Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity

摘要

本文介绍了一种名为MaskVAT的先进视频到音频生成模型,由Dolby Laboratories和Universitat Politècnica de Catalunya的研究团队开发。该模型通过仅利用视频的视觉特征来生成与场景相匹配的合理声音,特别强调生成的声音起始点应与视觉动作同步,以避免不自然的同步伪影。MaskVAT模型结合了高质量的全频段通用音频编解码器和序列到序列的掩码生成模型,能够在保持高音频质量的同时,实现语义匹配和时间同步性。研究结果表明,通过结合高质量编解码器和适当的预训练视听特征,MaskVAT能够在同步性方面取得高度一致的结果,同时在非编解码生成音频模型中保持竞争力。

Read more...

探索Qwen2:超越传统,引领未来的大型语言模型

Qwen2 Technical Report

摘要

本文介绍了Qwen2系列,这是我们大型语言模型和大型多模态模型的最新成员。我们发布了一系列基础和指令微调的语言模型,参数范围从0.5亿到720亿,包括密集模型和专家混合模型。Qwen2超越了大多数先前的开放权重模型,包括其前身Qwen1.5,并在语言理解、生成、多语言能力、编码、数学和推理等多个基准上与专有模型相比表现出竞争力。

Read more...

探索Sibyl:一种简单而强大的LLM代理框架,引领复杂推理任务的新前沿

Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

摘要

本文介绍了一种名为Sibyl的简单而有效的基于大型语言模型(LLM)的代理框架,旨在解决复杂现实世界推理任务中的不足。Sibyl通过集成LLM的固有知识、强大的上下文学习和零样本能力,以及精心设计的LLM调用工作流程,有效提升了长期推理能力。该框架通过引入全局工作空间和多代理辩论式陪审团,增强了知识管理和对话历史的共享,确保了全面和平衡的推理方法。Sibyl的设计注重可扩展性和调试便利性,旨在无缝集成到其他LLM应用中,提升其能力。实验结果显示,Sibyl在GAIA基准测试集上达到了最先进的性能,展示了其在复杂推理任务中的高效能力。

Read more...

探索XAI体验的新维度:XEQ量表的开发与应用

XEQ Scale for Evaluating XAI Experience Quality Grounded in Psychometric Theory

摘要

本文介绍了一种基于心理测量理论的XAI体验质量评估量表(XEQ Scale),旨在评估用户中心的XAI体验质量。XEQ量表通过四个评估维度(学习、实用性、满足感和参与度)量化XAI体验的质量,超越了传统单一维度评估单次解释的局限。论文详细阐述了XEQ量表的开发和验证过程,包括内容验证、判别验证和构建验证,并通过大规模试点研究证明了其作为评估用户中心XAI体验的综合框架的有效性。

Read more...

探索大型语言模型与进化搜索在自动化启发式设计中的协同作用

Understanding the Importance of Evolutionary Search in Automated Heuristic Design with Large Language Models

摘要

本文探讨了在自动化启发式设计(AHD)中,大型语言模型(LLM)与进化搜索策略结合的重要性。文章通过大规模基准测试,评估了四种基于LLM的进化程序搜索(EPS)方法在四个AHD问题上的表现,强调了进化搜索在提升LLM性能中的关键作用。研究结果表明,单纯依赖LLM的生成能力不足以有效解决AHD问题,而结合进化搜索策略可以显著提高解决方案的质量。此外,文章还讨论了不同LLM选择对性能的影响,并提出了未来EPS算法发展的建议。

Read more...

探索大型语言模型的本质与未来:ChatGPT的深度解析与应用前景

Transforming Agency. On the mode of existence of Large Language Models

摘要

本文探讨了大型语言模型(LLMs)如ChatGPT的本质存在模式,特别关注其作为代理的状态。文章在通货膨胀和通货紧缩的叙述之间,特别关注LLMs作为代理人的地位。这需要详细解释LLMs的架构、处理和训练程序,以及将LLMs转变为类似代理系统的扩展。经过系统分析,我们得出结论,根据具身心灵理论,LLM未能满足自主代理的必要和充分条件:个体性条件(它不是自身活动的产品,甚至不受其直接影响),规范性条件(它不产生自己的规范或目标),以及部分交互不对称条件(它不是其与环境交互的源头和持续源泉)。如果不是代理人,那么LLMs是什么?我们主张ChatGPT应被描述为对话者或语言自动机,一个会说话的图书馆,缺乏(自主)代理,但能够在非目的性但目的结构化和目的有限性的任务中进行表演性参与。当与人类互动时,人类-机器交互中的“幽灵”成分使得与LLMs进行真正的对话体验成为可能。尽管缺乏感官运动和生物体,LLMs的文本体(训练语料库)和资源密集型计算体,显著改变了现有的人类代理形式。除了辅助和扩展的代理外,LLM-人类耦合可以产生中介形式的代理,更接近于有意代理的生产而非任何先前技术的扩展工具性。

Read more...
Previous Page 7 of 156 Next Page