探索复杂指令遵循:ComplexBench基准测试及其在LLMs中的应用

Benchmarking Complex Instruction-Following with Multiple Constraints Composition

摘要

本文介绍了一种名为ComplexBench的基准测试,用于评估大型语言模型(LLMs)在遵循包含多重约束的复杂指令方面的能力。传统的基准测试主要关注单一约束的指令,而忽略了约束组合在复杂指令中的重要性。ComplexBench通过提出一个包含四种约束类型、十九个约束维度和四种组合类型的分层分类法,以及一个高质量的人工收集数据集,来全面评估LLMs的能力。此外,本文还提出了一种基于规则增强的LLM评估方法,通过依赖结构确定不同组合类型的最终评估分数,以提高评估的可靠性。实验结果显示,现有的LLMs在处理包含多重约束组合的复杂指令时存在显著缺陷,这强调了ComplexBench在提升LLMs复杂指令遵循能力方面的重要性。

Read more...

探索大型语言模型在常识推理与可解释AI中的前沿应用

From Data to Commonsense Reasoning: The Use of Large Language Models for Explainable AI

摘要

本文探讨了大型语言模型(LLMs)在可解释人工智能(XAI)中的应用,特别是在常识推理和问答(QA)任务中的表现。研究通过评估GPT-3.5、Gemma和Llama 3在多个QA基准数据集上的性能,展示了LLMs在处理需要常识推理的问题时能够提供直观且类似人类的解释。此外,通过问卷调查,研究还评估了GPT-3.5生成解释的质量,结果显示大多数参与者认为这些解释是“好”或“优秀”的。这些发现不仅增强了我们对当前LLMs的理解,也为未来在推理和可解释性方面的研究铺平了道路。

Read more...

探索大型语言模型的精细指令遵循能力:DINGO数据集的先进性与应用前景

Diverse and Fine-Grained Instruction-Following Ability Exploration with Synthetic Data

摘要

本文介绍了一种名为DINGO的新型评估数据集,旨在对大型语言模型(LLMs)的指令遵循能力进行细致和多样化的评估。随着LLMs在处理复杂和多样化用户指令方面的应用日益广泛,现有的评估方法往往缺乏对任务级别的细致评估和多样化的指令表达。DINGO数据集通过构建一个包含130个节点的多层次类别树,并结合GPT-4和人类专家生成的多样化指令,为LLMs的指令遵循能力提供了更全面和挑战性的评估。此外,DINGO还为改进LLMs提供了细致的任务级别指导,有望推动LLMs在实际应用中的进一步发展。

Read more...

探索小型Java代码模型:NT-Java-1.1B的先进性与应用前景

Narrow Transformer: Starcoder-Based Java-LM For Desktop

摘要

本文介绍了一种名为NT-Java-1.1B的开源专用代码语言模型,该模型基于StarCoderBase-1.1B构建,专门设计用于Java编程任务。NT-Java-1.1B在MultiPL-E Java代码基准测试中表现卓越,超越了其基础模型及大多数类似规模的模型。尽管大型通用预训练模型在特定编程语言(如Python)的改进方面已有研究,但对于其他编程语言的小型代码模型的类似研究仍显不足。大型代码模型需要专用硬件如GPU进行推理,因此研究构建可在开发者桌面部署的小型代码模型显得尤为重要。本文通过开发NT-Java-1.1B及其量化版本,解决了这一研究空白,这些模型在MultiPL-E Java代码基准测试中与1.1B规模的开放模型表现相当,非常适合桌面部署。

Read more...

探索扩散模型在图像数据增强中的应用

Advances in Diffusion Models for Image Data Augmentation: A Review of Methods, Models, Evaluation Metrics and Future Research Directions

摘要

本文综述了基于扩散模型(DM)的图像数据增强方法,包括其基本原理、模型架构、训练策略以及在不同领域的应用。文章还介绍了相关的评估指标和未来的研究方向。

Read more...

探索深度内容理解:实体与方面目标情感分析的先进技术

Deep Content Understanding Toward Entity and Aspect Target Sentiment Analysis on Foundation Models

摘要

本文介绍了一种名为“实体-方面情感三元组提取(EASTE)”的新型基于方面的情感分析(ABSA)任务,该任务通过将方面类别(如food#quality)细分为预定义的实体(如meal, drink)和方面(如taste, freshness),增加了任务的复杂性,但有助于揭示链式方面的真实情感。研究探索了基于变换器架构的语言模型解决EASTE任务的能力,通过使用BERT架构的统一损失方法进行令牌分类任务,以及使用Flan-T5、Flan-Ul2到Llama2、Llama3和Mixtral等模型进行文本生成任务,采用零/少样本学习和参数高效微调(如低秩适应LoRA)等对齐技术。模型性能在SamEval-2016基准数据集上进行了评估,不仅旨在在EASTE任务上实现高性能,还研究了模型大小、类型和适应技术对任务性能的影响,最终在复杂情感分析中取得了最先进的结果。

Read more...

探索生成模型表示质量的新视角:重要性加权正交性与秩的应用

Measuring Orthogonality in Representations of Generative Models

摘要

本文探讨了在无监督表示学习中,生成模型的表示质量与其生成因子子空间的正交性之间的关系。传统上,生成因子的解耦被认为是高质量表示的关键,但本文提出,仅关注解耦可能导致忽视许多适用于各种下游任务的高质量表示。为此,作者提出了两个新的度量标准:重要性加权正交性(IWO)和重要性加权秩(IWR),用于评估生成因子子空间的相互正交性和秩。通过在多个基准数据集和模型上的广泛实验,IWO和IWR显示出比传统解耦度量更强的与下游任务性能的相关性。研究结果表明,表示质量与生成过程的正交性更密切相关,而非其解耦性,为评估和改进无监督学习模型提供了新的方向。

Read more...

探索百万专家混合:PEER层在Transformer模型中的高效扩展与应用

Mixture of A Million Experts

摘要

本文介绍了一种名为PEER(Parameter Efficient Expert Retrieval)的新型层设计,它利用产品键技术从大量微型专家(超过一百万)中进行稀疏检索,以解决标准transformer架构中前馈(FFW)层随着隐藏层宽度增加而导致的计算成本和激活内存线性增长的问题。PEER层在语言建模任务中展示了优于密集FFW层和粗粒度MoE(Mixture-of-Experts)的性能-计算权衡。通过实现大量专家的高效利用,PEER解锁了transformer模型进一步扩展的潜力,同时保持了计算效率。

Read more...

探索知识图谱推理的新前沿:神经概率逻辑学习框架NPLL

Neural Probabilistic Logic Learning for Knowledge Graph Reasoning

摘要

本文介绍了一种名为神经概率逻辑学习(NPLL)的新型知识图谱推理框架,旨在通过结合逻辑规则和嵌入学习来提高知识图谱的推理准确性。NPLL通过引入一个评分模块,有效地增强了嵌入网络的表达能力,同时通过基于变分推理的马尔可夫逻辑网络提高了模型的可解释性。实验结果表明,NPLL在多个基准数据集上显著提高了推理结果的准确性和质量。

Read more...

探索自动驾驶中的人车交互:真实与虚拟环境的对比研究

Behavioural gap assessment of human-vehicle interaction in real and virtual reality-based scenarios in autonomous driving

摘要

本文探讨了自动驾驶领域中,真实环境与虚拟现实(VR)环境中人车交互行为差异的问题。通过开发一个预先存在的交叉口的数字孪生模型,并进行实地实验(N=18),研究了行人与自动驾驶车辆在真实与模拟驾驶条件下的交互行为。实验中,行人尝试在不同驾驶风格和外部人机界面(eHMI)存在的情况下穿越道路。通过结合基于调查和行为分析的方法,开发了一种定量方法来实证评估行为差异,以此验证从真实环境中与模拟VR环境中的数据。结果显示,参与者在VR中更为谨慎和好奇,影响他们的速度和决策,且VR界面显著影响他们的行为。

Read more...
Previous Page 76 of 156 Next Page