探索大型语言模型的精细指令遵循能力:DINGO数据集的先进性与应用前景

Diverse and Fine-Grained Instruction-Following Ability Exploration with Synthetic Data

摘要

本文介绍了一种名为DINGO的新型评估数据集,旨在对大型语言模型(LLMs)的指令遵循能力进行细致和多样化的评估。随着LLMs在处理复杂和多样化用户指令方面的应用日益广泛,现有的评估方法往往缺乏对任务级别的细致评估和多样化的指令表达。DINGO数据集通过构建一个包含130个节点的多层次类别树,并结合GPT-4和人类专家生成的多样化指令,为LLMs的指令遵循能力提供了更全面和挑战性的评估。此外,DINGO还为改进LLMs提供了细致的任务级别指导,有望推动LLMs在实际应用中的进一步发展。

Read more...

探索小型Java代码模型:NT-Java-1.1B的先进性与应用前景

Narrow Transformer: Starcoder-Based Java-LM For Desktop

摘要

本文介绍了一种名为NT-Java-1.1B的开源专用代码语言模型,该模型基于StarCoderBase-1.1B构建,专门设计用于Java编程任务。NT-Java-1.1B在MultiPL-E Java代码基准测试中表现卓越,超越了其基础模型及大多数类似规模的模型。尽管大型通用预训练模型在特定编程语言(如Python)的改进方面已有研究,但对于其他编程语言的小型代码模型的类似研究仍显不足。大型代码模型需要专用硬件如GPU进行推理,因此研究构建可在开发者桌面部署的小型代码模型显得尤为重要。本文通过开发NT-Java-1.1B及其量化版本,解决了这一研究空白,这些模型在MultiPL-E Java代码基准测试中与1.1B规模的开放模型表现相当,非常适合桌面部署。

Read more...

探索扩散模型在图像数据增强中的应用

Advances in Diffusion Models for Image Data Augmentation: A Review of Methods, Models, Evaluation Metrics and Future Research Directions

摘要

本文综述了基于扩散模型(DM)的图像数据增强方法,包括其基本原理、模型架构、训练策略以及在不同领域的应用。文章还介绍了相关的评估指标和未来的研究方向。

Read more...

探索深度内容理解:实体与方面目标情感分析的先进技术

Deep Content Understanding Toward Entity and Aspect Target Sentiment Analysis on Foundation Models

摘要

本文介绍了一种名为“实体-方面情感三元组提取(EASTE)”的新型基于方面的情感分析(ABSA)任务,该任务通过将方面类别(如food#quality)细分为预定义的实体(如meal, drink)和方面(如taste, freshness),增加了任务的复杂性,但有助于揭示链式方面的真实情感。研究探索了基于变换器架构的语言模型解决EASTE任务的能力,通过使用BERT架构的统一损失方法进行令牌分类任务,以及使用Flan-T5、Flan-Ul2到Llama2、Llama3和Mixtral等模型进行文本生成任务,采用零/少样本学习和参数高效微调(如低秩适应LoRA)等对齐技术。模型性能在SamEval-2016基准数据集上进行了评估,不仅旨在在EASTE任务上实现高性能,还研究了模型大小、类型和适应技术对任务性能的影响,最终在复杂情感分析中取得了最先进的结果。

Read more...

探索生成模型表示质量的新视角:重要性加权正交性与秩的应用

Measuring Orthogonality in Representations of Generative Models

摘要

本文探讨了在无监督表示学习中,生成模型的表示质量与其生成因子子空间的正交性之间的关系。传统上,生成因子的解耦被认为是高质量表示的关键,但本文提出,仅关注解耦可能导致忽视许多适用于各种下游任务的高质量表示。为此,作者提出了两个新的度量标准:重要性加权正交性(IWO)和重要性加权秩(IWR),用于评估生成因子子空间的相互正交性和秩。通过在多个基准数据集和模型上的广泛实验,IWO和IWR显示出比传统解耦度量更强的与下游任务性能的相关性。研究结果表明,表示质量与生成过程的正交性更密切相关,而非其解耦性,为评估和改进无监督学习模型提供了新的方向。

Read more...

探索百万专家混合:PEER层在Transformer模型中的高效扩展与应用

Mixture of A Million Experts

摘要

本文介绍了一种名为PEER(Parameter Efficient Expert Retrieval)的新型层设计,它利用产品键技术从大量微型专家(超过一百万)中进行稀疏检索,以解决标准transformer架构中前馈(FFW)层随着隐藏层宽度增加而导致的计算成本和激活内存线性增长的问题。PEER层在语言建模任务中展示了优于密集FFW层和粗粒度MoE(Mixture-of-Experts)的性能-计算权衡。通过实现大量专家的高效利用,PEER解锁了transformer模型进一步扩展的潜力,同时保持了计算效率。

Read more...

探索知识图谱推理的新前沿:神经概率逻辑学习框架NPLL

Neural Probabilistic Logic Learning for Knowledge Graph Reasoning

摘要

本文介绍了一种名为神经概率逻辑学习(NPLL)的新型知识图谱推理框架,旨在通过结合逻辑规则和嵌入学习来提高知识图谱的推理准确性。NPLL通过引入一个评分模块,有效地增强了嵌入网络的表达能力,同时通过基于变分推理的马尔可夫逻辑网络提高了模型的可解释性。实验结果表明,NPLL在多个基准数据集上显著提高了推理结果的准确性和质量。

Read more...

探索自动驾驶中的人车交互:真实与虚拟环境的对比研究

Behavioural gap assessment of human-vehicle interaction in real and virtual reality-based scenarios in autonomous driving

摘要

本文探讨了自动驾驶领域中,真实环境与虚拟现实(VR)环境中人车交互行为差异的问题。通过开发一个预先存在的交叉口的数字孪生模型,并进行实地实验(N=18),研究了行人与自动驾驶车辆在真实与模拟驾驶条件下的交互行为。实验中,行人尝试在不同驾驶风格和外部人机界面(eHMI)存在的情况下穿越道路。通过结合基于调查和行为分析的方法,开发了一种定量方法来实证评估行为差异,以此验证从真实环境中与模拟VR环境中的数据。结果显示,参与者在VR中更为谨慎和好奇,影响他们的速度和决策,且VR界面显著影响他们的行为。

Read more...

探索长上下文语言模型的性能极限:SWiM框架与Medoid Voting方法

Evaluating Language Model Context Windows: A “Working Memory” Test and Inference-time Correction

摘要

本文由Amanda Dsouza等人撰写,针对大型语言模型(LLMs)在处理长上下文时的性能评估问题,提出了一种名为Snorkel Working Memory Test(SWiM)的评估框架。该框架旨在解决传统测试方法(如“needle in a haystack”测试)在实际应用中的局限性,特别是在处理真实世界文档时的不足。SWiM框架通过模拟真实任务,评估模型在长上下文中的表现,并提出了一种名为medoid voting的简单但有效的训练无需求方法,以缓解模型在上下文中间部分信息检索时的性能下降问题。实验结果显示,medoid voting在单文档问答任务中可提升高达24%的准确率。

Read more...

探索阿尔茨海默病的新视角:MORPHADE无监督学习框架的突破性应用

Unsupervised Analysis of Alzheimer"s Disease Signatures using 3D Deformable Autoencoders

摘要

随着神经退行性疾病如阿尔茨海默病(AD)的发病率增加,对疾病的检测和监测研究需求日益迫切。本文介绍了一种名为MORPHADE的新型无监督学习方法,该方法利用变形自动编码器(AEs)分析3D T1加权脑部MRI图像,以检测、定位和评估AD引起的脑部结构变化。据我们所知,这是首次使用深度无监督学习结合变形技术来实现这一目标。MORPHADE不仅能够有效定位AD相关的脑萎缩,还能通过与临床专家评估的颞叶内侧萎缩(MTA)分数进行视觉相关性分析,显示出其评估异常严重程度的潜力。此外,该方法在AD检测方面达到了0.80的AUROC,超过了多种监督和无监督基线方法。本文的研究为AD的理解、监测和检测提供了新的工具,并已公开代码以支持进一步的研究和应用。

Read more...
Previous Page 76 of 156 Next Page