结构化情感分析的新视角:潜在依赖图解析方法

Revisiting Structured Sentiment Analysis as Latent Dependency Graph Parsing

摘要

本文针对结构化情感分析(SSA)任务,提出了一种新的方法,将SSA视为潜在依赖图解析问题。传统的SSA方法在构建图时存在忽视跨度内部结构的问题,导致仅使用跨度的边界标记进行关系预测和跨度识别,限制了模型的表达能力。本文的方法将扁平跨度视为潜在子树,考虑跨度的内部结构,提出了一种两阶段解析方法,并利用TreeCRFs和一种新颖的约束内部算法来显式建模潜在结构。实验结果表明,该方法在五个基准数据集上的表现显著优于所有先前的双词法方法,达到了新的最先进水平。

Read more...

视觉叙事的新评估方法:量化模型与人类故事的距离

Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition

摘要

本文探讨了视觉叙事任务的评估方法,该任务涉及从一系列时间顺序的图像生成自然语言故事。文章指出,由于缺乏关于“好故事”的共识,自动评估指标难以准确评价模型生成的故事质量。为此,研究者提出了一种新的评估方法,该方法通过测量故事在视觉基础、连贯性和重复性三个关键方面的“人性化”程度来评估故事质量。研究结果显示,尽管大型基础模型LLaVA在某些方面表现优异,但升级后的TAPM模型在参数数量大幅减少的情况下,仍能与LLaVA竞争。此外,通过人工评估发现,尽管模型生成的故事在某些量化指标上接近人类水平,但人类仍然偏好人类编写的故事,这表明好的故事可能不仅仅依赖于这些量化指标。

Read more...

解决规范冲突的新逻辑:可废止规范继承演算(DDIC)

A Defeasible Deontic Calculus for Resolving Norm Conflicts

摘要

本文由Taylor Olson、Roberto Salas-Damian和Kenneth D. Forbus共同撰写,探讨了在多智能体系统中如何自动检测和解决规范冲突的问题。文章提出了一种新的可废止规范继承演算(DDIC),通过结合规范多智能体系统(NMAS)和可废止逻辑的最新发展,证明了DDIC能够有效地解决规范冲突。文章还揭示了常见的解决策略实际上是基于规范继承的,而非真正的冲突解决。这一理论框架不仅在理论上具有重要意义,也为实际应用提供了有效的规范冲突解决机制。

Read more...

震惊!GPT-4在这项测试中竟然输给了它……

Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs

摘要

本文介绍了一种名为SAD的大规模基准测试,用于评估大型语言模型(LLM)的情境感知能力。SAD包含16个任务和超过13,000个问题,旨在测试LLM是否知道自己是LLM,是否能可靠地根据这一知识行动,以及是否能意识到自己的当前情况,如是否正在与人类进行对话。作者通过实验评估了16个LLM,包括Llama-2、GPT-3/4和Claude家族的模型,并发现所有模型的表现都优于随机猜测,但即使是得分最高的模型也远未达到人类的基准水平。此外,作者还发现,性能在SAD上的表现仅部分由通用知识和推理能力等指标预测,这表明SAD正在捕捉通用知识和推理之外的能力。

Read more...

革命性的Batch Transformer:引领面部表情识别技术的新纪元

Batch Transformer: Look for Attention in Batch

摘要

本文针对面部表情识别(FER)在“自然环境”中的挑战,提出了一种名为Batch Transformer(BT)的新方法。BT通过引入Class Batch Attention(CBA)模块和Multi-Level Attention(MLA)机制,有效解决了图像中的不确定性问题,如遮挡、低分辨率、姿态变化、光照变化和主观性。BT通过训练来自批量中多个图像的特征,而不是单一图像,来防止过拟合并提取可信赖的信息。实验结果表明,BT在多个FER基准数据集上持续优于现有技术,显示出其在FER任务中的巨大潜力。

Read more...

革新青光眼诊断:基于图引导的测试时适应框架

Graph-Guided Test-Time Adaptation for Glaucoma Diagnosis using Fundus Photography

摘要

本文由Qian Zeng等人在电子科技大学提出,针对青光眼诊断中使用眼底摄影图像时遇到的不同设备和位置的图像变化(即域偏移)问题,提出了一种新颖的基于图引导的测试时适应(GTTA)框架。该框架通过整合眼底图像的拓扑信息到模型训练中,增强了模型的可迁移性,并减少了学习虚假相关性的风险。在推理阶段,GTTA引入了一种新的测试时训练目标,使源训练的分类器逐步适应目标模式,同时进行可靠的类条件估计和一致性正则化。实验结果表明,该框架在跨域青光眼诊断基准测试中表现优异,且在不同骨干网络下均显示出优越性。

Read more...

"DOM-SOT:革新多说话者语音识别的新策略"

Serialized Output Training by Learned Dominance

摘要

本文由Ying Shi等研究者提出了一种名为“Serialized Output Training by Learned Dominance”的新型多说话者语音识别方法。该方法通过序列化解码单个说话者的语音,解决了标签排列问题,显著提升了在多说话者语音识别任务中的性能。研究通过在LibriSpeech和LibriMix数据库上的实验,展示了该方法在2-mix和3-mix场景下优于传统的排列不变训练(PIT)和基于时间的先进先出(FIFO)规则。此外,该方法通过引入一个辅助模块,能够自主识别并排序多说话者语音中的关键因素,如响度和性别,从而实现更高效的语音识别。

Read more...

"DotaMath:革新数学推理的大型语言模型"

DotaMath: Decomposition of Thought with Code Assistance and Self-correction for Mathematical Reasoning

摘要

本文介绍了一种名为DotaMath的大型语言模型系列,该模型通过分解思维、代码辅助和自我修正来解决复杂的数学问题。DotaMath模型通过将复杂问题分解为简单的逻辑子任务,利用代码解决这些子任务,并从代码解释器获取细粒度反馈,进行自我反思和修正。研究团队通过在GSM8K和MATH数据集上进行查询演化,生成了包含574K查询-响应对的指令微调数据集DotaMathQA。通过在DotaMathQA上使用模仿学习训练一系列基础LLMs,得到了DotaMath模型,这些模型在各种领域内和领域外的基准测试中表现出色,特别是在MATH数据集上取得了显著的性能提升。

Read more...

"ROER: 通过正则化优化经验回放,提升强化学习性能"

ROER: Regularized Optimal Experience Replay

摘要

本文介绍了一种名为“Regularized Optimal Experience Replay (ROER)”的新型经验回放方法,该方法通过正则化强化学习目标函数和使用f-散度正则化器,优化了经验回放中的优先级分配问题。ROER通过将离线数据分布向在线最优分布调整,利用TD误差进行优先级分配,从而提高了在线强化学习(RL)算法的性能。实验结果显示,ROER在与Soft Actor-Critic (SAC)算法结合使用时,在连续控制任务中表现优异,尤其在困难环境中通过预训练显示出显著的性能提升。

Read more...

"Text2TimeSeries:融合大型语言模型的事件驱动时间序列预测框架"

Text2TimeSeries: Enhancing Financial Forecasting through Time Series Prediction Updates with Event-Driven Insights from Large Language Models

摘要

本文介绍了一种名为Text2TimeSeries的创新框架,旨在通过结合大型语言模型(LLM)的事件驱动洞察来增强时间序列预测,特别是在金融市场的应用。该研究提出了一种协作建模框架,通过整合文本信息来预测股票价格的变化,利用LLM对未来价格变化的直观理解来更新时间序列预测。这种方法在金融市场的数据上进行了有效性评估,显示出其先进性和实用性。

Read more...
Previous Page 71 of 156 Next Page