E2CFD:利用大型语言模型实现安全和高效的强化学习成本函数设计

$\mathrm{E^{2}CFD}$: Towards Effective and Efficient Cost Function Design for Safe Reinforcement Learning via Large Language Model

摘要

本文介绍了一种名为E2CFD的新型成本函数设计框架,旨在通过大型语言模型(LLM)实现安全和高效的强化学习。现有的安全强化学习算法主要针对特定类型的安全需求场景设计,缺乏通用性,且其优化目标与任务需求不一致。E2CFD框架利用LLM理解多种安全场景并生成相应的成本函数,结合快速性能评估(FPE)方法,实现成本函数的快速迭代更新。实验证明,使用该框架训练的策略性能优于传统的安全强化学习算法和精心设计的成本函数训练的策略。

Read more...

FedMRL:解决联邦学习中数据异质性的创新框架

FedMRL: Data Heterogeneity Aware Federated Multi-agent Deep Reinforcement Learning for Medical Imaging

摘要

本文介绍了一种名为FedMRL的新型联邦多智能体深度强化学习框架,旨在解决医疗影像诊断中联邦学习(FL)面临的数据异质性问题。FedMRL通过引入一种新颖的损失函数来促进客户端之间的公平性,并使用多智能体强化学习(MARL)方法计算个性化局部目标函数的近端项(µ),确保收敛到全局最优。此外,FedMRL在服务器端采用自组织映射(SOM)进行自适应权重调整,以应对客户端本地数据分布的偏移。实验结果表明,FedMRL在处理高度异质性数据时显著优于现有技术,显示出在联邦学习中处理数据异质性的有效性。

Read more...

GenFollower:利用大型语言模型提升车辆跟随行为预测的准确性与解释性

GenFollower: Enhancing Car-Following Prediction with Large Language Models

摘要

本文介绍了一种名为GenFollower的新型车辆跟随行为预测模型,该模型利用大型语言模型(LLMs)来提高交通管理和自动驾驶系统中的车辆跟随行为的预测准确性和可解释性。传统的车辆跟随模型通常受限于数据质量敏感性和缺乏解释性。GenFollower通过将车辆跟随行为重新构建为语言建模问题,并利用LLMs的零样本提示方法,实现了对车辆跟随行为的改进预测和解释。实验结果表明,GenFollower在Waymo Open数据集上的表现优于传统基准模型,并能提供可解释的预测结果,这对于增强交通管理和自动驾驶系统的理解和信任具有重要意义。

Read more...

GRASS:一种结合图重构与注意力机制的高效图神经网络架构

Graph Attention with Random Rewiring

摘要

本文介绍了一种名为Graph-Rewiring Attention with Stochastic Structures (GRASS)的新型图神经网络架构,该架构结合了消息传递、图重构和图变换器的优势。GRASS通过叠加一个随机规则图来重构输入图,增强了长距离信息传播,同时保留了输入图的结构特征。此外,GRASS采用了一种专为图结构数据设计的独特加性注意力机制,提供了图归纳偏置,同时保持了计算效率。实验证明,GRASS在多个基准数据集上达到了最先进的性能,确认了其实际效能。

Read more...

Hybrid X-Linker:生物医学实体链接的革命性进展

Hybrid X-Linker: Automated Data Generation and Extreme Multi-label Ranking for Biomedical Entity Linking

摘要

本文介绍了一种名为Hybrid X-Linker的自动化数据生成和极端多标签排序方法,用于生物医学实体链接。该方法通过自动生成大规模训练数据集,解决了传统深度学习实体链接方法依赖大量人工标注数据的成本问题。Hybrid X-Linker结合了疾病和化学实体提及与MEDIC和CTD-Chemical词汇表的链接,通过在多个生物医学数据集上的评估,实现了高达0.9511的顶级准确率。该方法不仅提高了实体链接的性能,还通过公开源代码,使得生物医学实体链接无需预先标注的实体标识符成为可能。

Read more...

InverseCoder: 利用自身能力提升代码生成模型性能的新方法

InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct

摘要

本文探讨了如何通过从自身生成数据而非依赖于强大的闭源大型语言模型(如GPT-3.5和GPT-4)来进一步改进指令调优的代码大型语言模型(LLMs)。文章提出了INVERSE-INSTRUCT方法,该方法通过代码片段总结指令而非反向操作,具体是通过代码LLM生成原始语料库的高质量指令并通过代码总结和自我评估进行微调,从而产生更强大的指令调优LLM。实验结果显示,名为InverseCoder的一系列代码LLMs在多个基准测试中超越了原始代码LLMs的性能。

Read more...

KITA:革命性的任务导向对话代理框架

LLM-Based Open-Domain Integrated Task and Knowledge Assistants with Programmable Policies

摘要

本文介绍了一种基于大型语言模型(LLM)的开放领域集成任务和知识助手框架KITA。KITA旨在通过可编程策略创建能够处理复杂用户交互的任务导向对话代理。与传统的对话树相比,KITA提供了更可靠的基于事实的响应,并通过其表达性规范KITA Worksheet实现代理策略的可控性。通过62名参与者的实际用户研究,KITA在执行准确性、对话行为准确性和目标完成率方面分别比GPT-4的函数调用基线高出26.1、22.5和52.4分。此外,文章还发布了22个经过手动校正以确保准确性的真实用户对话。

Read more...

LLaMAX:突破语言界限,开启多语言智能新时代

LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages

摘要

本文提出了一种名为 LLaMAX 的方法,通过大规模多语言持续预训练来增强非英语语言的翻译能力。该方法解决了低资源语言翻译中数据不足的问题,提高了翻译性能,并且在多种语言上表现出色。

<工作原理> LLaMAX 的工作原理主要包括两个关键技术:词汇扩展和数据增强。

  1. 词汇扩展:通过添加特定语言的标记来扩展词汇表,提高模型对多语言的表示能力。
  2. 数据增强:利用字典进行数据增强,选择与目标语言实体数量相关的字典,提高翻译性能。

<工作流程>

  1. 收集和构建大量的多语言数据,包括单语数据和并行数据。
  2. 进行词汇扩展,添加特定语言的标记。
  3. 利用数据增强技术,使用平行数据和字典进行增强。
  4. 使用增强后的数据进行大规模多语言持续预训练。
  5. 在预训练的基础上,进行指令微调,提高模型的指令遵循能力。

<应用前景> LLaMAX 可以应用于多种场景,如机器翻译、跨语言问答、文本生成等。它为多语言处理提供了更强大的工具,有助于打破语言障碍,促进跨语言交流和合作。

<标题> LLaMAX:突破语言界限,开启多语言智能新时代

Read more...

MagMax:革新持续学习,无缝整合模型知识

MagMax: Leveraging Model Merging for Seamless Continual Learning

摘要

本文介绍了一种名为MagMax的持续学习方法,该方法通过模型合并技术,使大型预训练模型能够不断从新数据中学习,同时保留先前获得的知识。与传统的持续学习方法旨在减少任务训练期间的遗忘不同,MagMax结合了顺序微调与最大幅度权重选择,以有效整合跨任务的知识。研究首先广泛探讨了模型合并技术,发现简单的权重平均和随机权重选择在多种持续学习情境中表现出色。更重要的是,MagMax作为一种新颖的模型合并策略,能够在连续任务中持续学习大型预训练模型。通过全面的评估,MagMax在包括类和域增量学习设置在内的多种场景中显示出优越性。

Read more...

MLLMs:医学图像和报告分析的新利器

Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports

摘要

本文主要探讨了多模态大语言模型(MLLMs)在医学图像和自由文本报告的数据挖掘中的潜力。文章介绍了 MLLMs 的发展背景和在医学领域的应用,通过对 Gemini、GPT-4 等模型的实验评估,分析了它们在不同医学图像任务中的表现,并讨论了 MLLMs 在医学领域的应用前景和挑战。

Read more...
Previous Page 47 of 156 Next Page