"ROER: 通过正则化优化经验回放,提升强化学习性能"

ROER: Regularized Optimal Experience Replay

摘要

本文介绍了一种名为“Regularized Optimal Experience Replay (ROER)”的新型经验回放方法,该方法通过正则化强化学习目标函数和使用f-散度正则化器,优化了经验回放中的优先级分配问题。ROER通过将离线数据分布向在线最优分布调整,利用TD误差进行优先级分配,从而提高了在线强化学习(RL)算法的性能。实验结果显示,ROER在与Soft Actor-Critic (SAC)算法结合使用时,在连续控制任务中表现优异,尤其在困难环境中通过预训练显示出显著的性能提升。

Read more...

"Text2TimeSeries:融合大型语言模型的事件驱动时间序列预测框架"

Text2TimeSeries: Enhancing Financial Forecasting through Time Series Prediction Updates with Event-Driven Insights from Large Language Models

摘要

本文介绍了一种名为Text2TimeSeries的创新框架,旨在通过结合大型语言模型(LLM)的事件驱动洞察来增强时间序列预测,特别是在金融市场的应用。该研究提出了一种协作建模框架,通过整合文本信息来预测股票价格的变化,利用LLM对未来价格变化的直观理解来更新时间序列预测。这种方法在金融市场的数据上进行了有效性评估,显示出其先进性和实用性。

Read more...

"保卫智能对话:揭秘多轮对话LLMs的分布式后门攻击与防御策略"

Securing Multi-turn Conversational Language Models Against Distributed Backdoor Triggers

摘要

本文探讨了多轮对话大型语言模型(LLMs)在面对分布式后门触发攻击时的安全性问题。这些模型在多轮对话环境中容易受到更为隐蔽和有害的后门攻击,其中触发器可能跨越多个话语,导致基于上下文的攻击。文章提出了一种新的分布式后门触发攻击方法,并针对现有防御策略的不足,提出了一种基于对比解码的新防御策略,该策略能够在低计算成本下有效缓解后门攻击。

Read more...

"揭秘大型语言模型的幻觉检测:RelD鉴别器的鲁棒性与应用前景"

Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models

摘要

本文针对大型语言模型(LLMs)在自然语言处理任务中普遍存在的“幻觉”问题,即生成与输入源不符的不可靠或不一致内容,提出了一种名为RelD的鲁棒鉴别器。RelD通过训练在构建的双语问答对话数据集RelQA上,该数据集包含LLMs生成的答案及一套全面的评估指标。实验结果表明,RelD能有效检测出不同LLMs生成的答案中的幻觉现象,并在分布内和分布外数据集上均表现出色。此外,本文还对幻觉的类型进行了深入分析,为未来减少幻觉现象的工作提供了有价值的见解。

Read more...

"革新对话代理:基于大型语言模型的计划型对话系统"

Planning with Large Language Models for Conversational Agents

摘要

本文介绍了一种基于大型语言模型(LLM)的计划型对话代理(PCA)框架,旨在提高对话代理的控制性和主动性。传统的对话系统在控制性和主动性方面存在局限,而PCA框架通过离线规划标准操作程序(SOP)和在线规划最佳行动路径,实现了对话过程的控制性和主动性。此外,论文还提出了一种半自动对话数据创建框架,并开发了多个PCA变体和评估指标,实验结果显示PCA在对话控制性、主动性、任务成功率和逻辑一致性方面表现优异。

Read more...

"革新草图识别:结合大型基础模型与人类草图理解的新方法"

Do Generalised Classifiers really work on Human Drawn Sketches?

摘要

本文探讨了通用分类器在人类绘制草图上的应用效果,特别是在不同抽象层次上的表现。论文提出了一种结合大型基础模型与人类草图理解的新方法,通过学习特定于草图的提示和抽象层次的代码本,使CLIP模型能够更好地适应草图分类。该方法不仅在零样本和少样本设置下超越了现有算法,而且在不同抽象边界的场景中也表现出色。论文的核心贡献在于首次将人类草图与基础模型结合,解决了数据稀缺和抽象层次多样性两大挑战,展示了在草图分类领域的广泛应用前景。

Read more...

AI算法在双边市场中的价格共谋:机制、风险与监管对策

Artificial Intelligence and Algorithmic Price Collusion in Two-sided Markets

摘要

本文探讨了人工智能(AI)算法在双边市场中促进算法价格共谋的问题。通过使用Q学习算法,AI代理在双边市场中实现了比伯川德竞争更高的共谋水平。研究发现,网络外部性的增加显著增强了共谋,表明AI算法利用这些外部性来最大化利润。此外,用户异质性和外部选项的效用通常会减少共谋,而更高的折扣率则会增加共谋。即使在低折扣率下,默许共谋仍然是可行的。为了缓解共谋行为并指导潜在的监管措施,本文提出在Q学习算法中加入惩罚项。

Read more...

ChartGemma:革新图表理解和推理的先进模型

ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild

摘要

本文介绍了一种名为ChartGemma的新型图表理解和推理模型,该模型通过直接从图表图像生成的指令调优数据进行训练,以捕捉图表的高级趋势和低级视觉信息。ChartGemma在多个基准测试中取得了最先进的结果,包括图表总结、问答和事实检查,并且在真实世界图表上的定性研究显示,ChartGemma生成的总结比同类模型更真实和事实正确。本文还公开了代码、模型检查点、数据集和演示。

Read more...

Craftium:开创性的3D视觉强化学习环境创建框架

Craftium: An Extensible Framework for Creating Reinforcement Learning Environments

摘要

本文介绍了一种名为Craftium的新型框架,用于创建和探索丰富的3D视觉强化学习(RL)环境。Craftium基于开源的Minetest游戏引擎和流行的Gymnasium API,旨在为研究人员提供高度定制化的环境,以满足特定的研究需求。该框架不仅支持简单的视觉任务,还能创建无限和程序生成的世界。此外,Craftium还提供了五个即用型环境,作为基准测试和开发新环境的示例。

Read more...

CRiM-GS:革命性的3D场景重建技术,从模糊图像到清晰视界

CRiM-GS: Continuous Rigid Motion-Aware Gaussian Splatting from Motion Blur Images

摘要

本文介绍了一种名为CRiM-GS的新型连续刚体运动感知高斯喷射方法,旨在从运动模糊图像中重建精确的3D场景,并实现实时渲染速度。该方法考虑了实际相机在曝光时间内由于相机移动导致的复杂运动模式,通过神经常微分方程(ODEs)预测相机的连续运动。具体而言,利用刚体变换来模拟相机运动,并通过适当的正则化保持物体的形状和大小。此外,引入了一个连续的可变形3D变换在SE(3)场中,以适应刚体变换到现实世界问题的需求,确保更高的自由度。通过重新审视基本的相机理论并采用先进的神经网络训练技术,实现了对连续相机轨迹的精确建模。实验结果表明,该方法在基准数据集上实现了最先进的性能,无论是在定量还是定性上。

Read more...
Previous Page 72 of 156 Next Page