IBSEN：开创性的导演-演员代理框架，引领可控交互式戏剧剧本生成新纪元

Posted on 2024-07-01 in CS.AI • 14 words • 1 minute read

摘要

本文介绍了一种名为IBSEN的创新框架，该框架通过导演和演员代理的协作，实现了可控和交互式的戏剧剧本生成。IBSEN框架允许用户指定剧情大纲，导演代理负责编写剧本并指导演员代理进行角色扮演，同时确保剧情按照既定目标发展。该框架通过引入人类玩家的参与，能够动态调整剧情细节，增强了剧本生成的互动性和可控性。实验结果表明，IBSEN能够从粗略的剧情目标中生成完整且多样化的戏剧剧本，同时保持角色的特性。

ICorr：在噪声环境中实现不变风险最小化的新方法

Posted on 2024-07-01 in CS.AI • 17 words • 1 minute read

摘要

本文介绍了一种名为ICorr（Invariant Correlation）的新方法，旨在解决在噪声环境中训练不变预测器的问题。ICorr方法通过在训练过程中强制表示与标签之间的相关性约束，从而在噪声环境中克服了IRM（Invariant Risk Minimization）相关技术的局限性。文章通过理论分析和实验验证，展示了ICorr在噪声环境中的有效性和优越性。

MARS：引领机器人精确感知铰接物体的新时代

Posted on 2024-07-01 in CS.AI • 8 words • 1 minute read

摘要

本文介绍了一种名为MARS的先进框架，旨在精确感知铰接物体的关节参数，这对于服务机器人的功能至关重要。传统的研究主要依赖于单一的点云数据，忽略了重要的纹理和光照细节，并假设理想的观察视角，这在现实世界中并不常见。MARS通过多模态融合模块和基于强化学习的主动感知策略，实现了对铰接物体关节参数的精确估计，并能在非理想视角下自主优化观察视角，显著提高了机器人在复杂环境中的操作效率和准确性。

Meerkat：音频-视觉大语言模型的新突破

Posted on 2024-07-01 in CS.AI • 41 words • 1 minute read

摘要

本文介绍了一种名为 Meerkat 的音频-视觉大语言模型，它可以在图像和音频中进行时空定位。该模型具有两个关键模块，即模态对齐模块和交叉注意力模块，能够学习更好的联合音频-视觉表示，从而增强下游任务。此外，作者还引入了 MeerkatBench，它统一了五个不同的音频-视觉任务，并创建了一个新的大型指令调整数据集 AVFIT，以支持这些任务的训练。实验结果表明，该模型在所有这些下游任务上都取得了最先进的性能，相对改进高达 37.12%。

Memory3：配备显式记忆的语言模型

Posted on 2024-07-01 in CS.AI • 78 words • 1 minute read

$$\text{Memory}^3$: Language Modeling with Explicit Memory$

摘要

本文介绍了一种名为 Memory3 的语言模型，它通过配备显式记忆来降低大语言模型（LLM）的训练和推理成本。Memory3 利用显式记忆在推理过程中减轻模型参数记忆特定知识的负担，其显式记忆从知识库编码而来，并通过稀疏存储格式保持实际存储大小。作者训练了一个具有 2.4B 非嵌入参数的 Memory3 模型，其性能优于更大规模的 LLM 和 RAG 模型，并且在推理速度上也优于 RAG。此外，Memory3 提高了事实性并减轻了幻觉，还能快速适应专业任务。

MIRAI：评估 LLM 国际事件预测能力的新基准

Posted on 2024-07-01 in CS.AI • 41 words • 1 minute read

摘要

本文介绍了一种名为 MIRAI 的新型基准，用于评估大型语言模型（LLM）在国际事件预测中的能力。该基准具有创新性，能够评估 LLM 作为时间预测器的能力，并提供了一种系统的方法来评估 LLM 在不同时间范围和预测任务上的性能。通过使用 MIRAI，研究人员可以更好地了解 LLM 在国际事件预测中的优势和局限性，并为未来的研究和应用提供指导。

PHM-LM：下一代 PHM 技术的突破

Posted on 2024-07-01 in CS.AI • 32 words • 1 minute read

摘要

本文提出了一种新的 PHM-LM 概念和三个渐进式范式，以解决 PHM 技术发展面临的挑战。PHM-LM 是一种基于大型模型的人工智能技术，具有强大的泛化能力、推理能力和生成能力。本文还介绍了 PHM-LM 的工作原理、工作流程和应用前景，为 PHM 技术的发展提供了新的思路和方法。

REGMIX：通过回归实现语言模型预训练的数据混合

Posted on 2024-07-01 in CS.AI • 22 words • 1 minute read

摘要

本文提出了一种名为 REGMIX 的方法，用于自动识别大型语言模型预训练的高性能数据混合。该方法通过将数据混合问题表述为回归任务，并训练小型模型来预测不同数据混合的影响，从而能够高效地识别最佳混合，然后将其推广到大规模模型训练中。

RISE框架：利用少量标注数据实现机器人实例分割的突破

Posted on 2024-07-01 in CS.AI • 10 words • 1 minute read

摘要

本文介绍了一种名为RISE的新型框架，旨在解决机器人实例分割中标注数据稀缺的问题。RISE结合了半监督学习（SSL）和通过交互学习（LTI）的方法，使得模型能够在仅有少量标注数据的情况下，通过自我监督和利用未标注图像中的时间上下文来提高性能。该方法在ARMBench和OCID两个常见基准测试中达到了最先进的性能，特别是在ARMBench上，RISE在仅使用1%的标注数据时，其AP50得分达到了84.89，显著优于现有方法。

RoboPack：通过触觉感知动力学模型实现机器人的高级物体操纵

Posted on 2024-07-01 in CS.AI • 8 words • 1 minute read

摘要

本文介绍了一种名为RoboPack的新型框架，该框架通过学习结合视觉和触觉感知的神经动力学模型，使机器人能够在密集包装等任务中理解和操纵具有未知物理属性的物体。RoboPack采用循环图神经网络来估计物体状态，包括粒子和物体级别的潜在物理信息，并进行未来状态预测。该模型通过真实世界数据学习，能够解决下游机器人任务，如非抓握操纵和密集包装，其中机器人必须从直接和间接交互中推断物体的物理属性。

Previous Page 104 of 156 Next Page