Make-An-Agent:基于行为扩散模型的通用策略网络生成器
摘要
本文介绍了一种名为Make-An-Agent的创新策略参数生成器,该生成器利用条件扩散模型从行为演示中生成控制策略。通过行为嵌入编码轨迹信息,生成器合成潜在参数表示,进而解码为策略网络。该方法在多个任务上展示了卓越的多功能性和可扩展性,并能从未见过的任务中输出高性能策略,仅需少量演示作为输入。此外,该方法还能直接将生成的策略部署到真实世界的机器人上执行运动任务。
Read more...本文介绍了一种名为Make-An-Agent的创新策略参数生成器,该生成器利用条件扩散模型从行为演示中生成控制策略。通过行为嵌入编码轨迹信息,生成器合成潜在参数表示,进而解码为策略网络。该方法在多个任务上展示了卓越的多功能性和可扩展性,并能从未见过的任务中输出高性能策略,仅需少量演示作为输入。此外,该方法还能直接将生成的策略部署到真实世界的机器人上执行运动任务。
Read more...本文介绍了一种名为MetaLLM的高性能和成本效益动态框架,用于包装大型语言模型(LLMs)。随着机器学习的快速发展,出现了许多在各种任务和领域中表现出色的LLMs。这些模型在计算或定价方面具有不同的能力和成本。由于每个查询的需求可能因查询的领域或复杂性而异,因此在应用程序中默认使用一个LLM(无论是最大、最昂贵或平均测试性能最好的)通常不是最佳选择。因此,为应用程序选择既准确又成本效益高的LLM仍然是一个挑战。MetaLLM框架通过动态智能地将每个查询路由到最优的LLM(在多个可用的LLMs中),实现了显著提高的准确性和成本效益。通过将选择问题框架化为多臂老虎机问题,MetaLLM在不确定性下平衡了预测准确性和成本效率。实验结果显示,MetaLLM在实际场景中的有效性,为未来超越分类任务的扩展奠定了基础。
Read more...本文介绍了一种名为MStar的新型归纳知识图谱推理模型,该模型通过利用条件消息传递神经网络(C-MPNNs)来扩展渐进传播的范围,从而预测新实体的缺失事实。MStar的关键创新在于选择多个查询特定的起始实体,以扩大渐进传播的范围,并通过设计的高速公路层将查询相关消息传播到更远的区域。此外,本文还引入了一种名为LinkVerify的训练策略,以减轻噪声训练样本的影响。实验结果表明,MStar在处理远距离实体的查询时,性能优于现有的最先进模型。
Read more...本文介绍了一种名为Proteus的新型知识蒸馏框架,旨在将基础视觉模型(如CLIP和DINOv2)的知识转移到较小的模型中,而无需访问原始的大规模训练数据。Proteus通过在ImageNet-1K数据集上进行训练,实现了高效的模型压缩,同时保持了强大的泛化能力。该方法通过去除传统知识蒸馏中的设计偏差,并引入三个级别的训练目标(即token、patch和特征级别),最大化知识转移的效率。实验结果表明,Proteus在多个基准测试中与原始大型模型相媲美,甚至在某些情况下超越了它们,为更广泛的研究社区提供了训练基础模型的可访问性。
Read more...本文介绍了一种名为SEMINAR的新型终身序列推荐模型,该模型通过增强的多模态兴趣网络和近似检索技术,有效地解决了用户行为序列建模中的关键问题。SEMINAR模型特别针对用户长期行为序列中的ID嵌入学习不足和多模态特征对齐问题,提出了一种预训练搜索单元(PSU)来缓解这些问题。此外,为了加速在线检索速度,SEMINAR采用了一种基于多模态码本的产品量化策略,显著降低了时间复杂度。实验结果表明,SEMINAR在多个真实世界数据集上均表现出色,具有广泛的应用前景。
Read more...Spider2-V 是一篇关于多模态代理在自动化数据科学和工程工作流程中的应用的论文。论文主要探讨了随着视觉语言模型(VLMs)在多模态理解和代码生成方面的进步,基于 VLM 的代理如何通过生成 SQL 查询、Python 代码和 GUI 操作来潜在地自动化这些工作流程。这不仅能提高专家的生产力,还能使大规模数据分析更加民主化。Spider2-V 是首个专注于专业数据科学和工程工作流程的多模态代理基准,包含 494 个真实世界任务,涉及 20 个企业级专业应用。论文通过详细的工作原理、流程和应用前景分析,展示了现有最先进的 LLM/VLM 代理在自动化完整数据工作流程方面的不足,并希望 Spider2-V 能为自主多模态代理在数据科学和工程工作流程自动化方面的未来研究铺平道路。
Read more...SuperPADL论文介绍了一种创新的框架,用于通过语言指令控制基于物理的模拟角色动画。该框架结合了强化学习(RL)和监督学习,能够在大规模数据集上训练控制器,实现从文本到动作的转换。SuperPADL的核心优势在于其能够处理数千种不同的动作指令,并且能够在实时环境中运行,支持用户交互式地编辑和创建多阶段动画。论文展示了该框架在生成高质量、多样化的角色动画方面的显著性能,特别是在处理复杂的动作和自然语言指令方面。
Read more...本文介绍了一种基于视频扩散模型生成用户偏好的动态排版(Kinetic Typography)的方法。通过借鉴最新的视频扩散模型进展,本文实现了视觉上令人愉悦的文本外观。首先,构建了一个包含约60万视频的动态排版数据集,该数据集由专业动态图形设计师设计的584个模板组合而成,涉及字母位置、字形和大小(如飞行、故障、色差、反射效果等)的变化。其次,提出了一种用于动态排版的视频扩散模型,该模型需要满足美学外观、运动效果和可读字母三个要求。本文通过引入静态和动态字幕作为视频扩散模型的空间和时间引导,分别描述视频的整体外观和字母的运动背景。此外,通过零卷积指导确定视频中应显示的文本内容,并应用零卷积到文本内容,施加于扩散模型。最后,提出了一种仅最小化预测词与其真实值之间差异的字形损失,以使预测字母可读。实验表明,该模型能够根据文本提示生成具有清晰和艺术字母运动的动态排版视频。
Read more...本文介绍了一种快速且成本效益高的方法,用于在临床环境中使用低成本系统诊断心脏异常,具有高准确性和可靠性。主要挑战是自动诊断心脏疾病时正确和可接受的标记样本的稀缺性,这可能导致准备成本高昂。为解决这一问题,本文提出了两种方法:第一种是受人类听觉处理启发的独特多分支深度卷积神经网络(MBDCN)架构,通过使用不同大小的卷积滤波器和音频信号功率谱作为输入来优化特征提取。第二种方法称为长短期记忆-卷积神经(LSCN)模型,该网络架构包括长短期记忆(LSTM)网络块,以改善时间域中的特征提取。实验结果显示,所提出的方法在心音分类任务中优于现有技术,总体分类准确率超过96%。
Read more...本文旨在开发一种辅助诊断系统,用于分类异常肺呼吸音,通过创新的多标签学习方法和多头部注意力机制提高自动异常呼吸音分类的准确性。针对现有呼吸音数据集的类别不平衡和缺乏多样性的问题,研究采用轻量级且高度准确的模型,使用二维标签集来表示多种呼吸音特征。该方法在ICBHI2017数据集上的四分类任务中达到了59.2%的ICBHI评分,展示了其在轻量级和高准确性方面的优势。本文不仅提高了肺呼吸音异常自动诊断的准确性,还为临床应用开辟了新的可能性。
Read more...