IDEAL框架:革新大型语言模型在查询聚焦摘要中的应用

IDEAL: Leveraging Infinite and Dynamic Characterizations of Large Language Models for Query-focused Summarization

摘要

本文介绍了一种名为IDEAL的新型框架,用于利用大型语言模型(LLMs)进行查询聚焦摘要(QFS)。QFS旨在生成针对特定查询的摘要,以提高用户控制和个性化。IDEAL框架通过两个创新模块——Query-aware HyperExpert和Query-focused Infini-attention,有效地实现了对LLMs的细粒度查询对齐和长文档处理能力。实验结果表明,IDEAL在多个QFS基准测试中显著优于其他基线方法,展现了其在QFS技术领域的广泛应用前景。

Read more...

LightCL:边缘设备上的高效持续学习新算法

Efficient Continual Learning with Low Memory Footprint For Edge Device

摘要

本文由Zeqing Wang等人提出,针对边缘设备上的持续学习(Continual Learning, CL)问题,提出了一种名为LightCL的高效算法。该算法旨在解决神经网络训练中的灾难性遗忘问题,特别是在资源受限的边缘设备上。LightCL通过压缩神经网络中已泛化的组件的资源消耗,并使用少量额外资源增强其他部分的记忆,从而显著减少内存占用。论文通过引入学习可塑性(Learning Plasticity)和记忆稳定性(Memory Stability)两个新指标,评估了神经网络在持续学习过程中的泛化能力,并基于此设计了LightCL算法。实验结果表明,LightCL在延迟遗忘和减少内存占用方面优于现有最先进的方法。

Read more...

Make-An-Agent:基于行为扩散模型的通用策略网络生成器

Make-An-Agent: A Generalizable Policy Network Generator with Behavior-Prompted Diffusion

摘要

本文介绍了一种名为Make-An-Agent的创新策略参数生成器,该生成器利用条件扩散模型从行为演示中生成控制策略。通过行为嵌入编码轨迹信息,生成器合成潜在参数表示,进而解码为策略网络。该方法在多个任务上展示了卓越的多功能性和可扩展性,并能从未见过的任务中输出高性能策略,仅需少量演示作为输入。此外,该方法还能直接将生成的策略部署到真实世界的机器人上执行运动任务。

Read more...

MetaLLM:动态智能路由LLMs,实现高性能与成本效益的平衡

MetaLLM: A High-performant and Cost-efficient Dynamic Framework for Wrapping LLMs

摘要

本文介绍了一种名为MetaLLM的高性能和成本效益动态框架,用于包装大型语言模型(LLMs)。随着机器学习的快速发展,出现了许多在各种任务和领域中表现出色的LLMs。这些模型在计算或定价方面具有不同的能力和成本。由于每个查询的需求可能因查询的领域或复杂性而异,因此在应用程序中默认使用一个LLM(无论是最大、最昂贵或平均测试性能最好的)通常不是最佳选择。因此,为应用程序选择既准确又成本效益高的LLM仍然是一个挑战。MetaLLM框架通过动态智能地将每个查询路由到最优的LLM(在多个可用的LLMs中),实现了显著提高的准确性和成本效益。通过将选择问题框架化为多臂老虎机问题,MetaLLM在不确定性下平衡了预测准确性和成本效率。实验结果显示,MetaLLM在实际场景中的有效性,为未来超越分类任务的扩展奠定了基础。

Read more...

MStar:扩展知识图谱推理范围的新型归纳模型

Expanding the Scope: Inductive Knowledge Graph Reasoning with Multi-Starting Progressive Propagation

摘要

本文介绍了一种名为MStar的新型归纳知识图谱推理模型,该模型通过利用条件消息传递神经网络(C-MPNNs)来扩展渐进传播的范围,从而预测新实体的缺失事实。MStar的关键创新在于选择多个查询特定的起始实体,以扩大渐进传播的范围,并通过设计的高速公路层将查询相关消息传播到更远的区域。此外,本文还引入了一种名为LinkVerify的训练策略,以减轻噪声训练样本的影响。实验结果表明,MStar在处理远距离实体的查询时,性能优于现有的最先进模型。

Read more...

Proteus:在ImageNet级别成本下访问视觉基础模型的新方法

Accessing Vision Foundation Models at ImageNet-level Costs

摘要

本文介绍了一种名为Proteus的新型知识蒸馏框架,旨在将基础视觉模型(如CLIP和DINOv2)的知识转移到较小的模型中,而无需访问原始的大规模训练数据。Proteus通过在ImageNet-1K数据集上进行训练,实现了高效的模型压缩,同时保持了强大的泛化能力。该方法通过去除传统知识蒸馏中的设计偏差,并引入三个级别的训练目标(即token、patch和特征级别),最大化知识转移的效率。实验结果表明,Proteus在多个基准测试中与原始大型模型相媲美,甚至在某些情况下超越了它们,为更广泛的研究社区提供了训练基础模型的可访问性。

Read more...

SEMINAR:革新终身序列推荐的多模态兴趣网络与近似检索技术

SEMINAR: Search Enhanced Multi-modal Interest Network and Approximate Retrieval for Lifelong Sequential Recommendation

摘要

本文介绍了一种名为SEMINAR的新型终身序列推荐模型,该模型通过增强的多模态兴趣网络和近似检索技术,有效地解决了用户行为序列建模中的关键问题。SEMINAR模型特别针对用户长期行为序列中的ID嵌入学习不足和多模态特征对齐问题,提出了一种预训练搜索单元(PSU)来缓解这些问题。此外,为了加速在线检索速度,SEMINAR采用了一种基于多模态码本的产品量化策略,显著降低了时间复杂度。实验结果表明,SEMINAR在多个真实世界数据集上均表现出色,具有广泛的应用前景。

Read more...

Spider2-V:探索多模态代理在自动化数据科学和工程工作流程中的潜力

Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?

摘要

Spider2-V 是一篇关于多模态代理在自动化数据科学和工程工作流程中的应用的论文。论文主要探讨了随着视觉语言模型(VLMs)在多模态理解和代码生成方面的进步,基于 VLM 的代理如何通过生成 SQL 查询、Python 代码和 GUI 操作来潜在地自动化这些工作流程。这不仅能提高专家的生产力,还能使大规模数据分析更加民主化。Spider2-V 是首个专注于专业数据科学和工程工作流程的多模态代理基准,包含 494 个真实世界任务,涉及 20 个企业级专业应用。论文通过详细的工作原理、流程和应用前景分析,展示了现有最先进的 LLM/VLM 代理在自动化完整数据工作流程方面的不足,并希望 Spider2-V 能为自主多模态代理在数据科学和工程工作流程自动化方面的未来研究铺平道路。

Read more...

SuperPADL:通过渐进式监督蒸馏实现大规模语言导向的物理模拟控制

SuperPADL: Scaling Language-Directed Physics-Based Control with Progressive Supervised Distillation

摘要

SuperPADL论文介绍了一种创新的框架,用于通过语言指令控制基于物理的模拟角色动画。该框架结合了强化学习(RL)和监督学习,能够在大规模数据集上训练控制器,实现从文本到动作的转换。SuperPADL的核心优势在于其能够处理数千种不同的动作指令,并且能够在实时环境中运行,支持用户交互式地编辑和创建多阶段动画。论文展示了该框架在生成高质量、多样化的角色动画方面的显著性能,特别是在处理复杂的动作和自然语言指令方面。

Read more...

创新动态排版技术:KineTy模型引领文本动画新潮流

Kinetic Typography Diffusion Model

摘要

本文介绍了一种基于视频扩散模型生成用户偏好的动态排版(Kinetic Typography)的方法。通过借鉴最新的视频扩散模型进展,本文实现了视觉上令人愉悦的文本外观。首先,构建了一个包含约60万视频的动态排版数据集,该数据集由专业动态图形设计师设计的584个模板组合而成,涉及字母位置、字形和大小(如飞行、故障、色差、反射效果等)的变化。其次,提出了一种用于动态排版的视频扩散模型,该模型需要满足美学外观、运动效果和可读字母三个要求。本文通过引入静态和动态字幕作为视频扩散模型的空间和时间引导,分别描述视频的整体外观和字母的运动背景。此外,通过零卷积指导确定视频中应显示的文本内容,并应用零卷积到文本内容,施加于扩散模型。最后,提出了一种仅最小化预测词与其真实值之间差异的字形损失,以使预测字母可读。实验表明,该模型能够根据文本提示生成具有清晰和艺术字母运动的动态排版视频。

Read more...
Previous Page 5 of 156 Next Page