MARLIN:革新零售内部物流的云集成服务机器人

MARLIN: A Cloud Integrated Robotic Solution to Support Intralogistics in Retail

摘要

本文介绍了一种名为MARLIN的服务机器人系统,该系统与K4R平台集成,K4R平台是一个用于零售领域复杂AI应用的云系统。MARLIN通过与K4R平台的持续数据交换,提升了其在感知、自主导航和任务规划方面的能力。文章详细描述了MARLIN在零售内部物流场景中的应用,特别是在协助商店员工补货方面的能力。实验结果表明,MARLIN能够更新零售商店的数字表示,检测和分类障碍物,自主规划和执行补货任务,适应环境中的意外变化,并与商店员工进行交互。此外,文章还评估了一种用于自主导航的铰接式牵引挂车系统的新算法,该算法在狭窄空间中的导航能力优于制造商的专有导航方法。

Read more...

MeMemo:开启设备端检索增强与个性化文本生成的新纪元

MeMemo: On-device Retrieval Augmentation for Private and Personalized Text Generation

摘要

本文介绍了一种名为MeMemo的创新工具,它是一个开源的JavaScript工具包,专门设计用于在浏览器环境中进行设备端密集检索增强的文本生成。MeMemo通过利用先进的近似最近邻搜索技术HNSW,解决了大型语言模型(LLMs)在数据隐私要求严格的领域(如个人财务、教育和医疗)中的应用限制。该工具通过在客户端进行向量存储和密集检索,不仅保护了用户数据隐私,还降低了AI初学者和日常LLM用户的应用门槛。MeMemo的开发和应用展示了其在私密和个性化内容创建以及交互式原型设计方面的广阔前景。

Read more...

Meta 3D AssetGen:革命性的文本到3D生成技术,开启高质量3D内容创作新纪元

Meta 3D AssetGen: Text-to-Mesh Generation with High-Quality Geometry, Texture, and PBR Materials

摘要

本文介绍了一种名为Meta 3D AssetGen的先进技术,该技术能够从文本或图像生成高质量的3D网格,包括详细的纹理和物理基础渲染(PBR)材料。与传统方法不同,AssetGen不仅生成3D对象的外观,还能支持真实的环境光照重现。该技术通过生成多个视角的图像,并利用延迟着色损失进行有效监督,从而实现高效的3D重建。此外,AssetGen还引入了符号距离函数(SDF)来更可靠地表示3D形状,并通过UV空间中的纹理细化变换器显著提高了纹理的清晰度和细节。实验结果显示,AssetGen在少视角重建方面相较于最佳并发工作有显著改进,并且在人类偏好测试中优于行业竞争对手。

Read more...

Meta 3D TextureGen:革命性的3D纹理生成技术,开启创作新纪元

Meta 3D TextureGen: Fast and Consistent Texture Generation for 3D Objects

摘要

本文介绍了一种名为Meta 3D TextureGen的新型前馈方法,旨在为任意复杂度的几何体生成高质量且全局一致的纹理。该方法利用文本到图像模型的适应性,通过在2D空间中对3D语义进行条件化,并将它们融合成完整的、高分辨率的UV纹理图,从而在不到20秒的时间内实现纹理生成。此外,还引入了一个纹理增强网络,能够将任何纹理按任意比例放大,生成4K像素分辨率的纹理。该方法在质量和速度上均达到了最先进的结果,适用于游戏、动画和虚拟/混合现实等多种应用场景。

Read more...

MTMamba:革新多任务场景理解的新型Mamba架构

MTMamba: Enhancing Multi-Task Dense Scene Understanding by Mamba-Based Decoders

摘要

本文介绍了一种名为MTMamba的新型多任务密集场景理解架构,该架构基于Mamba解码器,旨在提高多任务学习中的长距离依赖建模和任务间交互。MTMamba包含两种核心模块:自我任务Mamba(STM)和跨任务Mamba(CTM)。STM通过利用Mamba处理长距离依赖,而CTM则明确建模任务间的交互,促进任务间的信息交换。实验结果表明,MTMamba在NYUDv2和PASCAL-Context数据集上的表现优于基于Transformer和CNN的方法,特别是在PASCAL-Context数据集上,MTMamba在语义分割、人体解析和对象边界检测任务中分别比之前的最佳方法提高了+2.08、+5.01和+4.90。

Read more...

Neurocache:革新长文档处理的大型语言模型扩展方法

Neurocache: Efficient Vector Retrieval for Long-range Language Modeling

摘要

本文介绍了一种名为Neurocache的新方法,旨在通过使用外部向量缓存来扩展大型语言模型(LLMs)的有效上下文大小。Neurocache利用高效的k-最近邻(kNN)算法从缓存中检索相关过去状态,并将其整合到注意力过程中。该方法通过存储压缩状态、每个令牌执行单次检索操作以及扩展检索窗口至相邻状态,提高了推理速度和下游任务的准确性。实验表明,无论是从头开始训练的模型还是如Llama27B和Mistral-7B这样的预训练模型,Neurocache都能有效提升其性能。此外,Neurocache在与文本检索方法的比较中,在单文档问答和少样本学习任务中显示出改进。

Read more...

PhIHP:利用物理知识优化强化学习的效率与性能

Physics-Informed Model and Hybrid Planning for Efficient Dyna-Style Reinforcement Learning

摘要

本文介绍了一种名为PhIHP的新型强化学习方法,该方法通过利用系统动力学的部分物理知识来解决在实际应用中强化学习面临的样本效率、推理时间和渐近性能之间的权衡问题。PhIHP方法通过学习一个物理信息模型来提高样本效率,并从该模型生成虚构轨迹以学习无模型策略和Q函数。此外,提出了一种混合规划策略,结合学习到的策略和Q函数与学习到的模型,以提高规划中的时间效率。通过实际演示,本文展示了PhIHP方法在样本效率、时间效率和性能方面优于现有最先进的方法。

Read more...

PromptIntern:通过内部化提示知识优化大型语言模型推理效率

PromptIntern: Saving Inference Costs by Internalizing Recurrent Prompt during Large Language Model Fine-tuning

摘要

本文介绍了一种名为PromptIntern的新方法,旨在通过内部化重复的提示知识到模型参数中,以减少大型语言模型(LLMs)在推理过程中的计算负担。在实际应用中,对于重复查询,相似的提示组件会导致显著的计算负担。现有的提示压缩和直接微调方法往往难以在成本效率和性能效果之间找到最佳平衡,尤其是在复杂的任务如NL2Code中。PromptIntern方法通过逐步微调,使LLMs能够模拟人类学习新任务的过程,其中详细的模板和示例在提示中逐渐被内部化并逐步淘汰,从而使模型适应任务。实验表明,该方法减少了超过90%的推理令牌,加速了4.2倍的推理速度,并节省了88.3%的成本。

Read more...

RankRAG:统一上下文排序与检索增强生成,引领LLM新纪元

RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

摘要

本文介绍了一种名为RankRAG的新型指令微调框架,该框架统一了上下文排序与检索增强生成(RAG)在大型语言模型(LLMs)中的应用。RankRAG通过在训练混合中加入少量排序数据,使单一LLM同时具备上下文排序和答案生成的能力,显著超越了现有的专家排序模型。在生成任务中,RankRAG在多个知识密集型基准测试中表现优异,包括在生物医学领域的应用,展示了其出色的泛化能力和对新领域的适应性。

Read more...

RISC-V R-Extension:革新边缘设备DNN处理的效率与智能

RISC-V R-Extension: Advancing Efficiency with Rented-Pipeline for Edge DNN Processing

摘要

本文由Sungkyunkwan University的研究团队提出,针对边缘设备上深度神经网络(DNN)推理任务的效率问题,引入了一种名为RISC-V R-extension的新型架构扩展。该扩展通过创新的rented-pipeline机制和使用architectural pipeline registers(APR),显著优化了关键操作的执行,减少了延迟和内存访问频率。此外,R-extension还包括新的自定义指令,以支持这些架构改进。通过全面的分析,研究显示R-extension在边缘设备处理中提供了显著的性能提升,为更响应和智能的边缘应用奠定了基础。

Read more...
Previous Page 93 of 156 Next Page