Meta 3D AssetGen:革命性的文本到3D生成技术,开启高质量3D内容创作新纪元

Meta 3D AssetGen: Text-to-Mesh Generation with High-Quality Geometry, Texture, and PBR Materials

摘要

本文介绍了一种名为Meta 3D AssetGen的先进技术,该技术能够从文本或图像生成高质量的3D网格,包括详细的纹理和物理基础渲染(PBR)材料。与传统方法不同,AssetGen不仅生成3D对象的外观,还能支持真实的环境光照重现。该技术通过生成多个视角的图像,并利用延迟着色损失进行有效监督,从而实现高效的3D重建。此外,AssetGen还引入了符号距离函数(SDF)来更可靠地表示3D形状,并通过UV空间中的纹理细化变换器显著提高了纹理的清晰度和细节。实验结果显示,AssetGen在少视角重建方面相较于最佳并发工作有显著改进,并且在人类偏好测试中优于行业竞争对手。

Read more...

Meta 3D TextureGen:革命性的3D纹理生成技术,开启创作新纪元

Meta 3D TextureGen: Fast and Consistent Texture Generation for 3D Objects

摘要

本文介绍了一种名为Meta 3D TextureGen的新型前馈方法,旨在为任意复杂度的几何体生成高质量且全局一致的纹理。该方法利用文本到图像模型的适应性,通过在2D空间中对3D语义进行条件化,并将它们融合成完整的、高分辨率的UV纹理图,从而在不到20秒的时间内实现纹理生成。此外,还引入了一个纹理增强网络,能够将任何纹理按任意比例放大,生成4K像素分辨率的纹理。该方法在质量和速度上均达到了最先进的结果,适用于游戏、动画和虚拟/混合现实等多种应用场景。

Read more...

MTMamba:革新多任务场景理解的新型Mamba架构

MTMamba: Enhancing Multi-Task Dense Scene Understanding by Mamba-Based Decoders

摘要

本文介绍了一种名为MTMamba的新型多任务密集场景理解架构,该架构基于Mamba解码器,旨在提高多任务学习中的长距离依赖建模和任务间交互。MTMamba包含两种核心模块:自我任务Mamba(STM)和跨任务Mamba(CTM)。STM通过利用Mamba处理长距离依赖,而CTM则明确建模任务间的交互,促进任务间的信息交换。实验结果表明,MTMamba在NYUDv2和PASCAL-Context数据集上的表现优于基于Transformer和CNN的方法,特别是在PASCAL-Context数据集上,MTMamba在语义分割、人体解析和对象边界检测任务中分别比之前的最佳方法提高了+2.08、+5.01和+4.90。

Read more...

Neurocache:革新长文档处理的大型语言模型扩展方法

Neurocache: Efficient Vector Retrieval for Long-range Language Modeling

摘要

本文介绍了一种名为Neurocache的新方法,旨在通过使用外部向量缓存来扩展大型语言模型(LLMs)的有效上下文大小。Neurocache利用高效的k-最近邻(kNN)算法从缓存中检索相关过去状态,并将其整合到注意力过程中。该方法通过存储压缩状态、每个令牌执行单次检索操作以及扩展检索窗口至相邻状态,提高了推理速度和下游任务的准确性。实验表明,无论是从头开始训练的模型还是如Llama27B和Mistral-7B这样的预训练模型,Neurocache都能有效提升其性能。此外,Neurocache在与文本检索方法的比较中,在单文档问答和少样本学习任务中显示出改进。

Read more...

PhIHP:利用物理知识优化强化学习的效率与性能

Physics-Informed Model and Hybrid Planning for Efficient Dyna-Style Reinforcement Learning

摘要

本文介绍了一种名为PhIHP的新型强化学习方法,该方法通过利用系统动力学的部分物理知识来解决在实际应用中强化学习面临的样本效率、推理时间和渐近性能之间的权衡问题。PhIHP方法通过学习一个物理信息模型来提高样本效率,并从该模型生成虚构轨迹以学习无模型策略和Q函数。此外,提出了一种混合规划策略,结合学习到的策略和Q函数与学习到的模型,以提高规划中的时间效率。通过实际演示,本文展示了PhIHP方法在样本效率、时间效率和性能方面优于现有最先进的方法。

Read more...

PromptIntern:通过内部化提示知识优化大型语言模型推理效率

PromptIntern: Saving Inference Costs by Internalizing Recurrent Prompt during Large Language Model Fine-tuning

摘要

本文介绍了一种名为PromptIntern的新方法,旨在通过内部化重复的提示知识到模型参数中,以减少大型语言模型(LLMs)在推理过程中的计算负担。在实际应用中,对于重复查询,相似的提示组件会导致显著的计算负担。现有的提示压缩和直接微调方法往往难以在成本效率和性能效果之间找到最佳平衡,尤其是在复杂的任务如NL2Code中。PromptIntern方法通过逐步微调,使LLMs能够模拟人类学习新任务的过程,其中详细的模板和示例在提示中逐渐被内部化并逐步淘汰,从而使模型适应任务。实验表明,该方法减少了超过90%的推理令牌,加速了4.2倍的推理速度,并节省了88.3%的成本。

Read more...

RankRAG:统一上下文排序与检索增强生成,引领LLM新纪元

RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

摘要

本文介绍了一种名为RankRAG的新型指令微调框架,该框架统一了上下文排序与检索增强生成(RAG)在大型语言模型(LLMs)中的应用。RankRAG通过在训练混合中加入少量排序数据,使单一LLM同时具备上下文排序和答案生成的能力,显著超越了现有的专家排序模型。在生成任务中,RankRAG在多个知识密集型基准测试中表现优异,包括在生物医学领域的应用,展示了其出色的泛化能力和对新领域的适应性。

Read more...

RISC-V R-Extension:革新边缘设备DNN处理的效率与智能

RISC-V R-Extension: Advancing Efficiency with Rented-Pipeline for Edge DNN Processing

摘要

本文由Sungkyunkwan University的研究团队提出,针对边缘设备上深度神经网络(DNN)推理任务的效率问题,引入了一种名为RISC-V R-extension的新型架构扩展。该扩展通过创新的rented-pipeline机制和使用architectural pipeline registers(APR),显著优化了关键操作的执行,减少了延迟和内存访问频率。此外,R-extension还包括新的自定义指令,以支持这些架构改进。通过全面的分析,研究显示R-extension在边缘设备处理中提供了显著的性能提升,为更响应和智能的边缘应用奠定了基础。

Read more...

RLHF 让大模型学会说多种语言

RLHF Can Speak Many Languages: Unlocking Multilingual Preference Optimization for LLMs

摘要

本文旨在研究如何通过强化学习从人类反馈(RLHF)来优化多语言大型语言模型(LLM),以实现更好的对齐效果。研究发现,增加多语言数据、使用在线优化方法和扩大训练语言数量等因素都可以提高模型的性能。此外,该研究还发现,即使只有英语数据进行偏好优化,也能在其他语言上提升性能,而增加更多语言则可以进一步增强跨语言转移能力。

Read more...

SafaRi:引领弱监督指代表达分割的新纪元

SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation

摘要

本文介绍了一种名为SafaRi的自适应序列转换器,用于弱监督的指代表达分割(Referring Expression Segmentation, RES)任务。该方法通过引入新的算法创新,解决了现有方法需要大规模掩码标注且在未见/零样本场景中泛化能力差的问题。SafaRi是首个仅使用部分掩码和边界框标注进行训练的方法,通过跨模态融合与注意力一致性模块(X-FACt)和伪标签有效性过滤程序(MVF),显著提高了图像与文本区域级对齐和目标对象的空间定位能力。实验表明,仅使用30%的标注数据,SafaRi在RefCOCO+@testA和RefCOCO+testB数据集上的表现优于完全监督的SOTA方法SeqTR,并展示了在未见/零样本任务中的强大泛化能力。

Read more...
Previous Page 93 of 156 Next Page