MemWarp:革命性的心脏图像注册框架,无需分割掩码的高效不连续性保持技术

MemWarp: Discontinuity-Preserving Cardiac Registration with Memorized Anatomical Filters

摘要

本文介绍了一种名为MemWarp的新型学习框架,用于解决心脏图像注册中的不连续性问题。传统的基于学习的方法通常假设变形场是全局平滑和连续的,但在心脏图像注册中,由于呼吸和胸腔内器官滑动的影响,不同解剖区域表现出不对称运动,导致全局约束无法适应器官边界处的局部不连续性。MemWarp通过利用记忆网络存储针对不同解剖区域的典型信息,有效地解决了这一问题,并在公开的心脏数据集上实现了显著的注册准确性提升。

Read more...

Mobility VLA:革命性的多模态指令导航系统

Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs

摘要

本文介绍了一种名为Mobility VLA的新型导航系统,该系统利用长上下文视觉语言模型(VLMs)和拓扑图来实现多模态指令导航。Mobility VLA通过结合高层次的VLM和低层次的基于拓扑图的导航策略,能够理解包括自然语言和图像在内的多模态输入,并执行有效的导航任务。该系统在836平方米的真实环境中进行了评估,显示出在处理先前未解决的多模态指令(如“我应该把这个还到哪里?”同时手持塑料箱)时具有高成功率。

Read more...

Radformer:革命性的视觉语言模型在放射治疗目标自动描绘中的应用

Large Language Model-Augmented Auto-Delineation of Treatment Target Volume in Radiation Therapy

摘要

本文介绍了一种名为Radformer的视觉语言模型,用于增强放射治疗中治疗目标体积的自动描绘。放射治疗的成功在很大程度上依赖于目标的准确描绘,但目前这一过程主要依赖于人工,存在时间消耗大、劳动强度高和观察者间变异等问题。Radformer模型结合了分层视觉变换器和大型语言模型,通过视觉语言注意力模块(VLAM)整合视觉和语言特征,实现了语言感知的视觉编码(LAVE)。该模型在2985名头颈癌患者的放射治疗数据集上进行了评估,显示出优于现有模型的分割性能,验证了其在放射治疗实践中的潜在应用价值。

Read more...

Rectifier:革新代码翻译的微型通用错误纠正器

Rectifier: Code Translation with Corrector via LLMs

摘要

本文探讨了在软件工程中代码翻译的重要问题,特别是在使用大型语言模型(LLMs)进行代码翻译时产生的错误。早期研究主要依赖手工翻译规则,这种方法容易出错且耗时。近年来,研究人员开始探索使用预训练的LLMs进行代码翻译,但这些模型在翻译过程中会产生多种类型的错误,包括编译错误、运行时错误、功能错误和非终止执行。本文提出了一种通用的纠正器——Rectifier,它是一个微型且通用的模型,用于修复由任何LLM生成的翻译错误。实验结果显示,Rectifier在C++、Java和Python之间的翻译任务中具有有效的修复能力,并且跨实验也证明了其方法的鲁棒性。

Read more...

RoLoRA:通过旋转技术实现大型语言模型的高效权重-激活量化

RoLoRA: Fine-tuning Rotated Outlier-free LLMs for Effective Weight-Activation Quantization

摘要

本文介绍了一种名为RoLoRA的新型低秩适应(LoRA)方法,旨在有效实现大型语言模型(LLMs)的权重-激活量化。RoLoRA通过旋转技术消除激活异常值,并提出旋转感知微调以保持旋转后LLMs的无异常值特性。实验结果表明,RoLoRA在低比特LoRA收敛和后训练量化鲁棒性方面持续改进,尤其在4比特权重-激活量化设置下,相比LoRA基线在常识推理任务上实现了高达29.5%的绝对准确度提升。此外,RoLoRA还展示了其在大规模多模态模型(如LLaVA-1.5-7B)上的有效性。

Read more...

ROSA:突破传统微调限制,实现高效零延迟模型适应

ROSA: Random Subspace Adaptation for Efficient Fine-Tuning

摘要

本文介绍了一种名为“随机子空间适应”(ROSA)的新型参数高效微调(PEFT)方法,旨在解决大型模型训练过程中内存需求高的问题。ROSA通过在训练过程中不断采样不同的低秩可训练子空间并迭代合并学习信息,实现了在保持零延迟的同时,显著提高了下游任务的性能。该方法在自然语言生成(NLG)和自然语言理解(NLU)任务中,特别是在GPT-2和RoBERTa模型上,表现出了优于现有PEFT方法(如LoRA)的性能。

Read more...

Swiss DINO:开启设备上个人物品搜索的新纪元

Swiss DINO: Efficient and Versatile Vision Framework for On-device Personal Object Search

摘要

本文介绍了一种名为Swiss DINO的高效且多功能的视觉框架,专门用于设备上的个人物品搜索。该框架解决了家庭机器人设备中视觉系统个性化的问题,特别是在个人物品的定位和识别方面。Swiss DINO基于DINOv2变换器模型,具有强大的零样本泛化能力,能够在不进行任何适应性训练的情况下处理设备上的个性化场景理解需求。与现有的轻量级解决方案相比,Swiss DINO在分割和识别准确性上提高了55%,同时在骨干推理时间和GPU消耗上分别减少了100倍和10倍。

Read more...

TinyGraph:革命性的图神经网络训练加速框架

TinyGraph: Joint Feature and Node Condensation for Graph Neural Networks

摘要

本文介绍了一种名为TinyGraph的新型框架,旨在解决大规模图神经网络(GNNs)训练中的计算成本问题。传统的图凝聚研究仅通过减少图中的节点数量来解决问题,但这种方法在节点特征维度较高时仍然效率低下。TinyGraph通过同时凝聚节点和特征,有效地减少了图的大小,同时保留了关键信息。该框架采用梯度匹配技术,确保在训练过程中浓缩图与原始图的梯度一致,从而保持图的结构信息。实验结果表明,TinyGraph在多个数据集上显著减少了节点和特征的数量,同时保持了高测试准确率,显示出其在图神经网络训练中的高效性和应用潜力。

Read more...

Toto:开创性的时间序列优化转换器,引领观测性数据分析新纪元

Toto: Time Series Optimized Transformer for Observability

摘要

本文介绍了一种名为Toto的新型时间序列预测基础模型,由Datadog开发。Toto模型专门针对观测性指标进行了优化,不仅在电力和天气等多个领域的时间序列基准测试中达到了最先进的水平,而且是首个专门为观测性指标调整的通用时间序列预测基础模型。Toto模型在包含一万亿时间序列数据点的数据集上进行了训练,其中75%的数据来自Datadog平台的全匿名数值指标数据点。实验结果显示,Toto在观测性数据上的表现优于现有时间序列基础模型,并在多个开放基准数据集上实现了零样本学习的最先进性能。

Read more...

Toto:开创性的时间序列预测模型,引领观测性数据分析的未来

Toto: Time Series Optimized Transformer for Observability

摘要

本文介绍了一种名为Toto的新型时间序列优化Transformer模型,该模型由Datadog开发,专门用于观测性指标的预测。Toto模型在电力和天气等多个领域的通用时间序列基准测试中取得了最先进的性能,并且是首个针对观测性指标进行专门调优的通用时间序列预测基础模型。该模型通过引入先进的注意力机制和学生-T混合模型头,有效地捕捉了时间序列数据的复杂动态,并在多个开放基准数据集上实现了零样本性能的领先。

Read more...
Previous Page 28 of 156 Next Page