"重塑视觉提示:多模态大型语言模型的新纪元"

Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge

摘要

本文探讨了多模态大型语言模型(MLLMs)在处理图像中细粒度或空间密集信息时的挑战。传统的MLLMs在处理需要理解详细或局部视觉元素的问题时存在局限性,如无法准确计数物体或输出特定物体的位置。为了解决这一问题,本文提出了一种新的视觉提示方法,通过集成来自专业视觉模型(如实例分割/OCR模型)的细粒度外部知识,直接将这些信息嵌入到空间嵌入图中作为视觉提示。这种方法可以显著提高MLLMs的视觉理解性能,尤其是在处理需要细粒度上下文感知的任务时。实验结果表明,该方法在九个基准测试中均能提升MLLM的性能。

Read more...

"零样本临床实体识别新框架:Entity Decomposition with Filtering (EDF)的先进性与应用"

Entity Decomposition with Filtering: A Zero-Shot Clinical Named Entity Recognition Framework

摘要

本文介绍了一种名为“Entity Decomposition with Filtering (EDF)”的零样本临床命名实体识别框架。该框架旨在通过分解实体识别任务为多个子实体类型的检索,并引入过滤机制来移除不正确的实体,从而提高开放式NER大型语言模型(LLMs)在临床NER任务中的性能。实验结果表明,EDF框架在所有指标、模型、数据集和实体类型上均显示出有效性,并能识别之前遗漏的实体。此外,本文还提供了全面的框架评估和深入的错误分析,为未来的工作铺平道路。

Read more...

“WATERFALL:开创性的文本水印框架,保护知识产权的新利器”

Waterfall: Framework for Robust and Scalable Text Watermarking

摘要

本文介绍了一种名为“WATERFALL”的创新框架,用于实现文本水印的鲁棒性和可扩展性。在知识产权保护日益重要的背景下,尤其是面对大型语言模型(LLM)等复杂攻击手段,现有的文本水印方法显得不够鲁棒和可扩展。WATERFALL框架首次采用无需训练的方法,适用于多种文本类型和语言,通过利用LLM的 paraphrasers 功能,结合新颖的技术组合,实现了强大的验证能力和可扩展性。实验证明,WATERFALL在可扩展性、鲁棒验证性和计算效率方面显著优于现有的文本水印方法,并能直接应用于代码水印。

Read more...

AI赋能高速铁路通信:创新移动管理技术的前沿探索

AI-Based Beam-Level and Cell-Level Mobility Management for High Speed Railway Communications

摘要

本文探讨了高速铁路(HSR)通信中的人工智能(AI)基于波束级和小区级移动性管理的问题背景,提出了一种结合压缩感知(CS)和AI的方法,以改善空间-时间波束预测和小区切换性能。该解决方案通过减少测量开销,提高了系统吞吐量,并展示了AI辅助小区切换相对于传统移动切换机制的性能增益。此外,该方法在保持与传统方法相当的无线链路故障性能的同时,能够节省50%的波束测量开销。

Read more...

ANAH-v2:突破大型语言模型幻觉检测的新前沿

ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models

摘要

本文介绍了一种名为ANAH-v2的迭代自训练框架,旨在解决大型语言模型(LLMs)在长篇问答任务中产生的幻觉问题。当前幻觉检测和缓解数据集在领域和规模上受限,且由于高昂的劳动力成本和现有幻觉标注器的不充分可靠性,难以扩展。ANAH-v2框架通过同时扩展幻觉标注数据集和提高标注器准确性,基于期望最大化(EM)算法,在每次迭代中应用幻觉标注流程并训练更准确的标注器。实验结果表明,最终获得的仅7B参数的标注器在HaluEval和HalluQA基准测试中通过零样本推理超越了GPT-4的性能,为LLMs的幻觉评估和缓解提供了新的前沿技术。

Read more...

AnySR:实现任意尺度与资源的高效图像超分辨率

AnySR: Realizing Image Super-Resolution as Any-Scale, Any-Resource

摘要

本文介绍了一种名为AnySR的新型图像超分辨率(SISR)方法,旨在提高单图像超分辨率应用的效率和可扩展性。AnySR通过将现有的任意尺度超分辨率方法重构为任意尺度、任意资源的实现,创新性地解决了在不同尺度上使用相同计算成本的传统方法的局限性。该方法通过构建任意尺度任务为任意资源实现,减少了小尺度任务的资源需求,同时通过特征交织方式增强任意尺度的性能,确保了正确的特征/尺度处理。实验证明,AnySR在五个流行的SISR测试数据集上重建了大多数现有的任意尺度SISR方法,并实现了计算效率更高的SISR任务,性能与现有方法相当。这是首次在文献中实现SISR任务不仅任意尺度,而且任意资源。代码可在GitHub上获取。

Read more...

LaRa:高效大基线辐射场重建技术的前沿探索

LaRa: Efficient Large-Baseline Radiance Fields

摘要

本文介绍了一种名为LaRa的高效大基线辐射场重建方法。该方法通过结合局部和全局推理的transformer层,实现了从稀疏输入视图中快速且高质量的360°辐射场重建。LaRa利用高斯体积作为3D表示,结合图像编码器和组注意力层,实现了高效的正向重建。实验结果表明,该模型在仅使用四块A100-40G GPU进行两天训练后,能够实现高保真的辐射场重建,并具有零样本泛化和域外测试的鲁棒性。

Read more...

LayerShuffle:提升视觉变换器鲁棒性的创新方法

LayerShuffle: Enhancing Robustness in Vision Transformers by Randomizing Layer Execution Order

摘要

本文介绍了一种名为LayerShuffle的新方法,旨在增强视觉变换器(Vision Transformers)在测试时对层执行顺序随机化的鲁棒性。由于人工神经网络的架构和训练方式,通常在测试时对层进行剪枝、替换或重新排序会导致性能下降。然而,对于分布式神经网络架构等应用,这些特性是可取的,因为在这些应用中,执行顺序无法保证,或者网络的一部分在推理过程中可能失败。LayerShuffle通过在训练时随机化注意力模块的执行顺序,使视觉变换器能够在测试时适应任意层执行顺序,尽管这会导致约20%的准确性下降。此外,训练后的模型可以相互随机合并,形成功能性的“Frankenstein”模型,而不会损失性能。最后,模型在测试时进行层剪枝,发现其性能下降是渐进的。

Read more...

MAF-YOLO:引领实时物体检测的新纪元

Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection

摘要

本文介绍了一种名为MAF-YOLO的新型物体检测框架,该框架通过引入多分支辅助FPN(MAFPN)和重新参数化的异构高效层聚合网络(RepHELAN)模块,有效解决了传统YOLO系列算法在多尺度特征融合方面的局限性。MAF-YOLO通过其先进的特征融合和处理机制,不仅提高了物体检测的准确性,还在保持模型轻量化的同时,实现了对小目标检测的显著改进。该模型在COCO数据集上的表现优于现有的实时物体检测器,展示了其在实际应用中的广阔前景。

Read more...

MARS:引领文本到图像人物搜索的新纪元

MARS: Paying more attention to visual attributes for text-based person search

摘要

本文介绍了一种名为MARS(Mae-Attribute-Relation-Sensitive)的新型文本到图像人物搜索(TBPS)架构,该架构通过引入视觉重建损失和属性损失来增强现有最先进模型的性能。TBPS任务是根据文本描述检索特定个体的图像,面临的主要挑战包括身份间噪声(文本描述的模糊性和不精确性)和身份内变化(如姿态、光照等)。MARS通过使用掩码自编码器(MAE)重建随机掩码的图像块,并结合文本描述,鼓励模型学习更具表达性的表示和文本-视觉关系。属性损失则确保每个属性在人物检索过程中得到平衡考虑。实验结果表明,MARS在三个常用数据集上显著提高了平均精度(mAP)指标,展现了其在文本到图像人物搜索领域的先进性。

Read more...
Previous Page 65 of 156 Next Page