“WATERFALL:开创性的文本水印框架,保护知识产权的新利器”

Waterfall: Framework for Robust and Scalable Text Watermarking

摘要

本文介绍了一种名为“WATERFALL”的创新框架,用于实现文本水印的鲁棒性和可扩展性。在知识产权保护日益重要的背景下,尤其是面对大型语言模型(LLM)等复杂攻击手段,现有的文本水印方法显得不够鲁棒和可扩展。WATERFALL框架首次采用无需训练的方法,适用于多种文本类型和语言,通过利用LLM的 paraphrasers 功能,结合新颖的技术组合,实现了强大的验证能力和可扩展性。实验证明,WATERFALL在可扩展性、鲁棒验证性和计算效率方面显著优于现有的文本水印方法,并能直接应用于代码水印。

Read more...

AI赋能高速铁路通信:创新移动管理技术的前沿探索

AI-Based Beam-Level and Cell-Level Mobility Management for High Speed Railway Communications

摘要

本文探讨了高速铁路(HSR)通信中的人工智能(AI)基于波束级和小区级移动性管理的问题背景,提出了一种结合压缩感知(CS)和AI的方法,以改善空间-时间波束预测和小区切换性能。该解决方案通过减少测量开销,提高了系统吞吐量,并展示了AI辅助小区切换相对于传统移动切换机制的性能增益。此外,该方法在保持与传统方法相当的无线链路故障性能的同时,能够节省50%的波束测量开销。

Read more...

ANAH-v2:突破大型语言模型幻觉检测的新前沿

ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models

摘要

本文介绍了一种名为ANAH-v2的迭代自训练框架,旨在解决大型语言模型(LLMs)在长篇问答任务中产生的幻觉问题。当前幻觉检测和缓解数据集在领域和规模上受限,且由于高昂的劳动力成本和现有幻觉标注器的不充分可靠性,难以扩展。ANAH-v2框架通过同时扩展幻觉标注数据集和提高标注器准确性,基于期望最大化(EM)算法,在每次迭代中应用幻觉标注流程并训练更准确的标注器。实验结果表明,最终获得的仅7B参数的标注器在HaluEval和HalluQA基准测试中通过零样本推理超越了GPT-4的性能,为LLMs的幻觉评估和缓解提供了新的前沿技术。

Read more...

AnySR:实现任意尺度与资源的高效图像超分辨率

AnySR: Realizing Image Super-Resolution as Any-Scale, Any-Resource

摘要

本文介绍了一种名为AnySR的新型图像超分辨率(SISR)方法,旨在提高单图像超分辨率应用的效率和可扩展性。AnySR通过将现有的任意尺度超分辨率方法重构为任意尺度、任意资源的实现,创新性地解决了在不同尺度上使用相同计算成本的传统方法的局限性。该方法通过构建任意尺度任务为任意资源实现,减少了小尺度任务的资源需求,同时通过特征交织方式增强任意尺度的性能,确保了正确的特征/尺度处理。实验证明,AnySR在五个流行的SISR测试数据集上重建了大多数现有的任意尺度SISR方法,并实现了计算效率更高的SISR任务,性能与现有方法相当。这是首次在文献中实现SISR任务不仅任意尺度,而且任意资源。代码可在GitHub上获取。

Read more...

LaRa:高效大基线辐射场重建技术的前沿探索

LaRa: Efficient Large-Baseline Radiance Fields

摘要

本文介绍了一种名为LaRa的高效大基线辐射场重建方法。该方法通过结合局部和全局推理的transformer层,实现了从稀疏输入视图中快速且高质量的360°辐射场重建。LaRa利用高斯体积作为3D表示,结合图像编码器和组注意力层,实现了高效的正向重建。实验结果表明,该模型在仅使用四块A100-40G GPU进行两天训练后,能够实现高保真的辐射场重建,并具有零样本泛化和域外测试的鲁棒性。

Read more...

LayerShuffle:提升视觉变换器鲁棒性的创新方法

LayerShuffle: Enhancing Robustness in Vision Transformers by Randomizing Layer Execution Order

摘要

本文介绍了一种名为LayerShuffle的新方法,旨在增强视觉变换器(Vision Transformers)在测试时对层执行顺序随机化的鲁棒性。由于人工神经网络的架构和训练方式,通常在测试时对层进行剪枝、替换或重新排序会导致性能下降。然而,对于分布式神经网络架构等应用,这些特性是可取的,因为在这些应用中,执行顺序无法保证,或者网络的一部分在推理过程中可能失败。LayerShuffle通过在训练时随机化注意力模块的执行顺序,使视觉变换器能够在测试时适应任意层执行顺序,尽管这会导致约20%的准确性下降。此外,训练后的模型可以相互随机合并,形成功能性的“Frankenstein”模型,而不会损失性能。最后,模型在测试时进行层剪枝,发现其性能下降是渐进的。

Read more...

MAF-YOLO:引领实时物体检测的新纪元

Multi-Branch Auxiliary Fusion YOLO with Re-parameterization Heterogeneous Convolutional for accurate object detection

摘要

本文介绍了一种名为MAF-YOLO的新型物体检测框架,该框架通过引入多分支辅助FPN(MAFPN)和重新参数化的异构高效层聚合网络(RepHELAN)模块,有效解决了传统YOLO系列算法在多尺度特征融合方面的局限性。MAF-YOLO通过其先进的特征融合和处理机制,不仅提高了物体检测的准确性,还在保持模型轻量化的同时,实现了对小目标检测的显著改进。该模型在COCO数据集上的表现优于现有的实时物体检测器,展示了其在实际应用中的广阔前景。

Read more...

MARS:引领文本到图像人物搜索的新纪元

MARS: Paying more attention to visual attributes for text-based person search

摘要

本文介绍了一种名为MARS(Mae-Attribute-Relation-Sensitive)的新型文本到图像人物搜索(TBPS)架构,该架构通过引入视觉重建损失和属性损失来增强现有最先进模型的性能。TBPS任务是根据文本描述检索特定个体的图像,面临的主要挑战包括身份间噪声(文本描述的模糊性和不精确性)和身份内变化(如姿态、光照等)。MARS通过使用掩码自编码器(MAE)重建随机掩码的图像块,并结合文本描述,鼓励模型学习更具表达性的表示和文本-视觉关系。属性损失则确保每个属性在人物检索过程中得到平衡考虑。实验结果表明,MARS在三个常用数据集上显著提高了平均精度(mAP)指标,展现了其在文本到图像人物搜索领域的先进性。

Read more...

PDiscoFormer:利用视觉变换器实现无监督部分发现的革命性进展

PDiscoFormer: Relaxing Part Discovery Constraints with Vision Transformers

摘要

本文介绍了一种名为PDiscoFormer的新型人工智能模型,该模型利用视觉变换器(ViT)来放松传统计算机视觉方法中对物体部分检测的严格几何约束。传统的部分发现方法通常假设发现的部分应该是小而紧凑的,这在某些情况下是有用的,但在处理具有复杂形状或多个实例的对象时可能不适用。PDiscoFormer通过使用自监督的DINOv2 ViT模型,引入了一种总变差(TV)先验,允许部分具有多个连接组件的任意大小,从而在三个细粒度分类基准(CUB、PartImageNet和Oxford Flowers)上显著优于先前的方法。该模型不仅在部分发现指标上取得了显著改进,而且在下游分类任务上也表现出色,显示出自监督ViT模型中强大的归纳偏差需要重新考虑用于无监督部分发现的形状先验。

Read more...

VETE:一种革命性的神经网络框架,用于编码癌症特征和预测药物反应

Variational and Explanatory Neural Networks for Encoding Cancer Profiles and Predicting Drug Responses

摘要

本文介绍了一种名为VETE(Variational and Explanatory Transcriptomics Encoder)的新型神经网络框架,旨在通过整合变分组件和可追踪的基因本体(Gene Ontology, GO)来编码癌症转录组数据,从而预测抗癌药物反应。VETE的关键创新包括一种局部可解释性引导的方法来识别本体路径,一个可视化工具来阐明药物反应的生物机制,以及应用集中式大规模超参数优化。VETE在癌症细胞系分类和药物反应预测方面展示了强大的准确性,并提供了可追踪的生物学解释,为癌症研究中AI驱动的预测与生物学意义的洞察之间架起了桥梁。

Read more...
Previous Page 65 of 156 Next Page