"GenAI在6G无线网络中的革命性应用:优化需求规划,节省能源与频谱"

Strategic Demand-Planning in Wireless Networks: Can Generative-AI Save Spectrum and Energy?

摘要

本文探讨了在无线网络中通过生成式人工智能(GenAI)进行战略需求规划的可能性,特别是在节省频谱和能源方面的应用。随着第六代移动通信技术(6G)的发展,GenAI被提出作为一种强大的工具,用于在无线网络中进行需求塑造,通过压缩和转换各种类型的内容(如从高带宽模式转换为低带宽模式),从而提高网络在多种使用场景下的性能,如小区切换、用户关联和负载平衡、干扰管理以及灾难场景管理。

Read more...

"kNN-UE:革新自然语言处理任务中的不确定性估计"

Efficient Nearest Neighbor based Uncertainty Estimation for Natural Language Processing Tasks

摘要

本文介绍了一种基于最近邻(k-Nearest Neighbor, kNN)的不确定性估计方法(kNN-UE),用于自然语言处理任务中的深度神经网络(DNNs),特别是预训练语言模型(PLMs)。在安全关键应用中,可信预测至关重要,但DNNs常常在不确定性估计方面存在问题,如校准不当。传统的多随机推理方法虽能缓解此问题,但其高昂的推理成本使其不切实际。kNN-UE方法通过利用邻居的距离和标签存在比率来估计不确定性,实验表明,该方法在情感分析、自然语言推理和命名实体识别任务中,无论是在域内还是域外设置下,都优于基线方法或最近的密度基方法。此外,研究还表明,通过适当的组合,引入维度缩减或近似最近邻搜索可以减少推理开销,而不会显著降低估计性能。

Read more...

"LlamAr & GemmAr: 革新阿拉伯语NLP的大型语言模型微调技术"

LlamAr & GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning

摘要

本文介绍了一种针对阿拉伯语指令调优的大型语言模型(LLM)增强方法,通过创建新的阿拉伯语指令数据集InstAr-500k,并对其进行评估和微调,以提升模型在阿拉伯语自然语言处理(NLP)任务中的性能。研究团队开发了两个先进的模型LlamAr-8B和GemmAr-7B,这些模型在多个阿拉伯语NLP基准测试中达到了最先进的性能,强调了该数据集在提升阿拉伯语语言模型能力方面的重要性。

Read more...

"ReSFU:革新图像分割的特征上采样技术"

A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling

摘要

本文介绍了一种基于相似性的特征上采样方法,旨在解决图像分割任务中特征上采样的基本问题。传统的相似性特征上采样方法存在一些局限性,如高分辨率(HR)查询和低分辨率(LR)关键特征未能在可控方式下对齐,相似性计算缺乏灵活性,以及邻域选择在LR特征上粗糙操作导致马赛克伪影。为了克服这些问题,作者提出了一种全新的相似性特征上采样框架——ReSFU,通过精心优化每个方法设计,实现了在直接高比例上采样中的广泛应用,并在多种分割任务中展现了卓越的通用性和部署便利性。

Read more...

"RVISA:隐式情感分析的新纪元 - 结合生成与推理的力量"

RVISA: Reasoning and Verification for Implicit Sentiment Analysis

摘要

本文介绍了一种名为RVISA的新型两阶段推理框架,旨在提高隐式情感分析(ISA)的准确性。随着对细粒度情感分析(SA)需求的增加,隐式情感分析由于缺乏明显的线索词而成为一个重大挑战。RVISA框架利用Decoder-only(DO)大型语言模型(LLMs)的生成能力和Encoder-Decoder(ED)LLMs的推理能力,通过三跳推理提示和验证机制来训练增强的推理器。该方法在两个基准数据集上实现了最先进的ISA性能。

Read more...

"S-GEAR:利用语义互联性革新动作预测技术"

Semantically Guided Representation Learning For Action Anticipation

摘要

本文介绍了一种名为S-GEAR的新型框架,用于动作预测(action anticipation),该框架利用动作之间的语义互联性(semantic interconnectivity)。动作预测是从部分观察到的事件序列中预测未来活动,这一任务面临内在的未来不确定性和推理相互关联动作的难度。S-GEAR通过学习视觉动作原型并利用语言模型来构建它们之间的关系,从而引入语义性。该框架在四个动作预测基准测试中取得了比先前工作更好的结果,并展示了动作语义互联性的复杂影响。

Read more...

"SAVE模型:革新音频-视觉分割的轻量级解决方案"

SAVE: Segment Audio-Visual Easy way using Segment Anything Model

摘要

本文介绍了一种名为SAVE的轻量级音频-视觉分割(AVS)模型,该模型通过适应预训练的Segment Anything Model(SAM)来高效地识别和定位视觉场景中的听觉元素。SAVE模型通过引入图像编码器适配器和残差音频编码器适配器,实现了音频-视觉特征的有效融合和交互。该方法在保持输入分辨率降低至256像素的同时,显著提高了训练和推理速度,并在多个基准测试中超越了现有的最先进方法。SAVE模型的应用前景广泛,特别是在需要精确分割的视频监控、多模态视频编辑和机器人技术等领域。

Read more...

"SAVE模型:革新音频-视觉分割的轻量级解决方案"

SAVE: Segment Audio-Visual Easy way using Segment Anything Model

摘要

本文介绍了一种名为SAVE的轻量级音频-视觉分割(AVS)模型,该模型通过适应预训练的Segment Anything Model(SAM)来精确识别和定位视觉场景中的听觉元素。SAVE模型通过引入图像编码器适配器和残余音频编码器适配器,有效地融合了音频和视觉特征,提高了分割性能,同时降低了输入分辨率,加快了训练和推理速度。实验结果表明,SAVE模型在AVSBench数据集上显著优于现有的最先进方法,特别是在低分辨率输入下表现出色。

Read more...

"TADPoLe:利用文本感知扩散模型实现零样本策略学习"

Text-Aware Diffusion for Policy Learning

摘要

本文介绍了一种名为Text-Aware Diffusion for Policy Learning (TADPoLe)的新型强化学习框架,该框架利用预训练的、冻结的文本条件扩散模型来计算密集的零样本奖励信号,以支持文本对齐的策略学习。TADPoLe的提出是为了解决在缺乏专家演示的情况下,通过强化学习训练代理实现特定目标或执行所需行为时,需要手动设计适当的奖励函数的问题。该方法假设大规模预训练生成模型编码了丰富的先验知识,可以监督策略不仅以文本对齐的方式行为,而且与从互联网规模训练数据中总结的自然性概念相一致。实验证明,TADPoLe能够在Humanoid和Dog环境中,以及Meta-World环境中的机器人操作任务中,学习由自然语言指定的新的目标达成和连续运动行为。这些行为是在没有地面真实奖励或专家演示的情况下零样本学习的,并且在人类评估中被认为在质量上更自然。

Read more...

"VLM-PC:革新四足机器人自主导航的未来技术"

Commonsense Reasoning for Legged Robot Adaptation with Vision-Language Models

摘要

本文介绍了一种名为VLM-Predictive Control (VLM-PC)的系统,该系统利用视觉-语言模型(VLMs)的常识推理能力,使四足机器人能够适应各种复杂的现实环境。VLM-PC通过结合上下文适应和未来技能规划两个关键组件,使机器人能够在没有详细人类指导的情况下,自主感知、导航和行动。研究团队在Go1四足机器人上进行了多项挑战性实验,结果显示VLM-PC显著提高了机器人在复杂环境中的自主导航能力。

Read more...
Previous Page 88 of 156 Next Page