"革新CSI反馈:AI驱动的信道建模数据增强方法"

Channel Modeling Aided Dataset Generation for AI-Enabled CSI Feedback: Advances, Challenges, and Solutions

摘要

本文由Yupeng Li等人撰写,发表于IEEE VOL. 14, NO. 8, AUGUST 2023,主要探讨了在频率分复用(FDD)多输入多输出(MIMO)系统中,利用AI驱动的自动编码器进行信道状态信息(CSI)反馈的问题。文章提出了一种基于有限现场信道数据的信道建模辅助数据增强方法,旨在优化数据收集和增强,减少数据收集开销并增强模型泛化能力。通过模拟验证,该策略相较于基准方法能显著提升性能。

Read more...

AdvGrid:开创性的红外行人检测器多视角黑盒物理攻击方法

Multi-View Black-Box Physical Attacks on Infrared Pedestrian Detectors Using Adversarial Infrared Grid

摘要

本文介绍了一种针对红外行人检测器的多视角黑盒物理攻击方法——对抗红外网格(AdvGrid)。在可见光谱中,物理对抗攻击的研究已广泛开展,但在红外光谱中的相关研究仍有限。红外物体检测器在现代技术应用中至关重要,但易受对抗攻击的影响,构成重大安全威胁。本文提出的AdvGrid方法通过在行人服装内部循环应用网格格式的扰动,利用遗传算法进行黑盒优化,实现了对红外行人检测器的多视角黑盒物理攻击。实验验证了该方法的有效性、隐蔽性和鲁棒性,其在数字环境和物理环境中的攻击成功率分别达到80.00%和91.86%,优于基线方法。此外,该方法对主流检测器的平均攻击成功率超过50%,显示出其鲁棒性。本文还进行了消融研究、转移攻击和对抗防御分析,确认了该方法的优越性。

Read more...

AGENTLESS:简化软件开发自动化的革命性方法

Agentless: Demystifying LLM-based Software Engineering Agents

摘要

本文介绍了一种名为AGENTLESS的新型软件开发自动化方法,该方法利用大型语言模型(LLMs)来解决软件开发中的问题,如代码合成、程序修复和测试生成。与依赖复杂自主软件代理的传统方法不同,AGENTLESS采用了一个简化的两阶段流程:定位和修复。通过在流行的SWE-bench Lite基准测试中展示出最高性能和最低成本,AGENTLESS证明了简单、可解释技术在自主软件开发中的潜力。本文还构建了一个更严格的基准SWE-bench Lite-S,以进行更严谨的评估和比较。

Read more...

AI代理评估的革新:解决现实应用中的关键问题

AI Agents That Matter

摘要

本文探讨了AI代理(agent)评估的当前实践及其在实际应用中的局限性。文章指出,现有的代理评估主要依赖于基准测试,但这些测试存在多个问题,如过度关注准确性而忽视成本、混淆模型开发者和下游开发者的需求、缺乏适当的保留集(holdout sets)以及评估实践缺乏标准化,导致难以复现结果。文章提出了一系列改进建议,包括成本控制评估、区分模型和下游评估需求、防止通过适当保留集进行捷径、以及提高评估实践的标准化。这些建议旨在推动AI代理的发展,使其不仅在基准测试中表现准确,而且在现实世界中真正有用。

Read more...

CAPABOOST:无需额外参数提升模型容量的简单策略

Increasing Model Capacity for Free: A Simple Strategy for Parameter Efficient Fine-tuning

摘要

本文介绍了一种名为CAPABOOST的新策略,用于在参数有效微调(PEFT)方法中无需增加额外参数即可提升模型容量。CAPABOOST通过在目标层的并行权重模块中利用低秩更新和静态随机掩码,构建了多样化的权重矩阵,从而有效提高了增量权重的秩,而无需增加参数。该方法可以无缝集成到现有的多种PEFT方法中,并通过在自然语言理解、问答和图像分类等多样化下游任务上的实验验证了其有效性。CAPABOOST不仅显著提升了基线性能,而且没有产生额外的计算或存储成本。

Read more...

CHARON:持续学习中基于骨骼的高效动作识别新基准

Mask and Compress: Efficient Skeleton-based Action Recognition in Continual Learning

摘要

本文介绍了一种在持续学习背景下基于骨骼数据的高效动作识别方法,名为CHARON(Continual Human Action Recognition On skeletoNs)。该方法通过均匀采样、插值和基于掩蔽的内存高效训练阶段,实现了在保持性能的同时减少计算开销。CHARON在Split NTU-60和Split NTU-120数据集上的实验表明,它在基于骨骼的动作识别领域设定了新的基准。论文还提供了代码链接,以便进一步研究和应用。

Read more...

CRAB框架:开启多模态语言模型代理的跨环境任务执行新纪元

CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents

摘要

本文介绍了一种名为CRAB的新型跨环境代理基准框架,旨在评估多模态语言模型代理在不同环境中的任务执行能力。CRAB框架通过图基的细粒度评估方法和高效的任构建机制,支持跨环境任务的评估,并能够轻松扩展到任何具有Python接口的环境。该框架支持多种设备,并开发了一个跨平台的CRAB基准-v0,包含100个任务,涉及计算机桌面和移动电话环境。实验结果显示,使用GPT-4o的单一代理在完成率上达到了35.26%的最佳表现。所有框架代码、代理代码和任务数据集均已公开发布。

Read more...

ESALE:提高代码摘要性能的新方法

ESALE: Enhancing Code-Summary Alignment Learning for Source Code Summarization

摘要

本文提出了一种名为 ESALE 的新方法,通过增强编码器对代码摘要对齐的学习来提高代码摘要性能。该方法基于大规模预训练的代码编码器,利用多任务学习范式,在三个摘要聚焦的任务上训练编码器,包括单向语言建模(ULM)、掩码语言建模(MLM)和动作词预测(AWP)。实验结果表明,ESALE 在所有三个广泛使用的自动指标 BLEU、METEOR 和 ROUGE-L 方面均显著优于基线,并且在人类评估中,ESALE 生成的摘要更具信息量且更接近真实摘要。

Read more...

GPT-4o 引领 LMM 迈向知识泛化阶段,WE-MATH 基准评估揭示视觉数学推理新进展

We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

摘要

本文提出了 WE-MATH,这是第一个用于深入分析 LMM 在视觉数学推理中的基准。WE-MATH 包含 6.5K 个视觉数学问题,涵盖 5 个层次和 67 个知识概念。此外,我们开创性地根据所需知识概念将复合问题分解为子问题,并引入了一种新颖的四维指标,用于精细推理评估。通过 WE-MATH,我们对现有的 LMM 在视觉数学推理方面进行了全面评估,并揭示了解题步骤与问题特定性能之间的负相关关系。我们还发现 IK 问题是 LMM 的最大漏洞,但 GPT-4o 的主要挑战已经从 IK 转移到 IG,这使其成为第一个迈向知识泛化阶段的 LMM。最后,对 KCA 策略和错误案例的分析进一步启发了现有的 LMM 向类人视觉数学推理发展。

Read more...

Holmes:早期网站指纹识别的新时代

Robust and Reliable Early-Stage Website Fingerprinting Attacks via Spatial-Temporal Distribution Analysis

摘要

本文由清华大学的三位研究人员Xinhao Deng、Qi Li和Ke Xu共同撰写,提出了一种名为Holmes的新型网站指纹识别(WF)攻击方法,该方法能够在网页加载的早期阶段通过时空分布分析有效地识别用户访问的网站。传统的基于深度学习的WF攻击依赖于收集完整的页面加载流量,这在实际应用中受到动态网络条件和多种防御机制的限制。Holmes通过分析网站流量的时间分布和空间分布,利用监督对比学习方法提取早期流量与预收集完整流量之间的关联,从而在网页加载的早期阶段实现鲁棒且可靠的网站识别。研究通过六个数据集的广泛评估,展示了Holmes相较于现有WF攻击在早期流量识别上的显著优势,特别是在暗网网站识别中,Holmes能够在页面加载平均仅21.71%的情况下成功识别网站,平均精度提升达到169.36%。

Read more...
Previous Page 103 of 156 Next Page