AGENTLESS:简化软件开发自动化的革命性方法

Agentless: Demystifying LLM-based Software Engineering Agents

摘要

本文介绍了一种名为AGENTLESS的新型软件开发自动化方法,该方法利用大型语言模型(LLMs)来解决软件开发中的问题,如代码合成、程序修复和测试生成。与依赖复杂自主软件代理的传统方法不同,AGENTLESS采用了一个简化的两阶段流程:定位和修复。通过在流行的SWE-bench Lite基准测试中展示出最高性能和最低成本,AGENTLESS证明了简单、可解释技术在自主软件开发中的潜力。本文还构建了一个更严格的基准SWE-bench Lite-S,以进行更严谨的评估和比较。

Read more...

AI代理评估的革新:解决现实应用中的关键问题

AI Agents That Matter

摘要

本文探讨了AI代理(agent)评估的当前实践及其在实际应用中的局限性。文章指出,现有的代理评估主要依赖于基准测试,但这些测试存在多个问题,如过度关注准确性而忽视成本、混淆模型开发者和下游开发者的需求、缺乏适当的保留集(holdout sets)以及评估实践缺乏标准化,导致难以复现结果。文章提出了一系列改进建议,包括成本控制评估、区分模型和下游评估需求、防止通过适当保留集进行捷径、以及提高评估实践的标准化。这些建议旨在推动AI代理的发展,使其不仅在基准测试中表现准确,而且在现实世界中真正有用。

Read more...

CAPABOOST:无需额外参数提升模型容量的简单策略

Increasing Model Capacity for Free: A Simple Strategy for Parameter Efficient Fine-tuning

摘要

本文介绍了一种名为CAPABOOST的新策略,用于在参数有效微调(PEFT)方法中无需增加额外参数即可提升模型容量。CAPABOOST通过在目标层的并行权重模块中利用低秩更新和静态随机掩码,构建了多样化的权重矩阵,从而有效提高了增量权重的秩,而无需增加参数。该方法可以无缝集成到现有的多种PEFT方法中,并通过在自然语言理解、问答和图像分类等多样化下游任务上的实验验证了其有效性。CAPABOOST不仅显著提升了基线性能,而且没有产生额外的计算或存储成本。

Read more...

CHARON:持续学习中基于骨骼的高效动作识别新基准

Mask and Compress: Efficient Skeleton-based Action Recognition in Continual Learning

摘要

本文介绍了一种在持续学习背景下基于骨骼数据的高效动作识别方法,名为CHARON(Continual Human Action Recognition On skeletoNs)。该方法通过均匀采样、插值和基于掩蔽的内存高效训练阶段,实现了在保持性能的同时减少计算开销。CHARON在Split NTU-60和Split NTU-120数据集上的实验表明,它在基于骨骼的动作识别领域设定了新的基准。论文还提供了代码链接,以便进一步研究和应用。

Read more...

CRAB框架:开启多模态语言模型代理的跨环境任务执行新纪元

CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents

摘要

本文介绍了一种名为CRAB的新型跨环境代理基准框架,旨在评估多模态语言模型代理在不同环境中的任务执行能力。CRAB框架通过图基的细粒度评估方法和高效的任构建机制,支持跨环境任务的评估,并能够轻松扩展到任何具有Python接口的环境。该框架支持多种设备,并开发了一个跨平台的CRAB基准-v0,包含100个任务,涉及计算机桌面和移动电话环境。实验结果显示,使用GPT-4o的单一代理在完成率上达到了35.26%的最佳表现。所有框架代码、代理代码和任务数据集均已公开发布。

Read more...

ESALE:提高代码摘要性能的新方法

ESALE: Enhancing Code-Summary Alignment Learning for Source Code Summarization

摘要

本文提出了一种名为 ESALE 的新方法,通过增强编码器对代码摘要对齐的学习来提高代码摘要性能。该方法基于大规模预训练的代码编码器,利用多任务学习范式,在三个摘要聚焦的任务上训练编码器,包括单向语言建模(ULM)、掩码语言建模(MLM)和动作词预测(AWP)。实验结果表明,ESALE 在所有三个广泛使用的自动指标 BLEU、METEOR 和 ROUGE-L 方面均显著优于基线,并且在人类评估中,ESALE 生成的摘要更具信息量且更接近真实摘要。

Read more...

GPT-4o 引领 LMM 迈向知识泛化阶段,WE-MATH 基准评估揭示视觉数学推理新进展

We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

摘要

本文提出了 WE-MATH,这是第一个用于深入分析 LMM 在视觉数学推理中的基准。WE-MATH 包含 6.5K 个视觉数学问题,涵盖 5 个层次和 67 个知识概念。此外,我们开创性地根据所需知识概念将复合问题分解为子问题,并引入了一种新颖的四维指标,用于精细推理评估。通过 WE-MATH,我们对现有的 LMM 在视觉数学推理方面进行了全面评估,并揭示了解题步骤与问题特定性能之间的负相关关系。我们还发现 IK 问题是 LMM 的最大漏洞,但 GPT-4o 的主要挑战已经从 IK 转移到 IG,这使其成为第一个迈向知识泛化阶段的 LMM。最后,对 KCA 策略和错误案例的分析进一步启发了现有的 LMM 向类人视觉数学推理发展。

Read more...

Holmes:早期网站指纹识别的新时代

Robust and Reliable Early-Stage Website Fingerprinting Attacks via Spatial-Temporal Distribution Analysis

摘要

本文由清华大学的三位研究人员Xinhao Deng、Qi Li和Ke Xu共同撰写,提出了一种名为Holmes的新型网站指纹识别(WF)攻击方法,该方法能够在网页加载的早期阶段通过时空分布分析有效地识别用户访问的网站。传统的基于深度学习的WF攻击依赖于收集完整的页面加载流量,这在实际应用中受到动态网络条件和多种防御机制的限制。Holmes通过分析网站流量的时间分布和空间分布,利用监督对比学习方法提取早期流量与预收集完整流量之间的关联,从而在网页加载的早期阶段实现鲁棒且可靠的网站识别。研究通过六个数据集的广泛评估,展示了Holmes相较于现有WF攻击在早期流量识别上的显著优势,特别是在暗网网站识别中,Holmes能够在页面加载平均仅21.71%的情况下成功识别网站,平均精度提升达到169.36%。

Read more...

IBSEN:开创性的导演-演员代理框架,引领可控交互式戏剧剧本生成新纪元

IBSEN: Director-Actor Agent Collaboration for Controllable and Interactive Drama Script Generation

摘要

本文介绍了一种名为IBSEN的创新框架,该框架通过导演和演员代理的协作,实现了可控和交互式的戏剧剧本生成。IBSEN框架允许用户指定剧情大纲,导演代理负责编写剧本并指导演员代理进行角色扮演,同时确保剧情按照既定目标发展。该框架通过引入人类玩家的参与,能够动态调整剧情细节,增强了剧本生成的互动性和可控性。实验结果表明,IBSEN能够从粗略的剧情目标中生成完整且多样化的戏剧剧本,同时保持角色的特性。

Read more...

ICorr:在噪声环境中实现不变风险最小化的新方法

Invariant Correlation of Representation with Label

摘要

本文介绍了一种名为ICorr(Invariant Correlation)的新方法,旨在解决在噪声环境中训练不变预测器的问题。ICorr方法通过在训练过程中强制表示与标签之间的相关性约束,从而在噪声环境中克服了IRM(Invariant Risk Minimization)相关技术的局限性。文章通过理论分析和实验验证,展示了ICorr在噪声环境中的有效性和优越性。

Read more...
Previous Page 103 of 156 Next Page