探索SHORTCUTSBENCH:大型API基准测试的先进性与挑战

ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents

摘要

本文介绍了一种名为SHORTCUTSBENCH的大型基准测试,用于评估基于API的代理在处理具有不同难度级别、多样任务类型和实际需求的任务时的能力。该基准测试包括来自Apple Inc.操作系统的丰富真实API、来自快捷方式的精炼用户查询、快捷方式开发者人工标注的高质量动作序列以及关于原始参数类型、枚举参数类型、前一动作输出和需要从系统或用户请求必要信息的参数的准确填充值。通过评估使用领先的开源和闭源大型语言模型(LLMs)构建的代理,发现这些代理在处理与API选择、参数填充和从系统和用户请求必要信息相关的复杂查询时存在显著局限性。这些发现强调了基于API的代理在有效满足真实和复杂用户查询方面面临的挑战。所有数据集、代码和实验结果将在GitHub上公开。

Read more...

探索人工智能系统的可靠性:故障分析与故障注入的研究综述

A Survey on Failure Analysis and Fault Injection in AI Systems

摘要

本文是对人工智能系统故障分析和故障注入的综述,旨在探索和评估人工智能系统故障分析和故障注入的现有研究。文章对相关论文和代码库进行了系统回顾,分析了故障分析和故障注入在人工智能系统不同层中的应用,并指出了现有研究的不足和未来的研究方向。

Read more...

探索全球视野:提升人工智能的多元文化理解能力

From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models

摘要

本文介绍了一项名为GLOBALRG的基准测试,旨在评估视觉-语言模型(VLMs)在非西方文化图像上的表现。由于训练数据集中西方文化图像的过度代表性,VLMs在处理非西方文化图像时表现不佳。GLOBALRG包含两个任务:跨文化通用概念检索和文化特定视觉定位。通过广泛的模型评估,研究发现模型在不同文化间的性能存在显著差异,强调了提升VLMs多元文化理解能力的必要性。

Read more...

探索大型语言模型中的异常标记检测:AnomaLLMy技术的突破与应用

AnomaLLMy – Detecting anomalous tokens in black-box LLMs through low-confidence single-token predictions

摘要

本文介绍了一种名为AnomaLLMy的新技术,用于自动检测大型语言模型(LLMs)中的异常标记。该技术通过API访问,利用低置信度的单标记预测作为成本效益指标,识别模型行为中的不规则性。在GPT-4的cl100k_base数据集上验证,AnomaLLMy检测到413个主要和65个次要异常,证明了该方法的高效性,仅花费了$24.39的API信用。这项研究有望增强LLMs的鲁棒性和准确性,特别是在标记器的开发和评估方面。

Read more...

探索大语言模型的不确定性:一种基于凸包分析的新方法

Uncertainty Quantification in Large Language Models Through Convex Hull Analysis

摘要

本论文探讨了在大规模语言模型(LLMs)中量化不确定性的重要性,特别是在高风险应用中需要可靠输出的场景。传统的概率模型和集成技术在处理LLMs生成的高维复杂输出时面临挑战。为此,研究提出了一种新颖的几何方法,利用凸包分析来量化模型输出的分散性和变异性。该方法通过将响应嵌入转换为高维空间,并使用主成分分析(PCA)和密度聚类(DBSCAN)算法进行处理,从而计算每个聚类的凸包面积,以此作为不确定性的度量。实验结果表明,模型的不确定性取决于提示的复杂性、模型本身以及温度设置。

Read more...

探索工具增强型LLMs的幻觉问题:ToolBH基准的全面诊断与应用前景

ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models

摘要

本文介绍了一种名为ToolBH的综合诊断基准,用于评估工具增强型大型语言模型(LLMs)中的幻觉问题。由于缺乏相关基准,社区对这些模型中的幻觉问题理解不足。ToolBH基准通过深度和广度两个角度评估LLMs的幻觉现象。在深度方面,提出多层次诊断过程,包括可解性检测、解决方案规划和缺失工具分析。在广度方面,考虑三种基于工具集特征的场景:缺失必要工具、潜在工具和功能受限工具。此外,通过多轮人工注释收集了700个评估样本,结果显示ToolBH基准对现有先进模型如Gemini-1.5-Pro和GPT-4o提出了显著挑战。本文的诊断分析指出,模型错误的主要原因是评估任务可解性。此外,开放权重模型在冗长回复中性能下降,而专有模型在较长推理中表现更佳。

Read more...

探索情感识别的新前沿:基于注意力机制的双模态深度学习方法

A Simple Attention-Based Mechanism for Bimodal Emotion Classification

摘要

本文介绍了一种基于注意力机制的双模态情感分类方法,由Mazen Elabd和Sardar Jaf在2024年提出。该研究主要针对从文本和语音数据中自动识别人类情感的挑战,提出了一种新颖的深度学习架构,该架构结合了文本和语音信息,通过注意力机制增强特征提取能力,从而提高情感分类的准确性。研究结果表明,这种双模态方法在情感分类任务上优于单一模态方法,并且其提出的注意力机制在多个基准测试中达到了最先进的性能。

Read more...

探索数字孪生中的机器学习管道:Function+Data Flow框架的革命性应用

Function+Data Flow: A Framework to Specify Machine Learning Pipelines for Digital Twinning

摘要

本文介绍了一种名为Function+Data Flow (FDF)的领域特定语言(DSL),旨在简化数字孪生(DT)中机器学习(ML)管道的描述和验证。数字孪生技术在物理系统的开发中越来越依赖于人工智能,特别是在数据源的整合和计算效率高的降维模型创建方面。尽管数字孪生在不同应用领域中采用了类似的技术,如模型阶数减少和混合数据模型化,但当前的开发实践往往是临时的,使得设计AI管道变得复杂且耗时。FDF通过将函数视为一等公民,使得学习到的模型能够被有效操作,从而简化了数字孪生的设计和验证过程。本文通过两个不同领域的具体案例——结构塑性应变预测和电磁轴承行为建模——展示了FDF的优势。

Read more...

探索文本到图像生成模型的质量、偏见与性能:一项综合分析

Analyzing Quality, Bias, and Performance in Text-to-Image Generative Models

摘要

本文探讨了文本到图像生成模型中的质量、偏见和性能问题。尽管这些模型能够生成高质量的图像,但它们往往存在性别或社会偏见。研究不仅通过定性评估模型生成准确图像的能力,还通过社会偏见分析来全面理解这些模型的影响和局限性。研究发现,容量较大的模型能生成更高质量的图像,但同时也揭示了这些模型固有的偏见问题。

Read more...

探索文本生成的新边界:FourierGPT如何通过频谱分析揭示人类与模型语言的微妙差异

Detecting Subtle Differences between Human and Model Languages Using Spectrum of Relative Likelihood

摘要

本文由南方科技大学计算机科学与工程系及比勒费尔德大学的研究人员共同撰写,提出了一种新颖的方法——FourierGPT,用于检测人类文本与模型生成文本之间的细微差异。随着语言模型生成文本能力的不断提升,传统的基于绝对似然值的检测方法变得越来越难以区分人类与模型生成的文本。FourierGPT通过使用相对似然值的频谱视图来提取特征,提出了一种监督学习和启发式零样本检测方法,这两种方法在短文本检测任务中均取得了与现有零样本检测方法相竞争甚至更优的性能。该方法不仅能够揭示人类与模型语言之间的微妙差异,而且在计算上更为经济,能够有效地区分短文本中的人类与模型生成文本。

Read more...
Previous Page 125 of 156 Next Page