探索 PaliGemma:多功能 3B VLM 的卓越性能与广泛应用

PaliGemma: A versatile 3B VLM for transfer

摘要

本文介绍了一种名为 PaliGemma 的多功能 3B 视觉语言模型(VLM)。该模型基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型,旨在成为一种通用且知识渊博的基础模型,能够有效地进行迁移。它在各种开放世界任务中取得了出色的性能。

<工作原理> PaliGemma 的工作原理是将输入的图像和文本描述作为输入,通过图像编码器将图像转换为一系列图像标记,通过语言模型将文本转换为文本标记,然后将图像标记和文本标记输入到解码器中,生成预测的文本输出。

<工作流程> PaliGemma 的工作流程包括以下几个步骤:

  1. 图像编码:使用 SigLIP 图像编码器将输入图像转换为图像标记。
  2. 文本编码:使用 Gemma 的 SentencePiece 标记器将输入文本转换为文本标记,并使用 Gemma 的词汇嵌入层进行嵌入。
  3. 标记连接:将图像标记和文本标记连接起来,形成输入标记序列。
  4. 解码器预测:使用 Gemma 解码器对输入标记序列进行预测,生成预测的文本输出。

<应用前景> PaliGemma 具有广泛的应用前景,包括但不限于以下领域:

  1. 图像分类:可以对输入图像进行分类,识别图像中的物体、场景等。
  2. 图像描述生成:可以根据输入图像生成相应的描述文本。
  3. 视觉问答:可以回答关于输入图像的问题。
  4. 文本生成:可以根据输入的文本提示生成相应的文本内容。
  5. 多模态任务:可以应用于多种多模态任务,如图像-文本检索、图像-文本匹配等。

<标题> 探索 PaliGemma:多功能 3B VLM 的卓越性能与广泛应用

Read more...

探索AI红队测试的人类因素:社会与协作计算的新视角

The Human Factor in AI Red Teaming: Perspectives from Social and Collaborative Computing

摘要

本文探讨了人工智能(AI)红队测试中的人类因素,这是一个源自军事和网络安全应用的对抗性测试实践。随着AI技术的快速发展,红队测试在AI领域的重要性日益增加,但同时也带来了一系列关于红队成员选择、测试过程中的偏见和盲点,以及有害内容对红队成员心理影响的问题。本文通过社会和协作计算的视角,分析了红队测试的概念、劳动实践、以及红队成员的福祉和潜在伤害,旨在建立一个跨学科的研究和实践网络,以促进AI红队测试的创新和负责任的发展。

Read more...

探索C-Instructor:引领可控导航指令生成的新纪元

Controllable Navigation Instruction Generation with Chain of Thought Prompting

摘要

本文介绍了一种名为C-Instructor的先进导航指令生成系统,该系统利用大型语言模型(LLMs)和思维链提示(chain-of-thought prompting)技术,实现了风格可控和内容可控的指令生成。C-Instructor通过提出一种结合地标的思维链(CoTL)机制,引导LLM识别关键地标并生成完整的导航指令,从而提高了指令的可执行性和可控性。此外,C-Instructor还引入了一种空间拓扑建模任务(STMT),以增强对环境空间结构的认知,并通过风格混合训练(SMT)策略,使模型能够根据不同提示生成不同风格的指令。实验结果表明,C-Instructor在文本指标、导航引导评估和用户研究中均优于以往的方法。

Read more...

探索CHILLI:一种数据上下文感知的扰动方法,提升AI的可解释性

CHILLI: A data context-aware perturbation method for XAI

摘要

本文探讨了在机器学习(ML)模型中提高可解释性AI(XAI)的重要性,特别是在高风险或伦理敏感的应用中。传统的XAI方法通过扰动数据来近似模型行为,但这些方法常常忽视特征依赖性,导致解释基于可能不现实的数据。为了解决这一问题,本文提出了一种新的框架——CHILLI,该框架通过生成与基础模型训练数据一致的上下文感知扰动,来提高解释的合理性和准确性。CHILLI框架的提出,为ML模型的可解释性提供了新的视角和方法,特别是在需要高度信任和理解的领域。

Read more...

探索Dual-Inf:利用大型语言模型实现可解释的差异诊断

Interpretable Differential Diagnosis with Dual-Inference Large Language Models

摘要

本文介绍了一种名为“Dual-Inf”的创新框架,该框架利用大型语言模型(LLMs)进行可解释的差异诊断(DDx)。该研究的核心目标是自动化生成差异诊断,并提供相应的诊断解释,这对于临床推理和决策支持系统至关重要。论文通过开发一个新的DDx数据集和提出一个新颖的双向推理框架,展示了LLMs在预测不同疾病和提供诊断解释方面的有效性。实验结果表明,Dual-Inf在DDx解释方面相较于基线方法有显著的性能提升,特别是在罕见疾病诊断和解释方面展现出巨大潜力。

Read more...

探索MixSumm:一种创新的数据增强框架在低资源抽取式文本摘要中的应用

MixSumm: Topic-based Data Augmentation using LLMs for Low-resource Extractive Text Summarization

摘要

本文介绍了一种名为MixSumm的新型数据增强框架,专门用于低资源环境下的抽取式文本摘要任务。MixSumm利用开源大型语言模型LLaMA-3-70b生成包含多个主题信息的文档,并在此基础上训练摘要模型。通过在多个挑战性文本摘要基准数据集上的广泛实验,证明了MixSumm在低资源抽取式摘要任务中优于近期的基于提示的方法。此外,研究还展示了从LLaMA-3-70b到小型BERT基抽取式摘要器的有效知识蒸馏。

Read more...

探索ReLU Transformer中的层依赖激活稀疏性模式:揭示训练动态与模型性能的新视角

Uncovering Layer-Dependent Activation Sparsity Patterns in ReLU Transformers

摘要

本文深入探讨了ReLU激活函数在Transformer模型中的层依赖激活稀疏性模式。研究发现,不同层的MLP在训练过程中展现出截然不同的稀疏性模式,尤其是在序列和批次级别上的表现。文章通过详细分析,揭示了模型首层和末层在稀疏性行为上的显著差异,并探讨了这些差异对特征表示学习的影响。此外,研究还关注了“神经元死亡”现象,指出这一现象主要由训练动态驱动,而非随机发生。文章通过定义和计算多个稀疏性指标,展示了不同层在训练过程中的稀疏性演变,为进一步优化ReLU Transformer的初始化和提高MLP隐藏维度的有效利用提供了见解。

Read more...

探索SaMoye:零样本歌唱声音转换的革命性进展

SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis

摘要

本文介绍了一种名为SaMoye的端到端特征解耦合成模型,用于实现零样本多对多歌唱声音转换(SVC)。SaMoye模型通过解耦歌唱声音的特征为内容特征、音色特征和音高特征,实现了在不依赖大量预训练数据的情况下,将一首歌的演唱者声音转换为另一个演唱者的声音,同时保持音乐内容如节奏和旋律的一致性。该模型通过引入GPT模块增强内容特征,并使用大规模无标签数据集进行训练,以确保零样本性能。

Read more...

探索人工智能与人类感知的对齐:多维度度量的挑战与前景

How Aligned are Different Alignment Metrics?

摘要

本文探讨了不同对齐度量之间的相关性,特别是在评估人工神经网络与人类神经和行为数据的对齐程度时。通过分析Brain-Score中的视觉数据和多种对齐度量,研究发现这些度量之间的成对相关性通常较低,有时甚至是负的。例如,在Brain-Score上完全评估的80个模型中,平均相关性仅为0.198。这表明,与人类感知对齐可能最好被视为一个多维概念,不同的方法测量不同的方面。文章还探讨了如何正确组合和聚合这些度量,强调了综合基准测试的重要性,并提出了几种聚合选项以确保不同对齐度量公平地贡献于综合基准分数。

Read more...

探索人类对语言模型依赖的新视角:REL-A.I.方法的先进性与应用

Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance

摘要

本文介绍了一种名为REL-A.I.的新方法,旨在评估人类在与语言模型(LM)交互时对LM生成的认知标记(如“我认为…”、“毫无疑问…”)的依赖程度。该方法通过在实际交互环境中进行系统级评估,研究了长期交互、拟人化生成和不同主题领域三种新兴的人类-LM交互设置中的依赖率。研究发现,依赖程度不仅受表达的信心影响,还受到交互上下文的显著影响。这一发现强调了上下文在理解人类依赖性的重要性,并为未来的设计师和研究人员提供了一种测量这种依赖性的方法。

Read more...
Previous Page 30 of 156 Next Page