孟加拉国导弹防御新篇章：成本效益高的自动探测与摧毁系统

Posted on 2024-07-10 in CS.AI • 14 words • 1 minute read

摘要

本文研究基于现有导弹探测技术，旨在为孟加拉国提供一个成本效益高的导弹防御系统解决方案。论文介绍了使用光电传感器和脉冲多普勒雷达的导弹探测技术，系统能够自动检测并摧毁目标导弹，主要依赖于超声波声纳传感器、金属探测传感器和烟雾探测传感器。该系统的设计和实现旨在适应孟加拉国的经济条件，提供有效的导弹防御能力。

小数据环境下的革命性突破：自动神经网络专利景观系统

Posted on 2024-07-10 in CS.AI • 14 words • 1 minute read

摘要

本文介绍了一种在“小数据”环境下自动构建神经网络专利景观的方法。专利景观是识别与特定技术领域相关的所有专利的过程，对于评估知识产权的覆盖范围、价值或上下文，以及理解特定行业的创新方向、速度或集中度非常重要。传统的专利景观构建过程既费时又昂贵，尤其是在需要高度专业化的技术知识来评估专利是否应包括在内的情况下。本文提出的系统通过使用深度神经网络和主动学习方法，显著提高了在困难示例上的性能（0.69 F1分数），并且在使用更少的训练数据（仅24个示例）时也取得了显著的改进（0.75 F1分数）。此外，本文还展示了一种高质量训练数据生成过程，通过结合Abood和Feltenberger的“种子/反种子”方法与主动学习，收集了决策边界附近的困难标记示例。

探索 PaliGemma：多功能 3B VLM 的卓越性能与广泛应用

Posted on 2024-07-10 in CS.AI • 123 words • 1 minute read

摘要

本文介绍了一种名为 PaliGemma 的多功能 3B 视觉语言模型（VLM）。该模型基于 SigLIP-So400m 视觉编码器和 Gemma-2B 语言模型，旨在成为一种通用且知识渊博的基础模型，能够有效地进行迁移。它在各种开放世界任务中取得了出色的性能。

<工作原理> PaliGemma 的工作原理是将输入的图像和文本描述作为输入，通过图像编码器将图像转换为一系列图像标记，通过语言模型将文本转换为文本标记，然后将图像标记和文本标记输入到解码器中，生成预测的文本输出。

<工作流程> PaliGemma 的工作流程包括以下几个步骤：

图像编码：使用 SigLIP 图像编码器将输入图像转换为图像标记。
文本编码：使用 Gemma 的 SentencePiece 标记器将输入文本转换为文本标记，并使用 Gemma 的词汇嵌入层进行嵌入。
标记连接：将图像标记和文本标记连接起来，形成输入标记序列。
解码器预测：使用 Gemma 解码器对输入标记序列进行预测，生成预测的文本输出。

<应用前景> PaliGemma 具有广泛的应用前景，包括但不限于以下领域：

图像分类：可以对输入图像进行分类，识别图像中的物体、场景等。
图像描述生成：可以根据输入图像生成相应的描述文本。
视觉问答：可以回答关于输入图像的问题。
文本生成：可以根据输入的文本提示生成相应的文本内容。
多模态任务：可以应用于多种多模态任务，如图像-文本检索、图像-文本匹配等。

<标题> 探索 PaliGemma：多功能 3B VLM 的卓越性能与广泛应用

探索AI红队测试的人类因素：社会与协作计算的新视角

Posted on 2024-07-10 in CS.AI • 8 words • 1 minute read

摘要

本文探讨了人工智能（AI）红队测试中的人类因素，这是一个源自军事和网络安全应用的对抗性测试实践。随着AI技术的快速发展，红队测试在AI领域的重要性日益增加，但同时也带来了一系列关于红队成员选择、测试过程中的偏见和盲点，以及有害内容对红队成员心理影响的问题。本文通过社会和协作计算的视角，分析了红队测试的概念、劳动实践、以及红队成员的福祉和潜在伤害，旨在建立一个跨学科的研究和实践网络，以促进AI红队测试的创新和负责任的发展。

探索C-Instructor：引领可控导航指令生成的新纪元

Posted on 2024-07-10 in CS.AI • 23 words • 1 minute read

摘要

本文介绍了一种名为C-Instructor的先进导航指令生成系统，该系统利用大型语言模型（LLMs）和思维链提示（chain-of-thought prompting）技术，实现了风格可控和内容可控的指令生成。C-Instructor通过提出一种结合地标的思维链（CoTL）机制，引导LLM识别关键地标并生成完整的导航指令，从而提高了指令的可执行性和可控性。此外，C-Instructor还引入了一种空间拓扑建模任务（STMT），以增强对环境空间结构的认知，并通过风格混合训练（SMT）策略，使模型能够根据不同提示生成不同风格的指令。实验结果表明，C-Instructor在文本指标、导航引导评估和用户研究中均优于以往的方法。

探索CHILLI：一种数据上下文感知的扰动方法，提升AI的可解释性

Posted on 2024-07-10 in CS.AI • 16 words • 1 minute read

摘要

本文探讨了在机器学习（ML）模型中提高可解释性AI（XAI）的重要性，特别是在高风险或伦理敏感的应用中。传统的XAI方法通过扰动数据来近似模型行为，但这些方法常常忽视特征依赖性，导致解释基于可能不现实的数据。为了解决这一问题，本文提出了一种新的框架——CHILLI，该框架通过生成与基础模型训练数据一致的上下文感知扰动，来提高解释的合理性和准确性。CHILLI框架的提出，为ML模型的可解释性提供了新的视角和方法，特别是在需要高度信任和理解的领域。

探索Dual-Inf：利用大型语言模型实现可解释的差异诊断

Posted on 2024-07-10 in CS.AI • 8 words • 1 minute read

摘要

本文介绍了一种名为“Dual-Inf”的创新框架，该框架利用大型语言模型（LLMs）进行可解释的差异诊断（DDx）。该研究的核心目标是自动化生成差异诊断，并提供相应的诊断解释，这对于临床推理和决策支持系统至关重要。论文通过开发一个新的DDx数据集和提出一个新颖的双向推理框架，展示了LLMs在预测不同疾病和提供诊断解释方面的有效性。实验结果表明，Dual-Inf在DDx解释方面相较于基线方法有显著的性能提升，特别是在罕见疾病诊断和解释方面展现出巨大潜力。

探索MixSumm：一种创新的数据增强框架在低资源抽取式文本摘要中的应用

Posted on 2024-07-10 in CS.AI • 12 words • 1 minute read

摘要

本文介绍了一种名为MixSumm的新型数据增强框架，专门用于低资源环境下的抽取式文本摘要任务。MixSumm利用开源大型语言模型LLaMA-3-70b生成包含多个主题信息的文档，并在此基础上训练摘要模型。通过在多个挑战性文本摘要基准数据集上的广泛实验，证明了MixSumm在低资源抽取式摘要任务中优于近期的基于提示的方法。此外，研究还展示了从LLaMA-3-70b到小型BERT基抽取式摘要器的有效知识蒸馏。

探索ReLU Transformer中的层依赖激活稀疏性模式：揭示训练动态与模型性能的新视角

Posted on 2024-07-10 in CS.AI • 9 words • 1 minute read

摘要

本文深入探讨了ReLU激活函数在Transformer模型中的层依赖激活稀疏性模式。研究发现，不同层的MLP在训练过程中展现出截然不同的稀疏性模式，尤其是在序列和批次级别上的表现。文章通过详细分析，揭示了模型首层和末层在稀疏性行为上的显著差异，并探讨了这些差异对特征表示学习的影响。此外，研究还关注了“神经元死亡”现象，指出这一现象主要由训练动态驱动，而非随机发生。文章通过定义和计算多个稀疏性指标，展示了不同层在训练过程中的稀疏性演变，为进一步优化ReLU Transformer的初始化和提高MLP隐藏维度的有效利用提供了见解。

探索SaMoye：零样本歌唱声音转换的革命性进展

Posted on 2024-07-10 in CS.AI • 13 words • 1 minute read

摘要

本文介绍了一种名为SaMoye的端到端特征解耦合成模型，用于实现零样本多对多歌唱声音转换（SVC）。SaMoye模型通过解耦歌唱声音的特征为内容特征、音色特征和音高特征，实现了在不依赖大量预训练数据的情况下，将一首歌的演唱者声音转换为另一个演唱者的声音，同时保持音乐内容如节奏和旋律的一致性。该模型通过引入GPT模块增强内容特征，并使用大规模无标签数据集进行训练，以确保零样本性能。

Previous Page 30 of 156 Next Page