揭秘Transformer:机械可解释性的前沿探索与应用

A Practical Review of Mechanistic Interpretability for Transformer-Based Language Models

摘要

本文综述了机械可解释性(MI)在解释基于Transformer的语言模型(LMs)中的应用,强调了其对理解模型内部计算机制的重要性。MI通过逆向工程模型组件和基本计算来提供对LM行为的深入洞察,并探讨了评估MI结果的方法、重要发现及应用。文章还指出了当前领域的差距,并讨论了未来的研究方向。

Read more...

揭秘图神经网络的全局交互模式:迈向可解释的图分类技术

Unveiling Global Interactive Patterns across Graphs: Towards Interpretable Graph Neural Networks

摘要

本文探讨了图神经网络(GNNs)在图挖掘中的应用,特别是在图级任务中对长程依赖和全局交互的需求。传统的解释方法主要集中在节点级别的局部结构上,而本文提出了一种新的全局交互模式(GIP)学习方案,用于图分类任务,旨在通过学习可解释的全局交互模式来明确解释决策过程。该方法首先通过约束图聚类模块对大量节点进行聚类,然后通过匹配粗化的全局交互实例与一批自解释的图原型,从而促进透明的图级推理过程。实验结果表明,所提出的GIP方法在解释性和性能方面均优于现有最先进的方法。

Read more...

数据中心评估框架:提升机器学习模型在表格数据上的性能评估

A Data-Centric Perspective on Evaluating Machine Learning Models for Tabular Data

摘要

本文探讨了如何评估机器学习模型在表格数据上的性能,指出了当前模型评估的局限性,并提出了一种数据中心的评估框架。该框架包括了从 Kaggle 竞赛中筛选出的 10 个相关数据集,以及针对每个数据集的专家级预处理管道和外部性能参考。通过实验,作者发现考虑数据集特定的预处理后,模型排名会发生显著变化,性能差距减小,模型选择的重要性降低。此外,作者还发现近期的模型尽管取得了显著进展,但仍然受益于手动特征工程。同时,作者指出许多表格数据竞赛具有时间特征,而测试时适应是一些看似静态竞赛中被忽视但重要的部分。

Read more...

数据增强在命名实体识别中的置信度校准与不确定性估计:跨领域与跨语言的探索

Are Data Augmentation Methods in Named Entity Recognition Applicable for Uncertainty Estimation?

摘要

本文探讨了数据增强方法在命名实体识别(NER)任务中对置信度校准和不确定性估计的影响。在医疗和金融等安全关键领域,NER的准确预测与校准的置信度至关重要。然而,深度神经网络(DNNs)包括预训练语言模型(PLMs)容易出现校准不当的问题,且现有的校准和不确定性估计方法计算成本高昂。研究发现在跨领域和跨语言设置中,数据增强显著改善了NER的校准和不确定性,特别是在同领域设置中。此外,数据增强生成的句子困惑度越低,校准效果越好,增加增强数据量进一步提升了校准和不确定性性能。

Read more...

深度学习模型中的新型成员推理攻击:代码投毒攻击的威力

A Method to Facilitate Membership Inference Attacks in Deep Learning Models

摘要

本文介绍了一种针对深度学习模型的新型成员推理攻击方法,通过代码投毒攻击来放大成员隐私泄露。在现代机器学习生态系统中,即使非专家数据持有者也可以使用现成的代码库在其敏感数据上构建高性能的机器学习模型。本文考虑了一种恶意机器学习提供者,他们提供模型训练代码给数据持有者,但不访问训练过程,仅通过黑盒查询访问生成的模型。在这种设置下,本文展示了一种新的成员推理攻击形式,其攻击力严格超过现有技术。该攻击使攻击者能够可靠地去识别所有训练样本(平均攻击TPR@0.1% FPR >99%),并且被破坏的模型仍然保持与其未被破坏的对应模型相当的性能(平均准确率下降<1%)。最后,本文还展示了被投毒的模型可以在常见的成员隐私审计下有效地伪装放大了的成员泄露,这只能通过攻击者已知的一组秘密样本揭示。总体而言,本文不仅指出了最坏情况下的成员隐私泄露,还揭示了现有隐私审计方法的一个常见陷阱,因此呼吁未来努力重新思考当前机器学习模型中审计成员隐私的做法。

Read more...

知识蒸馏:让大型语言模型更高效的魔法

Survey on Knowledge Distillation for Large Language Models: Methods, Evaluation, and Application

摘要

本文综述了大型语言模型(LLM)知识蒸馏的方法、评估和应用。文章介绍了知识蒸馏的定义和优化目标,详细阐述了 LLM 领域的蒸馏和评估方法,包括白盒知识蒸馏和黑盒知识蒸馏。此外,文章还探讨了知识蒸馏在医疗、教育和法律等领域的应用,并提出了未来的研究方向。

Read more...

精确遗忘:大型语言模型中的知识遗忘新方法

To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models

摘要

本文探讨了大型语言模型(LLMs)在训练过程中不可避免地会保留敏感数据,如个人隐私信息和版权材料的问题。现有的知识遗忘方法通常存在遗忘边界模糊的问题,往往不加区分地删除知识。为了解决这一问题,研究者引入了KnowUnDo基准,用于评估遗忘过程中是否无意中删除了关键知识。研究结果表明,现有的遗忘方法常常导致过度遗忘。为此,研究者提出了一种简单而有效的方法MemFlex,该方法利用梯度信息精确地定位和遗忘敏感参数。实验结果显示,MemFlex在精确遗忘知识和保留LLMs的通用知识方面优于现有方法。

Read more...

细粒度自一致性:提升大型语言模型生成质量的新方法

Integrate the Essence and Eliminate the Dross: Fine-Grained Self-Consistency for Free-Form Language Generation

摘要

本文介绍了一种名为“细粒度自一致性(Fine-Grained Self-Consistency, FSC)”的新方法,旨在通过从多个候选样本中提取和整合段落级别的共同知识,来提高大型语言模型(LLMs)在开放式生成和推理任务中的性能。FSC通过两种策略——候选过滤和合并,进一步提高了性能并降低了成本。实验结果显示,FSC在多种任务中显著优于基线方法,展示了其优化输出质量的潜力。

Read more...

解锁社会促进的力量:自动越狱攻击大型语言模型的先进框架

SoP: Unlock the Power of Social Facilitation for Automatic Jailbreak Attack

摘要

本文探讨了大型语言模型(LLMs)在广泛应用中可能被滥用的安全问题。尽管LLMs在发布前已根据人类偏好数据进行了调整,但它们仍然容易受到各种恶意攻击,特别是“越狱攻击”。为此,本文提出了一种基于社会促进概念的自动越狱提示设计框架(SoP),该框架能够利用开源LLMs生成和优化越狱提示,无需任何种子越狱模板。实验结果显示,SoP在绕过GPT-3.5和GPT-4的安全对齐方面取得了显著的成功率,并展示了其在不同LLMs和恶意请求间的可转移性。此外,本文还探讨了针对SoP设计的越狱攻击的防御策略。

Read more...

语言模型之船:探索科学术语的隐秘演变

What We Talk About When We Talk About LMs: Implicit Paradigm Shifts and the Ship of Language Models

摘要

本文探讨了“语言模型”(Language Models, LMs)这一术语在科学发展中的持续演变,将其比喻为“忒修斯之船”问题,即随着时间的推移,术语的含义不断更新,但其本质保持不变。研究通过构建基于近期自然语言处理(NLP)出版物的数据基础设施,进行了一系列文本分析,以量化理解“语言模型”这一术语的使用情况。文章强调了系统与理论在科学论述中的相互影响,并呼吁关注这一不断变化的“语言模型之船”,我们都在为其贡献力量。

Read more...
Previous Page 99 of 156 Next Page