解锁社会促进的力量:自动越狱攻击大型语言模型的先进框架

SoP: Unlock the Power of Social Facilitation for Automatic Jailbreak Attack

摘要

本文探讨了大型语言模型(LLMs)在广泛应用中可能被滥用的安全问题。尽管LLMs在发布前已根据人类偏好数据进行了调整,但它们仍然容易受到各种恶意攻击,特别是“越狱攻击”。为此,本文提出了一种基于社会促进概念的自动越狱提示设计框架(SoP),该框架能够利用开源LLMs生成和优化越狱提示,无需任何种子越狱模板。实验结果显示,SoP在绕过GPT-3.5和GPT-4的安全对齐方面取得了显著的成功率,并展示了其在不同LLMs和恶意请求间的可转移性。此外,本文还探讨了针对SoP设计的越狱攻击的防御策略。

Read more...

语言模型之船:探索科学术语的隐秘演变

What We Talk About When We Talk About LMs: Implicit Paradigm Shifts and the Ship of Language Models

摘要

本文探讨了“语言模型”(Language Models, LMs)这一术语在科学发展中的持续演变,将其比喻为“忒修斯之船”问题,即随着时间的推移,术语的含义不断更新,但其本质保持不变。研究通过构建基于近期自然语言处理(NLP)出版物的数据基础设施,进行了一系列文本分析,以量化理解“语言模型”这一术语的使用情况。文章强调了系统与理论在科学论述中的相互影响,并呼吁关注这一不断变化的“语言模型之船”,我们都在为其贡献力量。

Read more...

转写能否提升低资源非拉丁文字语言的 LLM 性能?

Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts

摘要

这篇论文探讨了转写在提升仅解码器大型语言模型(LLM)对低资源非拉丁文字语言的上下文学习(ICL)性能方面的有效性。作者提出了三种提示模板,并在不同任务和模型上进行了实验。结果表明,转写对序列标记任务特别有益,但对文本分类任务的效果不一致。此外,转写的效果还与模型类型和规模有关。

Read more...

震惊!在线操纵排名聚合竟然如此简单!

Sequential Manipulation Against Rank Aggregation: Theory and Algorithm

摘要

本文研究了在排名聚合中存在潜在攻击者的情况下,如何通过在线操纵数据收集过程来实现对排名结果的操纵。文章提出了一种基于分布鲁棒博弈论的框架,用于分析在线操纵者和排名者之间的对抗场景,并证明了在这种博弈中存在分布鲁棒纳什均衡,从而保证了在线操纵的可能性。文章还通过理论分析和实验验证,证明了所提出的在线操纵方法能够有效地操纵排名结果,并且在不完全信息的情况下,通过引入分布鲁棒估计器,可以提高操纵的成功率。

Read more...

"Badllama 3: 快速移除大型语言模型安全微调的新方法"

Badllama 3: removing safety finetuning from Llama 3 in minutes

摘要

本文由Dmitrii Volkov发表于2024年7月1日,题为“Badllama 3: removing safety finetuning from Llama 3 in minutes”,探讨了大型语言模型(LLM)安全微调的脆弱性。论文指出,当攻击者能够访问模型权重时,现有的安全微调方法容易被绕过。研究评估了三种先进的微调方法——QLoRA、ReFT和Ortho,并展示了算法进步如何在不牺牲性能的情况下显著减少浮点运算(FLOPs)和优化需求。论文还展示了如何在单个GPU上快速移除Llama 3模型的安全微调,例如在5分钟内移除8B模型,在45分钟内移除70B模型。此外,研究还探讨了如何进一步减少这一时间,并展示了这种方法在Google Colab上的可行性,以及如何通过分发“jailbreak adapter”来快速移除模型的保护措施。

Read more...

"CLIP-C:通过语义复合提升视觉-语言对比学习"

Semantic Compositions Enhance Vision-Language Contrastive Learning

摘要

本文探讨了在视觉-语言对比学习领域中,通过引入语义复合示例来改进CLIP类模型的零样本分类和检索能力。受视觉分类中CutMix技术的启发,本文提出了一种新颖的方法,通过合并数据集中两个不同实例的元素来创建语义复合图像-标题对。该方法(称为CLIP-C)通过融合标题并将每个图像的50%进行混合,形成新的复合样本,显著提高了零样本图像分类和跨模态检索的能力,尤其是在预训练数据相对有限的情况下。

Read more...

"ENSY:革命性的交通模式选择预测模型,引领智能交通新纪元"

Improving Trip Mode Choice Modeling Using Ensemble Synthesizer (ENSY)

摘要

本文由Amirhossein Parsi等人撰写,标题为“Improving Trip Mode Choice Modeling Using Ensemble Synthesizer (ENSY)”,发表于Sharif University of Technology。文章主要探讨了在交通规划和决策过程中,如何通过改进模式选择数据集的分类准确性来提高预测模型的性能。传统的分类模型在处理少数类别的模式选择数据时往往表现不佳,导致分类准确性低下。为了解决这一问题,作者提出了一种名为Ensemble Synthesizer (ENSY)的新型数据模型,该模型利用概率分布进行数据增强,旨在提高模式选择数据集的分类准确性。研究结果显示,ENSY能够显著提高少数类别的F1分数,并整体提升分类准确性。此外,文章还通过与多种数据增强技术(如随机过采样、SMOTE-NC和CTGAN)的比较,验证了ENSY的优越性能。

Read more...

"FineSurE:利用LLMs实现细粒度文本摘要评估的新前沿"

FineSurE: Fine-grained Summarization Evaluation using LLMs

摘要

本文介绍了FineSurE,一种利用大型语言模型(LLMs)进行细粒度摘要评估的新型自动化评估工具。FineSurE旨在解决传统评估方法如ROUGE与人类判断不一致的问题,通过引入完整性和简洁性标准,实现多维度的评估。该框架通过事实检查和关键事实对齐两个精细过程,提供比Likert量表评分更详细的评估。FineSurE在多个基准测试中显示出优于现有方法的性能,特别是在完整性和简洁性维度上。此外,该研究还探讨了不同LLM作为评估工具的性能,并展示了FineSurE在实际应用中的有效性。

Read more...

"L-Face4RAG:突破性的事实一致性评估方法,引领人工智能生成内容的新标准"

Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese

摘要

本文针对检索增强生成(RAG)系统中普遍存在的事实一致性错误问题,提出了一种全面的事实一致性评估(FCE)基准Face4RAG。该基准包括一个基于精心设计的错误分类法构建的合成数据集和一个由六种常用大型语言模型(LLMs)生成的真实世界数据集,旨在评估FCE方法在特定错误类型或真实世界错误分布上的表现。研究发现,现有FCE方法在检测逻辑谬误方面存在失败,为此,本文进一步提出了一种新的方法L-Face4RAG,通过逻辑保留答案分解和事实逻辑FCE两种新颖设计,显著提升了事实不一致性检测的性能。

Read more...

"LARIMAR:突破记忆限制,大型语言模型的新纪元"

Needle in the Haystack for Memory Based Large Language Models

摘要

本文介绍了一种增强大型语言模型(LLM)记忆能力的新方法,通过引入外部关联记忆来提高模型从长上下文中检索事实的能力。作为案例研究,本文测试了LARIMAR架构,这是一种最近提出的LLM解码器架构,通过外部关联记忆增强,用于处理包括passkey和needle-in-the-haystack测试在内的多个长上下文检索任务。实验表明,LARIMAR能够在测试时适应比训练时更长的上下文,同时保持解码器识别的记忆输出,且不增加GPU内存占用。

Read more...
Previous Page 100 of 156 Next Page