转写能否提升低资源非拉丁文字语言的 LLM 性能?

Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts

摘要

这篇论文探讨了转写在提升仅解码器大型语言模型(LLM)对低资源非拉丁文字语言的上下文学习(ICL)性能方面的有效性。作者提出了三种提示模板,并在不同任务和模型上进行了实验。结果表明,转写对序列标记任务特别有益,但对文本分类任务的效果不一致。此外,转写的效果还与模型类型和规模有关。

Read more...

震惊!在线操纵排名聚合竟然如此简单!

Sequential Manipulation Against Rank Aggregation: Theory and Algorithm

摘要

本文研究了在排名聚合中存在潜在攻击者的情况下,如何通过在线操纵数据收集过程来实现对排名结果的操纵。文章提出了一种基于分布鲁棒博弈论的框架,用于分析在线操纵者和排名者之间的对抗场景,并证明了在这种博弈中存在分布鲁棒纳什均衡,从而保证了在线操纵的可能性。文章还通过理论分析和实验验证,证明了所提出的在线操纵方法能够有效地操纵排名结果,并且在不完全信息的情况下,通过引入分布鲁棒估计器,可以提高操纵的成功率。

Read more...

"Badllama 3: 快速移除大型语言模型安全微调的新方法"

Badllama 3: removing safety finetuning from Llama 3 in minutes

摘要

本文由Dmitrii Volkov发表于2024年7月1日,题为“Badllama 3: removing safety finetuning from Llama 3 in minutes”,探讨了大型语言模型(LLM)安全微调的脆弱性。论文指出,当攻击者能够访问模型权重时,现有的安全微调方法容易被绕过。研究评估了三种先进的微调方法——QLoRA、ReFT和Ortho,并展示了算法进步如何在不牺牲性能的情况下显著减少浮点运算(FLOPs)和优化需求。论文还展示了如何在单个GPU上快速移除Llama 3模型的安全微调,例如在5分钟内移除8B模型,在45分钟内移除70B模型。此外,研究还探讨了如何进一步减少这一时间,并展示了这种方法在Google Colab上的可行性,以及如何通过分发“jailbreak adapter”来快速移除模型的保护措施。

Read more...

"CLIP-C:通过语义复合提升视觉-语言对比学习"

Semantic Compositions Enhance Vision-Language Contrastive Learning

摘要

本文探讨了在视觉-语言对比学习领域中,通过引入语义复合示例来改进CLIP类模型的零样本分类和检索能力。受视觉分类中CutMix技术的启发,本文提出了一种新颖的方法,通过合并数据集中两个不同实例的元素来创建语义复合图像-标题对。该方法(称为CLIP-C)通过融合标题并将每个图像的50%进行混合,形成新的复合样本,显著提高了零样本图像分类和跨模态检索的能力,尤其是在预训练数据相对有限的情况下。

Read more...

"ENSY:革命性的交通模式选择预测模型,引领智能交通新纪元"

Improving Trip Mode Choice Modeling Using Ensemble Synthesizer (ENSY)

摘要

本文由Amirhossein Parsi等人撰写,标题为“Improving Trip Mode Choice Modeling Using Ensemble Synthesizer (ENSY)”,发表于Sharif University of Technology。文章主要探讨了在交通规划和决策过程中,如何通过改进模式选择数据集的分类准确性来提高预测模型的性能。传统的分类模型在处理少数类别的模式选择数据时往往表现不佳,导致分类准确性低下。为了解决这一问题,作者提出了一种名为Ensemble Synthesizer (ENSY)的新型数据模型,该模型利用概率分布进行数据增强,旨在提高模式选择数据集的分类准确性。研究结果显示,ENSY能够显著提高少数类别的F1分数,并整体提升分类准确性。此外,文章还通过与多种数据增强技术(如随机过采样、SMOTE-NC和CTGAN)的比较,验证了ENSY的优越性能。

Read more...

"FineSurE:利用LLMs实现细粒度文本摘要评估的新前沿"

FineSurE: Fine-grained Summarization Evaluation using LLMs

摘要

本文介绍了FineSurE,一种利用大型语言模型(LLMs)进行细粒度摘要评估的新型自动化评估工具。FineSurE旨在解决传统评估方法如ROUGE与人类判断不一致的问题,通过引入完整性和简洁性标准,实现多维度的评估。该框架通过事实检查和关键事实对齐两个精细过程,提供比Likert量表评分更详细的评估。FineSurE在多个基准测试中显示出优于现有方法的性能,特别是在完整性和简洁性维度上。此外,该研究还探讨了不同LLM作为评估工具的性能,并展示了FineSurE在实际应用中的有效性。

Read more...

"L-Face4RAG:突破性的事实一致性评估方法,引领人工智能生成内容的新标准"

Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese

摘要

本文针对检索增强生成(RAG)系统中普遍存在的事实一致性错误问题,提出了一种全面的事实一致性评估(FCE)基准Face4RAG。该基准包括一个基于精心设计的错误分类法构建的合成数据集和一个由六种常用大型语言模型(LLMs)生成的真实世界数据集,旨在评估FCE方法在特定错误类型或真实世界错误分布上的表现。研究发现,现有FCE方法在检测逻辑谬误方面存在失败,为此,本文进一步提出了一种新的方法L-Face4RAG,通过逻辑保留答案分解和事实逻辑FCE两种新颖设计,显著提升了事实不一致性检测的性能。

Read more...

"LARIMAR:突破记忆限制,大型语言模型的新纪元"

Needle in the Haystack for Memory Based Large Language Models

摘要

本文介绍了一种增强大型语言模型(LLM)记忆能力的新方法,通过引入外部关联记忆来提高模型从长上下文中检索事实的能力。作为案例研究,本文测试了LARIMAR架构,这是一种最近提出的LLM解码器架构,通过外部关联记忆增强,用于处理包括passkey和needle-in-the-haystack测试在内的多个长上下文检索任务。实验表明,LARIMAR能够在测试时适应比训练时更长的上下文,同时保持解码器识别的记忆输出,且不增加GPU内存占用。

Read more...

"QUEEN:一种新型防御机制,有效保护深度学习模型免受提取攻击"

QUEEN: Query Unlearning against Model Extraction

摘要

本文介绍了一种名为QUEEN的新型防御机制,旨在对抗模型提取攻击(MEA),这种攻击威胁到深度学习模型的安全性和隐私。QUEEN通过测量查询的敏感性并主动对潜在的模型提取攻击进行反击,从而限制了攻击者训练盗版模型的能力。该方法通过敏感性测量和输出扰动两个主要组件,有效地防止了攻击者通过查询结果训练出性能接近原始模型的盗版模型。实验结果显示,QUEEN在对抗多种模型提取攻击时表现优于现有防御措施,且对模型准确性的影响相对较低。

Read more...

"ReGround3D:开启3D视觉推理与定位的新纪元"

Empowering 3D Visual Grounding with Reasoning Capabilities

摘要

本文介绍了一项名为“3D推理定位”的新任务,旨在通过结合推理和定位能力,使模型能够根据隐含的人类指令在3D场景中定位目标物体并提供相应的解释。为了推动这一领域的发展,研究团队引入了名为ScanReason的新基准,该基准提供了超过10,000个问题-答案-位置对,涵盖五种推理类型。此外,研究团队设计了ReGround3D方法,该方法通过视觉中心推理模块和3D定位模块的协同工作,以及推理和定位步骤的交替机制,显著提高了模型在复杂3D场景中的定位能力。实验结果验证了所提方法的有效性,并展示了其在机器人和增强现实等应用中的广阔前景。

Read more...
Previous Page 100 of 156 Next Page