Chain & Hash:保护大型语言模型的创新指纹技术

Hey, That"s My Model! Introducing Chain & Hash, An LLM Fingerprinting Technique

摘要

本文介绍了一种名为Chain & Hash的新型指纹技术,旨在解决大型语言模型(LLMs)的盗窃和滥用问题。该技术通过在模型中嵌入独特的指纹,使模型所有者能够验证其模型是否被未经授权使用或完全被盗。Chain & Hash通过生成一系列问题和可能的答案,并使用安全哈希技术将它们链接起来,从而确保指纹的不可伪造性。该技术在多个模型上进行了评估,展示了其对抗良性变换和恶意尝试擦除指纹的鲁棒性。此外,Chain & Hash在保持模型性能的同时,实现了高效的指纹嵌入和验证。

Read more...

CLAVE框架:提升大型语言模型价值评估的自适应解决方案

CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses

摘要

本文针对大型语言模型(LLM)生成内容可能带来的伦理风险,如产生不道德内容的问题,提出了一种名为CLAVE的自适应框架,用于评估LLM生成响应的价值。该框架通过结合两个互补的LLM,一个大型模型用于从少量人类标签中提取高级价值概念,一个较小的模型经过微调以更好地与人类价值理解对齐,从而实现对任意价值系统的校准。此外,本文还介绍了ValEval,一个包含13k+样本的综合数据集,涵盖了三个主要的价值系统,并对12+流行的LLM评估器进行了基准测试和分析。研究结果表明,结合微调的小模型和基于提示的大型模型在价值评估中达到了优越的平衡。

Read more...

CodeV:通过多级摘要技术革新Verilog代码生成

Empowering LLMs for Verilog Generation through Multi-Level Summarization

摘要

本文介绍了CodeV,一系列用于Verilog代码生成的指令调优大型语言模型(LLMs)。面对现代处理器设计复杂性和高成本带来的自动化需求,以及现有LLMs在Verilog生成上的局限性,CodeV通过多级摘要技术,利用真实世界的高质量Verilog代码,生成自然语言描述,进而构建高质量的指令调优数据集。实验结果显示,CodeV在VerilogEval和RTLLM基准测试中相对超越了之前的开源和商业SOTA模型,显示出在电路设计自动化领域的广阔应用前景。

Read more...

FabGPT:革新半导体缺陷检测的高效多模态模型

FabGPT: An Efficient Large Multimodal Model for Complex Wafer Defect Knowledge Queries

摘要

本文介绍了一种名为FabGPT的高效大型多模态模型,专门用于集成电路(IC)制造中的复杂晶圆缺陷知识查询。FabGPT利用大型多模态模型(LMMs)的能力,通过扫描电子显微镜(SEM)图像进行缺陷检测、根本原因分析以及提供专家级的问题解答。该模型通过增强的多模态特征自动检测复杂背景下的微小缺陷,并通过调制模块和交互式语料库训练策略,有效地平衡了缺陷知识查询与原始知识,缓解了模态偏差问题。实验结果显示,FabGPT在晶圆缺陷检测和知识查询方面取得了显著的性能提升。

Read more...

FLAMe:引领大型语言模型自动评估的新纪元

Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

摘要

本文介绍了一种名为FLAMe的新型基础自动评估模型,旨在解决大型语言模型(LLMs)输出评估的高成本问题。FLAMe模型通过训练于100多个质量评估任务和超过500万个人类判断的数据集上,显著提高了对未见任务的泛化能力,并在多个评估基准上超越了如GPT-4和Claude-3等专有数据训练的模型。此外,FLAMe模型还能作为进一步下游微调的强大起点,特别是在奖励模型评估方面表现出色,且通过一种新颖的尾部补丁微调策略,实现了计算效率的显著提升。总体而言,FLAMe模型在8个自动评估基准中表现优异,覆盖53个质量评估任务,显示出其在自动评估领域的广泛应用前景。

Read more...

GraphEval:利用知识图谱提升大型语言模型幻觉检测与修正的新框架

GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework

摘要

本文介绍了一种名为GraphEval的新型知识图谱(KG)基于的大型语言模型(LLM)幻觉评估框架。该框架旨在解决当前LLM应用中评估模型响应和检测与提供知识不一致的问题,即幻觉问题。现有的评估指标在提供可解释决策、系统性检查响应中的所有信息方面存在不足,且计算成本高。GraphEval通过识别KG中易产生幻觉的具体三元组,提供了比以往方法更深入的幻觉发生位置的洞察。此外,结合最先进的自然语言推理(NLI)模型,GraphEval在多个幻觉基准测试中提高了平衡准确性。最后,本文还探讨了利用KG结构进行幻觉修正的方法GraphCorrect,并证明大多数幻觉可以得到纠正。

Read more...

Graphusion:利用大型语言模型实现科学知识图谱的零样本构建与融合

Graphusion: Leveraging Large Language Models for Scientific Knowledge Graph Fusion and Construction in NLP Education

摘要

本文介绍了一种名为Graphusion的新型零样本知识图谱构建(KGC)框架,该框架利用大型语言模型(LLMs)从自由文本中构建科学知识图谱。Graphusion的核心融合模块提供了三元组的全局视图,包括实体合并、冲突解决和新三元组发现。文章展示了Graphusion在自然语言处理(NLP)教育领域的应用,并通过TutorQA基准测试验证了其性能,该基准包含六个任务和1200个专家验证的QA对。评估结果显示,Graphusion在链接预测任务上的准确性超过了监督基线模型高达10%,并在实体提取和关系识别的人类评估中分别获得了2.92和2.37的平均分(满分为3分)。

Read more...

GuideLight:引领交通信号控制的强化学习新纪元

GuideLight: “Industrial Solution” Guidance for More Practical Traffic Signal Control Agents

摘要

本文介绍了一种名为GuideLight的创新型强化学习(RL)模型,旨在解决交通信号控制(TSC)中的实际应用问题。当前基于RL的TSC方法虽然在模拟环境中表现优异,但在实际应用中面临输入数据限制、输出动作不匹配以及周期-流量关系不一致等挑战。GuideLight模型通过引入工业解决方案来指导RL代理,采用行为克隆和课程学习技术,使代理能够模仿并满足工业标准,同时利用RL的探索和利用能力以提高性能。该方法不仅在理论上证明了能够显著降低样本复杂度,而且在实验中也展示了良好的周期-流量关系和优越的性能。

Read more...

IDEAL框架:革新大型语言模型在查询聚焦摘要中的应用

IDEAL: Leveraging Infinite and Dynamic Characterizations of Large Language Models for Query-focused Summarization

摘要

本文介绍了一种名为IDEAL的新型框架,用于利用大型语言模型(LLMs)进行查询聚焦摘要(QFS)。QFS旨在生成针对特定查询的摘要,以提高用户控制和个性化。IDEAL框架通过两个创新模块——Query-aware HyperExpert和Query-focused Infini-attention,有效地实现了对LLMs的细粒度查询对齐和长文档处理能力。实验结果表明,IDEAL在多个QFS基准测试中显著优于其他基线方法,展现了其在QFS技术领域的广泛应用前景。

Read more...

LightCL:边缘设备上的高效持续学习新算法

Efficient Continual Learning with Low Memory Footprint For Edge Device

摘要

本文由Zeqing Wang等人提出,针对边缘设备上的持续学习(Continual Learning, CL)问题,提出了一种名为LightCL的高效算法。该算法旨在解决神经网络训练中的灾难性遗忘问题,特别是在资源受限的边缘设备上。LightCL通过压缩神经网络中已泛化的组件的资源消耗,并使用少量额外资源增强其他部分的记忆,从而显著减少内存占用。论文通过引入学习可塑性(Learning Plasticity)和记忆稳定性(Memory Stability)两个新指标,评估了神经网络在持续学习过程中的泛化能力,并基于此设计了LightCL算法。实验结果表明,LightCL在延迟遗忘和减少内存占用方面优于现有最先进的方法。

Read more...
Previous Page 4 of 156 Next Page