Arena Learning:通过模拟聊天机器人竞技场构建LLMs后训练数据飞轮

Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena

摘要

本文介绍了一种名为Arena Learning的创新方法,旨在通过模拟聊天机器人竞技场(Chatbot Arena)来评估大型语言模型(LLMs)的有效性。传统的在线Chatbot Arena评估方法受限于人工标注的成本和时间。Arena Learning采用AI驱动的标注方式,通过模拟竞技场战斗来评估战斗结果,从而实现目标模型的持续改进。该方法包括两个关键元素:一是通过WizardArena管道确保离线模拟与在线竞赛之间的一致性;二是基于战斗结果不断改进训练数据。实验结果表明,Arena Learning能够显著提升目标模型WizardLM-β的性能,为LLMs的后训练提供了一个高效、自动化的训练和评估管道。

Read more...

BandControlNet:基于并行Transformer的精细可控流行音乐生成模型

BandControlNet: Parallel Transformers-based Steerable Popular Music Generation with Fine-Grained Spatiotemporal Features

摘要

本文介绍了一种名为BandControlNet的创新型条件生成模型,该模型基于并行Transformer架构,用于生成高质量的流行音乐样本,并能够根据给定的时空控制特征进行精细调节。BandControlNet通过引入时空特征作为强大的细粒度控制,增强了生成模型的可控性。此外,设计了一种名为REMI Track的高效音乐表示方法,将多轨音乐转换为多个并行音乐序列,并通过字节对编码(BPE)技术缩短每个轨道的序列长度。BandControlNet包含两个特别设计的模块:结构增强自注意力(SE-SA)和跨轨道Transformer(CTT),分别用于加强音乐结构和轨道间和谐建模。实验结果表明,BandControlNet在大多数客观指标上优于其他条件音乐生成模型,特别是在生成长音乐样本时表现出强大的鲁棒性。主观评估显示,BandControlNet在短数据集上训练后生成的音乐质量与最先进模型相当,而在长数据集上训练后显著优于所有基准模型。

Read more...

Chain & Hash:保护大型语言模型的创新指纹技术

Hey, That"s My Model! Introducing Chain & Hash, An LLM Fingerprinting Technique

摘要

本文介绍了一种名为Chain & Hash的新型指纹技术,旨在解决大型语言模型(LLMs)的盗窃和滥用问题。该技术通过在模型中嵌入独特的指纹,使模型所有者能够验证其模型是否被未经授权使用或完全被盗。Chain & Hash通过生成一系列问题和可能的答案,并使用安全哈希技术将它们链接起来,从而确保指纹的不可伪造性。该技术在多个模型上进行了评估,展示了其对抗良性变换和恶意尝试擦除指纹的鲁棒性。此外,Chain & Hash在保持模型性能的同时,实现了高效的指纹嵌入和验证。

Read more...

CLAVE框架:提升大型语言模型价值评估的自适应解决方案

CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses

摘要

本文针对大型语言模型(LLM)生成内容可能带来的伦理风险,如产生不道德内容的问题,提出了一种名为CLAVE的自适应框架,用于评估LLM生成响应的价值。该框架通过结合两个互补的LLM,一个大型模型用于从少量人类标签中提取高级价值概念,一个较小的模型经过微调以更好地与人类价值理解对齐,从而实现对任意价值系统的校准。此外,本文还介绍了ValEval,一个包含13k+样本的综合数据集,涵盖了三个主要的价值系统,并对12+流行的LLM评估器进行了基准测试和分析。研究结果表明,结合微调的小模型和基于提示的大型模型在价值评估中达到了优越的平衡。

Read more...

CodeV:通过多级摘要技术革新Verilog代码生成

Empowering LLMs for Verilog Generation through Multi-Level Summarization

摘要

本文介绍了CodeV,一系列用于Verilog代码生成的指令调优大型语言模型(LLMs)。面对现代处理器设计复杂性和高成本带来的自动化需求,以及现有LLMs在Verilog生成上的局限性,CodeV通过多级摘要技术,利用真实世界的高质量Verilog代码,生成自然语言描述,进而构建高质量的指令调优数据集。实验结果显示,CodeV在VerilogEval和RTLLM基准测试中相对超越了之前的开源和商业SOTA模型,显示出在电路设计自动化领域的广阔应用前景。

Read more...

FabGPT:革新半导体缺陷检测的高效多模态模型

FabGPT: An Efficient Large Multimodal Model for Complex Wafer Defect Knowledge Queries

摘要

本文介绍了一种名为FabGPT的高效大型多模态模型,专门用于集成电路(IC)制造中的复杂晶圆缺陷知识查询。FabGPT利用大型多模态模型(LMMs)的能力,通过扫描电子显微镜(SEM)图像进行缺陷检测、根本原因分析以及提供专家级的问题解答。该模型通过增强的多模态特征自动检测复杂背景下的微小缺陷,并通过调制模块和交互式语料库训练策略,有效地平衡了缺陷知识查询与原始知识,缓解了模态偏差问题。实验结果显示,FabGPT在晶圆缺陷检测和知识查询方面取得了显著的性能提升。

Read more...

FLAMe:引领大型语言模型自动评估的新纪元

Foundational Autoraters: Taming Large Language Models for Better Automatic Evaluation

摘要

本文介绍了一种名为FLAMe的新型基础自动评估模型,旨在解决大型语言模型(LLMs)输出评估的高成本问题。FLAMe模型通过训练于100多个质量评估任务和超过500万个人类判断的数据集上,显著提高了对未见任务的泛化能力,并在多个评估基准上超越了如GPT-4和Claude-3等专有数据训练的模型。此外,FLAMe模型还能作为进一步下游微调的强大起点,特别是在奖励模型评估方面表现出色,且通过一种新颖的尾部补丁微调策略,实现了计算效率的显著提升。总体而言,FLAMe模型在8个自动评估基准中表现优异,覆盖53个质量评估任务,显示出其在自动评估领域的广泛应用前景。

Read more...

GraphEval:利用知识图谱提升大型语言模型幻觉检测与修正的新框架

GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework

摘要

本文介绍了一种名为GraphEval的新型知识图谱(KG)基于的大型语言模型(LLM)幻觉评估框架。该框架旨在解决当前LLM应用中评估模型响应和检测与提供知识不一致的问题,即幻觉问题。现有的评估指标在提供可解释决策、系统性检查响应中的所有信息方面存在不足,且计算成本高。GraphEval通过识别KG中易产生幻觉的具体三元组,提供了比以往方法更深入的幻觉发生位置的洞察。此外,结合最先进的自然语言推理(NLI)模型,GraphEval在多个幻觉基准测试中提高了平衡准确性。最后,本文还探讨了利用KG结构进行幻觉修正的方法GraphCorrect,并证明大多数幻觉可以得到纠正。

Read more...

Graphusion:利用大型语言模型实现科学知识图谱的零样本构建与融合

Graphusion: Leveraging Large Language Models for Scientific Knowledge Graph Fusion and Construction in NLP Education

摘要

本文介绍了一种名为Graphusion的新型零样本知识图谱构建(KGC)框架,该框架利用大型语言模型(LLMs)从自由文本中构建科学知识图谱。Graphusion的核心融合模块提供了三元组的全局视图,包括实体合并、冲突解决和新三元组发现。文章展示了Graphusion在自然语言处理(NLP)教育领域的应用,并通过TutorQA基准测试验证了其性能,该基准包含六个任务和1200个专家验证的QA对。评估结果显示,Graphusion在链接预测任务上的准确性超过了监督基线模型高达10%,并在实体提取和关系识别的人类评估中分别获得了2.92和2.37的平均分(满分为3分)。

Read more...

GuideLight:引领交通信号控制的强化学习新纪元

GuideLight: “Industrial Solution” Guidance for More Practical Traffic Signal Control Agents

摘要

本文介绍了一种名为GuideLight的创新型强化学习(RL)模型,旨在解决交通信号控制(TSC)中的实际应用问题。当前基于RL的TSC方法虽然在模拟环境中表现优异,但在实际应用中面临输入数据限制、输出动作不匹配以及周期-流量关系不一致等挑战。GuideLight模型通过引入工业解决方案来指导RL代理,采用行为克隆和课程学习技术,使代理能够模仿并满足工业标准,同时利用RL的探索和利用能力以提高性能。该方法不仅在理论上证明了能够显著降低样本复杂度,而且在实验中也展示了良好的周期-流量关系和优越的性能。

Read more...
Previous Page 4 of 156 Next Page