RLHF 让大模型学会说多种语言

RLHF Can Speak Many Languages: Unlocking Multilingual Preference Optimization for LLMs

摘要

本文旨在研究如何通过强化学习从人类反馈(RLHF)来优化多语言大型语言模型(LLM),以实现更好的对齐效果。研究发现,增加多语言数据、使用在线优化方法和扩大训练语言数量等因素都可以提高模型的性能。此外,该研究还发现,即使只有英语数据进行偏好优化,也能在其他语言上提升性能,而增加更多语言则可以进一步增强跨语言转移能力。

Read more...

SafaRi:引领弱监督指代表达分割的新纪元

SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation

摘要

本文介绍了一种名为SafaRi的自适应序列转换器,用于弱监督的指代表达分割(Referring Expression Segmentation, RES)任务。该方法通过引入新的算法创新,解决了现有方法需要大规模掩码标注且在未见/零样本场景中泛化能力差的问题。SafaRi是首个仅使用部分掩码和边界框标注进行训练的方法,通过跨模态融合与注意力一致性模块(X-FACt)和伪标签有效性过滤程序(MVF),显著提高了图像与文本区域级对齐和目标对象的空间定位能力。实验表明,仅使用30%的标注数据,SafaRi在RefCOCO+@testA和RefCOCO+testB数据集上的表现优于完全监督的SOTA方法SeqTR,并展示了在未见/零样本任务中的强大泛化能力。

Read more...

ScaleDreamer: 突破文本到3D合成的界限,实现大规模高质量3D内容生成

ScaleDreamer: Scalable Text-to-3D Synthesis with Asynchronous Score Distillation

摘要

ScaleDreamer 是一项关于可扩展文本到3D合成的新研究,通过异步分数蒸馏(ASD)技术,解决了现有分数蒸馏方法在处理大量文本提示时难以扩展的问题。该研究利用文本到图像扩散先验,通过最小化噪声预测误差,实现了在不需要配对文本-3D训练数据的情况下,快速合成高质量的3D内容。ASD方法通过将扩散时间步长移至较早阶段,稳定了训练过程,并保持了预训练扩散模型对大量文本提示的强大理解能力,从而能够在多达10万个提示的情况下有效工作。

Read more...

SeqMate:一键式自动化RNA测序,革新生物信息学分析

SeqMate: A Novel Large Language Model Pipeline for Automating RNA Sequencing

摘要

SeqMate是一项创新的大语言模型(LLM)流水线,旨在自动化RNA测序过程。该技术报告详细介绍了SeqMate如何利用LLM的力量,为生物学家提供一个用户友好的工具,实现一键式数据准备和分析。SeqMate不仅简化了从原始FASTQ数据到差异表达分析的复杂流程,还通过生成式AI技术,自动生成包含相关数据库引用的基因分析报告。这一工具的开发旨在解决传统生物信息学工具界面复杂、操作繁琐的问题,使得非专业生物学家也能轻松进行RNA测序数据分析。

Read more...

SiamTST:革新电信网络多变量时间序列预测的新框架

SiamTST: A Novel Representation Learning Framework for Enhanced Multivariate Time Series Forecasting applied to Telco Networks

摘要

本文介绍了一种名为SiamTST的新型表示学习框架,用于增强多变量时间序列(MTS)预测,特别是在电信网络中的应用。SiamTST通过集成孪生网络(Siamese network)与注意力机制、通道独立补丁(channel-independent patching)和归一化技术,实现了卓越的预测性能。该框架在实际工业电信数据集上的评估显示,其在预测准确性方面显著优于现有方法。此外,一个简单的线性网络也展示了竞争性的性能,仅次于SiamTST。该研究不仅扩展了MTS分析的当前知识,还提供了可以直接应用于电信行业以改善运营和决策制定的实用见解。

Read more...

StoIC模型:引领时间序列预测的新前沿

Learning Graph Structures and Uncertainty for Accurate and Calibrated Time-series Forecasting

摘要

本文介绍了一种名为StoIC的新型概率神经多元时间序列模型,该模型通过利用时间序列之间的随机相关性来学习时间序列之间的潜在结构,并提供准确且校准良好的预测。StoIC模型在多个基准数据集上展示了其优越性,提供了约16%更准确的预测和14%更好的校准性能。此外,StoIC模型在处理数据中的噪声时表现出更好的适应性,并能捕捉到各种基准测试中的重要和有用关系信息。

Read more...

SwiftDiffusion:革新文本到图像生成的高效扩散模型服务系统

SwiftDiffusion: Efficient Diffusion Model Serving with Add-on Modules

摘要

本文介绍了SwiftDiffusion系统,这是一个高效的扩散模型服务系统,专门用于处理商业文本到图像应用中的稳定扩散模型。文章首先分析了商业文本到图像应用中的推理请求轨迹,发现附加模块(如ControlNets和LoRAs)在生成图像时普遍存在,尽管它们有效,但会导致高加载开销、延长服务延迟并消耗昂贵的GPU资源。为了解决这些问题,SwiftDiffusion系统通过识别并行计算的机会和在多个GPU上分配ControlNet计算,重建了现有的文本到图像服务工作流程。此外,SwiftDiffusion还开发了技术来消除与LoRA加载和修补相关的开销,同时保持图像质量。最后,SwiftDiffusion在稳定扩散模型的骨干架构中提出了专门的优化,这些优化也兼容附加模块的高效服务。与最先进的文本到图像服务系统相比,SwiftDiffusion将服务延迟降低了多达5倍,并将服务吞吐量提高了多达2倍,而不会影响图像质量。

Read more...

专家专业化微调:稀疏架构大型语言模型的参数高效定制

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

摘要

本文探讨了在资源受限的情况下,如何通过参数高效微调(PEFT)方法定制大型语言模型(LLMs),特别是在稀疏架构的LLMs中。尽管已有多种针对密集架构LLMs的PEFT方法,但稀疏架构LLMs的PEFT研究仍不足。本文主要研究了具有混合专家(MoE)架构的LLMs的PEFT方法,并提出了专家专业化微调(ESFT),该方法在保持或超越全参数微调性能的同时,显著提高了微调效率并节省了计算资源。

Read more...

人工智能对话系统的研究与应用 作者通过对人工智能领域的对话系统进行深入研究,提出了一系列创新性的方法和技术,这些方法和技术在提高对话系统的性能和应用前景方面具有重要的意义。

Talking to Machines: do you read me?

摘要

本文主要论述了作者对人工智能对话系统的研究,包括任务型对话系统、对话式问答和图嵌入等方面。本文通过对现有对话系统的不足进行分析,提出了一系列解决方案,并通过实验验证了其有效性。本文的研究工作具有重要的理论意义和实际应用价值。

Read more...

创新气候模拟:潜在扩散模型生成高分辨率集合

Latent Diffusion Model for Generating Ensembles of Climate Simulations

摘要

本文介绍了一种基于潜在扩散模型(Latent Diffusion Model)的新型生成深度学习方法,用于生成大量高分辨率的气候模拟集合。该模型通过训练大量气候模拟数据,利用变分自编码器(VAE)进行维度降低,并通过去噪扩散概率模型生成多个集合成员。研究验证了该模型在Max Planck Institute Grand Ensemble(MPI-GE)上的有效性,显示出与原始集合在变异性方面的高度一致性。该模型通过利用潜在空间表示,能够快速生成大量集合,显著提高气候模拟中不确定性量化的效率。

Read more...
Previous Page 94 of 156 Next Page