SBoRA:区域权重更新引领大型语言模型的高效微调新纪元

SBoRA: Low-Rank Adaptation with Regional Weight Updates

摘要

本文介绍了一种名为SBoRA的新型参数高效微调方法,专为大型语言模型(LLMs)设计。SBoRA在低秩适应(LoRA)和正交适应的基础上进一步发展,旨在减少计算和内存需求,同时提高学习性能。通过利用正交标准基向量初始化低秩矩阵之一,SBoRA实现了区域权重更新和内存高效的微调。这种方法在多种微调任务中显示出优越性,特别是在常识推理和算术推理任务中。此外,SBoRA在量化LLaMA模型上的有效性评估,强调了其适应新任务的潜力。

Read more...

SBoRA:区域权重更新引领大型语言模型高效微调新纪元

SBoRA: Low-Rank Adaptation with Regional Weight Updates

摘要

本文介绍了一种名为Standard Basis LoRA (SBoRA)的新型参数高效微调方法,专为大型语言模型(LLMs)设计。SBoRA在Low-Rank Adaptation (LoRA)和Orthogonal Adaptation的基础上进一步减少了计算和内存需求,同时提高了学习性能。通过利用正交标准基向量初始化低秩矩阵之一,SBoRA实现了区域权重更新和内存高效微调。该方法的两个变体SBoRA-FA和SBoRA-FB,通过稀疏更新矩阵∆W,使得大部分微调模型的权重(W0 + ∆W)保持不变,从而提高了知识保留和适应新任务的效率。实验结果显示,SBoRA在多种微调任务中优于LoRA,特别是在常识推理和算术推理任务中表现突出。此外,SBoRA在量化LLaMA模型上的有效性评估,进一步强调了其适应新任务的潜力。

Read more...

SmurfCat团队在PAN 2024多语言文本净化任务中的创新解决方案

SmurfCat at PAN 2024 TextDetox: Alignment of Multilingual Transformers for Text Detoxification

摘要

本文由SmurfCat团队在PAN 2024文本净化任务中提出,旨在解决多语言文本净化问题。通过数据增强和机器翻译技术,团队构建了一个多语言平行数据集,并使用mT0和Aya等模型进行微调。特别地,团队采用了ORPO对齐技术,使得最终模型在乌克兰语上达到最先进水平,在其他语言上也接近最先进水平。该模型在自动评估中获得第一名,在人工评估中获得第二名。

Read more...

企业AI治理的最佳实践:从原则到实践的转化策略

Challenges and Best Practices in Corporate AI Governance:Lessons from the Biopharmaceutical Industry

摘要

本文探讨了企业在实施人工智能(AI)治理时面临的挑战和最佳实践,特别关注了生物制药行业的案例。随着AI技术的广泛应用,企业不仅看到了其带来的经济和社会效益,也面临着伦理、法律和技术上的多重挑战。论文通过分析AstraZeneca公司在AI治理方面的实践,提出了一系列可操作的建议,旨在帮助企业有效地将伦理原则转化为实际操作,并管理与AI应用相关的风险。

Read more...

创新的多尺度模型:从2D数据到3D锂离子电池阴极颗粒的生成

Generating multi-scale NMC particles with radial grain architectures using spatial stochastics and GANs

摘要

本文介绍了一种基于空间随机性和生成对抗网络(GAN)的多尺度模型,用于生成具有径向晶粒结构的NMC(镍锰钴)颗粒。该研究由乌尔姆大学和可再生能源国家实验室合作进行,旨在通过2D数据生成代表性的3D信息,从而实现对材料的三维特性进行成本效益高的表征。该模型能够快速生成与实验数据统计相似的虚拟阴极颗粒,适用于通过数值模拟进行材料测试和特性分析。此外,研究团队还公开了包含内部晶粒结构的模拟颗粒的大型数据集。

Read more...

创新算法:通过代理实验高效识别因果效应

Fast Proxy Experiment Design for Causal Effect Identification

摘要

本文介绍了一种用于因果效应识别的快速代理实验设计方法。该方法通过在成本较低的变量上进行实验,来估计主要目标变量的因果效应,解决了直接实验成本高或不可行的问题。论文提出了一种新的算法,通过重新定义问题,设计了更高效的算法来解决这一NP完全问题,并通过广泛的模拟实验验证了其性能。此外,论文还探讨了设计实验以通过有效调整集识别给定效应的相关问题。

Read more...

加速MRI不确定性估计:基于掩码的贝叶斯神经网络与FPGA加速器的协同优化

Accelerating MRI Uncertainty Estimation with Mask-based Bayesian Neural Network

摘要

本文介绍了一种基于掩码的贝叶斯神经网络(BayesNN)的算法-硬件协同优化流程,旨在加速磁共振成像(MRI)的不确定性估计,特别是在适应性放疗中的应用。文章提出的解决方案通过将现有的深度神经网络(DNN)转换为硬件高效的掩码型BayesNN,结合FPGA加速器的设计,实现了在MRI分析中不确定性信息的可靠和高效估计。实验结果表明,该方法在Xilinx VU13P FPGA上相比GPU和CPU实现,分别实现了7.5倍和32.5倍的加速,同时降低了功耗。这一技术的前景在于提高癌症诊断和治疗的准确性和可靠性,特别是在实时成像引导的放疗中。

Read more...

探索AiGAS-dEVL:应对极端验证延迟下的数据流概念漂移新模型

AiGAS-dEVL: An Adaptive Incremental Neural Gas Model for Drifting Data Streams under Extreme Verification Latency

摘要

本文介绍了一种名为AiGAS-dEVL的新型自适应增量神经气体模型,用于处理极端验证延迟下的漂移数据流。在当前数据生成速度日益加快的背景下,机器学习模型常常面临数据部分标记或延迟标记的问题,特别是在极端验证延迟情况下,监督信号可能无限期不可用。AiGAS-dEVL模型利用增长型神经气体(GNG)来刻画数据流中随时间变化的概念,通过在线分析这些原型点的行为,定义特征空间中概念的演变,检测其行为的变化,并设计适应策略以减轻这些变化对模型的影响。该模型在多个合成数据集上进行了评估,并与现有技术进行了比较,显示出在多个数据集上的优越适应性,同时保持了简单和可解释的实例基础适应策略。

Read more...

探索AI治理的新框架:Switch、Ladder与Matrix模型的比较与应用

The Switch, the Ladder, and the Matrix: Models for Classifying AI Systems

摘要

本文《The Switch, the Ladder, and the Matrix: Models for Classifying AI Systems》由Jakob Mökander等人撰写,探讨了人工智能(AI)系统分类的必要性和方法。文章指出,尽管AI伦理原则已被广泛采纳,但在实际操作中仍存在原则与实践之间的鸿沟。主要障碍之一是缺乏明确的物质范围定义,即AI伦理原则应适用于哪些系统和过程。文章通过比较以往的分类尝试,提出了三种分类模型:Switch(二元分类)、Ladder(基于风险的分类)和Matrix(多维分类),并分析了每种模型的优缺点,旨在为设计、部署或监管AI系统的组织提供实用的概念工具,以实现AI治理的实际操作。

Read more...

探索CosyVoice:引领多语言零样本TTS技术的新纪元

CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens

摘要

本文介绍了一种基于监督语义令牌的可扩展多语言零样本文本到语音合成器——CosyVoice。该研究解决了传统文本到语音(TTS)模型中语音令牌缺乏明确语义信息和与文本对齐的问题。通过从多语言语音识别模型中提取监督语义令牌,并结合大型语言模型(LLM)和条件流匹配模型,CosyVoice在零样本语音克隆中显著提高了内容一致性和说话者相似度。实验结果表明,CosyVoice具有良好的可扩展性,利用大规模数据进一步提升了合成性能。

Read more...
Previous Page 57 of 156 Next Page