BaTex:高效个性化文本到图像生成的新方法

Efficient Personalized Text-to-image Generation by Leveraging Textual Subspace

摘要

本文介绍了一种名为BaTex的新型个性化文本到图像生成方法,该方法通过利用文本子空间来提高生成图像的个性化程度和效率。传统的文本到图像生成方法主要关注图像重建任务的性能,导致难以与不同的文本提示灵活结合。此外,在高维嵌入空间中进行优化通常会导致不必要的耗时训练过程和缓慢的收敛。为了解决这些问题,BaTex方法通过在文本子空间中探索目标嵌入,利用自表达性属性,并提出了一种有效的选择策略来确定文本子空间的基向量。实验结果表明,BaTex不仅能够忠实地重建输入图像,还能显著提高与新输入文本提示的对齐度,并且对初始词的鲁棒性有所提高,使用户无需输入最相关的初始词。BaTex方法为个性化文本到图像生成的高效表示学习打开了新的大门。

Read more...

CaFNet:革命性的雷达-相机深度估计框架,引领自动驾驶技术新纪元

CaFNet: A Confidence-Driven Framework for Radar Camera Depth Estimation

摘要

本文介绍了一种名为CaFNet的新型两阶段端到端可训练网络,用于结合RGB图像和稀疏雷达点云数据进行密集深度估计。该方法特别适用于自动驾驶领域,通过解决雷达数据特有的挑战,如模糊的仰角和噪声测量,提高了深度估计的准确性和可靠性。CaFNet通过预测雷达置信度图和初步粗略深度图,以及创新的置信度感知门控融合机制,有效地整合了雷达和图像特征,从而在nuScenes数据集上显著提升了性能,特别是在Mean Absolute Error (MAE)和Root Mean Square Error (RMSE)指标上。

Read more...

CGNN:一种基于通勤时间的有向图神经网络,革新图数据分析

Commute Graph Neural Networks

摘要

本文介绍了一种名为Commute Graph Neural Networks (CGNN)的新型图神经网络,专门用于处理有向图(digraphs)中的学习问题。CGNN通过将有向图中的节点通勤时间(commute time)信息整合到消息传递机制中,有效地捕捉了节点间的相互不对称关系。传统的图神经网络在处理有向图时,主要捕捉单向关系,而忽略了路径不对称性带来的复杂性。CGNN通过一种新型的有向图拉普拉斯(DiLap)计算通勤时间,并将其应用于邻居聚合过程中,根据邻居节点到中心节点的通勤时间来加权邻居的贡献。实验结果表明,CGNN在多个有向图数据集上取得了最先进的性能。

Read more...

HASNAS:开启神经形态计算新时代的高效脉冲神经网络架构搜索框架

HASNAS: A Hardware-Aware Spiking Neural Architecture Search Framework for Neuromorphic Compute-in-Memory Systems

摘要

本文介绍了一种名为HASNAS的新型硬件感知脉冲神经架构搜索(NAS)框架,该框架专为神经形态计算内存储(CIM)系统设计。HASNAS旨在发现能够在给定的内存、面积、延迟和能量消耗约束下提供高精度的脉冲神经网络(SNN)。SNN因其超低功耗计算能力在解决多样化的机器学习任务中显示出潜力。然而,现有的SNN架构往往未考虑应用和底层CIM硬件的约束,限制了其性能和效率。HASNAS通过优化SNN操作、开发有效的SNN架构和设计硬件感知的搜索算法,实现了在满足多重约束的同时快速找到高性能SNN的目标。实验结果表明,HASNAS能够在CIFAR10和CIFAR100数据集上实现高达11倍的搜索速度提升,同时满足严格的硬件约束,为高效设计自动化提供了可能。

Read more...

LASSI:基于LLM的自动化自校正流水线,革新并行科学代码翻译

LASSI: An LLM-based Automated Self-Correcting Pipeline for Translating Parallel Scientific Codes

摘要

本文介绍了一种基于大型语言模型(LLM)的自动化自校正流水线LASSI,用于翻译并行科学代码。LASSI通过引导现有的闭源或开源LLM,实现了在OpenMP和CUDA之间的双向代码翻译。该框架通过自校正循环,将编译和执行过程中遇到的错误反馈给LLM,以进行调试和重构。实验结果表明,LASSI在不同应用代码和四个LLM上的评估显示了其生成可执行并行代码的有效性,其中80%的OpenMP到CUDA翻译和85%的CUDA到OpenMP翻译产生了预期的输出。

Read more...

LEQ:一种基于模型的离线强化学习方法,有效解决长视野任务挑战

Tackling Long-Horizon Tasks with Model-based Offline Reinforcement Learning

摘要

本文介绍了一种基于模型的离线强化学习方法——Lower Expectile Q-learning(LEQ),旨在解决从有限静态数据中学习的问题。LEQ通过使用学习到的模型生成虚拟轨迹,并利用expectile回归对λ-returns进行处理,有效减少了模型基于价值估计中的高偏差,从而显著提升了在长视野任务(如D4RL AntMaze任务)中的表现,甚至能够与无模型方法相媲美。实验结果表明,LEQ在长视野任务中明显优于先前的基于模型的离线强化学习方法,并在NeoRL基准和D4RL MuJoCo Gym任务中达到了与最先进的基于模型和无模型的离线强化学习方法相媲美的性能。

Read more...

MINIMO:从内在动机出发的数学代理——自动化数学推理的新前沿

Learning Formal Mathematics From Intrinsic Motivation

摘要

本文探讨了如何从数学公理中发现数学定理的柏拉图式观点,并描述了MINIMO(从内在动机出发的数学):一个同时学习提出挑战性问题(猜想)和解决这些问题(定理证明)的代理。给定一个在依赖类型理论中公理化的数学领域,我们首先结合受限解码和类型导向合成的方法,从语言模型中采样有效的猜想。我们的方法保证了猜想的良好形式化,即使在模型随机初始化的情况下也是如此。我们使用相同的模型来表示证明搜索的策略和价值函数。我们的代理目标是生成难以证明但可证明的猜想——这是一个移动目标,因为代理自身的定理证明能力也在训练过程中提高。我们提出了在证明搜索树上进行事后重标记的新方法,以显著提高代理在两个任务中的样本效率。实验在三个公理化领域(命题逻辑、算术和群论)中进行,表明我们的代理可以从仅有的公理出发,自我改进,生成真实且具有挑战性的猜想并找到证明。

Read more...

Pommerman中的多智能体训练:课程学习与自玩策略的融合

Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach

摘要

本文介绍了一种用于训练多智能体系统在Pommerman环境中进行2vs2团队模式游戏的方法,该方法结合了课程学习和基于种群的自玩(self-play)策略。Pommerman是一个多智能体环境,具有延迟动作效果、稀疏奖励和假阳性奖励等挑战。本文提出的系统通过课程学习帮助智能体逐步掌握游戏技能,随后通过基于种群的自玩系统进一步提高智能体的性能。此外,本文还解决了稀疏奖励和有效的匹配机制问题,通过引入基于智能体性能的自适应退火因子来动态调整密集探索奖励,并利用Elo评分系统实现智能体的有效配对。实验结果表明,训练后的智能体能够在不需队友间通信的情况下超越顶级学习智能体。

Read more...

SCMIL:革命性的癌症生存预测框架,利用稀疏自注意力机制提升临床决策

SCMIL: Sparse Context-aware Multiple Instance Learning for Predicting Cancer Survival Probability Distribution in Whole Slide Images

摘要

本文介绍了一种名为SCMIL(Sparse Context-aware Multiple Instance Learning)的新框架,用于预测癌症患者的生存概率分布。该框架通过分析全切片图像(WSI)中的肿瘤微环境,创新性地利用稀疏自注意力机制来识别和学习局部区域内实例间的复杂交互特征。SCMIL不仅能够过滤掉与任务无关的补丁,还能通过注册混合密度网络(RegisterMDN)预测个体患者的生存概率分布,从而提供更具临床意义的预测。实验结果表明,SCMIL在两个公开的WSI数据集上优于现有的最先进方法,提供了更准确和可解释的癌症生存预测。

Read more...

XEUS:突破性的多语言通用语音编码器,引领语音识别技术的新纪元

Towards Robust Speech Representation Learning for Thousands of Languages

摘要

本文介绍了一种名为XEUS的新型跨语言通用语音编码器,该编码器通过自监督学习(SSL)在超过100万小时的4057种语言数据上进行预训练。XEUS通过结合现有的公开可用语料库和新创建的7400+小时语料库,显著扩展了SSL模型的语言覆盖范围。为了增强模型对多语言语音数据的多样性和噪声条件的鲁棒性,XEUS引入了一种新的去混响目标,通过预测从模拟混响音频中提取的干净离散音素伪标签来提高模型的鲁棒性。实验结果显示,XEUS在多个基准测试中持续优于或达到与最先进(SOTA)SSL模型相当的结果,尤其在多语言语音识别和语言识别任务中表现突出。此外,XEUS的代码、模型检查点和数据将公开发布,以促进进一步的研究和可重复性。

Read more...
Previous Page 112 of 156 Next Page