VADER:通过奖励梯度高效调整视频扩散模型的新方法

Video Diffusion Alignment via Reward Gradients

摘要

本文介绍了一种名为VADER的新方法,用于通过奖励梯度来调整预训练的视频扩散模型,以适应特定的下游任务。传统的调整方法需要收集目标视频数据集,这在实践中既困难又耗时。VADER利用预训练的奖励模型,这些模型基于强大的视觉判别模型学习了偏好,从而在生成RGB像素时提供密集的梯度信息,这对于在复杂搜索空间中进行高效学习至关重要。通过将这些奖励模型的梯度反向传播到视频扩散模型中,VADER能够在计算和样本效率上实现高效对齐。此外,VADER不仅限于文本到视频的生成,还能处理图像到视频的生成任务,展示了其广泛的适用性和高效性。

Read more...

WhisperNetV2:基于唇部生物识别的先进认证系统,实现高安全性和隐私保护

WhisperNetV2: SlowFast Siamese Network For Lip-Based Biometrics

摘要

本文介绍了一种名为WhisperNetV2的先进唇部生物识别认证系统,该系统利用深度孪生网络结构和三重损失函数,通过SlowFast网络提取唇部视频中的生理和行为特征。与传统方法不同,WhisperNetV2考虑了客户在视频采集过程中的不同情绪状态,这些情绪可能影响面部表情和说话速度,从而影响认证的准确性。通过在CREMA-D数据集上训练,该系统在测试集上达到了0.005的等误差率(EER),显示出其在唇部生物识别领域的先进性能。

Read more...

β-DPO:动态优化大型语言模型的人类偏好对齐

$β$-DPO: Direct Preference Optimization with Dynamic $β$

摘要

本文介绍了一种名为β-DPO的新框架,旨在通过动态调整β参数来优化直接偏好优化(DPO)方法,以适应成对数据的信息量变化。该框架通过β引导的数据过滤和批量级动态β校准,显著提高了DPO在不同模型和数据集上的性能,为大型语言模型(LLMs)与人类反馈的对齐提供了一个更稳健和适应性强的训练范式。

Read more...

人类视频生成:技术挑战与未来展望

A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights

摘要

本文《A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights》由Wentao Lei等人撰写,全面探讨了人类视频生成领域的挑战、方法和见解。该研究旨在通过生成模型合成2D人体视频序列,这些模型可以根据文本、音频和姿态等控制条件进行操作。随着电影、游戏和虚拟通信等领域的广泛应用潜力,生成自然且真实的人类视频变得至关重要。尽管近年来生成模型取得了显著进展,但人类视频生成任务仍面临人物一致性、人体运动复杂性以及与环境关系处理困难等挑战。本文首次对该领域进行了广泛的文献回顾,介绍了人类视频生成的基本原理、生成模型的发展历程,并详细探讨了基于文本、音频和姿态驱动的运动生成方法。此外,文章还提供了常用的数据集和评估指标,并讨论了当前领域的挑战和未来研究的可能方向。

Read more...

创新AI技术:合成ERG信号助力自闭症谱系障碍精准分类

Synthetic Electroretinogram Signal Generation Using Conditional Generative Adversarial Network for Enhancing Classification of Autism Spectrum Disorder

摘要

本文介绍了一种使用条件生成对抗网络(CGAN)生成合成电生理图(ERG)信号的方法,以增强自闭症谱系障碍(ASD)的分类。ERG是一种记录视网膜对光反应的临床测试,对于研究神经发育和神经退行性疾病具有潜在价值。然而,在ASD等异质性群体中,收集大型数据集的能力受限,使得人工智能(AI)应用复杂化。本文提出的方法通过生成与自然ERG信号相似的合成ERG信号,扩展了数据集,从而使AI应用得以充分利用。研究还应用了时间序列变换器(TST)和视觉变换器(ViT),通过连续小波变换(CWT)增强分类结果。这种方法有望支持相关精神疾病的分类模型,其中ERG可能有助于区分疾病。

Read more...

创新工程设计:利用CAD图像提示提升文本到图像生成模型的可行性

CAD-Prompted Generative Models: A Pathway to Feasible and Novel Engineering Designs

摘要

本文介绍了一种创新的方法,通过使用可行的CAD图像作为提示,来提高文本到图像生成模型在工程设计中的应用。该方法通过一个自行车设计任务的案例研究,展示了如何利用Stable Diffusion 2.1模型生成更多可行的设计图像。研究结果表明,通过调整CAD图像提示的权重,可以在保持设计新颖性的同时显著提高设计的可行性。这一发现为工程设计领域中更广泛地应用文本到图像生成模型提供了新的可能性。

Read more...

医疗问答中大型语言模型的不确定性估计:Two-phase Verification方法的创新与应用

Uncertainty Estimation of Large Language Models in Medical Question Answering

摘要

本文由Jiaxin Wu、Yizhou Yu和Hong-Yu Zhou等人共同撰写,探讨了大型语言模型(LLMs)在医疗问答中的不确定性估计问题。尽管LLMs在医疗领域的自然语言生成方面展现出巨大潜力,但它们也存在生成事实错误信息的风险,即“幻觉”现象。为了确保LLMs在医疗问答中的可靠性,本文提出了一种名为“Two-phase Verification”的概率无关不确定性估计方法,该方法通过模型生成的逐步解释和验证问题来检测幻觉,并在多个生物医学问答数据集上进行了评估,显示出优于现有方法的性能。

Read more...

基于Shapley值的逐步论证语义影响度量:理论与应用

Impact Measures for Gradual Argumentation Semantics

摘要

本文探讨了在抽象论证框架中使用逐步语义和影响度量来处理矛盾信息的问题。文章提出了一种基于Shapley值的新影响度量,并引入了九个原则来评估这些度量与已知的逐步语义之间的关系。通过全面分析,文章深入探讨了这些度量的功能和可取性。此外,文章还实现了一个在线原型平台,用户可以输入他们的论证图,计算逐步语义的可接受度,并获取新的影响度量的输出。

Read more...

基于同源相似性的染色体结构异常诊断:一种深度学习方法

Chromosomal Structural Abnormality Diagnosis by Homologous Similarity

摘要

本文针对染色体结构异常的诊断问题,提出了一种基于同源相似性的深度学习模型HomNet。染色体结构异常在一般人群中非常常见,而现有的数据驱动方法通常只关注单个染色体,忽略了同源染色体之间的重要相似性。HomNet模型通过比较同源染色体之间的差异,利用同源相似性来诊断结构异常。该模型还采用了自监督学习策略,通过健康个体的染色体数据和人工构造的结构异常数据进行预训练,然后在不同医院的真实数据上进行微调,以解决数据分布不一致的问题。实验结果表明,HomNet在真实世界数据集上的表现显著优于其他基线方法。

Read more...

多模态数据与MLLM的协同作用:数据与模型共同发展的未来

The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective

摘要

本文主要探讨了多模态数据与多模态大语言模型(MLLM)之间的协同作用。文章指出,MLLM的性能取决于数据和模型的共同发展,而数据的质量和数量对MLLM的性能有着重要影响。文章还介绍了MLLM的架构和发展现状,并对未来的研究方向进行了展望。

Read more...
Previous Page 21 of 156 Next Page