β-DPO:动态优化大型语言模型的人类偏好对齐

$β$-DPO: Direct Preference Optimization with Dynamic $β$

摘要

本文介绍了一种名为β-DPO的新框架,旨在通过动态调整β参数来优化直接偏好优化(DPO)方法,以适应成对数据的信息量变化。该框架通过β引导的数据过滤和批量级动态β校准,显著提高了DPO在不同模型和数据集上的性能,为大型语言模型(LLMs)与人类反馈的对齐提供了一个更稳健和适应性强的训练范式。

Read more...

人类视频生成:技术挑战与未来展望

A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights

摘要

本文《A Comprehensive Survey on Human Video Generation: Challenges, Methods, and Insights》由Wentao Lei等人撰写,全面探讨了人类视频生成领域的挑战、方法和见解。该研究旨在通过生成模型合成2D人体视频序列,这些模型可以根据文本、音频和姿态等控制条件进行操作。随着电影、游戏和虚拟通信等领域的广泛应用潜力,生成自然且真实的人类视频变得至关重要。尽管近年来生成模型取得了显著进展,但人类视频生成任务仍面临人物一致性、人体运动复杂性以及与环境关系处理困难等挑战。本文首次对该领域进行了广泛的文献回顾,介绍了人类视频生成的基本原理、生成模型的发展历程,并详细探讨了基于文本、音频和姿态驱动的运动生成方法。此外,文章还提供了常用的数据集和评估指标,并讨论了当前领域的挑战和未来研究的可能方向。

Read more...

创新AI技术:合成ERG信号助力自闭症谱系障碍精准分类

Synthetic Electroretinogram Signal Generation Using Conditional Generative Adversarial Network for Enhancing Classification of Autism Spectrum Disorder

摘要

本文介绍了一种使用条件生成对抗网络(CGAN)生成合成电生理图(ERG)信号的方法,以增强自闭症谱系障碍(ASD)的分类。ERG是一种记录视网膜对光反应的临床测试,对于研究神经发育和神经退行性疾病具有潜在价值。然而,在ASD等异质性群体中,收集大型数据集的能力受限,使得人工智能(AI)应用复杂化。本文提出的方法通过生成与自然ERG信号相似的合成ERG信号,扩展了数据集,从而使AI应用得以充分利用。研究还应用了时间序列变换器(TST)和视觉变换器(ViT),通过连续小波变换(CWT)增强分类结果。这种方法有望支持相关精神疾病的分类模型,其中ERG可能有助于区分疾病。

Read more...

创新工程设计:利用CAD图像提示提升文本到图像生成模型的可行性

CAD-Prompted Generative Models: A Pathway to Feasible and Novel Engineering Designs

摘要

本文介绍了一种创新的方法,通过使用可行的CAD图像作为提示,来提高文本到图像生成模型在工程设计中的应用。该方法通过一个自行车设计任务的案例研究,展示了如何利用Stable Diffusion 2.1模型生成更多可行的设计图像。研究结果表明,通过调整CAD图像提示的权重,可以在保持设计新颖性的同时显著提高设计的可行性。这一发现为工程设计领域中更广泛地应用文本到图像生成模型提供了新的可能性。

Read more...

医疗问答中大型语言模型的不确定性估计:Two-phase Verification方法的创新与应用

Uncertainty Estimation of Large Language Models in Medical Question Answering

摘要

本文由Jiaxin Wu、Yizhou Yu和Hong-Yu Zhou等人共同撰写,探讨了大型语言模型(LLMs)在医疗问答中的不确定性估计问题。尽管LLMs在医疗领域的自然语言生成方面展现出巨大潜力,但它们也存在生成事实错误信息的风险,即“幻觉”现象。为了确保LLMs在医疗问答中的可靠性,本文提出了一种名为“Two-phase Verification”的概率无关不确定性估计方法,该方法通过模型生成的逐步解释和验证问题来检测幻觉,并在多个生物医学问答数据集上进行了评估,显示出优于现有方法的性能。

Read more...

基于Shapley值的逐步论证语义影响度量:理论与应用

Impact Measures for Gradual Argumentation Semantics

摘要

本文探讨了在抽象论证框架中使用逐步语义和影响度量来处理矛盾信息的问题。文章提出了一种基于Shapley值的新影响度量,并引入了九个原则来评估这些度量与已知的逐步语义之间的关系。通过全面分析,文章深入探讨了这些度量的功能和可取性。此外,文章还实现了一个在线原型平台,用户可以输入他们的论证图,计算逐步语义的可接受度,并获取新的影响度量的输出。

Read more...

基于同源相似性的染色体结构异常诊断:一种深度学习方法

Chromosomal Structural Abnormality Diagnosis by Homologous Similarity

摘要

本文针对染色体结构异常的诊断问题,提出了一种基于同源相似性的深度学习模型HomNet。染色体结构异常在一般人群中非常常见,而现有的数据驱动方法通常只关注单个染色体,忽略了同源染色体之间的重要相似性。HomNet模型通过比较同源染色体之间的差异,利用同源相似性来诊断结构异常。该模型还采用了自监督学习策略,通过健康个体的染色体数据和人工构造的结构异常数据进行预训练,然后在不同医院的真实数据上进行微调,以解决数据分布不一致的问题。实验结果表明,HomNet在真实世界数据集上的表现显著优于其他基线方法。

Read more...

多模态数据与MLLM的协同作用:数据与模型共同发展的未来

The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective

摘要

本文主要探讨了多模态数据与多模态大语言模型(MLLM)之间的协同作用。文章指出,MLLM的性能取决于数据和模型的共同发展,而数据的质量和数量对MLLM的性能有着重要影响。文章还介绍了MLLM的架构和发展现状,并对未来的研究方向进行了展望。

Read more...

探索AGI之路:ChatGPT、Claude和Gemini在教育与识字率上的表现

Have We Reached AGI? Comparing ChatGPT, Claude, and Gemini to Human Literacy and Education Benchmarks

摘要

本研究通过比较大型语言模型(LLMs)如ChatGPT、Claude和Gemini与美国人口的教育水平和识字率,探讨了这些模型是否接近人工通用智能(AGI)。研究结果显示,LLMs在本科知识水平和高级阅读理解等任务上显著超越了人类基准,表明在AGI的道路上取得了重大进展。然而,真正的AGI需要更广泛的认知能力评估。研究强调了AI发展、教育和社会影响的潜在影响,并强调了持续研究和伦理考虑的必要性。

Read more...

探索AI的未来:连接主义与符号主义的融合在LLM赋能自主代理中的应用

Converging Paradigms: The Synergy of Symbolic and Connectionist AI in LLM-Empowered Autonomous Agents

摘要

本文探讨了连接主义和符号主义人工智能(AI)的融合,从历史辩论到当代进展。传统上,连接主义AI专注于神经网络,而符号主义AI强调符号表示和逻辑。近期大型语言模型(LLMs)的发展,如ChatGPT和GPT-4,展示了连接主义架构在处理人类语言作为符号形式方面的潜力。研究认为,LLM赋能的自主代理(LAAs)体现了这种范式融合。通过利用LLMs进行基于文本的知识建模和表示,LAAs整合了神经符号AI原则,展示了增强的推理和决策能力。与神经符号AI主题中的知识图谱(KGs)相比,LAAs在模拟人类推理过程、有效处理大数据集和利用上下文样本方面具有独特优势。研究强调了神经向量符号集成、指令编码和隐式推理等有前景的研究方向,旨在进一步增强LAA能力。通过探索神经符号AI的进展并提出未来研究轨迹,本工作推进了对AI技术理解和发展的认识。

Read more...
Previous Page 21 of 156 Next Page