探索未来材料科学:AtomAgents多智能体平台在合金设计中的革命性应用

AtomAgents: Alloy design and discovery through physics-aware multi-modal multi-agent artificial intelligence

摘要

本文由Alireza Ghafarollahi和Markus J. Buehler共同撰写,提出了一种名为AtomAgents的物理感知多模态多智能体人工智能平台,用于合金设计和发现。该平台结合了大型语言模型(LLM)的智能和多智能体在动态环境中的协作,涉及知识检索、多模态数据集成、基于物理的模拟和跨模态结果分析。AtomAgents能够自主解决复杂的材料设计问题,如设计具有增强性能的金属合金。文章通过多个计算实验展示了该平台在合金设计中的应用,强调了其在加速复杂多目标设计任务效率和开辟新材料工程领域新途径的重要性。

Read more...

探索自适应焦点损失在医学图像分割中的革命性应用

Enhancing Semantic Segmentation with Adaptive Focal Loss: A Novel Approach

摘要

本文介绍了一种名为“增强语义分割的自适应焦点损失:一种新颖方法”的研究论文,由Md Rakibul Islam等人撰写。该论文主要针对深度学习在医学图像分割中的应用,特别是在处理具有锯齿边界或小尺寸的物体时遇到的挑战。传统的损失函数如Dice、交叉熵和焦点损失主要关注物体重叠和预测与真实掩码之间的熵,但往往忽略了表面边界特性和物体体积等关键因素。为了解决这些问题,研究者提出了一种新的自适应焦点损失(A-FL)函数,该函数通过动态调整聚焦参数和类平衡参数,有效地解决了类不平衡问题,并增强了模型对小尺寸和形状不规则物体的分割能力。实验结果表明,A-FL在Picai 2022和BraTS 2018数据集上的表现优于传统的焦点损失和其他基线方法,特别是在IoU和Dice相似性系数等关键指标上取得了显著提升。

Read more...

探索艺术情感:SEU 309团队在ICCV23挑战中的多元模型创新

ICCV23 Visual-Dialog Emotion Explanation Challenge: SEU_309 Team Technical Report

摘要

本文介绍了SEU 309团队在ICCV23视觉对话情感解释生成挑战中的技术报告。该挑战专注于通过视觉对话交互在艺术讨论中生成情感解释。团队采用先进的多元模型,包括语言模型(LM)和大型视觉语言模型(LVLM),以实现卓越的性能。通过这些模型的结合,团队在F1和BLEU指标上显著超越现有基准,并在挑战中获得最高排名。该方法不仅提高了情感解释的准确性,还加深了对艺术中情感影响的理解。

Read more...

智能检索增强:解决大型代码生成模型中的API幻觉问题

On Mitigating Code LLM Hallucinations with API Documentation

摘要

本文探讨了在软件工程环境中,特别是云服务、网页和移动开发等领域中,大型语言模型(Code LLMs)在生成代码时出现的API幻觉问题。为了量化这一现象,研究者引入了CloudAPIBench基准,该基准不仅评估API幻觉的发生频率,还提供了公共领域中API出现频率的注释,使研究能够在不同频率水平上进行。研究发现,Code LLMs在处理低频API时表现不佳,例如GPT-4o在低频API调用中仅能达到38.58%的有效率。为了改善这一情况,研究提出了文档增强生成(DAG)方法,该方法显著提高了低频API的性能(达到47.94%),但在使用次优检索器时对高频API产生了负面影响(绝对下降39.02%)。为解决这一问题,研究者建议智能触发DAG,通过检查API索引或利用Code LLMs的置信度分数,仅在必要时进行检索。实验表明,这种方法在CloudAPIBench上对GPT-4o的性能提升了8.20%,实现了低频和高频API性能的更好平衡。

Read more...

构建印地语预训练LLM数据集:推动印度语言NLP的突破

Building pre-train LLM Dataset for the INDIC Languages: a case study on Hindi

摘要

本文介绍了一项关于构建用于印度语言的大型预训练语言模型(LLM)数据集的研究,特别是针对印地语的案例研究。研究团队收集并处理了跨越多个领域和方言的1.28亿个印地语标记,构建了一个高质量的数据集,旨在支持印地语及其他印度语言的预训练语言模型开发。该数据集的构建不仅解决了非英语语言在自然语言处理(NLP)应用中资源匮乏的问题,而且为多语言NLP的发展提供了重要支持。

Read more...

量子机器学习在医疗数据分类中的突破:QSVM-Kernel算法的应用与前景

Evaluating the Impact of Different Quantum Kernels on the Classification Performance of Support Vector Machine Algorithm: A Medical Dataset Application

摘要

本文探讨了量子支持向量机算法(QSVM-Kernel)中不同量子核对分类性能的影响,特别是在医疗数据集上的应用。研究通过评估多种量子特征映射方法在两个公开医疗数据集(威斯康星乳腺癌数据集和TCGA胶质瘤数据集)上的分类效果,展示了量子特征映射技术对分类结果和执行时间的显著影响。研究结果表明,特定的量子特征映射方法能够显著提升分类性能和效率,特别是在处理复杂医疗数据时。

Read more...

革命性突破:在线尺度变换技术引领头部视频生成新纪元

Learning Online Scale Transformation for Talking Head Video Generation

摘要

本文探讨了一键式头部视频生成的任务,使用一个人的源图像和可能来自另一个人的驱动视频来生成视频。生成的视频中的人物执行驱动视频提供的动作。一键式头部视频生成在现实世界中有广泛的应用,包括电影制作、摄影和虚拟化身。尽管近年来头部视频生成取得了快速进展,但源图像和驱动图像之间的尺度差异仍然是一个挑战。现有方法试图在驱动视频中找到与源图像最匹配的帧,但这种不精确的对齐可能导致次优结果。为此,本文引入了一个尺度变换模块,该模块可以自动调整驱动图像的尺度以适应源图像的尺度,通过使用源图像和驱动帧检测到的关键点中维护的尺度差异信息。此外,为了在生成过程中保持对面部尺度信息的感知,本文将尺度信息从尺度变换模块学习到生成过程的每一层,以产生最终结果,实现精确的尺度。本文的方法可以在没有任何锚帧的情况下,在两个图像之间进行精确的运动转移,这是通过提出的在线尺度变换面部重演网络的贡献实现的。大量实验表明,本文提出的方法可以根据源面部自动调整驱动面部的尺度,并在跨身份面部重演中生成高质量的面部,具有精确的尺度。

Read more...

"揭秘深度神经网络的非线性动力学:一种尺度不变的分形分析方法"

A Scale-Invariant Diagnostic Approach Towards Understanding Dynamics of Deep Neural Networks

摘要

本文介绍了一种利用分形几何分析和解释复杂连接系统非线性动力学的尺度不变方法。通过利用深度神经网络(DNNs)中的架构自相似性,本文量化了分形维度和粗糙度,以深入理解其动力学并提高内在解释的质量。该方法结合了混沌理论的原理,改进了分形演化的可视化,并利用基于图的神经网络重建网络拓扑结构。这一策略旨在提高连接主义人工智能(AI)系统的内在可解释性。

Read more...

NeSy-EBMs:结合深度学习和符号推理的统一框架

A Mathematical Framework, a Taxonomy of Modeling Paradigms, and a Suite of Learning Techniques for Neural-Symbolic Systems

摘要

本文介绍了一种名为Neural-Symbolic Energy-Based Models (NeSy-EBMs)的统一数学框架,用于神经符号系统中的判别和生成建模。该框架结合了概率和非概率方法,通过能量函数将神经和符号组件结合在一起。文章还开发了一种建模范式的分类法,重点关注系统的神经符号接口和推理能力,并引入了一套针对NeSy-EBMs的学习技术。此外,文章提出了Neural Probabilistic Soft Logic (NeuPSL),一个用于构建NeSy-EBMs的开源库,旨在提高可扩展性和表达能力。通过在多个数据集上的广泛实证分析,文章展示了NeSy-EBMs在图像分类、图节点标记、自动驾驶车辆情境意识和问答等任务中的实际优势。

Read more...

加速化学反应模型推理:投机解码技术在工业应用中的突破

Accelerating the inference of string generation-based chemical reaction models for industrial applications

摘要

本文介绍了一种加速基于字符串生成化学反应模型的推理方法,特别适用于工业应用中的计算机辅助合成规划系统。该方法通过投机解码技术,将查询字符串的子序列复制到目标字符串中,从而加速自回归SMILES生成器的推理速度。研究团队在Pytorch Lightning中重新实现了分子变换器,并在反应预测和单步逆合成中实现了超过3倍的推理加速,且未损失准确性。

Read more...
Previous Page 15 of 156 Next Page