Uni-ELF:开创电解质设计新纪元的高级AI框架
摘要
本文介绍了一种名为Uni-ELF的多级表示学习框架,用于电解质配方设计。该框架通过两阶段预训练方法,重建三维分子结构并预测统计结构属性,从而显著提高电解质设计的预测能力。Uni-ELF在预测分子性质(如熔点、沸点、合成可行性)和配方性质(如导电性、库仑效率)方面表现出色,超越了现有最先进的方法。此外,Uni-ELF能够无缝集成到自动实验设计工作流程中,为基于AI的电解质设计和工程开辟了道路。
Read more...本文介绍了一种名为Uni-ELF的多级表示学习框架,用于电解质配方设计。该框架通过两阶段预训练方法,重建三维分子结构并预测统计结构属性,从而显著提高电解质设计的预测能力。Uni-ELF在预测分子性质(如熔点、沸点、合成可行性)和配方性质(如导电性、库仑效率)方面表现出色,超越了现有最先进的方法。此外,Uni-ELF能够无缝集成到自动实验设计工作流程中,为基于AI的电解质设计和工程开辟了道路。
Read more...本文介绍了一种名为VIMI的新型视频生成框架,该框架通过多模态指令实现视频生成的视觉定位。传统的文本到视频扩散模型依赖于仅包含文本的编码器进行预训练,但由于缺乏大规模多模态提示视频数据集,导致视觉定位能力不足,限制了其在多模态集成中的应用。为解决这一问题,VIMI构建了一个大规模多模态提示数据集,并采用两阶段训练策略,使同一模型能够执行多样化的视频生成任务。第一阶段提出了一种多模态条件视频生成框架,用于在这些增强数据集上进行预训练,建立一个基础的视频生成模型。第二阶段在三个视频生成任务上对模型进行微调,进一步提高了模型处理多样输入和任务的能力,确保了多模态信息的无缝集成。VIMI在多个基准测试中展示了其优越的性能,特别是在UCF101基准测试中取得了最先进的文本到视频生成结果。
Read more...本文介绍了一种名为交互式自然语言调试(INLD)的框架,旨在通过向用户提出一系列自然语言问题来诊断和修正手工编制的自然语言系统中的错误。INLD将调试过程视为一个推理问题,通过用户的回答来定位系统知识中的错误并进行修正。本文详细介绍了INLD框架的前两个阶段:症状识别和错误定位,并展示了其在CNLU语义解析器中的应用,特别是在诊断合成示例中的语义错误方面的能力。此外,本文还讨论了INLD的设计挑战和未来工作的方向。
Read more...本文提出了一种基于多智能体强化学习(Multi-agent Reinforcement Learning, MARL)的网络入侵检测系统(Intrusion Detection System, IDS),旨在解决传统机器学习(ML)IDS在面对不断变化的攻击模式和类别不平衡问题时的局限性。该系统通过引入多层次的强化学习架构,结合改进的深度Q网络(DQN)算法,实现了对网络入侵的高效、自动和鲁棒检测。实验结果表明,该系统在CIC-IDS-2017数据集上能够有效处理类别不平衡问题,并提供细粒度的攻击分类,具有极低的误报率。
Read more...本文介绍了一种高效的方法,用于从锥形束计算机断层扫描(CBCT)图像中自动识别和提取牙齿的三维边界框。该方法的核心在于通过将三维图像分割成轴向切片,利用单阶段物体检测器定位和标记牙齿,进而绘制边界框并生成每个牙齿的三维表示。此解决方案已成功集成到牙科分析工具Dentomo中,为牙科病理分析提供了自动化的高效工具。
Read more...本文介绍了一种利用场景图(Scene Graphs)增强视觉-语言模型以理解交通意外的新方法。论文由Aaron Lohner等人提出,旨在通过将交通场景建模为图结构,其中车辆等对象作为节点,相对距离和方向作为边,来提高交通意外分类的准确性。该方法通过多阶段、多模态的管道处理交通意外视频,将其编码为场景图,并与视觉和语言模态对齐,以进行意外分类。在Detection of Traffic Anomaly (DoTA)基准测试的一个子集上,该方法在4个类别中实现了57.77%的平衡准确率,相较于不使用场景图信息的情况,提高了近5个百分点。
Read more...本文介绍了一种利用大型语言模型(LLMs)在文本和视听模态上进行抑郁症检测和分析的方法。抑郁症是一种全球普遍的心理疾病,传统的诊断方法依赖于临床医生的经验和患者的自我报告,存在主观性和延迟性。本文提出的解决方案利用了最新的LLMs技术,通过分析患者的文本和视听数据,实现了更准确和早期的抑郁症检测。实验结果表明,该方法在文本模态上的均方根误差(RMSE)达到了3.98,分类任务的准确率达到了71.43%,并且在视听模态上也取得了较好的预测效果。此外,本文还探讨了数据集的局限性及可能的改进方向。
Read more...本文探讨了在印度医疗环境中使用大型语言模型(LLMs)生成和去识别临床出院总结的问题。随着印度医疗数据的快速数字化,确保患者隐私和数据安全变得尤为重要。文章通过实验验证了基于公开非印度数据集训练的去识别算法在印度数据集上的性能不佳,并探讨了使用LLMs生成合成临床报告以增强去识别系统性能的有效性。研究结果表明,合成数据的生成和使用可以显著提高去识别系统的泛化能力,为印度医疗数据的隐私保护提供了新的解决方案。
Read more...本文提出了一种针对构音障碍和老年说话者的高效数据驱动方法,用于在测试时快速适应深度神经网络/时间延迟神经网络(DNN/TDNN)和Conformer自动语音识别(ASR)模型。该方法包括两种新颖的数据高效技术:1)说话者级别方差正则化的谱基嵌入(VR-SBE)特征,利用特殊正则化项确保适应过程中的说话者特征同质性;2)基于特征的学习隐藏单元贡献(f-LHUC)变换,条件为VR-SBE特征。实验在四个任务上进行,涵盖英语和广东话的构音障碍和老年语音数据集。所提出的即时说话者适应技术在单词或字符错误率上显著优于基线iVector和xVector适应,以及批处理模式的LHUC说话者适应,同时具有高达33.6倍的实时因子加速。本文展示了所提出适应技术的有效性,并在UASpeech数据集上实现了最先进的单词错误率(WER)23.33%。分析表明,VR-SBE特征和f-LHUC变换对测试时适应中的说话者级别数据量不敏感。T-SNE可视化显示,它们比基线iVectors、xVectors和批处理模式LHUC变换具有更强的说话者级别同质性。
Read more...本文介绍了一种名为“双端合成规划(DESP)”的新型计算机辅助合成规划(CASP)算法,该算法通过双向图搜索方案解决了在实际应用中常见的特定起始材料约束问题。DESP算法通过从目标分子和指定的起始材料同时进行扩展,确保了约束条件的满足。该算法利用离线学习的条件成本网络来指导搜索过程,并在多个新的基准测试中展示了其提高解决率和减少搜索扩展数量的能力。DESP能够利用现有的单步逆合成模型,并且随着这些模型能力的提升,其性能有望进一步提高。
Read more...