ChatLogic:革新大型语言模型的多步骤推理能力

ChatLogic: Integrating Logic Programming with Large Language Models for Multi-Step Reasoning

摘要

本文介绍了一种名为ChatLogic的创新框架,旨在通过将逻辑编程与大型语言模型(LLMs)集成,增强LLMs在多步骤推理任务中的性能。ChatLogic框架通过将自然语言查询转换为逻辑程序,利用LLMs的情境理解和模仿技能,结合符号记忆,显著提升了多步骤演绎推理能力。该框架不仅改善了信息损失问题,还通过自动化的逻辑程序执行增强,包括语法修正模块,提高了生成代码的实用性和有效性。ChatLogic框架的源代码和数据已公开,可在GitHub上获取。

Read more...

KPDD:提升小型语言模型数学推理能力的新方法

Key-Point-Driven Mathematical Reasoning Distillation of Large Language Model

摘要

本文提出了一种名为Key-Point-Driven Mathematical Reasoning Distillation (KPDD)的新方法,旨在提高小型语言模型(SLMs)在数学推理任务中的性能。KPDD通过分解问题解决过程为三个阶段:核心问题提取、问题解决信息提取和逐步解决方案生成,来增强SLMs的推理能力。实验结果显示,KPDD-CoT显著提升了SLMs的推理能力,而KPDD-PoT则在数学推理任务中达到了最先进的性能。该方法有效地减少了误解错误,推动了高效且有能力的SLMs的部署。

Read more...

ReactAIvate:革命性的深度学习方法预测化学反应机制与揭示活性热点

ReactAIvate: A Deep Learning Approach to Predicting Reaction Mechanisms and Unmasking Reactivity Hotspots

摘要

本文介绍了一种名为ReactAIvate的深度学习方法,用于预测化学反应机制(CRM)并揭示反应活性热点。该研究由印度理工学院的研究团队开发,针对化学反应机制的预测问题,提出了一种基于图神经网络(GNN)的解决方案。该方法通过创建一个包含七个不同类别的基础数据集,利用可解释的注意力机制,实现了对反应步骤的分类和反应活性原子的识别,准确率分别接近100%和96%。这种方法不仅提高了对单个反应事件的预测精度,还能准确预测整个CRM,避免了传统Seq2Seq方法中因单个字符预测错误导致的整个CRM识别错误的问题。此外,ReactAIvate模型还能有效识别出分布外的类别,为新分子反应活性的理解提供了有力工具。

Read more...

SemiAnAgg:革新联邦半监督学习的新方法

Learning Unlabeled Clients Divergence via Anchor Model Aggregation for Federated Semi-supervised Learning

摘要

本文介绍了一种名为SemiAnAgg的新型联邦半监督学习方法,旨在解决联邦学习中客户端数据异质性和伪标签错误的问题。SemiAnAgg通过使用一个基于锚点的模型聚合方法,有效地利用了未标记客户端的信息,从而提高了模型的性能。该方法在四个广泛使用的联邦半监督学习基准测试中实现了新的最先进结果,显著提高了准确性和召回率。

Read more...

Shape2Scene: 创新3D场景表示学习方法及其广泛应用前景

Shape2Scene: 3D Scene Representation Learning Through Pre-training on Shape Data

摘要

本文介绍了一种名为Shape2Scene(S2S)的新型3D场景表示学习方法,该方法通过在3D形状数据上进行预训练来学习大规模3D场景的表示。当前3D自监督学习方法面临数据荒漠问题,因为收集3D场景数据既耗时又昂贵。相反,3D形状数据集更容易收集,但现有的形状数据预训练策略由于点数量差异大,对3D场景理解提供的潜力有限。为了解决这些挑战,S2S方法设计了多尺度高分辨率骨干网络(MH-P和MH-V),并采用形状到场景策略(S2SS)来合并来自不同形状的点,创建随机伪场景以缓解形状和场景之间的差异。此外,还应用了点-点对比损失(PPC)进行预训练。实验表明,MH-P/V学习到的3D表示在形状级和场景级3D任务之间具有良好的可迁移性。

Read more...

xLSTMTime:革新时间序列预测的先进LSTM架构

xLSTMTime : Long-term Time Series Forecasting With xLSTM

摘要

本文介绍了一种名为xLSTMTime的新型时间序列预测模型,该模型基于改进的LSTM架构,特别适用于多变量长期时间序列预测(LTSF)。在近年来,基于Transformer的模型在LTSF领域取得了显著进展,但它们面临着高计算需求、难以捕捉时间动态和处理长期依赖等问题。本文提出的xLSTMTime模型通过引入指数门控和改进的记忆结构,显著提高了预测性能,并在多个真实世界数据集上与现有最先进模型进行了比较,展示了其优越的预测能力。研究结果表明,经过精细调整的循环架构可以为LTSF任务提供有竞争力的替代方案,可能重新定义时间序列预测的领域。

Read more...

保护隐私的新前沿:大型语言模型的遗忘技术

Learning to Refuse: Towards Mitigating Privacy Risks in LLMs

摘要

本文由刘振华、朱彤、谭传元和陈文亮共同撰写,针对大型语言模型(LLMs)在处理和生成自然语言时可能无意中记忆私人信息,从而引发重大隐私风险的问题进行了研究。文章提出了一种无需完全重新训练即可保护特定个人隐私数据的方法。研究团队创建了RETURN数据集,包含2,492名来自维基百科的个人及其相关问答对,用于评估机器遗忘(MU)方法在现实场景中保护个人数据的效果。此外,文章还介绍了名称感知遗忘框架(NAUF),该框架使模型能够学习哪些个人的信息应受保护,同时不影响其回答与无关个人相关的问题的能力。实验结果表明,NAUF在遗忘评分上达到了最先进的平均水平,有效地保护了目标个人的隐私数据,同时保持了模型的通用能力。

Read more...

分层多模态Transformer:革新长文档分类的新方法

Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification

摘要

本文针对长文档分类(LDC)中的多模态数据(如文本和图像)未被有效利用的问题,提出了一种新颖的分层多模态Transformer(HMT)方法。HMT通过在分层结构中进行多模态特征交互和融合,有效地处理了长文档中图像和文本的复杂关系。此外,引入了一种动态掩码转移模块,以增强不同层次Transformer之间的信息交互。实验结果表明,HMT在多个多模态长文档数据集上的表现优于现有的单模态和多模态方法。

Read more...

创新自监督学习管道:实现面部属性分类的公平性突破

A Self-Supervised Learning Pipeline for Demographically Fair Facial Attribute Classification

摘要

本文提出了一种用于面部属性分类的自监督学习管道,旨在解决自动化面部属性分类中存在的群体偏见问题。传统的偏见缓解技术主要基于监督学习,需要大量标记训练数据以实现泛化和可扩展性。然而,标记数据有限、需要繁琐的注释、存在隐私风险,并可能延续人类偏见。相比之下,自监督学习(SSL)利用自由可用的未标记数据,使训练模型更具可扩展性和泛化性。本文提出的方法通过利用完全未标记的数据,通过预训练编码器生成伪标签,结合多样化的数据筛选技术和基于元学习的加权对比学习,显著优于现有的SSL方法。在FairFace和CelebA数据集上的广泛评估证明了我们的管道在获得公平性能方面的有效性,为SSL在面部属性分类的公平性方面设定了新的基准。

Read more...

利用大型语言模型优化推荐系统:数据填充的新前沿

Semantic Understanding and Data Imputation using Large Language Model to Accelerate Recommendation System

摘要

本文由Zhicheng Ding等人撰写,旨在解决推荐系统中数据稀疏和缺失的问题。传统的数据填充方法难以捕捉数据间的复杂关系,因此本文提出了一种新颖的方法,即利用大型语言模型(LLM)进行数据填充。LLM通过理解大量文本数据中的复杂关系,能够智能地填补缺失信息,从而使推荐系统能够生成更准确和个性化的建议,提升用户体验。本文通过在推荐系统的多个任务中评估LLM填充方法的有效性,证明了其在数据填充方面的优越性。

Read more...
Previous Page 10 of 156 Next Page