GTB-DTI:推动药物-靶点相互作用建模的基准测试平台

Benchmark on Drug Target Interaction Modeling from a Structure Perspective

摘要

本文介绍了一种用于药物-靶点相互作用(DTI)建模的基准测试平台 GTB-DTI,旨在推动 DTI 研究,特别是强调结构信息的利用。作者通过对现有方法的详细综述和实验,统一了超参数设置,比较了不同的编码策略和特征处理方法,并对 31 种不同的模型进行了基准测试。最终,作者提出了一种新的模型组合,该组合在回归任务中取得了新的最先进的结果,并且在 DTI 分类中表现与最先进的方法相似。

Read more...

KHGRec:一种革命性的知识增强异构超图推荐系统

Heterogeneous Hypergraph Embedding for Recommendation Systems

摘要

本文介绍了一种名为KHGRec的新型知识增强异构超图推荐系统,旨在解决现有基于知识图谱(KG)的推荐系统中忽视复杂高阶交互和异构输入源带来的噪声和不准确性问题。KHGRec通过捕获用户-项目网络和知识图谱中的群体特征,利用协同知识异构超图(CKHG)和两个超图编码器来建模群体间的相互依赖性并确保可解释性。此外,KHGRec通过跨视图自监督学习和注意力机制融合来自输入图的信号。在四个真实世界数据集上的广泛实验表明,KHGRec相对于各种最先进的基线模型,平均相对改进达到了5.18%。此外,KHGRec在噪声抗性、缺失数据和冷启动问题上的测试也展示了其框架的鲁棒性。

Read more...

LLM 在维基百科编辑中的应用:检测和纠正偏见的能力评估

Seeing Like an AI: How LLMs Apply (and Misapply) Wikipedia Neutrality Norms

摘要

这篇论文探讨了大型语言模型(LLM)在遵循特定社区规范方面的能力,特别是在检测和纠正维基百科编辑中的偏见方面。研究发现,LLM 在检测偏见方面表现不佳,但在生成符合规范的编辑方面表现较好。然而,LLM 的编辑方式与人类编辑不同,可能会带来一些潜在的问题。

Read more...

LLM-jp:引领日本大型语言模型的开放创新与卓越发展

LLM-jp: A Cross-organizational Project for the Research and Development of Fully Open Japanese LLMs

摘要

本文介绍了LLM-jp项目,这是一个跨组织的大型语言模型(LLM)研究和开发项目,专注于开发开放源代码的日本LLM。LLM-jp项目自2023年5月启动以来,已吸引了超过1,500名来自学术界和工业界的参与者。该项目的目标是开发出能够理解并生成高质量日语文本的LLM,并解决现有LLM在处理日语时存在的理解不足和生成质量低下的问题。此外,LLM-jp项目还致力于解决LLM在计算资源需求、模型透明度、幻觉和安全性等方面的问题。通过完全透明的方式,LLM-jp项目将其模型、语料库、微调数据以及讨论和失败案例公开,供非商业和商业用途使用。

Read more...

LLM评估的挑战与应对策略:确保可靠性能的关键

A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations

摘要

这篇论文系统地回顾了评估大型语言模型(LLM)所面临的挑战和局限性。文章指出,在将LLM应用于实际场景之前,需要进行全面评估,以确保其性能可靠。尽管评估LLM的重要性已得到广泛认可,但评估过程的复杂性导致了结果的不一致和解释的差异。为了解决这一问题,作者对LLM评估的各个步骤进行了系统的研究,揭示了影响可重复性、可靠性和稳健性的各种不一致和决策复杂性。基于这些发现,作者提出了一些建议和最佳实践,以确保LLM评估的可重复性、可靠性和稳健性。

Read more...

MAPO:提升大型语言模型性能的新方法

MAPO: Boosting Large Language Model Performance with Model-Adaptive Prompt Optimization

摘要

本文提出了一种名为MAPO的模型自适应提示优化方法,旨在解决大型语言模型(LLM)在不同下游任务中的性能优化问题。该方法通过对原始提示进行优化,生成更适合特定LLM的优化提示,从而提高模型的性能。实验结果表明,该方法在多个下游任务中取得了显著的性能提升。

Read more...

QGSumm:革命性的护理笔记摘要技术,提升临床工作效率

Query-Guided Self-Supervised Summarization of Nursing Notes

摘要

本文介绍了一种名为QGSumm的查询引导自监督领域适应框架,用于护理笔记的摘要生成。护理笔记是电子健康记录(EHRs)的重要组成部分,追踪患者在护理过程中的健康状况变化。现有的摘要方法往往忽视了护理笔记,并且需要创建参考摘要作为监督信号,这既耗时又费力。QGSumm利用与患者相关的临床查询作为指导,生成高质量、以患者为中心的摘要,无需依赖参考摘要进行训练。通过自动和专家临床医生的手动评估,证明了该方法相对于最先进的大型语言模型(LLMs)在零样本和少样本设置中的优势。该方法为条件文本摘要提供了一个新的视角,特别适用于临床人员的特定兴趣。

Read more...

TwinLab框架:数字孪生技术中的高效非侵入式降阶模型训练

TwinLab: a framework for data-efficient training of non-intrusive reduced-order models for digital twins

摘要

本文介绍了一种名为TwinLab的框架,用于从模拟数据中高效训练非侵入式降阶模型(ROM),特别适用于数字孪生技术。该框架通过仅使用两个数据集,实现了对神经ODE类型降阶模型的高效且准确的训练。文章详细阐述了如何通过相关性和误差测量来选择最佳的训练数据集,以及如何通过增加第二个训练数据集来减少测试误差。此外,该框架展示了在热食品加工中生成数字孪生的应用案例,并讨论了其在其他领域的潜在应用前景。

Read more...

V3方法:无监督内容-风格解耦与符号级可解释性的新突破

Emergent Interpretable Symbols and Content-Style Disentanglement via Variance-Invariance Constraints

摘要

本文介绍了一种名为V3的无监督方法,该方法通过利用内容和风格之间的统计差异,有效地从原始观察中学习并分离出潜在空间中的内容和风格表示。与依赖于特定领域标签和知识的传统解耦算法不同,V3方法基于内容和风格在样本内和样本间的变化模式,通过编码器-解码器架构实现了解耦。实验结果表明,V3方法在音乐音频和手写数字图像两个不同领域的不同模态中,成功地学习了音高-音色和数字-颜色的解耦,其解耦鲁棒性显著优于基线无监督方法,甚至可与监督方法相媲美。此外,学习到的内容代码本在符号级别上具有可解释性,实现了机器表示与人类知识的近一对一对齐。

Read more...

VoxAct-B:双臂机器人操作的新纪元 - 利用体素和语言模型实现精细操作

VoxAct-B: Voxel-Based Acting and Stabilizing Policy for Bimanual Manipulation

摘要

本文介绍了一种名为VoxAct-B的创新方法,用于解决双臂机器人的精细操作问题。该方法利用视觉语言模型(VLMs)来优先处理场景中的关键区域,并通过重建体素网格来实现更高效的政策学习。VoxAct-B在模拟环境中展示了优于现有基线的性能,并在真实世界的开抽屉和开罐任务中得到了验证。该研究不仅提出了一种新的体素基方法,还扩展了RLBench基准,以支持双臂操作任务,展示了在复杂操作任务中的应用前景。

Read more...
Previous Page 73 of 156 Next Page