探索维基百科变化事件数据集CHEW:揭示大型语言模型的时间理解能力

CHEW: A Dataset of CHanging Events in Wikipedia

摘要

本文介绍了CHEW(CHanging Events in Wikipedia)数据集,这是一个专注于维基百科中事件和实体随时间变化的新型数据集。论文通过使用CHEW数据集来测试大型语言模型(LLMs)对维基百科实体和事件时间线的理解能力,特别是在生成和分类任务中的表现。研究结果表明,尽管LLMs拥有时间信息,但它们在构建准确的时间线上仍面临挑战。此外,论文还展示了CHEW衍生嵌入在识别意义变化方面的有效性。

Read more...

探索编译器优化的未来:Meta大型语言模型编译器的创新与应用

Meta Large Language Model Compiler: Foundation Models of Compiler Optimization

摘要

本文介绍了一种名为Meta Large Language Model Compiler(LLM Compiler)的新型大型语言模型,专门设计用于代码和编译器优化任务。LLM Compiler基于Code Llama模型构建,通过训练大量编译器中间表示(IR)和汇编代码,增强了模型对编译器优化技术的理解。该模型经过5460亿个令牌的训练,并进行了指令微调,以模拟编译器行为。LLM Compiler的发布旨在为学术研究人员和行业从业者提供一个可扩展、成本效益高的基础,以进一步研究和开发编译器优化技术。

Read more...

探索联邦图学习的新前沿:FGSSL框架的突破与应用

Federated Graph Semantic and Structural Learning

摘要

本文介绍了一种名为“联邦图语义和结构学习”(Federated Graph Semantic and Structural Learning, FGSSL)的新型联邦学习框架,旨在解决在分布式图神经网络训练中数据非独立同分布(non-IID)的问题。该框架通过分别校正节点级语义和图级结构偏差,来改善联邦图学习(FGL)的性能。论文提出的方法包括联邦节点语义对比(FNSC)和联邦图结构蒸馏(FGSD),通过实验验证了其在多个图数据集上的优越性能。

Read more...

探索药物副作用预测的新前沿:多视图Kronecker正则化最小二乘融合方法

Multiple Kronecker RLS fusion-based link propagation for drug-side effect prediction

摘要

本文介绍了一种基于多视图Kronecker正则化最小二乘融合的链接传播方法(MKronRLSF-LP),用于药物副作用预测。该方法通过整合多个视角的数据,利用共识分区和多图拉普拉斯约束,提高了预测的准确性和鲁棒性。实验结果表明,MKronRLSF-LP在多个真实药物副作用数据集上表现优异,优于其他竞争方法。

Read more...

探索金融翻译的未来:大型语言模型在中英金融新闻翻译中的应用与挑战

FFN: a Fine-grained Chinese-English Financial Domain Parallel Corpus

摘要

本文介绍了一项关于中英金融领域机器翻译的研究,由上海外国语大学经济与金融学院和教育学院的研究人员共同完成。研究团队构建了一个名为FFN的细粒度中英金融新闻平行语料库,并评估了ChatGPT和ERNIE-bot等大型语言模型(LLMs)在金融翻译领域的性能。研究通过BLEU、TER和chrF等评价指标,对比了LLMs与DeepL和Google翻译软件的翻译质量,并训练了一个基于OpenNMT的模型进行性能评估。研究结果显示,尽管LLMs在机器翻译领域取得了显著进展,但在金融领域的翻译准确性和质量仍有待优化。

Read more...

探索高效训练:混合并行随机梯度下降方法的突破

Hybrid Approach to Parallel Stochastic Gradient Descent

摘要

本文由Aakash Sudhirbhai Vora、Dhrumil Chetankumar Joshi和Aksh Kantibhai Patel共同撰写,提出了一种混合并行随机梯度下降方法,旨在优化神经网络训练过程中的数据并行性。传统的同步和异步数据并行方法各有优缺点,本文提出的混合方法结合了两者的优势,通过一个阈值函数动态调整参数聚合的方式,从而在保证训练速度的同时提高模型精度。该方法在多个大型数据集上进行了验证,显示出优于传统同步和异步方法的性能。

Read more...

提升大型语言模型的长上下文处理能力:合成数据微调的新方法

From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data

摘要

本文由威斯康星大学麦迪逊分校的研究团队提出,针对大型语言模型(LLMs)在处理长上下文输入时信息检索和推理能力不足的问题,提出了一种基于合成数据微调的方法。通过在精心设计的合成数据集上进行微调,实验证明该方法显著提升了模型在长上下文任务中的表现,如多文档问答(MDQA)和灵活长度问答(FLenQA),同时保持了模型在通用基准上的性能。

Read more...

揭秘AI视频生成:如何识别和应对深度伪造的挑战?

What Matters in Detecting AI-Generated Videos like Sora?

摘要

本文由Chirui Chang等人撰写,探讨了当前基于扩散的视频生成模型与真实世界视频之间的差距。文章通过分析外观、运动和几何三个基本维度,比较了由先进AI模型Stable Video Diffusion生成的视频与真实视频的差异。研究团队训练了三个基于3D卷积网络的分类器,分别针对外观、运动和几何特征,展示了AI生成的视频在这些方面与真实视频存在显著差异。此外,文章还提出了一个集成专家模型,该模型结合了外观、光学流和深度信息,以提高假视频检测的鲁棒性和泛化能力。研究结果表明,即使在没有接触过特定生成模型(如Sora)的视频的情况下,该模型也能以高准确度检测出假视频,这表明真实与假视频之间的差距可以跨不同视频生成模型泛化。

Read more...

揭秘RAG系统的隐私漏洞:一种先进的成员推理攻击方法

Seeing Is Believing: Black-Box Membership Inference Attacks Against Retrieval Augmented Generation

摘要

本文探讨了针对检索增强生成(RAG)系统的外部知识数据库的成员推理攻击(MIA)。RAG系统通过从外部非参数数据库检索相关知识来增强大型语言模型(LLM),以缓解幻觉和知识过时等问题。尽管现有研究表明RAG系统存在安全和隐私漏洞,但其外部数据库的安全性仍未得到充分探索。本文提出了一种仅使用黑盒API访问的MIA方法,通过计算样本与生成的文本之间的余弦相似度和模型的困惑度来确定样本是否属于RAG系统的知识数据库。实验结果显示,该方法在ROC AUC指标上达到了82%,表明其有效性和先进性。

Read more...

机器学习与质谱技术:解锁科学发现的新纪元

Machine learning meets mass spectrometry: a focused perspective

摘要

本文由Daniil A. Boiko和Valentine P. Ananikov撰写,聚焦于机器学习(ML)与质谱(MS)技术的结合,特别是在医学、生命科学、化学等领域中的应用。文章指出,质谱技术因其高数据生成量和复杂性,面临数据分析的挑战。机器学习方法,尤其是深度学习,为解锁这些数据的潜力提供了新途径,有望推动科学发现。文章还讨论了机器学习在质谱领域的应用现状、面临的挑战以及未来的发展方向。

Read more...
Previous Page 137 of 156 Next Page