SoftDedup:革新大型语言模型预训练的高效数据重加权方法

SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training

摘要

本文介绍了一种名为SoftDedup的高效数据重加权方法,旨在加速大型语言模型(LLMs)的预训练过程。该方法通过引入“数据共同性”这一概念,量化数据样本的重复程度,从而在保持数据集完整性的同时,减少高重复度数据的采样权重。实验结果显示,该方法显著提高了训练效率,减少了至少26%的训练步骤,同时提升了下游任务的准确性。此外,该方法在已经严格去重的数据集上也能持续提升性能,表明其具有补充现有去重方法并成为LLMs预训练标准流程的潜力。

Read more...

TCKIN模型:革命性的脓毒症死亡风险预测工具

TCKIN: A Novel Integrated Network Model for Predicting Mortality Risk in Sepsis Patients

摘要

本文介绍了一种名为TCKIN的新型集成网络模型,用于预测脓毒症患者的死亡风险。脓毒症是全球性的健康威胁,每年导致数百万人死亡和巨大的经济成本。准确的死亡风险预测有助于更有效地分配医疗资源,从而提高患者的生存率和生命质量。当前的方法通常只使用一种类型的数据,如常量数据、时间序列数据或ICD代码。本研究通过整合电子健康记录中的时间序列数据和常量数据以及ICD代码,提出了TCKIN模型,该模型在MIMIC-III和MIMIC-IV数据集上的验证结果显示,其预测准确性、敏感性和特异性均优于现有的机器学习和深度学习方法。TCKIN模型通过集成多种数据源和处理技术,实现了在各种评估指标上的卓越性能,为临床决策提供了更可靠的支持。

Read more...

TeVAE:一种用于多变量时间序列在线异常检测的变分自编码器方法

TeVAE: A Variational Autoencoder Approach for Discrete Online Anomaly Detection in Variable-state Multivariate Time-series Data

摘要

本文介绍了一种名为TeVAE的变分自编码器方法,用于汽车测试领域中的在线异常检测。随着记录数据的增加,手动评估的局限性日益明显,因此需要自动化的在线异常检测系统。TeVAE能够处理复杂的多变量时间序列数据,并在训练未标记数据时最小化误报。该方法避免了“绕过现象”,并引入了一种新的方法将单个窗口重新映射到连续时间序列。此外,本文还提出了一系列评估检测延迟和根本原因能力的指标,并在实际工业数据集上进行了实验。TeVAE在正确配置下,仅在6%的时间内错误地标记异常,并能检测到65%的实际异常。

Read more...

TriQXNet:开创性的混合经典-量子框架用于精确预测地磁暴

TriQXNet: Forecasting Dst Index from Solar Wind Data Using an Interpretable Parallel Classical-Quantum Framework with Uncertainty Quantification

摘要

本文介绍了一种创新的混合经典-量子框架TriQXNet,用于从太阳风数据预测Dst指数,并结合不确定性量化。Dst指数是衡量地磁暴强度的重要指标,对GPS、卫星通信和电力系统等关键基础设施具有潜在的重大影响。TriQXNet通过集成经典和量子计算、共形预测和可解释AI(XAI),在混合神经网络架构中实现了前所未有的集成。该模型利用NASA的ACE和NOAA的DSCOVR卫星的实时太阳风数据,通过三个并行通道处理预处理数据,显著提高了Dst指数预测的鲁棒性和准确性。TriQXNet不仅在性能上超越了13种最先进的混合深度学习模型,而且在预测中提供了可量化的不确定性,增强了模型的可解释性。

Read more...

TriQXNet:开创性的混合经典-量子框架用于高精度Dst指数预测

TriQXNet: Forecasting Dst Index from Solar Wind Data Using an Interpretable Parallel Classical-Quantum Framework with Uncertainty Quantification

摘要

本文介绍了一种创新的混合经典-量子框架TriQXNet,用于从太阳风数据预测Dst指数,并结合不确定性量化。Dst指数是衡量地磁暴强度的重要指标,对GPS、卫星通信和电力系统等关键基础设施具有潜在的重大影响。TriQXNet通过集成经典和量子计算、共形预测和可解释AI(XAI),在混合神经网络架构中实现了高精度的Dst指数预测。该模型利用NASA的ACE和NOAA的DSCOVR卫星的实时太阳风数据,提供当前小时(t0)和下一小时(t+1)的Dst指数预测,有助于减轻地磁暴的负面影响。TriQXNet在性能上超越了13种最先进的混合深度学习模型,并通过10折交叉验证配对t检验确认了其优越性能。此外,通过实施共形预测技术,模型提供了预测的不确定性量化,增强了操作决策的可靠性。XAI方法如ShapTime和排列特征重要性也被纳入,以提高模型的可解释性。

Read more...

VRDSynth:革新多语言视觉丰富文档信息提取的程序合成方法

VRDSynth: Synthesizing Programs for Multilingual Visually Rich Document Information Extraction

摘要

本文介绍了一种名为VRDSynth的新型程序合成方法,旨在自动生成程序以从多语言视觉丰富的文档(VRDs)中提取实体关系。商业领域经常需要从各种供应商的文档中查询视觉丰富的文档(如购买收据、医疗记录和保险表格)以做出明智的决策。现有的技术在处理新布局或需要大量预训练数据时存在局限性。VRDSynth通过引入一种新的领域特定语言(DSL)和一种新颖的合成算法,有效地捕捉文档实体之间的空间和文本关系,同时无需预训练数据,从而克服了这些限制。该方法在两个流行的VRD理解基准(FUNSD和XFUND)上进行了实验,证明了其在多语言环境下的优越性能。

Read more...

个性化血液生物标志物预测:一种基于深度表示学习的新方法

Lifestyle-Informed Personalized Blood Biomarker Prediction via Novel Representation Learning

摘要

本文介绍了一种新颖的框架,用于预测未来的血液生物标志物值并通过学习的生活方式数据(如身体活动和睡眠)来定义个性化的参考值。该方法通过深度学习技术,特别是深度度量学习(DML),捕捉生物标志物与生活方式因素之间的复杂关系。利用英国生物银行(UK Biobank)的数据,研究显示这种方法在预测临床诊断方面优于传统的和现有的最先进的表示学习技术。通过结合生活方式因素和生物标志物模型,该方法能够从单次实验室访问中改善未来实验室值的预测,为开发更精确的风险分层工具和定制预防性护理策略奠定了基础。

Read more...

从众包噪声标签中学习:信号处理视角下的AI/ML进步

Learning From Crowdsourced Noisy Labels: A Signal Processing Perspective

摘要

本文《Learning From Crowdsourced Noisy Labels: A Signal Processing Perspective》由Shahana Ibrahim, Panagiotis A. Traganitis, Xiao Fu, 和 Georgios B. Giannakis共同撰写,探讨了从众包噪声标签中学习的关键问题。文章背景在于人工智能(AI)和机器学习(ML)的进步依赖于大规模、精心策划的数据集,而这些数据集的创建常常通过众包方式,由多个标注者提供标签,然后整合这些标签以供下游学习和推理任务使用。然而,由于标注者的专业限制或不可靠性,标注过程中常产生噪声标签,因此核心目标是开发有效减轻这些噪声标签对学习任务负面影响的方法。文章介绍了从噪声众包标签中学习的最新进展,重点在于众包模型及其方法论处理,从经典的统计模型到最近的基于深度学习的方法,强调了分析见解和算法发展,特别是信号处理(SP)理论和方法如何推动这一领域的发展。此外,文章还触及了开发尖端AI/ML系统的关键新兴主题,如在强化学习中使用人类反馈(RLHF)和直接偏好优化(DPO),这些技术是微调大型语言模型(LLMs)的关键技术。

Read more...

信息检索系统的鲁棒性研究:挑战与机遇

Robust Neural Information Retrieval: An Adversarial and Out-of-distribution Perspective

摘要

本文是对“Robust Neural Information Retrieval: An Adversarial and Out-of-distribution Perspective”的解读。文章介绍了信息检索(IR)的任务和模型,指出了IR系统在实际部署中面临的对抗攻击和分布外数据的挑战,并给出了IR系统鲁棒性的定义和分类。文章还详细讨论了对抗鲁棒性和分布外鲁棒性的工作原理、工作流程、应用前景等内容。最后,文章指出了IR系统鲁棒性研究的挑战和未来方向。

Read more...

具身人工智能:连接网络空间与物理世界的桥梁

Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

摘要

本文是对“Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI”的解读。文章指出,具身人工智能(Embodied AI)对于实现通用人工智能(AGI)至关重要,是连接网络空间和物理世界的基础。文章分析了具身机器人和模拟器的前沿研究,介绍了四个主要研究目标:具身感知、具身交互、具身智能体和从模拟到现实的适应,涵盖了最先进的方法、基本范例和综合数据集。此外,文章还探讨了具身人工智能在网络空间和物理世界中的应用,以及其面临的挑战和未来的发展方向。

Read more...
Previous Page 38 of 156 Next Page