突破性能极限:CPU基深度FFMs在多数据中心规模上的高效部署

A Bag of Tricks for Scaling CPU-based Deep FFMs to more than 300m Predictions per Second

摘要

本文由Blaž Škrlj等人撰写,详细介绍了一种基于CPU的深度场感知分解机(Deep FFMs)的实现及其在多数据中心规模上的部署。该研究主要针对点击率预测问题,通过一系列优化技术,实现了每秒超过3亿次预测的高性能。论文中提出的解决方案包括模型搜索、在线模型训练、存储、传输和服务的优化,以及一种新的权重量化方法,显著减少了数据中心间权重传输的带宽需求。此外,该研究还将相关技术和引擎开源,以促进机器学习社区的发展。

Read more...

跨语言多跳知识编辑:CLEVER-CKE系统的创新与应用

Cross-Lingual Multi-Hop Knowledge Editing – Benchmarks, Analysis and a Simple Contrastive Learning based Approach

摘要

本文介绍了一种名为“跨语言多跳知识编辑”的新范式,旨在评估和分析不同最先进(SoTA)知识编辑技术在跨语言环境中的性能。文章提出了一个并行的跨语言基准测试CROLIN-MQUAKE,用于测量知识编辑能力,并发现跨语言设置与以英语为中心的设置之间存在显著的性能差距。为了解决这一问题,文章提出了一种改进的系统CLEVER-CKE,该系统基于检索、验证和生成知识编辑框架,通过引入语言感知和基于硬负样本的对比目标,提高了跨语言和细粒度事实检索与验证过程的性能。实验结果显示,CLEVER-CKE在多个大型语言模型(LLMs)、八种语言和两个数据集上的性能比先前方法提高了多达30%。

Read more...

革新图像分割:基于情境学习的视觉提示选择新策略

Visual Prompt Selection for In-Context Learning Segmentation

摘要

本文探讨了在计算机视觉中,基于情境学习(In-Context Learning, ICL)的图像分割任务中,如何改进视觉提示的选择策略。传统的图像分割模型通常依赖于密集的标注数据和简单的相似度排序来选择上下文示例,这种方法忽略了视觉提示的多样性和其在引导分割中的重要作用。本文提出了一种新的逐步上下文搜索方法(SCS),通过构建一个小而丰富的候选池和自适应搜索模块,有效地减少了标注成本并提高了分割性能。实验证明,该方法在多个数据集上达到了最先进的性能。

Read more...

预测未来技术的主导设计:全连接系统发育网络与图神经网络的应用

Dominant Design Prediction with Phylogenetic Networks

摘要

本文提出了一种从进化角度预测技术发展的有效方法。产品进化是技术进化和市场选择的结果。主导设计的形成决定了技术发展的轨迹。如何预测未来的主导设计已成为技术预测和新产品开发的关键问题。我们定义了主导产品,并结合产品进化理论,使用机器学习方法构建了一个全连接的系统发育网络数据集,以有效预测未来的主导设计。

Read more...

"冷启动假新闻检测:结构对抗网络的新突破"

Transferring Structure Knowledge: A New Task to Fake news Detection Towards Cold-Start Propagation

摘要

本文探讨了一个新的任务:冷启动假新闻检测,旨在在没有传播数据的情况下检测仅包含内容的样本。传统的假新闻检测方法依赖于从内容和传播树中提取有效的语义和结构特征,但在实际应用中,特别是在缺乏传播数据的情况下,这些方法的性能会显著下降。为了解决这一问题,本文提出了一种简单而有效的结构对抗网络(SAN)框架,该框架能够从现有的传播中学习可转移的特征,以增强对仅包含内容的样本的检测能力。通过在三个数据集上进行定性和定量实验,结果显示了新任务的挑战性和SAN框架的有效性。

Read more...

"结合UMLS与GPT模型:革新临床实体与关系抽取的新途径"

Document-level Clinical Entity and Relation Extraction via Knowledge Base-Guided Generation

摘要

本文探讨了在临床实体和关系抽取任务中,如何通过结合统一医学语言系统(UMLS)知识库与生成预训练转换器(GPT)模型,提高文档级抽取的准确性。传统的GPT模型虽然在上下文理解方面表现出色,但在识别特定医学概念时存在局限。本文提出的框架通过将UMLS概念与文本结合,生成指导性提示,从而优化GPT模型在医学文本中的实体和关系抽取能力。实验结果表明,该方法在临床实体和关系抽取任务中显著优于传统方法和基于检索增强生成(RAG)的技术。

Read more...

"解释蒸馏:提升深度学习模型泛化能力的新策略"

Explanation is All You Need in Distillation: Mitigating Bias and Shortcut Learning

摘要

本文探讨了深度神经网络(DNNs)中的偏差和虚假相关性导致的快捷学习问题,特别是在分布外(OOD)泛化方面。传统的解决方法通常需要在训练过程中使用无偏数据或进行超参数调整以对抗快捷学习。本文提出了一种新的方法——解释蒸馏(Explanation Distillation),该方法不依赖于无偏数据,允许任意大小的学生网络学习无偏教师网络(如视觉-语言模型或处理去偏图像的网络)的决策原因。实验结果表明,仅通过解释(例如通过层相关传播LRP)蒸馏训练的神经网络能够高度抵抗快捷学习,超越了组不变学习、解释背景最小化和替代蒸馏技术。在COLOURED MNIST数据集中,LRP蒸馏达到了98.2%的OOD准确率,而深度特征蒸馏和IRM分别达到了92.1%和60.2%。在COCO-on-Places数据集中,LRP蒸馏在分布内和OOD准确率之间的不良泛化差距仅为4.4%,而其他两种技术的差距分别为15.1%和52.1%。

Read more...

"课程学习与触觉信息在机器人灵巧操作中的关键作用"

Curriculum Is More Influential Than Haptic Information During Reinforcement Learning of Object Manipulation Against Gravity

摘要

本文探讨了在强化学习中,课程学习与触觉信息在物体操控任务中的影响。研究使用无模型的强化学习方法,比较了不同课程和两种触觉信息模式(无触觉与3D力传感)在模拟的三指机器人手上提升和旋转球体的效果。研究发现,课程的选择对学习效果有显著影响,而触觉信息的缺失并不一定会阻碍学习,这一发现挑战了传统上认为触觉信息对于灵巧操作任务必要的假设。此外,研究还展示了学习方法的通用性,能够适应不同重量和大小的球体。

Read more...

"通过欺骗保护隐私:一种新的强化学习规划算法"

Preserving the Privacy of Reward Functions in MDPs through Deception

摘要

本文探讨了在马尔可夫决策过程(MDPs)中通过欺骗手段保护奖励函数隐私的问题。在许多物理和网络安全领域,当决策可被观察时,保护顺序决策代理的偏好(或奖励)隐私至关重要。例如,在野生动物监测中,代理必须分配巡逻资源,同时不向偷猎者透露动物位置。本文提出了一种基于欺骗理论的新方法,通过两个模型:伪装(隐藏真相)和模拟(展示错误)来解决奖励函数隐私保护问题。首先,本文理论上证明了现有基于伪装的隐私保护方法存在显著隐私泄露。其次,提出了一种新的基于强化学习(RL)的规划算法,该算法使用模拟来有效解决这些隐私问题,同时确保预期奖励的保证。在多个基准问题的实验表明,本文的方法在保护奖励函数隐私方面优于以往的方法。

Read more...

“Layout-and-Retouch”:开创个性化图像生成的新纪元

Layout-and-Retouch: A Dual-stage Framework for Improving Diversity in Personalized Image Generation

摘要

本文介绍了一种名为“Layout-and-Retouch”的双阶段框架,旨在改善个性化图像生成的多样性。该方法针对个性化文本到图像(P-T2I)生成中的关键挑战——如何在保持身份特征的同时提高提示的忠实度。文章提出的解决方案包括两个主要阶段:布局生成和润饰。在第一阶段,通过步融合推理利用基础T2I模型的固有样本多样性生成多样化的布局图像,同时增强提示忠实度。第二阶段通过多源注意力交换,将第一阶段的上下文图像与参考图像结合,利用上下文图像的结构和参考图像的视觉特征,实现高提示忠实度和身份特征的保留。实验证明,该方法能够在保持个性化对象独特身份特征的同时,生成多样化的图像布局,甚至在面对挑战性的文本提示时也能表现出色。

Read more...
Previous Page 12 of 156 Next Page