MMBee：引领直播礼物推荐新纪元——基于多模态融合与行为扩展的先进模型

Posted on 2024-06-15 in CS.AI • 9 words • 1 minute read

摘要

本文介绍了一种名为MMBee的新型实时多模态融合和行为扩展模型，用于直播礼物发送预测。直播服务因其实时互动和娱乐性而日益流行，观众可以通过聊天、发送评论或虚拟礼物来表达对主播的偏好。准确建模礼物互动不仅增强了用户体验，还增加了主播的收入。以往的研究将直播礼物预测视为传统的推荐问题，使用分类数据和观察到的历史行为来建模用户偏好。然而，使用有限的分类信息精确描述直播中的实时内容变化是具有挑战性的。此外，由于礼物行为的稀疏性，捕捉用户的偏好和意图相当困难。MMBee模型通过实时多模态融合和行为扩展来解决这些问题，具体包括多模态融合模块（MFQ）和图引导的兴趣扩展（GIE）方法。实验结果表明，MMBee在公共数据集和快手真实世界直播数据集上都取得了显著的性能提升，并通过在线A/B实验进一步验证了其有效性。MMBee已在快手部署，服务于数亿用户。

探索Poetry2Image：一种革命性的中国古典诗歌图像生成框架

Posted on 2024-06-15 in CS.AI • 19 words • 1 minute read

摘要

本文介绍了一种名为Poetry2Image的迭代校正框架，用于从中国古典诗歌生成图像。该框架解决了文本到图像生成模型在处理中国古典诗歌时经常出现的元素缺失或语义混淆问题。通过利用外部诗歌数据集和大型语言模型（LLM），Poetry2Image建立了一个自动反馈和校正循环，显著提高了诗歌与图像之间的对齐度。实验结果显示，该方法在元素完整性和语义正确性方面均有显著提升，不仅促进了古代诗歌文化的传播，也为类似非微调方法增强LLM生成提供了参考。

探索未来：能源高效的AI系统与物理储层计算的前沿应用

Posted on 2024-06-14 in CS.AI • 11 words • 1 minute read

摘要

本文探讨了用于自主系统（如无人机、机器人和自动驾驶汽车）的人工智能（AI）系统的能源效率问题。由于这些系统可能消耗高达50%的可用车载电力，限制了车辆的功能和行驶距离，因此需要开发新型能源高效的AI系统。文章提出了一种使用自然物理环境中的非线性动力学特性来模拟生物大脑操作的神经形态计算机，并讨论了量子神经形态处理器（QNPs）的应用，这些处理器在消耗极少电力的情况下，能够以标准计算机的效率进行计算。文章还介绍了物理储层计算的概念，这是一种利用物理系统中的非线性动力学特性进行计算的方法，具有广泛的应用前景。

深度强化学习在机器人臂控制中的超参数优化：TPE的应用与突破

Posted on 2024-06-12 in CS.AI • 10 words • 1 minute read

摘要

本文探讨了在具有七个自由度（DOF）的机器人臂控制中，使用树结构Parzen估计器（TPE）优化软演员-评论家（SAC）和近端策略优化（PPO）算法的超参数。研究结果显示，TPE显著提高了算法性能，SAC的成功率提高了10.48个百分点，PPO提高了34.28个百分点。此外，TPE使PPO比无TPE时快76%达到最大奖励的95%，SAC则快80%。这强调了高级超参数优化对深度强化学习算法在复杂机器人任务中效率和成功的重要性。

FoldToken2：开创性的蛋白质结构语言学习与生成方法

Posted on 2024-06-11 in CS.AI • 9 words • 1 minute read

摘要

本文介绍了一种名为FoldToken2的创新方法，旨在解决蛋白质结构表示学习、对齐和生成中的长期挑战。FoldToken2通过将等变结构转换为离散令牌，同时保持原始结构的恢复能力，创造了一种紧凑且不变的语言来等效表示蛋白质结构。该方法在蛋白质结构重建任务中表现出色，相较于前代FoldToken1，在TMScore和RMSD指标上分别提升了20%和81%。FoldToken2可能是首个在单链和多链蛋白质结构量化方面表现良好的方法，预计将推动蛋白质结构表示学习、结构对齐和结构生成任务的进一步改进。

NeuroMoCo：开创脉冲神经网络自监督学习新纪元

Posted on 2024-06-10 in CS.AI • 8 words • 1 minute read

摘要

本文介绍了一种名为NeuroMoCo的新型神经形态动量对比学习方法，用于提高脉冲神经网络（SNNs）在处理复杂神经形态数据集时的性能。这是首次将基于动量对比学习的自监督学习（SSL）应用于SNNs。此外，本文还设计了一种新的损失函数MixInfoNCE，专门针对神经形态数据集的时间特性，通过严格的消融实验验证了其有效性。实验结果表明，NeuroMoCo在DVS-CIFAR10、DVS128Gesture和N-Caltech101数据集上达到了新的最先进（SOTA）基准，分别为83.6%、98.62%和84.4%。

实时动态视线跟踪与深度估计：革新透明显示器交互体验

Posted on 2024-06-09 in CS.AI • 9 words • 1 minute read

摘要

本文由Esmaeil Seraj等人撰写，针对透明显示器（如车辆中的抬头显示器HUD）中实时动态视线目标跟踪和深度级别估计的问题，提出了一种双模块的系统解决方案。该系统包括一个基于树的算法用于实时跟踪视线目标，以及一个多流自注意力架构用于从眼动追踪数据中估计视线深度级别。通过收集真实世界的眼动追踪数据集，论文展示了该系统在静态和动态环境中的可扩展性、精确性和实时可行性，为下一代用户与设备交互和体验设定了新的基准。

探索未来设计：Text2VP——生成式AI在视觉编程与参数化建模中的创新应用

Posted on 2024-06-09 in CS.AI • 11 words • 1 minute read

摘要

本文由Guangxi Feng和Wei Yan等人撰写，探讨了将生成式人工智能（AI）应用于视觉编程和参数化建模的创新方法。论文的核心在于开发了一种名为Text2VP的生成式AI模型，该模型基于GPT-4进行定制，旨在自动化生成图形化的视觉编程工作流程，特别是在建筑设计中的参数化建模。Text2VP通过AI生成的脚本，能够准确反映用户的设计意图，并允许用户交互式地改变参数值。该研究不仅展示了生成式AI在视觉编程和参数化建模中的潜力，还为未来处理更复杂建模任务奠定了基础。

探索未来：机器学习与本体结合在机器人智能中的创新应用

Posted on 2024-06-08 in CS.AI • 10 words • 1 minute read

摘要

本文由Osama F. Zaki提出，探讨了将机器学习（ML）算法与知识库（KB）本体形式相结合的实际方法，特别是在机器人应用中的风险意识自主系统。文章通过两个实验，分析了多种机器学习算法（如多层前馈反向传播、朴素贝叶斯和J48决策树）在不同数据集上的表现，验证了ML与KB耦合的计算有效性及其线性时间复杂度。文章强调了这种双层智能方法在提升机器人学习和知识共享过程中的重要性，并探讨了其在机器人系统可靠性及其他非机器人应用中的广泛前景。

"深度与分割的融合：开启视觉-语言理解的新纪元"

Posted on 2024-06-07 in CS.AI • 8 words • 1 minute read

摘要

本文介绍了一种创新的统一库，该库利用深度任何模型（DAM）和分割任何模型（SAM）来增强语言-视觉模型在零样本理解中的神经理解能力。这一库通过在符号实例级别融合分割和深度分析，为语言模型提供细致的输入，显著推进了图像解释。经过在各种真实世界图像中的验证，我们的发现展示了通过神经-符号集成在视觉-语言模型中的进步。这种新颖的方法以一种前所未有的方式融合了视觉和语言分析。总体而言，我们的库为未来研究开辟了新方向，旨在通过先进的多模态技术解码现实世界的复杂性。

Previous Page 147 of 156 Next Page