分层强化学习:在无限期平均奖励设置下的线性可解马尔可夫决策过程的新方法

Hierarchical Average-Reward Linearly-solvable Markov Decision Processes

摘要

本文介绍了一种新颖的分层强化学习方法,用于在无限期平均奖励设置下的线性可解马尔可夫决策过程(LMDPs)。与以往的工作不同,我们的方法允许同时学习低级和高级任务,而不对低级任务施加限制性限制。我们的方法依赖于状态空间的划分,这些划分创建了更容易解决的子任务,并通过这些划分之间的等价性来更有效地学习。然后,我们利用低级任务的组合性来精确表示高级任务的价值函数。实验表明,我们的方法可以比平坦的平均奖励强化学习快一个或几个数量级。

Read more...

制造业中的革命性预测模型:基于Transformer与统计特征嵌入的创新应用

A Predictive Model Based on Transformer with Statistical Feature Embedding in Manufacturing Sensor Dataset

摘要

本文由Gyeong Taek Lee和Oh-Ran Kwon共同撰写,发表于IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS。论文聚焦于制造业中的传感器数据预测模型,特别是在数据量有限的情况下。文章提出了一种基于Transformer架构的新型预测模型,该模型通过引入统计特征嵌入和窗口位置编码,能够有效学习传感器数据的图形特征。实验结果表明,该模型在故障检测和虚拟计量两个实际问题中均优于传统模型,显示出在制造业中的广泛应用潜力。

Read more...

动态用户档案嵌入:提升社交媒体个性化体验的新前沿

Enhancing Social Media Personalization: Dynamic User Profile Embeddings and Multimodal Contextual Analysis Using Transformer Models

摘要

本文由印度管理学院印多尔分校的Pranav Vacharajani和Pritam Ranjan教授共同撰写,探讨了动态用户档案嵌入在社交媒体个性化体验中的影响。研究通过分析超过两千万的数据点,比较了多语言和英语转换器模型在动态和静态用户档案嵌入中的表现。研究证实,动态嵌入能够成功追踪用户不断变化的品味和偏好,提供更准确的推荐和用户参与度,对于旨在通过相关功能和复杂推荐引擎提升用户体验的社交媒体平台具有重要意义。

Read more...

基于图的标注:提升视觉描述的新策略

Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

摘要

本文提出了一种新的图像标注策略——基于图的标注(GBC),它使用类似场景图的有向无环图结构来描述图像,并使用节点标签来表示图像的不同部分。作者使用预训练的多模态大型语言模型(MLLM)和开放词汇检测模型自动生成GBC标注,并构建了一个包含1000万张图像的大规模GBC数据集GBC10M。实验结果表明,GBC标注可以在各种基准测试中提高模型性能,特别是在检索任务和密集预测任务中。此外,作者还提出了一种新的注意力机制——结构感知层次注意力(SAHA),它可以利用整个GBC图,进一步提高模型性能。

Read more...

大型语言模型在复杂决策中的创新应用:模拟与优化的新纪元

Optimal Decision Making Through Scenario Simulations Using Large Language Models

摘要

本文探讨了如何通过场景模拟使用大型语言模型(LLMs)进行最优决策。随着LLMs在多个领域的广泛应用,它们在处理复杂问题,尤其是需要精细决策的场景中仍面临挑战。本文提出了一种创新方法,通过允许LLMs从用户那里获取多个潜在选项及其参数,并结合优化函数进行决策分析和模拟,从而提供基于预定义标准的最佳解决方案。这种方法不仅扩展了LLMs的功能范围,还为更自主和智能的系统支持复杂决策任务铺平了道路。

Read more...

巴西联邦最高法院约束性先例的实证分析

Empirical analysis of Biding Precedent efficiency in the Brazilian Supreme Court via Similar Case Retrieval

摘要

本文通过对巴西联邦最高法院的五个具有代表性的约束性先例进行实证分析,评估了它们在减少类似案件数量方面的法律影响。文章使用了多种自然语言处理方法进行相似案例检索,并对结果进行了法律分析,提出了五个解释大量案件到达最高法院的主要假设。

Read more...

强化学习在拦截未经授权无人机中的应用:一种先进的解决方案

Intercepting Unauthorized Aerial Robots in Controlled Airspace Using Reinforcement Learning

摘要

本文探讨了在受控空域中使用强化学习(RL)拦截未经授权的无人机(UAVs)的问题。随着无人机在受控空域的普及,它们可能引发碰撞、干扰空中交通和安全威胁。为了确保空域的安全和高效运作,特别是在城市环境和关键基础设施附近,需要有效的拦截系统。本文提出了一种新颖的基于RL的方法,用于训练固定翼无人机追逐器代理拦截动态逃避目标。研究探索了基于模型和无模型的RL算法,包括DreamerV3、Truncated Quantile Critics(TQC)和Soft Actor-Critic(SAC),并在多种场景下进行了训练和评估,包括未见过的逃避策略和环境扰动。该研究强调了开发智能、自适应控制系统以拦截无人机的重要性,并展示了RL在自主完成这些关键任务方面的潜力。

Read more...

探索5G时代隐私政策的新篇章:基于BERT模型的GDPR合规性实证研究

A BERT-based Empirical Study of Privacy Policies" Compliance with GDPR

摘要

本文由Lu Zhang等人撰写,题为“A BERT-based Empirical Study of Privacy Policies’ Compliance with GDPR”,旨在探讨5G网络中隐私政策与欧盟通用数据保护条例(GDPR)的合规性问题。自2018年GDPR实施以来,企业纷纷更新其隐私政策以确保合规,但这些政策往往充斥着技术术语和冗长解释,使得用户和监管机构难以手动验证其合规性。本文通过手动收集近70家5G移动网络运营商(MNOs)的隐私政策,并利用基于BERT的自动化模型进行分类分析,发现51%的公司显示出对GDPR的强烈遵守。此外,本文还首次提供了关于5G网络隐私政策可读性的实证证据,强调了提高这些文档可读性的迫切需求。

Read more...

探索AI外交的极限:Richelieu——基于LLM的自进化代理

Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy

摘要

本文介绍了一种基于大型语言模型(LLM)的自进化AI代理——Richelieu,用于处理复杂的AI外交任务。Richelieu结合了战略规划、目标导向的谈判和社会推理三种核心能力,能够在没有人类数据的情况下通过自我对弈游戏进行自我进化。论文通过实验证明了Richelieu在非公开外交和公开外交场景中的优越性能,特别是在与现有最先进模型如Cicero的对比中表现出色。此外,Richelieu的框架能够兼容不同的LLM,显示出其广泛的适用性和潜在的应用前景。

Read more...

探索AutoTask:多任务广告相关性模型的创新之路

AutoTask: Task Aware Multi-Faceted Single Model for Multi-Task Ads Relevance

摘要

本文介绍了一种名为AutoTask的创新型多任务广告相关性模型,由Microsoft AI的研究团队开发。该模型通过引入任务感知的多面注意力机制,有效地解决了在多种广告类型和场景中,用户搜索查询与广告提供之间的相关性评估问题。AutoTask模型通过任务ID编码和自回归注意力机制,不仅提高了模型对未见任务的泛化能力,还显著提升了多任务处理的性能,超越了传统的深度神经网络模型和特定任务模型。

Read more...
Previous Page 39 of 156 Next Page