探索人工智能新高度:XQSV模型如何模仿人类象棋玩家

XQSV: A Structurally Variable Network to Imitate Human Play in Xiangqi

摘要

本文介绍了一种名为Xiangqi Structurally Variable (XQSV)的创新深度学习架构,旨在模拟中国象棋(Xiangqi)中人类玩家的行为模式。XQSV的独特之处在于其能够动态改变其结构配置,根据训练数据的特定子集优化性能。论文通过引入多项设计改进,显著提高了网络的预测准确性,包括局部非法移动过滤器、Elo范围分区、顺序一维输入和模拟不完美记忆容量。实验评估显示,XQSV在训练的Elo范围内达到了约40%的预测准确性,表明模型成功模拟了该特定范围内玩家的棋局行为。通过三终端图灵测试,XQSV模型比传统象棋引擎更准确地模仿了人类行为,使其难以与真实人类对手区分。鉴于人类棋局游戏的固有非确定性,论文提出了两种补充的宽松评估指标。据我们所知,XQSV是首个模仿象棋玩家的模型。

Read more...

探索多模态学习的未来:DMRNet的创新之路

Robust Multimodal Learning via Representation Decoupling

摘要

本文探讨了多模态学习中缺失模态的问题,特别是在实际应用中,由于设备限制和工作条件,推理阶段往往难以收集完整的多模态数据。现有的解决方案主要分为数据插补和公共子空间方法。然而,这些方法存在内在的类内表示方向约束,限制了模型捕捉不同模态组合特定信息的能力。为此,本文提出了一种新颖的解耦多模态表示网络(DMRNet),通过将不同模态组合的输入建模为概率分布,而不是潜在空间中的固定点,从而放松了对推理表示的约束,使模型能够捕捉到不同模态组合的特定信息。此外,还引入了一个硬组合正则化器,以防止DMRNet在训练中不平衡,通过引导模型更多关注硬模态组合。实验结果表明,DMRNet在多模态分类和分割任务中显著优于现有技术。

Read more...

探索大型语言模型中的代码幻觉:HallTrigger技术的突破与应用

Code Hallucination

摘要

本文由Mirza Masfiqur Rahman和Ashish Kundu共同撰写,针对大型语言模型(LLM)在代码生成中的“幻觉”现象进行了深入研究。这些模型虽然广泛用于代码辅助生成和完整程序生成,但生成的代码往往在正确性、真实性和可靠性方面存在问题,这些问题统称为LLM幻觉。本文通过手动生成幻觉代码并提出一种名为HallTrigger的技术,展示了如何有效地触发这些幻觉,而无需访问模型的架构或参数。研究结果表明,HallTrigger在流行的黑盒模型中非常有效,LLM幻觉对软件开发有重大影响。

Read more...

探索大型语言模型在战略决策中的偏差与挑战

Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games

摘要

本文探讨了大型语言模型(LLMs)在双人非零和游戏中的战略决策能力,特别是在Stag Hunt和Prisoner’s Dilemma游戏中的表现。研究发现,尽管LLMs在处理精心设计的提示时能够解决这些任务,但在问题设置或提示变化时,其表现显著下降。研究揭示了LLMs在战略游戏中存在三种系统性偏差:位置偏差、收益偏差和行为偏差。这些偏差导致LLMs在游戏配置与偏差不一致时性能下降。文章还指出,尽管思维链提示(CoT)在一定程度上减少了偏差的影响,但并未从根本上解决问题。研究结果强调了理解LLMs在复杂社会场景中操作能力的重要性,并指出了当前评估LLMs能力的标准指标的不足。

Read more...

探索大型语言模型在迭代文化传播中的行为与信息扭曲

When LLMs Play the Telephone Game: Cumulative Changes and Attractors in Iterated Cultural Transmissions

摘要

本文探讨了大型语言模型(LLMs)在迭代文化传播中的行为和信息扭曲问题。研究采用了一种类似于人类文化进化研究的传递链设计,通过LLM代理迭代接收、生成和传输文本,从而观察文本属性如毒性、积极性、难度和长度的变化。研究发现,即使在单个输出中微不足道的偏差,在迭代交互中也可能被放大,导致内容向吸引子状态演变。此外,研究还发现不同模型和任务对吸引子的位置和强度有显著影响,例如,更开放的任务会导致更强的吸引效应。这些发现强调了考虑多步骤传输动态的重要性,并为理解LLM文化动态提供了初步步骤。

Read more...

探索未来:Hindsight Preference Learning在离线偏好强化学习中的创新应用

Hindsight Preference Learning for Offline Preference-based Reinforcement Learning

摘要

本文介绍了一种名为“Hindsight Preference Learning (HPL)”的离线偏好强化学习方法,旨在通过人类对轨迹片段的偏好来优化策略。传统的离线偏好强化学习方法依赖于从轨迹偏好注释中提取逐步奖励信号,假设偏好与累积的马尔可夫奖励相关。然而,这些方法未能捕捉到数据注释的整体视角:人类通常根据整体结果而非即时奖励来评估一系列动作的可取性。为了解决这一挑战,本文提出了一种模型,该模型使用基于轨迹片段未来结果(即事后信息)的奖励来模拟人类偏好。对于下游的强化学习优化,每一步的奖励是通过对可能的未来结果进行边际化计算的,这些结果的分布是通过使用离线数据集训练的变分自编码器来近似的。HPL方法能够充分利用大量未标记数据集中的轨迹数据,通过全面的实证研究证明了HPL在各种领域中提供稳健和优势奖励的有效性。

Read more...

探索未来:大型语言模型驱动的对话推荐系统在中小企业中的应用与挑战

EventChat: Implementation and user-centric evaluation of a large language model-driven conversational recommender system for exploring leisure events in an SME context

摘要

本文详细介绍了EventChat的设计与用户中心评估,这是一个基于大型语言模型(LLM)驱动的对话推荐系统(CRS),旨在帮助中小企业(SMEs)探索休闲活动。文章通过客观系统指标和主观用户评估,展示了系统的性能。尽管系统在用户体验方面表现良好(推荐准确率达85.5%),但仍面临延迟、成本和质量问题,这些问题挑战了系统的商业可行性。文章还提出了一个简化的ResQue模型,用于评估LLM驱动的CRS,并强调了在快速发展的领域中实现可复制性的重要性。

Read more...

探索未来序列建模:关联循环记忆转换器(ARMT)的突破与应用

Associative Recurrent Memory Transformer

摘要

本文介绍了一种新型神经网络架构——关联循环记忆转换器(Associative Recurrent Memory Transformer, ARMT),旨在处理极长序列数据,并在每个时间步保持恒定的处理时间。ARMT结合了转换器的自注意力机制和段级循环存储,特别适用于关联检索任务。在BABILong多任务长上下文基准测试中,ARMT在处理超过5000万token的单事实问题时,达到了79.9%的准确率,超越了现有模型。

Read more...

探索未来视觉智能:混合原始草图框架的革新与应用

Hybrid Primal Sketch: Combining Analogy, Qualitative Representations, and Computer Vision for Scene Understanding

摘要

本文介绍了一种名为“混合原始草图”(Hybrid Primal Sketch, HPS)的新框架,该框架结合了计算机视觉组件和定性视觉表示与推理,旨在提高场景理解的效率和准确性。HPS受到Marr的原始草图理论的启发,通过集成深度学习组件和其他视觉处理技术,生成类似于草图的实体,这些实体随后由CogSketch模型进一步处理,以产生更详细的形状和场景表示。这些表示能够通过类比泛化进行数据高效学习。本文还描述了HPS的理论框架,总结了先前的实验,并概述了一个正在进行的新实验,旨在理解图表。

Read more...

探索模仿学习的新前沿:CILO方法的突破与应用

Explorative Imitation Learning: A Path Signature Approach for Continuous Environments

摘要

本文介绍了一种名为“连续观察模仿学习”(CILO)的新方法,该方法结合了探索机制和路径签名技术,以提高模仿学习的效率和性能。CILO通过减少专家轨迹的需求和自动编码约束,实现了在连续环境中的高效学习。与传统的模仿学习方法相比,CILO在多个环境中展示了卓越的整体性能,甚至在某些情况下超过了专家的表现。CILO的创新之处在于其模型无关性,使其能够广泛应用于各种环境动态,并为更健壮和灵活的学习技术铺平了道路。

Read more...
Previous Page 68 of 156 Next Page