探索三维点云的新几何特征表示:神经变量表示的先进性与应用

Neural varifolds: an aggregate representation for quantifying the geometry of point clouds

摘要

本文提出了一种新的表面几何特征表示方法——神经变量表示(neural varifold representation),用于量化点云的几何特性。点云作为一种流行的三维表示方法,广泛应用于LiDAR和Kinect等现实场景中,因其能够详细且紧凑地表示基于表面的几何形状。传统的点云几何特征表示方法通常结合深度学习技术和几何保真度度量,如最优传输成本(例如Chamfer和Wasserstein度量)。本文的创新之处在于,通过将表面表示为点云位置和切线空间的度量/分布,神经变量表示不仅能够通过基于流形的判别来量化点云的表面几何形状,还能捕捉表面上的细微几何一致性。此外,本文还提出了两种算法,利用点云上的神经网络及其神经切线核表示来计算两个点云之间的变量范数。实验结果表明,所提出的神经变量表示在形状匹配、少样本形状分类和形状重建等任务中,与现有最先进方法相比,表现出了优越的性能。

Read more...

探索人工智能与大脑之间的算法鸿沟:如何构建更接近人类认知的语言模型?

Lost in Translation: The Algorithmic Gap Between LMs and the Brain

摘要

本文探讨了大型语言模型(LMs)与人类大脑在语言处理方面的差异,强调了超越输入-输出行为的重要性,以深入理解这些系统的内部过程。文章讨论了神经科学中的稀疏性、模块化、内部状态和交互式学习等概念如何指导更符合生物学原理的语言模型的发展。此外,文章还探讨了缩放定律在弥合LMs与人类认知之间差距的作用,强调了在生物系统中类似的效率约束的必要性。通过开发更接近大脑功能的LMs,旨在推进人工智能和人类认知理解。

Read more...

探索人工智能新高度:XQSV模型如何模仿人类象棋玩家

XQSV: A Structurally Variable Network to Imitate Human Play in Xiangqi

摘要

本文介绍了一种名为Xiangqi Structurally Variable (XQSV)的创新深度学习架构,旨在模拟中国象棋(Xiangqi)中人类玩家的行为模式。XQSV的独特之处在于其能够动态改变其结构配置,根据训练数据的特定子集优化性能。论文通过引入多项设计改进,显著提高了网络的预测准确性,包括局部非法移动过滤器、Elo范围分区、顺序一维输入和模拟不完美记忆容量。实验评估显示,XQSV在训练的Elo范围内达到了约40%的预测准确性,表明模型成功模拟了该特定范围内玩家的棋局行为。通过三终端图灵测试,XQSV模型比传统象棋引擎更准确地模仿了人类行为,使其难以与真实人类对手区分。鉴于人类棋局游戏的固有非确定性,论文提出了两种补充的宽松评估指标。据我们所知,XQSV是首个模仿象棋玩家的模型。

Read more...

探索多模态学习的未来:DMRNet的创新之路

Robust Multimodal Learning via Representation Decoupling

摘要

本文探讨了多模态学习中缺失模态的问题,特别是在实际应用中,由于设备限制和工作条件,推理阶段往往难以收集完整的多模态数据。现有的解决方案主要分为数据插补和公共子空间方法。然而,这些方法存在内在的类内表示方向约束,限制了模型捕捉不同模态组合特定信息的能力。为此,本文提出了一种新颖的解耦多模态表示网络(DMRNet),通过将不同模态组合的输入建模为概率分布,而不是潜在空间中的固定点,从而放松了对推理表示的约束,使模型能够捕捉到不同模态组合的特定信息。此外,还引入了一个硬组合正则化器,以防止DMRNet在训练中不平衡,通过引导模型更多关注硬模态组合。实验结果表明,DMRNet在多模态分类和分割任务中显著优于现有技术。

Read more...

探索大型语言模型中的代码幻觉:HallTrigger技术的突破与应用

Code Hallucination

摘要

本文由Mirza Masfiqur Rahman和Ashish Kundu共同撰写,针对大型语言模型(LLM)在代码生成中的“幻觉”现象进行了深入研究。这些模型虽然广泛用于代码辅助生成和完整程序生成,但生成的代码往往在正确性、真实性和可靠性方面存在问题,这些问题统称为LLM幻觉。本文通过手动生成幻觉代码并提出一种名为HallTrigger的技术,展示了如何有效地触发这些幻觉,而无需访问模型的架构或参数。研究结果表明,HallTrigger在流行的黑盒模型中非常有效,LLM幻觉对软件开发有重大影响。

Read more...

探索大型语言模型在战略决策中的偏差与挑战

Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games

摘要

本文探讨了大型语言模型(LLMs)在双人非零和游戏中的战略决策能力,特别是在Stag Hunt和Prisoner’s Dilemma游戏中的表现。研究发现,尽管LLMs在处理精心设计的提示时能够解决这些任务,但在问题设置或提示变化时,其表现显著下降。研究揭示了LLMs在战略游戏中存在三种系统性偏差:位置偏差、收益偏差和行为偏差。这些偏差导致LLMs在游戏配置与偏差不一致时性能下降。文章还指出,尽管思维链提示(CoT)在一定程度上减少了偏差的影响,但并未从根本上解决问题。研究结果强调了理解LLMs在复杂社会场景中操作能力的重要性,并指出了当前评估LLMs能力的标准指标的不足。

Read more...

探索大型语言模型在迭代文化传播中的行为与信息扭曲

When LLMs Play the Telephone Game: Cumulative Changes and Attractors in Iterated Cultural Transmissions

摘要

本文探讨了大型语言模型(LLMs)在迭代文化传播中的行为和信息扭曲问题。研究采用了一种类似于人类文化进化研究的传递链设计,通过LLM代理迭代接收、生成和传输文本,从而观察文本属性如毒性、积极性、难度和长度的变化。研究发现,即使在单个输出中微不足道的偏差,在迭代交互中也可能被放大,导致内容向吸引子状态演变。此外,研究还发现不同模型和任务对吸引子的位置和强度有显著影响,例如,更开放的任务会导致更强的吸引效应。这些发现强调了考虑多步骤传输动态的重要性,并为理解LLM文化动态提供了初步步骤。

Read more...

探索未来:Hindsight Preference Learning在离线偏好强化学习中的创新应用

Hindsight Preference Learning for Offline Preference-based Reinforcement Learning

摘要

本文介绍了一种名为“Hindsight Preference Learning (HPL)”的离线偏好强化学习方法,旨在通过人类对轨迹片段的偏好来优化策略。传统的离线偏好强化学习方法依赖于从轨迹偏好注释中提取逐步奖励信号,假设偏好与累积的马尔可夫奖励相关。然而,这些方法未能捕捉到数据注释的整体视角:人类通常根据整体结果而非即时奖励来评估一系列动作的可取性。为了解决这一挑战,本文提出了一种模型,该模型使用基于轨迹片段未来结果(即事后信息)的奖励来模拟人类偏好。对于下游的强化学习优化,每一步的奖励是通过对可能的未来结果进行边际化计算的,这些结果的分布是通过使用离线数据集训练的变分自编码器来近似的。HPL方法能够充分利用大量未标记数据集中的轨迹数据,通过全面的实证研究证明了HPL在各种领域中提供稳健和优势奖励的有效性。

Read more...

探索未来:大型语言模型驱动的对话推荐系统在中小企业中的应用与挑战

EventChat: Implementation and user-centric evaluation of a large language model-driven conversational recommender system for exploring leisure events in an SME context

摘要

本文详细介绍了EventChat的设计与用户中心评估,这是一个基于大型语言模型(LLM)驱动的对话推荐系统(CRS),旨在帮助中小企业(SMEs)探索休闲活动。文章通过客观系统指标和主观用户评估,展示了系统的性能。尽管系统在用户体验方面表现良好(推荐准确率达85.5%),但仍面临延迟、成本和质量问题,这些问题挑战了系统的商业可行性。文章还提出了一个简化的ResQue模型,用于评估LLM驱动的CRS,并强调了在快速发展的领域中实现可复制性的重要性。

Read more...

探索未来序列建模:关联循环记忆转换器(ARMT)的突破与应用

Associative Recurrent Memory Transformer

摘要

本文介绍了一种新型神经网络架构——关联循环记忆转换器(Associative Recurrent Memory Transformer, ARMT),旨在处理极长序列数据,并在每个时间步保持恒定的处理时间。ARMT结合了转换器的自注意力机制和段级循环存储,特别适用于关联检索任务。在BABILong多任务长上下文基准测试中,ARMT在处理超过5000万token的单事实问题时,达到了79.9%的准确率,超越了现有模型。

Read more...
Previous Page 68 of 156 Next Page