利用测试用例类型签名超启发式方法优化归纳编程搜索空间

Test Case Features as Hyper-heuristics for Inductive Programming

摘要

本文介绍了一种利用测试用例类型签名作为超启发式方法,以进一步缩小归纳编程搜索空间的技术。该研究建立在先前定义的指令子集方法基础上,通过确定测试用例中的输入和输出数据类型,选择一个较小的指令子集家族,从而显著减少需要考虑的子集数量,并允许在家族内对子集进行重新排序,以更好地反映其使用频率。研究结果表明,这种方法能够将归纳编程搜索空间的大小进一步减少1到3个数量级。

Read more...

动态任务分配的新纪元:基于两阶段强化学习的多实体任务分配算法

A Two-stage Reinforcement Learning-based Approach for Multi-entity Task Allocation

摘要

本文提出了一种基于两阶段强化学习的多实体任务分配方法,旨在解决现代应用中的关键组合优化问题,如多机器人协作和资源调度。传统的任务分配方法通常假设任务和实体的属性是静态的,而实际应用中这些属性往往是动态变化的。为了应对这一挑战,本文提出了一种基于相似性的两阶段任务分配算法,利用强化学习来学习分配策略。第一阶段通过预分配策略,使实体预先选择合适的任务,有效避免局部最优解,从而更好地找到最优分配。第二阶段引入注意力机制和超参数网络结构,以适应实体和任务数量及属性的变化,使网络结构能够泛化到新任务。实验结果表明,该算法在多个环境中有效地解决了动态任务分配的挑战,相比于遗传算法等启发式算法,强化学习方法在动态分配问题上表现更优,并实现了对新任务的良好零样本泛化性能。

Read more...

探索Intrinsic PAPR:革命性的点级别3D场景编辑技术

Intrinsic PAPR for Point-level 3D Scene Albedo and Shading Editing

摘要

本文介绍了一种名为“Intrinsic PAPR”的创新方法,用于从多视角RGB图像中进行点级别的3D场景反照率和阴影编辑。该方法基于最近的点基神经渲染技术Proximity Attention Point Rendering (PAPR),直接对场景分解为反照率和阴影组件进行建模,从而实现更准确的估计。与依赖复杂阴影模型或简单先验的其他点基方法不同,Intrinsic PAPR不依赖于这些可能不普遍适用的模型,而是直接处理场景分解,提高了编辑的精确度和一致性。通过与最新的点基逆渲染方法的比较评估,Intrinsic PAPR在高质量的新视角渲染和点级别的反照率和阴影编辑方面表现出色。

Read more...

探索LiteSearch:提升LLM数学推理效率的新算法

LiteSearch: Efficacious Tree Search for LLM

摘要

本文介绍了一种名为LiteSearch的新型引导树搜索算法,旨在提高大型语言模型(LLM)在复杂数学推理任务中的性能,同时显著降低计算成本。传统的树搜索算法如蒙特卡洛树搜索(MCTS)虽然能提升LLM的性能,但往往需要超过贪婪解码10倍的计算资源。LiteSearch通过动态节点选择和节点级探索预算(最大子节点数)计算,有效地解决了这一问题。该算法结合搜索历史和价值网络(未来)的指导,迭代选择最有希望的树节点进行扩展,确保在分配的计算预算内进行。实验结果显示,LiteSearch在GSM8K和TabMWP数据集上不仅提供了竞争性的性能,而且计算成本显著低于基线方法。

Read more...

探索PFME:革新大型语言模型幻觉检测与编辑的前沿框架

PFME: A Modular Approach for Fine-grained Hallucination Detection and Editing of Large Language Models

摘要

本文介绍了一种名为“渐进式细粒度模型编辑器(PFME)”的创新框架,旨在检测和纠正大型语言模型(LLMs)中的细粒度幻觉(hallucinations)。幻觉是指模型生成的内容与事实不符或缺乏准确性的情况。PFME通过两个主要模块——实时事实检索模块和细粒度幻觉检测与编辑模块,有效地识别和修正LLMs输出中的错误。实验结果表明,PFME在细粒度幻觉检测任务中显著优于现有方法,特别是在使用Llama3-8B-Instruct模型时,其性能提升尤为明显。

Read more...

探索RICHES:一种革命性的检索与生成交错方法

From RAG to RICHES: Retrieval Interlaced with Sequence Generation

摘要

本文介绍了一种名为RICHES的新型方法,该方法在序列生成任务中与检索操作交错进行。与传统的RAG系统不同,RICHES通过直接解码文档内容并受限于语料库,消除了对独立检索器和生成器的需求。这种方法通过单一的LLM解码过程,实现了检索与生成的统一,使得系统能够通过简单的提示适应多样的新任务。RICHES在开放域问答(ODQA)任务中表现出色,支持多跳检索和交错思维,以规划下一步检索内容。

Read more...

探索SpeechBrain 1.0:开源对话式AI的新里程碑

Open-Source Conversational AI with SpeechBrain 1.0

摘要

本文介绍了《Open-Source Conversational AI with SpeechBrain 1.0》,这是一篇关于开源对话式人工智能工具包SpeechBrain 1.0的论文。SpeechBrain是一个基于PyTorch的开源工具包,专注于语音处理任务,如语音识别、语音增强、说话人识别、文本到语音转换等。论文详细介绍了SpeechBrain 1.0的新技术和功能,包括支持多种学习模式、大型语言模型(LLM)的集成、先进的解码策略以及新的模型和任务。此外,论文还提出了一个新的基准测试库,为研究人员提供了一个统一的评估平台,用于在不同任务中评估模型。

Read more...

探索卫星遥测数据中的异常:OPS-SAT基准数据集的先进性与应用前景

The OPS-SAT benchmark for detecting anomalies in satellite telemetry

摘要

本文介绍了一种用于检测卫星遥测数据异常的OPS-SAT基准数据集(OPSSAT-AD)。该数据集由欧洲航天局(ESA)操作的OPS-SAT CubeSat任务收集,包含真实的卫星遥测数据和地面真实注释,用于训练和验证监督模型。论文提出了一种公平、可重复和客观的验证程序,以无偏见和完全透明的方式量化新兴异常检测技术的性能。此外,论文还提供了30种监督和非监督的经典和深度机器学习算法的基准结果,以及建议的质量指标,以帮助社区在实际卫星遥测中公平和无偏见地创建和比较异常检测方法。

Read more...

探索大型语言模型中的共形不确定性:实现严格正确性覆盖保证的新方法

ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees

摘要

本文探讨了在自然语言生成(NLG)任务中,如何对大型语言模型(LLMs)的不确定性进行量化的问题。由于LLMs的复杂性,这一直是一个挑战。研究采用了适应性强的预测方法——共形预测(CP),该方法能够将任何启发式的不确定性度量转化为严格的理论保证,通过构建预测集来实现。研究提出了一种基于采样的不确定性度量方法,利用自一致性,并通过将不确定性条件与正确性对齐来设计共形不确定性准则。实验结果表明,该方法在多个LLMs和开放式NLG数据集上,不仅在不确定性度量上超越了现有最先进的方法,而且在模型答案分布中校准预测集,实现了对正确性覆盖率的严格控制,同时预测集的平均大小较小,显示了方法的高效性。

Read more...

探索大型语言模型在代码生成中的编码风格一致性:挑战与解决方案

Beyond Functional Correctness: Investigating Coding Style Inconsistencies in Large Language Models

摘要

本文探讨了大型语言模型(LLMs)在代码生成中的编码风格一致性问题。尽管LLMs在代码生成方面取得了显著进展,但以往研究主要集中在代码生成的功能正确性上,而对LLMs与人类开发者之间编码风格差异的研究较少。本文通过实证分析,比较了主流代码LLMs生成的代码与人类开发者编写的代码在可读性、简洁性和鲁棒性方面的差异,并总结了编码风格不一致的分类。研究结果揭示了LLMs和开发者之间在编码风格上的显著差异,并探讨了这些不一致的可能原因及解决方案。

Read more...
Previous Page 117 of 156 Next Page