"Skywork-Math:突破大型语言模型在数学推理上的极限"

Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models – The Story Goes On

摘要

本文探讨了如何通过数据扩展法增强大型语言模型(LLMs)在数学推理能力上的表现。研究团队引入了Skywork-Math模型系列,这些模型在常见的7B参数LLMs上进行了监督微调(SFT),使用了他们提出的250万实例的Skywork-MathQA数据集。Skywork-Math 7B模型在MATH和GSM8K基准测试中取得了显著的准确率,分别达到了51.2%和83.9%,超越了早期版本的GPT-4。这一成果得益于他们创新的两阶段数据合成和模型SFT流程,该流程包括三种不同的增强方法和一个多样化的种子问题集,确保了Skywork-MathQA数据集在不同难度级别上的数量和质量。此外,研究还提供了实用的见解,以增强LLMs在数学推理方面的能力,适用于研究和工业应用。

Read more...

"创新度量:Cantor-Kantorovich距离在Markov决策过程中的转移学习应用"

A Cantor-Kantorovich Metric Between Markov Decision Processes with Application to Transfer Learning

摘要

本文由Adrien Banse、Venkatraman Renganathan和Raphaël M. Jungers共同撰写,扩展了Banse等人在2023年提出的Cantor-Kantorovich距离在Markov决策过程(MDPs)中的应用,特别是在转移学习(Transfer Learning, TL)领域。文章首先定义了MDPs中的Cantor-Kantorovich度量,并展示了其在预测转移学习算法性能方面的潜力。通过数值实验,证明了该度量在转移学习中的有效性,特别是在源MDP与目标MDP的Cantor-Kantorovich距离较小时,能够保证转移学习技术的性能。

Read more...

"基础模型工程:引领AI软件开发的新纪元"

Foundation Model Engineering: Engineering Foundation Models Just as Engineering Software

摘要

本文由Dezhi Ran等人撰写,探讨了基础模型(Foundation Models, FMs)作为新型软件的工程化问题。随着FMs的复杂性不断增加,作者提出了“基础模型工程”(Foundation Model Engineering, FME)的概念,旨在通过引入声明性、自动化和统一的编程接口来简化数据和模型管理,从而应对即将到来的FM危机。文章强调了FME在数据管理、模型管理以及声明性编程接口方面的重要性,并探讨了其在软件工程领域的研究机会和应用前景。

Read more...

"实时异常检测与智能反应规划:提升机器人系统的安全与可靠性"

Real-Time Anomaly Detection and Reactive Planning with Large Language Models

摘要

本文介绍了一种基于大型语言模型(LLM)的实时异常检测与反应规划框架,旨在提高机器人系统在面对分布外(out-of-distribution, OOD)故障模式时的检测和缓解能力。该框架面临两大挑战:一是如何减少这些模型的计算开销,使其能够在线应用;二是如何将它们的判断整合到安全的控制框架中。为此,本文提出了一种两阶段推理框架:首先是一个快速的二元异常分类器,它在LLM嵌入空间中分析观测数据,可能会触发一个较慢的回退选择阶段,利用生成式LLM的推理能力。这些阶段对应于模型预测控制策略中的分支点,确保在检测到异常时,各种回退计划的联合可行性,从而保证安全。实验表明,我们的快速异常分类器在资源和时间限制下,能够提升动态机器人系统(如四旋翼或自动驾驶车辆)的可信度。

Read more...

"揭秘LLM应用商店的安全隐患:一项全面的安全性研究"

On the (In)Security of LLM App Stores

摘要

本文由Xinyi Hou、Yanjie Zhao和Haoyu Wang等人撰写,针对大型语言模型(LLM)应用商店的安全性进行了深入研究。文章指出,随着LLM应用商店的迅速增长,大量定制LLM应用的涌现引发了安全担忧。研究提出了一个三层关注框架,用于识别LLM应用的潜在安全风险,包括具有滥用潜力的应用、具有恶意意图的应用和具有可利用漏洞的应用。通过对六大应用商店的786,036个应用进行为期五个月的收集和分析,研究揭示了大量应用存在误导性描述、违反隐私政策收集敏感个人信息以及生成有害内容等问题。此外,研究还评估了LLM应用促进恶意活动的可能性,发现有616个应用可能被用于恶意软件生成和钓鱼攻击等。研究强调了建立强有力的监管框架和增强执行机制的迫切需要。

Read more...

"数字孪生技术在车辆速度检测中的革命性应用"

Digital twins to alleviate the need for real field data in vision-based vehicle speed detection systems

摘要

本文由A. Hernández Martínez等人撰写,探讨了在基于视觉的车辆速度检测系统中,如何利用数字孪生技术缓解对真实现场数据的需求。文章指出,尽管基于视觉的速度估计比传统的雷达或LiDAR方法成本更低,但由于透视投影的局限性和对校准、光照及天气条件的高度敏感性,这一技术仍面临挑战。深度学习方法在计算机视觉领域占据主导地位,但由于缺乏可用数据,其在速度检测方面的应用受限。本文提出使用CARLA模拟器生成代表特定真实世界相机的数字孪生,以创建包含多种车辆类型、颜色、速度、光照和天气条件的大型合成数据集。通过在数字孪生上训练3D CNN模型并在真实序列上进行测试,研究发现,真实与虚拟条件之间的差距是获得低速度估计误差的关键因素。初步结果显示,平均绝对误差保持在3km/h以下,显示出该方法的潜力。

Read more...

"无需新数据,自训练语言模型在算术推理中的突破"

Self-training Language Models for Arithmetic Reasoning

摘要

本文探讨了在不增加新数据的情况下,通过自动反馈提高语言模型在算术推理任务中的能力。研究通过离线和在线两种自训练方式,比较了监督训练和偏好优化方法的效果。实验结果显示,自训练方法能够在不使用新数据的情况下显著提升模型的推理能力,尤其是在在线自训练中,偏好优化方法显示出比传统监督训练更高的稳定性和鲁棒性。

Read more...

"智能工厂的未来:LLM在生产系统中的革命性应用"

Incorporating Large Language Models into Production Systems for Enhanced Task Automation and Flexibility

摘要

本文介绍了一种将大型语言模型(LLM)集成到自动化生产系统中的创新方法,旨在提高任务自动化和灵活性。通过在自动化金字塔框架内组织生产操作,并将原子操作功能建模为微服务,通过专用数字孪生系统中的接口调用执行,实现了可扩展和灵活的生产流程编排基础。在该数字孪生系统中,低级别的硬件特定数据被语义丰富,并变得可解释,以便LLM用于生产计划和控制任务。LLM代理系统性地提示以解释这些生产特定数据和知识,并生成过程计划,然后分解为一系列原子操作,在现实世界的自动化系统中作为微服务执行。我们在实验室的自动化模块化生产设施上实施了这一总体方法,展示了LLM如何通过具体案例研究处理生产计划和控制任务。这导致了一个直观的生产设施,具有更高级别的任务自动化和灵活性。最后,我们揭示了在自主系统中实现大型语言模型全部潜力的几个限制,并指出了有希望的益处。

Read more...

"欧盟AI法案下的联邦学习:责任归属与技术挑战"

Federated Learning and AI Regulation in the European Union: Who is liable? An Interdisciplinary Analysis

摘要

本文探讨了在欧盟人工智能法案(AI Act)框架下,联邦学习(Federated Learning, FL)中的责任归属问题。文章分析了在FL中,服务器运营商和客户端在法律和技术层面上的责任分配,特别是在数据治理、模型训练和部署方面的合规性要求。文章强调了FL在保护数据隐私和安全方面的优势,并提出了在AI Act背景下,如何通过技术手段和法律框架来确保FL的合规性和实用性。

Read more...

"解锁无声的交流:NVI-DEHR模型在非言语交互检测中的突破"

Nonverbal Interaction Detection

摘要

本文提出了一种新的挑战,即在社交环境中理解人类的非言语交互。非言语信号几乎渗透到每一次交流行为中,包括我们的手势、面部表情、姿势、目光甚至外表都在无声地传达信息。尽管这些信号在社交生活中至关重要,但与语言对应物相比,它们得到的关注非常有限,现有的解决方案通常孤立地检查非言语线索。我们的研究标志着首次系统性努力,旨在增强对多方面非言语信号的解释。首先,我们贡献了一个新颖的大规模数据集NVI,该数据集经过精心标注,包括人类和相应社交群体的边界框,以及五种广泛交互类型下的22种原子级非言语行为。其次,我们建立了一个新的任务NVI-DET,用于非言语交互检测,该任务被形式化为从图像中识别出⟨个体,群体,交互⟩三元组。第三,我们提出了一种非言语交互检测超图(NVI-DEHR),这是一种新的方法,通过超图显式地建模高阶非言语交互。该模型的核心是一个双多尺度超图,它巧妙地解决了不同尺度上的个体间和群体间相关性,促进了交互特征学习并最终改进了交互预测。在NVI上的大量实验表明,NVI-DEHR在NVI-DET上显著改善了各种基线,并在HOI-DET上也展示了领先的性能,证实了其在支持相关任务和强大的泛化能力方面的多功能性。我们希望我们的研究能为社区探索非言语信号提供新的途径。

Read more...
Previous Page 17 of 156 Next Page