RepAct:革新边缘计算的轻量级神经网络自适应激活函数

RepAct: The Re-parameterizable Adaptive Activation Function

摘要

本文介绍了一种名为RepAct(可重参数化的自适应激活函数)的创新技术,旨在解决边缘计算中轻量级神经网络在有限计算资源下的推理和理解能力提升问题。RepAct通过采用多分支激活函数结构,结合可学习的自适应权重,有效地利用模型参数容量,增强轻量级网络的特征提取能力。该方法在图像分类、目标检测和语义分割等多个任务中进行了验证,显著提高了模型性能,尤其是在MobileNetV3-Small网络中,ImageNet100数据集上的Top-1准确率提升了7.92%。RepAct的设计不仅考虑了计算效率,还通过训练时的多分支结构和推理时的单分支结构,实现了模型性能与推理速度的平衡。

Read more...

ResVMUNetX:基于VMamba架构的低光图像增强网络,实现高效实时图像处理

RESVMUNetX: A Low-Light Enhancement Network Based on VMamba

摘要

本文介绍了一种基于VMamba架构的低光图像增强网络——ResVMUNetX。该研究针对现有深度学习方法在捕捉图像长距离信息方面的不足,提出了一种基于误差回归的方法,通过直接增加估计的照明补充来增强输入图像的亮度和恢复结构细节。ResVMUNetX通过高效的VMamba架构优化了长距离信息的捕捉,并结合CNN模块进行局部细节提取和噪声去除,显著提高了低光图像的清晰度和视觉质量,同时大幅减少了参数和计算负载,实现了高达70帧每秒的处理速度。实验结果表明,ResVMUNetX在图像质量和性能上均超越了现有的图像增强方法,尤其在实时处理能力方面展现出巨大潜力。

Read more...

ROS-LLM框架:非专家用户的直观机器人编程新纪元

ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning

摘要

本文介绍了一种利用自然语言提示和机器人操作系统(ROS)中的上下文信息,使非专家用户能够直观编程机器人的框架。该系统集成了大型语言模型(LLM),允许非专家通过聊天界面向系统表达任务要求。关键特性包括:ROS与连接到众多开源和商业LLM的AI代理的集成,从LLM输出中自动提取行为并执行ROS动作/服务,支持三种行为模式(序列、行为树、状态机),通过模仿学习添加新的机器人动作到可能动作的库中,以及通过人类和环境反馈进行LLM反思。广泛的实验验证了该框架的鲁棒性、可扩展性和多样性场景下的多功能性,包括长期任务、桌面重排和远程监督控制。为了促进该框架的采用和支持我们结果的再现,我们已经将代码开源。

Read more...

SemUV:开创性的深度学习方法在虚拟人头部的UV纹理贴图上的语义操作

SemUV: Deep Learning based semantic manipulation over UV texture map of virtual human heads

摘要

本文介绍了一种基于深度学习的方法SemUV,用于在虚拟人头部的UV纹理贴图上进行语义操作。在增强现实(AR)、虚拟现实(VR)、游戏、人机交互和视觉效果(VFX)等多种应用中,设计和操纵虚拟人头部的外观至关重要。传统基于图形的方法需要大量手动工作和资源来实现对人类头部的精确表示。尽管现代深度学习技术可以生成和编辑高度逼真的面部图像,但它们主要集中在2D面部图像上,这使得它们不太适合3D应用。SemUV方法通过在UV纹理空间内直接进行语义操作,为图形设计师提供了增强的控制和精度,从而简化了3D图形流水线中的编辑过程。该方法在保持身份的同时,有效地修改了年龄、性别和面部毛发等语义特征,且不依赖于其他3D组件如结构、光照和渲染,也不需要广泛的领域专业知识、时间或资源。

Read more...

TabSketchFM:革新数据湖中的表格数据发现技术

TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes

摘要

本文介绍了一种基于草图的表格表示学习方法——TabSketchFM,用于在数据湖中进行数据发现。TabSketchFM通过预训练的草图方法增强了神经表格模型在数据发现任务中的有效性,并开发了LakeBench,一个包含8个基准的集合,用于微调预训练模型以识别可联合、可合并或互为子集的表格。实验结果表明,TabSketchFM在多个微调任务中达到了最先进的性能,并在搜索任务中相较于现有技术有显著改进,特别是在可联合搜索基准中性能提升高达70%。此外,TabSketchFM在不同数据集和任务间展示了显著的泛化能力。

Read more...

Text2Robot:从文本到实体,快速定制你的四足机器人

Text2Robot: Evolutionary Robot Design from Text Descriptions

摘要

本文介绍了一种名为Text2Robot的创新框架,该框架能够根据用户的文本描述和性能偏好,快速设计并制造出四足行走机器人。传统的机器人设计过程既昂贵又劳动密集,而Text2Robot通过利用先进的文本到3D生成模型,能够在几分钟内提供多样化的机器人形态初始设计,并在一天内通过几何处理算法和身体控制协同优化,生成可实际制造的行走机器人。这一框架不仅加速了原型制作过程,还为机器人设计领域开辟了新的可能性。

Read more...

Web2Code:革新多模态大型语言模型的网页理解和代码生成能力

Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs

摘要

本文介绍了一种名为Web2Code的基准测试,旨在解决多模态大型语言模型(MLLMs)在理解网页截图和生成相应HTML代码方面的不足。Web2Code包含一个新的大规模网页到代码数据集,用于指令调整,以及一个评估框架,用于测试MLLMs在网页理解和HTML代码转换方面的能力。该数据集利用预训练的LLMs来增强现有的网页到代码数据集,并生成新的网页图像。评估框架包括网页理解基准(WUB)和网页代码生成基准(WCGB),通过实验证明,使用该数据集进行微调不仅能显著提高图像到HTML代码的转换能力,还能在一般视觉领域带来改进。

Read more...

xSemAD:基于序列到序列模型的可解释语义异常检测技术

xSemAD: Explainable Semantic Anomaly Detection in Event Logs Using Sequence-to-Sequence Models

摘要

本文介绍了一种名为xSemAD的新型语义异常检测技术,该技术利用序列到序列(seq2seq)模型在事件日志中识别不期望的行为。传统的异常检测方法通常侧重于统计上的罕见行为,而忽略了罕见性与不期望性之间的细微差别。xSemAD通过从给定的过程模型库中学习约束,并检查这些约束在所考虑的事件日志中是否成立,从而提供扩展的解释。实验证明,xSemAD在语义异常检测方面优于现有的最先进方法。

Read more...

信息论视角下的神经网络规模法则:理论与实践

Information-Theoretic Foundations for Neural Scaling Laws

摘要

本文由斯坦福大学的Hong Jun Jeon和Benjamin Van Roy共同撰写,旨在为神经网络的规模法则提供严格的信息论基础。神经规模法则旨在描述模型和训练数据集大小对样本外误差的影响,从而指导计算资源在模型和数据处理之间的分配以最小化误差。然而,现有的理论支持缺乏严谨性和清晰度,混淆了信息和优化的角色。本文通过开发严格的信息论基础,能够描述由无限宽度的两层神经网络生成的数据的规模法则。研究发现,数据和模型大小的最优关系是线性的,这与大规模实证研究相吻合。这些简洁而普遍的结果可能为这一主题带来清晰度,并指导未来的研究。

Read more...

创新对抗性攻击:基于多维特征的骨骼动作识别的新视角

Emotion Loss Attacking: Adversarial Attack Perception for Skeleton based on Multi-dimensional Features

摘要

本文由华东师范大学的Feng Liu、北京邮电大学的Qing Xu和华东师范大学的Qijian Zheng共同撰写,探讨了基于多维特征的骨骼动作对抗性攻击问题。论文提出了一种新的对抗性攻击方法,该方法通过引入动态距离函数和情感特征来测量骨骼动作的差异,并使用交替方向乘子法(ADMM)来解决约束优化问题,生成具有更好不可感知性的对抗样本。实验结果表明,该方法在多个动作分类器和数据集上有效,且在相同的扰动幅度下,其生成的动态扰动远低于其他方法。此外,本文首次证明了情感特征的有效性,并为测量骨骼动作之间的距离提供了新的思路。

Read more...
Previous Page 123 of 156 Next Page