MM-Instruct：引领大型多模态模型的新纪元

Posted on 2024-06-28 in CS.AI • 22 words • 1 minute read

摘要

本文介绍了一种名为MM-Instruct的大型多模态模型对齐数据集，旨在提升大型多模态模型（LMMs）的指令遵循能力。传统的视觉指令数据集主要集中在问答任务上，难以泛化到更广泛的实际应用场景，如创意写作、摘要或图像分析。MM-Instruct通过利用现有大型语言模型（LLMs）的强大指令遵循能力，从大规模的传统图像字幕数据集中生成新颖的视觉指令数据。该方法首先利用ChatGPT从一组种子指令中自动生成多样化的指令，然后将其与图像匹配，并使用开源的大型语言模型（LLM）生成与指令-图像对一致的答案。此外，本文还引入了一个基于生成指令数据的基准，用于评估现有LMMs的指令遵循能力。实验证明，通过在生成的数据上训练LLaVA-1.5模型，即LLaVA-Instruct，其在指令遵循能力上显著优于LLaVA-1.5模型。

ProgressGym：引领AI与千年道德进步的对齐之旅

Posted on 2024-06-28 in CS.AI • 20 words • 1 minute read

摘要

本文介绍了一种名为“ProgressGym”的实验框架，旨在解决前沿人工智能系统（包括大型语言模型LLMs）在影响人类用户认知学时可能强化社会现有价值观，从而导致错误道德信念的锁定和广泛问题的道德实践持续存在的问题。论文提出了“进步对齐”作为技术解决方案，通过学习人类道德进步的机制，解决现有对齐方法对当代道德盲点的敏感性。ProgressGym框架利用9个世纪的历史文本和18个历史LLMs，将现实世界的进步对齐挑战编码为具体基准，并引入了三个核心挑战：跟踪进化价值观（PG-Follow）、预见性预测道德进步（PG-Predict）和调节人与AI价值变化的反馈回路（PG-Coevolve）。论文还介绍了终身和外推算法作为进步对齐的基线方法，并构建了一个开放的排行榜，邀请社区贡献新的算法和挑战。

RepAct：革新边缘计算的轻量级神经网络自适应激活函数

Posted on 2024-06-28 in CS.AI • 8 words • 1 minute read

摘要

本文介绍了一种名为RepAct（可重参数化的自适应激活函数）的创新技术，旨在解决边缘计算中轻量级神经网络在有限计算资源下的推理和理解能力提升问题。RepAct通过采用多分支激活函数结构，结合可学习的自适应权重，有效地利用模型参数容量，增强轻量级网络的特征提取能力。该方法在图像分类、目标检测和语义分割等多个任务中进行了验证，显著提高了模型性能，尤其是在MobileNetV3-Small网络中，ImageNet100数据集上的Top-1准确率提升了7.92%。RepAct的设计不仅考虑了计算效率，还通过训练时的多分支结构和推理时的单分支结构，实现了模型性能与推理速度的平衡。

ResVMUNetX：基于VMamba架构的低光图像增强网络，实现高效实时图像处理

Posted on 2024-06-28 in CS.AI • 9 words • 1 minute read

摘要

本文介绍了一种基于VMamba架构的低光图像增强网络——ResVMUNetX。该研究针对现有深度学习方法在捕捉图像长距离信息方面的不足，提出了一种基于误差回归的方法，通过直接增加估计的照明补充来增强输入图像的亮度和恢复结构细节。ResVMUNetX通过高效的VMamba架构优化了长距离信息的捕捉，并结合CNN模块进行局部细节提取和噪声去除，显著提高了低光图像的清晰度和视觉质量，同时大幅减少了参数和计算负载，实现了高达70帧每秒的处理速度。实验结果表明，ResVMUNetX在图像质量和性能上均超越了现有的图像增强方法，尤其在实时处理能力方面展现出巨大潜力。

ROS-LLM框架：非专家用户的直观机器人编程新纪元

Posted on 2024-06-28 in CS.AI • 18 words • 1 minute read

摘要

本文介绍了一种利用自然语言提示和机器人操作系统（ROS）中的上下文信息，使非专家用户能够直观编程机器人的框架。该系统集成了大型语言模型（LLM），允许非专家通过聊天界面向系统表达任务要求。关键特性包括：ROS与连接到众多开源和商业LLM的AI代理的集成，从LLM输出中自动提取行为并执行ROS动作/服务，支持三种行为模式（序列、行为树、状态机），通过模仿学习添加新的机器人动作到可能动作的库中，以及通过人类和环境反馈进行LLM反思。广泛的实验验证了该框架的鲁棒性、可扩展性和多样性场景下的多功能性，包括长期任务、桌面重排和远程监督控制。为了促进该框架的采用和支持我们结果的再现，我们已经将代码开源。

SemUV：开创性的深度学习方法在虚拟人头部的UV纹理贴图上的语义操作

Posted on 2024-06-28 in CS.AI • 8 words • 1 minute read

摘要

本文介绍了一种基于深度学习的方法SemUV，用于在虚拟人头部的UV纹理贴图上进行语义操作。在增强现实（AR）、虚拟现实（VR）、游戏、人机交互和视觉效果（VFX）等多种应用中，设计和操纵虚拟人头部的外观至关重要。传统基于图形的方法需要大量手动工作和资源来实现对人类头部的精确表示。尽管现代深度学习技术可以生成和编辑高度逼真的面部图像，但它们主要集中在2D面部图像上，这使得它们不太适合3D应用。SemUV方法通过在UV纹理空间内直接进行语义操作，为图形设计师提供了增强的控制和精度，从而简化了3D图形流水线中的编辑过程。该方法在保持身份的同时，有效地修改了年龄、性别和面部毛发等语义特征，且不依赖于其他3D组件如结构、光照和渲染，也不需要广泛的领域专业知识、时间或资源。

TabSketchFM：革新数据湖中的表格数据发现技术

Posted on 2024-06-28 in CS.AI • 11 words • 1 minute read

摘要

本文介绍了一种基于草图的表格表示学习方法——TabSketchFM，用于在数据湖中进行数据发现。TabSketchFM通过预训练的草图方法增强了神经表格模型在数据发现任务中的有效性，并开发了LakeBench，一个包含8个基准的集合，用于微调预训练模型以识别可联合、可合并或互为子集的表格。实验结果表明，TabSketchFM在多个微调任务中达到了最先进的性能，并在搜索任务中相较于现有技术有显著改进，特别是在可联合搜索基准中性能提升高达70%。此外，TabSketchFM在不同数据集和任务间展示了显著的泛化能力。

Text2Robot：从文本到实体，快速定制你的四足机器人

Posted on 2024-06-28 in CS.AI • 8 words • 1 minute read

摘要

本文介绍了一种名为Text2Robot的创新框架，该框架能够根据用户的文本描述和性能偏好，快速设计并制造出四足行走机器人。传统的机器人设计过程既昂贵又劳动密集，而Text2Robot通过利用先进的文本到3D生成模型，能够在几分钟内提供多样化的机器人形态初始设计，并在一天内通过几何处理算法和身体控制协同优化，生成可实际制造的行走机器人。这一框架不仅加速了原型制作过程，还为机器人设计领域开辟了新的可能性。

Web2Code：革新多模态大型语言模型的网页理解和代码生成能力

Posted on 2024-06-28 in CS.AI • 11 words • 1 minute read

摘要

本文介绍了一种名为Web2Code的基准测试，旨在解决多模态大型语言模型（MLLMs）在理解网页截图和生成相应HTML代码方面的不足。Web2Code包含一个新的大规模网页到代码数据集，用于指令调整，以及一个评估框架，用于测试MLLMs在网页理解和HTML代码转换方面的能力。该数据集利用预训练的LLMs来增强现有的网页到代码数据集，并生成新的网页图像。评估框架包括网页理解基准（WUB）和网页代码生成基准（WCGB），通过实验证明，使用该数据集进行微调不仅能显著提高图像到HTML代码的转换能力，还能在一般视觉领域带来改进。

xSemAD：基于序列到序列模型的可解释语义异常检测技术

Posted on 2024-06-28 in CS.AI • 8 words • 1 minute read

摘要

本文介绍了一种名为xSemAD的新型语义异常检测技术，该技术利用序列到序列（seq2seq）模型在事件日志中识别不期望的行为。传统的异常检测方法通常侧重于统计上的罕见行为，而忽略了罕见性与不期望性之间的细微差别。xSemAD通过从给定的过程模型库中学习约束，并检查这些约束在所考虑的事件日志中是否成立，从而提供扩展的解释。实验证明，xSemAD在语义异常检测方面优于现有的最先进方法。

Previous Page 123 of 156 Next Page