探索情感的深度:MSP-Podcast SER挑战2024的多模态自监督学习方法

MSP-Podcast SER Challenge 2024: L"antenne du Ventoux Multimodal Self-Supervised Learning for Speech Emotion Recognition

摘要

本文详细介绍了LIA团队在2024年MSP-Podcast语音情感识别(SER)挑战中的参赛方案。该挑战分为两个任务,本文专注于任务1,即对MSP-Podcast数据集中的语音片段进行八种情感状态的分类。研究团队采用了一种多模态自监督学习方法,通过结合语音和文本数据,训练多个独立的模型,并使用支持向量机(SVM)进行分数级融合,以提高情感分类的准确性。该方法在开发集上获得了0.35%的F1-macro分数,显示出其在情感识别领域的先进性和潜力。

Read more...

探索文化包容性:视觉语言模型在视障辅助技术中的应用与挑战

Vision-Language Models under Cultural and Inclusive Considerations

摘要

本文由哥本哈根大学计算机科学系的Antonia Karamolegkou等人撰写,探讨了大型视觉语言模型(VLMs)在帮助视障人士描述日常生活中的图像时的文化包容性和多样性问题。文章指出,现有的评估数据集可能无法充分反映不同文化背景用户的需求和实际使用情境。为此,研究团队创建了一个调查问卷,以确定用户对图像描述的偏好,并通过筛选现有数据集VizWiz构建了一个文化中心评估基准。研究结果显示,尽管最先进的模型表现良好,但仍存在幻觉和自动评估指标与人类判断不一致的问题。研究团队公开了调查问卷、数据、代码和模型输出,以促进进一步的研究和应用。

Read more...

探索文本到视频生成模型的安全性:T2VSafetyBench的全面评估与发现

T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models

摘要

本文介绍了一种名为T2VSafetyBench的新型基准测试,用于评估文本到视频生成模型的安全性。随着文本到视频(T2V)生成技术的快速发展,生成的视频可能包含非法或不道德内容,这对其可靠性和实际部署构成了挑战。T2VSafetyBench通过定义12个关键的视频生成安全方面,并构建一个恶意提示数据集,来评估这些模型的安全性。研究发现,没有单一模型在所有方面都表现出色,且GPT-4评估与人工审查之间存在高度相关性。此外,文本到视频生成模型在可用性和安全性之间存在权衡。随着视频生成技术的迅速发展,安全风险也随之增加,因此迫切需要优先考虑视频安全问题。

Read more...

探索新型教学信号:“进度”在机器人学习中的应用与前景

How Much Progress Did I Make? An Unexplored Human Feedback Signal for Teaching Robots

摘要

本文由Hang Yu等人撰写,探讨了在机器人学习中利用一种新颖的人类反馈信号——“进度”(progress),以提高机器人从人类教学中的学习效率和用户体验。文章通过三个实验(两个在线研究和一个公共空间研究)验证了“进度”信号的有效性,并展示了其在评估任务完成度、识别无害但无效行为以及在非专家演示中的应用潜力。此外,文章还发布了一个包含40个非专家演示的数据集,强调了“进度”信号在机器人学习中的重要性和应用前景。

Read more...

探索未来:BEVWorld——自动驾驶的多模态世界模型

BEVWorld: A Multimodal World Model for Autonomous Driving via Unified BEV Latent Space

摘要

本文介绍了一种名为BEVWorld的创新方法,用于自动驾驶中的多模态世界模型构建。该方法通过将多模态传感器输入编码为一个统一的鸟瞰图(BEV)潜在空间,来模拟环境并预测未来场景。BEVWorld包括一个多模态标记器和一个潜在BEV序列扩散模型,能够有效地处理未标记的多模态传感器数据,并在自动驾驶任务中展示出其生成未来场景的能力,从而为感知和运动预测等下游任务提供支持。

Read more...

探索未来交通标志识别的新前沿:基于MLLM的跨域少样本学习方法

Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition

摘要

本文提出了一种基于多模态大型语言模型(MLLM)的跨域少样本上下文学习方法,用于增强交通标志识别(TSR)。该方法通过构建基于Vision Transformer Adapter的交通标志检测网络和提取模块,从原始道路图像中提取交通标志。为了减少对训练数据的依赖并提高跨国家TSR的性能稳定性,引入了基于MLLM的跨域少样本上下文学习方法。通过生成包含交通标志形状、颜色和构成的关键信息的描述文本,该方法增强了MLLM对交通标志的细粒度识别能力。实验结果表明,该方法在多个数据集上显著提高了TSR性能。

Read more...

探索未来无线通信:ORAN-Bench-13K与ORANSight引领LLM在O-RAN中的应用革命

ORAN-Bench-13K: An Open Source Benchmark for Assessing LLMs in Open Radio Access Networks

摘要

本文由Pranshav Gajjar和Vijay K. Shah撰写,来自乔治梅森大学的NextG无线实验室,提出了一种名为ORAN-Bench-13K的新型开源基准,旨在评估大型语言模型(LLMs)在开放无线接入网络(O-RAN)中的性能。该基准包含13,952个精心设计的多项选择题,源自116份O-RAN规范文档。论文还介绍了ORANSight,一种基于检索增强生成(RAG)的管道,其在ORAN-Bench-13K上的表现优于其他封闭源模型。研究结果表明,当前流行的LLM模型在O-RAN领域并不擅长,强调了开发专用模型的必要性。

Read more...

探索未来视觉智能:动态网络架构的突破与应用

The Dynamic Net Architecture: Learning Robust and Holistic Visual Representations Through Self-Organizing Networks

摘要

本文介绍了一种名为“动态网络架构”(Dynamic Net Architecture, DNA)的新型智能系统架构,该架构依赖于循环稳定网络,并应用于视觉处理。DNA模型通过自组织机制和Hebbian可塑性,动态地整合局部和全局特征,从而生成高度鲁棒的视觉表示。与传统的人工神经网络(ANNs)不同,DNA通过动态横向连接过滤掉无关细节,提高了处理步骤的清晰度和决策的准确性。实验证明,DNA能够有效地组合线条片段,形成更长的线条,即使在高达59%的噪声干扰下,也能保持线条表示的鲁棒性。此外,DNA还能从部分遮挡的输入中重建预期特征,并能泛化到训练中未观察到的模式。本文还探讨了如何通过结合多个区域来实现未来的不变对象识别工作。

Read more...

探索核能与防御领域的知识工程创新:SARBACANES系统的构建与应用

Implementing a hybrid approach in a knowledge engineering process to manage technical advice relating to feedback from the operation of complex sensitive equipment

摘要

本文由S. Boblet等人撰写,探讨了在核能和防御领域中,如何有效地管理与操作经验反馈相关的技术意见。文章详细介绍了一个名为“TA KM”的知识工程方法,该方法符合ISO30401框架,并构建了一个名为“SARBACANES”的完整系统,以支持业务流程并在知识库中永久保存其专业知识和专长。文章不仅关注传统的知识转移,还展示了这种工程方法在多功能操作中的能力。此外,文章还介绍了使用Ardans Knowledge Maker®平台加速建模的过程。

Read more...

探索神经细胞自动机在多纹理合成中的创新应用

Multi-Texture Synthesis through Signal Responsive Neural Cellular Automata

摘要

本文介绍了一种基于信号响应神经元细胞自动机(NCA)的多纹理合成方法。传统的NCA在纹理生成领域表现出色,但每种纹理需要单独训练的NCA,限制了其应用范围。本文提出了一种新方法,通过在每个细胞状态中编码纹理信息,训练单个NCA生成多种纹理。这种方法不仅保持了NCA的自再生能力,还支持学习纹理之间的插值和嫁接技术,展示了编辑生成纹理的潜力,并探讨了基因信息和损失函数对NCA演化的影响。

Read more...
Previous Page 52 of 156 Next Page