预训练视觉-语言模型的新范式:弱监督学习的突破

Pre-Trained Vision-Language Models as Partial Annotators

摘要

本文探讨了一种新颖的“预训练标注-弱监督学习”范式,用于预训练视觉-语言模型在图像分类任务中的应用。该方法利用预训练模型作为弱标注器,对未标注样本进行标注,并通过弱监督学习算法进行训练。具体而言,基于CLIP模型,通过多个提示模板对图像样本进行标注,生成多个候选标签,形成噪声部分标签数据集,并设计了一种协同一致性正则化算法来解决这一问题。实验表明,该方法在无需额外标签信息的情况下,性能远超零样本推理,并优于其他弱监督学习和少样本微调方法,同时获得了更小的部署模型。

Read more...

"设计无拒绝选项下的双赢策略:服务提供者与任务的公平分配"

Design a Win-Win Strategy That Is Fair to Both Service Providers and Tasks When Rejection Is Not an Option

摘要

本文探讨了在服务提供者和任务分配中,当拒绝选项不可用时,如何设计一个对双方都公平的策略。文章将问题建模为二分图中的在线匹配问题,并解决了两个最小-最大问题:一个是最小化任务的最大等待时间,另一个是最小化服务提供者的最大工作负载。通过线性规划方法,文章展示了如何高效地解决第二个问题,并保持对第一个问题的合理近似。文章还开发了新颖的方法,利用这两个最小-最大问题,并通过大量模拟实验验证了基于线性规划的启发式方法的显著性能。

Read more...

探索多模态融合深度学习模型在疾病识别中的创新应用

Application of Multimodal Fusion Deep Learning Model in Disease Recognition

摘要

本文介绍了一种创新的多模态融合深度学习方法,旨在克服传统单模态识别技术的缺陷,如信息不完整和诊断准确性有限。该方法在特征提取阶段应用了先进的深度学习模型,包括卷积神经网络(CNN)、循环神经网络(RNN)和变换器(Transformer),从基于图像的、时间序列的和结构化的数据源中提取高级特征。融合策略组件旨在为特定的疾病识别任务确定最佳的融合模式。实验部分比较了所提出的多模态融合模型与现有的单模态识别方法的性能,结果显示多模态融合模型在多个评估指标上具有显著优势。

Read more...

揭秘GPT-4V的视觉偏见:如何影响种族和性别刻板印象?

More Distinctively Black and Feminine Faces Lead to Increased Stereotyping in Vision-Language Models

摘要

本文探讨了视觉语言模型(VLMs)如GPT-4V在处理人类面部图像时如何延续种族和性别刻板印象的问题。研究发现,当GPT-4V被要求根据面部图像编写故事时,它对从属种族和性别群体的描述更为单一,且依赖特定的、通常是积极的刻板印象。更重要的是,VLM的刻板印象是由视觉线索驱动的,而非仅仅基于群体成员身份。例如,被评定为更具典型黑人特征和女性气质的面孔会引发更多的刻板印象。这些发现表明,VLMs可能通过与种族和性别群体相关的微妙视觉线索来关联刻板印象,这种关联可能难以缓解。研究强调了在VLMs日益模仿人类感知能力时,解决这些偏见的重要性。

Read more...

预测金融服务的客户目标:一种数据驱动的LSTM方法

Predicting Customer Goals in Financial Institution Services: A Data-Driven LSTM Approach

摘要

本文探讨了在竞争激烈的金融环境中,金融机构如何通过数据驱动的LSTM模型来理解和预测客户的目标和行为。文章介绍了两种模型:一种是基本的LSTM模型,另一种是结合了状态空间图嵌入的LSTM模型。这两种模型都利用了由Borrajo和Veloso提出的域独立模拟器生成的半合成客户行为数据集。研究结果表明,这两种模型在预测客户目标和行为方面都表现出了有效性,尤其是结合了图嵌入的LSTM模型,其在准确性和效率上都有显著提升。

Read more...

AI革命:制造业的未来与智能转型

AI in Manufacturing: Market Analysis and Opportunities

摘要

本文探讨了人工智能(AI)在制造业中的变革性影响,特别强调了其在提高运营效率和革新行业实践方面的潜力。文章深入分析了AI在制造业中的多种应用,特别是人机界面(HMI)和AI驱动的铣床,展示了这些技术如何促进更直观的操作和生产过程中的精确性。通过严格的市场分析,文章提供了关于德国制造商AI采用率的洞察数据,并与全球趋势进行了比较,探讨了AI在生产、维护、客户服务等多个领域的具体应用。此外,文章还探讨了生成式AI和大型语言模型在制造过程中的潜在应用,并指出德国公司AI采用率从2020年的6%增长到2023年的13.3%,预计到2030年将产生显著的经济影响。文章还讨论了企业在实施AI时面临的挑战,如数据质量和集成障碍,提供了AI实施的机会和障碍的平衡视角。

Read more...

"揭秘多人在线对话中的机器人智能:一种多模态可解释性方法"

A Multi-Modal Explainability Approach for Human-Aware Robots in Multi-Party Conversation

摘要

本文介绍了一种用于多人在线对话中的人类感知机器人的多模态可解释性方法。论文的核心是提出了一种改进的收件人估计(AE)模型,该模型不仅提高了性能,还通过内置的基于注意力的可解释性模块增强了透明度和解释性。此外,论文还展示了如何将这种可解释的AE模型集成到一个模块化的认知架构中,以支持iCub机器人在多人在线对话中的应用。通过用户研究,论文分析了不同解释方式对人类参与者感知机器人的影响。

Read more...

"VideoQA-SC:引领视频问答技术的新纪元——高效、智能的语义通信系统"

VideoQA-SC: Adaptive Semantic Communication for Video Question Answering

摘要

本文介绍了一种名为VideoQA-SC的端到端语义通信系统,旨在通过无线网络高效执行视频问答(VideoQA)任务,无需依赖视频重建。该系统通过提取和传输与任务相关的紧凑语义表示,实现了高带宽效率和实时性能。VideoQA-SC采用时空语义编码器有效提取视频语义,并结合基于学习的带宽自适应深度联合源通道编码(DJSCC)方案,确保在噪声或衰落无线通道中的高效和鲁棒传输。实验表明,VideoQA-SC在广泛的通道条件和带宽限制下,优于传统的和基于DJSCC的语义通信系统。特别是在低信噪比条件下,VideoQA-SC能提高5.17%的回答准确率,同时节省近99.5%的带宽。这展示了面向任务的语义通信系统在视频应用中的巨大潜力。

Read more...

AddBiomechanics Dataset: 大规模捕捉人体运动物理学的新前沿

AddBiomechanics Dataset: Capturing the Physics of Human Motion at Scale

摘要

本文介绍了《AddBiomechanics Dataset: Capturing the Physics of Human Motion at Scale》这篇论文的核心内容。论文主要解决了从廉价传感器重建三维人体姿态并量化人体运动动力学(包括肌肉生成的关节扭矩和外部力)的挑战。为了解决这一问题,研究团队开发了AddBiomechanics Dataset 1.0,这是一个包含273名受试者超过70小时的运动和力板数据的大型标准化数据集,总计超过2400万帧。该数据集通过创新的分析方法构建,旨在用于训练机器学习模型,从易于测量的量(如手机摄像头捕捉的运动捕捉数据)重建人体运动动力学的详细力信息。论文还提出了一个评估基准,用于从运动中估计人体动力学,并提供了几个基线结果。AddBiomechanics Dataset已公开发布,网址为addbiomechanics.org/download data.html。

Read more...

NaviSlim:引领微型无人机智能导航的新纪元

NaviSlim: Adaptive Context-Aware Navigation and Sensing via Dynamic Slimmable Networks

摘要

本文介绍了一种名为NaviSlim的新型神经导航模型,专为受计算能力和能量储备严重限制的小型自主飞行器(如微型无人机)设计。NaviSlim模型能够根据当前环境(如环境难度、当前轨迹和导航目标)动态调整计算和传感资源的消耗,从而优化执行时间和能量消耗。该模型通过在Microsoft AirSim的强大模拟环境中进行广泛训练和测试,显示出在不同难度场景下的动态模型复杂度平均减少57-92%,传感器利用率减少61-80%。

Read more...
Previous Page 151 of 156 Next Page