HACMan++:通过空间基础运动原语实现机器人操作任务的先进策略泛化

HACMan++: Spatially-Grounded Motion Primitives for Manipulation

摘要

本文介绍了一种名为HACMan++的方法,该方法通过使用空间基础的运动原语来改进机器人操作任务中的策略泛化。传统的端到端机器人学习方法在处理物体姿态或几何形状变化时往往不够鲁棒。HACMan++提出了一种包含三个组成部分的动作表示:执行何种原语(如抓取或推动)、原语在何处接地(例如夹持器与世界的接触点)以及如何执行原语动作,如推动方向或抓取方向的参数。这些组成部分定义了一种新的离散-连续动作空间,用于强化学习。该框架使机器人代理能够学习将不同的运动原语串联起来,并选择适当的原语参数以完成长周期的操作任务。通过在环境中的空间位置接地原语,我们的方法能够有效地跨越物体形状和姿态变化进行泛化。我们的方法在复杂场景中显著优于现有方法,特别是在需要高水平顺序推理和物体泛化的场景中。通过零样本模拟到真实的转移,我们的策略在具有挑战性的真实世界操作任务中取得了成功,并泛化到未见过的物体。

Read more...

LEAP方法:一种新的音频-视觉视频解析范式,实现事件语义的清晰解开与高效预测

Label-anticipated Event Disentanglement for Audio-Visual Video Parsing

摘要

本文介绍了一种名为“Label-anticipated Event Disentanglement for Audio-Visual Video Parsing”的新方法,旨在解决音频-视觉视频解析(AVVP)任务中的事件检测和时间定位问题。该任务的挑战在于多个事件可能在时间线上重叠,传统的解决方法主要集中在改进早期的音频-视觉编码器以嵌入更有效的特征,而对解码阶段的关注较少。本文提出的解决方案是一种新的解码范式——基于标签语义的投影(LEAP),通过利用事件类别的标签文本,每个标签具有独特且明确的语义,来解析可能重叠的事件。LEAP通过迭代地将音频/视觉片段的编码潜在特征投影到语义独立的标签嵌入上,通过建模跨模态(音频/视觉-标签)交互,逐步解开视频片段内的事件语义,以改进相关的标签嵌入,确保一个更具区分性和可解释性的解码过程。此外,本文还提出了一种语义感知优化策略,包括一个新的音频-视觉语义相似性损失函数,该函数利用音频和视觉事件的交并比(EIoU)作为新指标,以校准特征级别的音频-视觉相似性,适应不同模态间的事件密度变化。实验结果表明,该方法在AVVP任务上达到了新的最先进性能,并增强了相关的音频-视觉事件定位任务。

Read more...

MPR:打破偏见,实现公平检索的新指标

Multi-Group Proportional Representation

摘要

本文主要介绍了一种名为多组比例表示(MPR)的新型检索指标,用于衡量检索任务中交叉群体的表示情况。文章讨论了 MPR 的工作原理、计算方法以及在图像检索中的应用。通过实验,作者证明了 MPR 在平衡检索相似度和公平性方面的有效性,并展示了其在促进交叉群体的比例表示方面的优势。

Read more...

RetinaVLM:专为临床眼科设计的先进视觉语言模型

Specialist vision-language models for clinical ophthalmology

摘要

本文介绍了一种专为临床眼科设计的视觉语言模型(RetinaVLM),该模型能够自动解释眼底光学相干断层扫描(OCT)图像,并生成详细的文本描述。RetinaVLM通过特定的训练课程,专门针对年龄相关性黄斑变性(AMD)的临床管理任务进行训练,包括疾病分期、患者转诊和生物标志物分析。该模型在疾病分期和患者转诊任务上的表现接近初级眼科医生的水平,显示出在减轻临床工作负担和提高患者获得高质量医疗服务方面的巨大潜力。

Read more...

SciQu:利用自动化文献挖掘加速材料属性预测与自驱动实验室优化

SciQu: Accelerating Materials Properties Prediction with Automated Literature Mining for Self-Driving Laboratories

摘要

本文介绍了一种名为SciQu的工具,该工具通过自动化文献挖掘和机器学习技术,加速材料属性预测,特别是在自驱动实验室中的应用。SciQu通过从大量科学文献中提取关键信息,训练机器学习模型,从而精确预测材料的多种属性,如带隙、电阻率、杨氏模量、功函数和折射率等。此外,SciQu还能优化合成参数,实现材料形状、大小和相位的精确控制。

Read more...

SPOCKMIP:利用MIP增强7T MRA血管分割的连续性

SPOCKMIP: Segmentation of Vessels in MRAs with Enhanced Continuity using Maximum Intensity Projection as Loss

摘要

本文介绍了一种名为SPOCKMIP的方法,用于在7T磁共振血管成像(MRA)中分割血管,通过增强连续性使用最大强度投影(MIP)作为损失函数。该研究聚焦于提高血管分割质量,通过考虑特征的空间相关性,特别是在高分辨率3D 7T MRA中,使用MIP作为额外的损失标准。提出的方法在视觉检查中显示出改进的血管连续性,并在定量评估中显示出更高的Dice系数,表明其在神经影像学中的应用前景广阔。

Read more...

ST-Mamba:利用有限数据实现精确交通流量估计的深度学习模型

ST-Mamba: Spatial-Temporal Mamba for Traffic Flow Estimation Recovery using Limited Data

摘要

本文介绍了一种名为ST-Mamba的深度学习模型,该模型专门用于在有限数据条件下进行交通流量估计(TFE)。传统的交通流量估计方法依赖于昂贵且覆盖范围有限的路边检测器,而ST-Mamba模型通过结合卷积神经网络(CNN)和Mamba框架,能够有效地从车辆网络数据中捕捉时空模式,从而提高TFE的准确性和稳定性。该模型在真实世界数据集上的模拟实验证明了其能够在有限数据条件下提供精确和稳定的交通流量估计,为城市智能交通系统提供了一种成本效益高的解决方案。

Read more...

stEnTrans:基于Transformer的深度学习方法在空间转录组学中的革命性应用

stEnTrans: Transformer-based deep learning for spatial transcriptomics enhancement

摘要

本文介绍了一种基于Transformer架构的深度学习方法stEnTrans,用于增强空间转录组学数据的分辨率和预测未测量区域的基因表达。空间转录组学技术能够测量组织中基因表达模式的同时保留空间信息,但现有技术存在序列深度浅或分辨率低的问题。stEnTrans通过自监督学习方法,利用基因表达数据本身作为监督信息,无需额外数据即可提升基因表达的分辨率和预测能力。研究在六个数据集上验证了stEnTrans的性能,结果显示其在增强分辨率和预测基因表达方面优于其他深度学习和传统插值方法。此外,该方法还有助于发现空间转录组学中的空间模式,并丰富更多生物学上有意义的通路。

Read more...

VADER:通过奖励梯度高效调整视频扩散模型的新方法

Video Diffusion Alignment via Reward Gradients

摘要

本文介绍了一种名为VADER的新方法,用于通过奖励梯度来调整预训练的视频扩散模型,以适应特定的下游任务。传统的调整方法需要收集目标视频数据集,这在实践中既困难又耗时。VADER利用预训练的奖励模型,这些模型基于强大的视觉判别模型学习了偏好,从而在生成RGB像素时提供密集的梯度信息,这对于在复杂搜索空间中进行高效学习至关重要。通过将这些奖励模型的梯度反向传播到视频扩散模型中,VADER能够在计算和样本效率上实现高效对齐。此外,VADER不仅限于文本到视频的生成,还能处理图像到视频的生成任务,展示了其广泛的适用性和高效性。

Read more...

WhisperNetV2:基于唇部生物识别的先进认证系统,实现高安全性和隐私保护

WhisperNetV2: SlowFast Siamese Network For Lip-Based Biometrics

摘要

本文介绍了一种名为WhisperNetV2的先进唇部生物识别认证系统,该系统利用深度孪生网络结构和三重损失函数,通过SlowFast网络提取唇部视频中的生理和行为特征。与传统方法不同,WhisperNetV2考虑了客户在视频采集过程中的不同情绪状态,这些情绪可能影响面部表情和说话速度,从而影响认证的准确性。通过在CREMA-D数据集上训练,该系统在测试集上达到了0.005的等误差率(EER),显示出其在唇部生物识别领域的先进性能。

Read more...
Previous Page 20 of 156 Next Page