创新心音分类技术:MBDCN与LSCN模型的高效诊断应用

Classification of Heart Sounds Using Multi-Branch Deep Convolutional Network and LSTM-CNN

摘要

本文介绍了一种快速且成本效益高的方法,用于在临床环境中使用低成本系统诊断心脏异常,具有高准确性和可靠性。主要挑战是自动诊断心脏疾病时正确和可接受的标记样本的稀缺性,这可能导致准备成本高昂。为解决这一问题,本文提出了两种方法:第一种是受人类听觉处理启发的独特多分支深度卷积神经网络(MBDCN)架构,通过使用不同大小的卷积滤波器和音频信号功率谱作为输入来优化特征提取。第二种方法称为长短期记忆-卷积神经(LSCN)模型,该网络架构包括长短期记忆(LSTM)网络块,以改善时间域中的特征提取。实验结果显示,所提出的方法在心音分类任务中优于现有技术,总体分类准确率超过96%。

Read more...

创新的多标签与多头部注意力机制:提升肺呼吸音分类的轻量级解决方案

Towards Enhanced Classification of Abnormal Lung sound in Multi-breath: A Light Weight Multi-label and Multi-head Attention Classification Method

摘要

本文旨在开发一种辅助诊断系统,用于分类异常肺呼吸音,通过创新的多标签学习方法和多头部注意力机制提高自动异常呼吸音分类的准确性。针对现有呼吸音数据集的类别不平衡和缺乏多样性的问题,研究采用轻量级且高度准确的模型,使用二维标签集来表示多种呼吸音特征。该方法在ICBHI2017数据集上的四分类任务中达到了59.2%的ICBHI评分,展示了其在轻量级和高准确性方面的优势。本文不仅提高了肺呼吸音异常自动诊断的准确性,还为临床应用开辟了新的可能性。

Read more...

利用CycleGAN从MRI生成解剖学准确的合成CT扫描图:革命性的医学图像处理技术

Leveraging Multimodal CycleGAN for the Generation of Anatomically Accurate Synthetic CT Scans from MRIs

摘要

本文由Leonardo Crespi等人撰写,探讨了利用多模态CycleGAN生成解剖学上准确的合成CT扫描图从MRI图像的技术。在许多临床环境中,使用计算机断层扫描(CT)和磁共振成像(MRI)对于全面理解患者解剖结构和制定合适的治疗策略是必要的。特别是在基于MRI的放射治疗中,CT提供了关于组织辐射吸收特性的关键信息。然而,这种方法通常成本高昂、耗时且对患者造成压力。为了解决这一问题,本文分析了不同配置的深度学习模型生成合成CT扫描图的能力,特别是利用CycleGAN架构,该架构能够在无配对图像的情况下以无监督方式工作。通过多种评估策略,包括分布式度量和医生的定性评估,研究显示模型能够生成难以与真实图像区分的图像,证明了该方法的潜力。

Read more...

加速长音频合成:LiteFocus引领潜在扩散模型的新纪元

LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis

摘要

本文由新加坡国立大学的研究团队提出,针对长音频合成中潜在扩散模型(Latent Diffusion Models)的推理效率问题,引入了一种名为LiteFocus的新方法。该方法通过优化模型的自注意力机制,实现了在长音频合成中的加速和质量提升。LiteFocus的核心创新在于采用双稀疏注意力计算形式,即同频聚焦(Same-frequency Focus)和跨频补偿(Cross-frequency Compensation),有效减少了计算量,同时保持了音频质量。实验结果表明,LiteFocus在合成80秒音频时,推理时间减少了1.99倍,同时音频质量得到改善。

Read more...

双孪生神经网络在室内机器人定位中的创新应用

An experimental evaluation of Siamese Neural Networks for robot localization using omnidirectional imaging in indoor environments

摘要

本文探讨了使用双孪生神经网络(Siamese Neural Networks)通过室内环境中的全方位图像进行机器人定位的问题。文章提出了一种基于全景图像的室内环境建模方法,并评估了其在不同光照条件下的定位性能。通过使用双孪生神经网络,该方法能够生成两个输入数据(即两张全景图像)之间的相似度函数,从而实现图像检索任务。实验结果表明,该方法在COLD-Freiburg数据集上的定位任务中表现优异,特别是在多云和夜间条件下。

Read more...

在Cortex-M微控制器上实现高效的全量化深度神经网络训练

On-Device Training of Fully Quantized Deep Neural Networks on Cortex-M Microcontrollers

摘要

本文探讨了在Cortex-M微控制器上进行深度神经网络(DNN)的设备上训练问题。由于微控制器处理速度慢、吞吐量受限、浮点支持有限和内存受限,DNN训练的实现和执行面临挑战。本文提出了一种方法,通过完全量化训练(FQT)和动态部分梯度更新,在微控制器上实现DNN的高效训练。该方法在多个视觉和时间序列数据集上展示了其可行性,并提供了关于训练精度、内存开销、能量和延迟之间权衡的实际硬件洞察。

Read more...

多机器人网络中的通信和计算高效分布式决策制定

Communication- and Computation-Efficient Distributed Decision-Making in Multi-Robot Networks

摘要

本文介绍了一种分布式协调范式,旨在实现多机器人网络中的可扩展性和近似最优的联合运动规划。与当前的协调范式相比,这些范式要么接近最优但不适用于重新规划时间,要么实时但无法提供近似最优性保证。该研究受到未来协作移动自主性的启发,其中分布式机器人团队将通过车辆间通信(V2V)协调执行如地图绘制、监视和目标跟踪等信息密集型任务。为了实现快速分布式协调,需要限制网络中的信息共享爆炸,因此需要限制机器人的协调程度。然而,限制协调可能导致次优的联合计划,导致非协调机器人执行重叠轨迹,而不是互补的。本文在理论上和算法上对这种决策速度和最优性之间的权衡进行了表征和平衡。为此,引入了分布式子模块优化的工具。子模块性是一种递减收益属性,通常出现在上述信息收集任务中。在理论方面,分析了局部网络拓扑(每个机器人的局部协调邻域)如何影响全局级别的近似最优协调。在算法方面,提供了一种通信和计算高效的协调算法,使代理能够单独平衡这种权衡。该算法比竞争的近似最优算法快两个数量级。在多达45个机器人的监视任务模拟中,该算法实现了每秒1次的实时规划,并具有卓越的覆盖性能。为了实现模拟,提供了一个高保真模拟器,通过集成协作自主性管道并模拟V2V通信延迟来扩展AirSim。

Read more...

强化学习在建筑安全设计中的应用:模拟活跃枪击事件的新视角

Enhancing Building Safety Design for Active Shooter Incidents: Exploration of Building Exit Parameters using Reinforcement Learning-Based Simulations

摘要

随着美国活跃枪击事件(ASIs)的急剧增加,通过建筑设计增强公共安全已成为迫切需求。本研究提出了一种基于强化学习(RL)的模拟方法,旨在解决现有研究中忽视射手动态行为的问题。通过开发一个自主代理来模拟活跃枪手在真实办公室环境中的行为,本研究旨在探讨建筑设计参数与ASI结果之间的相互作用。案例研究通过定量分析建筑出口数量和配置对疏散和伤害率的影响,发现增加出口的可用性显著改善了疏散结果并减少了伤害。此外,靠近射手初始位置的出口对于可访问性比远离的出口更为重要。通过考虑动态的射手行为,本研究为对抗不断演变的威胁提供了有效的建筑安全设计初步见解。

Read more...

探索3D蛋白质结构在药物目标亲和力预测中的应用:GraphPrint框架的先进性与前景

GraphPrint: Extracting Features from 3D Protein Structure for Drug Target Affinity Prediction

摘要

本文由乔治亚理工学院的Amritpal Singh撰写,介绍了一种名为GraphPrint的新框架,用于从3D蛋白质结构中提取特征,以预测药物与目标的亲和力。传统的药物目标亲和力预测方法主要依赖于蛋白质的氨基酸序列特征,而忽略了其3D结构对结合亲和力的影响。GraphPrint框架通过生成蛋白质3D结构的图表示,并结合药物图表示和传统特征,共同学习药物目标亲和力。该模型在KIBA数据集上实现了0.1378的均方误差和0.8929的一致性指数,优于仅使用传统蛋白质特征的方法。此外,消融研究表明,基于3D蛋白质结构的特征提供了与传统手工特征互补的信息。

Read more...

探索CLIP模型如何处理否定语义:一项深入的解释性研究

How and where does CLIP process negation?

摘要

本文探讨了预训练视觉与语言(VL)模型在理解否定语义方面的能力,特别是在VALSE基准测试中的存在任务上。研究通过深入分析CLIP模型的文本编码器,揭示了模型内部处理否定语义的机制,并评估了VALSE数据集作为语言理解基准的有效性。研究结果不仅展示了如何将语言模型解释性方法应用于多模态模型,还提供了关于CLIP如何处理否定语义的具体见解,并指出了VALSE数据集在评估语言理解能力方面的局限性。

Read more...
Previous Page 6 of 156 Next Page