提升医疗数据预测准确性:基于过程挖掘的预处理新方法
摘要
本文探讨了基于过程挖掘的预处理步骤在预测关键健康结果中的效果。研究背景在于医疗数据集的复杂性导致预测模型性能不佳,因此提出使用串联算法作为预处理步骤来提高数据质量。研究方法包括从MIMIC III和伊利诺伊大学医院数据库中提取16个医疗数据集,转换为事件日志,并应用串联算法和Split Miner算法生成过程模型。通过比较预测结果,发现串联算法显著提高了过程模型质量和关键健康结果的预测准确性。
Read more...本文探讨了基于过程挖掘的预处理步骤在预测关键健康结果中的效果。研究背景在于医疗数据集的复杂性导致预测模型性能不佳,因此提出使用串联算法作为预处理步骤来提高数据质量。研究方法包括从MIMIC III和伊利诺伊大学医院数据库中提取16个医疗数据集,转换为事件日志,并应用串联算法和Split Miner算法生成过程模型。通过比较预测结果,发现串联算法显著提高了过程模型质量和关键健康结果的预测准确性。
Read more...本文探讨了视觉-语言模型(VLMs)在预训练过程中无意中学习到的偏见问题,特别是在性别信息与特定物体或场景相关联时。传统的偏见缓解方法主要集中在修改输入和监控模型输出概率分数的变化,但这些方法往往难以从模型组件的角度全面理解偏见。本文提出了一种结合因果中介分析的框架,用于测量和映射VLMs中偏见生成和传播的路径。研究结果表明,图像特征是偏见的主要贡献者,其影响远超文本特征。通过在图像编码器中模糊性别表示,可以有效减少偏见,同时保持模型性能和计算需求。
Read more...本文介绍了一种基于深度学习的优化方法,用于加速基于质子共振频率(PRF)的磁共振(MR)热成像技术。该技术在聚焦超声(FUS)治疗中至关重要,特别是在需要快速且准确温度反馈的临床治疗中。论文提出了一种改进的深度学习方法,通过训练优化的神经网络模型,从欠采样的k空间数据中重建温度图,以提高动态MR温度图重建的时间分辨率。研究结果表明,该方法显著提高了MR热成像的准确性和效率,特别适用于临床上通过FUS进行的治疗,如子宫肌瘤、特发性震颤和前列腺癌的治疗。
Read more...本文探讨了基于深度学习的软件漏洞检测模型在实际数据集上的性能表现。尽管这些模型在先前的评估中报告了高达99%的召回率和F1分数,但在实际应用场景中,特别是在评估整个代码库而非仅修复提交时,这些模型的表现显著下降。本文引入了一个名为Real-Vul的综合数据集,用于更准确地代表现实世界中漏洞检测模型的评估环境。通过评估DeepWukong、LineVul、ReVeal和IVDetect等漏洞检测方法,观察到性能大幅下降,精度下降高达95个百分点,F1分数下降高达91个百分点。进一步分析揭示了模型生成的嵌入在易受攻击和不确定样本之间存在显著重叠,这可能是导致大量误报的原因。此外,模型性能还受到漏洞特征(如类型和严重性)的影响。本文强调,在深度学习基础上的漏洞检测模型准备部署到实际环境中之前,仍需弥合显著的性能差距。
Read more...本文由Imran Mahmood等人撰写,提出了一种用于大规模分层人口合成的多目标组合优化框架。在基于代理的模拟中,合成人口常用于表示个体的结构、行为和交互。然而,生成一个准确反映真实人口统计数据的合成人口是一项挑战,尤其是在大规模操作时。本文介绍了一种多目标组合优化技术,用于大规模人口合成,并通过生成选定区域的合成人口并在真实人口数据的列联表上进行验证,展示了其有效性。该方法支持个体和家庭之间的复杂层次结构,可扩展到大规模人口,并实现了最小的列联表重建误差。因此,它为政策制定者和研究人员提供了一个有用的工具,用于模拟复杂人口的动态。
Read more...本文针对数据稀缺场景下的合成表格数据生成问题,提出了一种新颖的方法论。该方法利用深度生成模型(DGMs)通过迁移学习和元学习技术引入人工归纳偏差,以提高在有限真实数据环境中的合成数据质量和可靠性。研究通过比较四种不同的方法,展示了迁移学习策略(如预训练和模型平均)相对于元学习方法(如模型无关元学习MAML和领域随机化搜索DRS)的优越性。实验结果表明,该方法在多个基准数据集上显著提高了合成数据的质量,特别是在Jensen-Shannon散度指标上实现了高达50%的相对增益。该方法在医疗和金融等领域具有广泛的应用前景,这些领域通常面临数据稀缺的挑战。
Read more...本文介绍了一种在边缘设备上使用知识蒸馏和量化技术进行统一异常检测的方法。随着深度学习和智能制造在工业4.0中的快速发展,对高吞吐量、高性能和完全集成的视觉检测系统的需求日益增长。传统的异常检测方法通常需要为每个类别单独训练模型,而统一模型则通过单一模型处理多个类别,显著降低了成本和内存需求。本文通过实验证明了多类别模型在标准MVTec AD数据集上的性能与单类别模型相当,并探讨了在边缘设备上部署这些模型的量化技术,包括量化感知训练(QAT)和后训练量化(PTQ),以及不同精度宽度下的性能表现。
Read more...本文介绍了一种针对连续治疗因果效应的不确定性量化的新方法——连续治疗因果效应的共形预测(Conformal Prediction for Causal Effects of Continuous Treatments)。在个性化医疗等安全关键应用中,因果效应的不确定性量化至关重要。现有的共形预测方法主要针对二元或离散治疗,并假设倾向得分已知,这在实际应用中往往不成立。本文提出的方法能够为连续治疗的潜在结果提供有限样本预测区间,即使在倾向得分未知的情况下也能保证预测区间的有效性。该方法通过考虑倾向估计引入的额外不确定性,确保了预测区间的有效性。研究展示了该方法在合成数据集和真实世界数据集上的有效性,证明了其在实际应用中的潜力。
Read more...本文由Jiayang Niu等人撰写,探讨了在推荐系统中使用量子计算机解决传统计算机难以处理的特征选择问题。文章通过量子退火器处理二次无约束二进制优化(QUBO)问题,并结合反事实分析,显著提升了基于物品的KNN推荐算法的性能。实验结果表明,反事实分析在解决此类问题中具有巨大潜力。
Read more...本文由浙江大学的Yipin Guo, Yilin Lang, Qinyuan Ren共同撰写,题为“Efficient Fusion and Task Guided Embedding for End-to-end Autonomous Driving”。该论文主要针对自动驾驶系统中的传感器融合和安全风险预测问题,提出了一种名为EfficientFuser的高效解决方案。该方案利用EfficientViT进行视觉信息提取,并通过交叉注意力机制整合特征图,再结合解码器仅用变换器进行多特征融合。此外,通过嵌入可学习向量作为令牌,利用注意力机制探索任务与传感器特征之间的关联。在CARLA模拟平台上进行的评估显示,EfficientFuser在参数和计算量上远低于现有轻量级方法,且驾驶评分接近领先的安全增强方法,显示出其在实际自动驾驶系统部署中的有效性和潜力。
Read more...