"CoRaX:革新放射学诊断的人工智能协作系统"
摘要
本文介绍了一种名为Collaborative Radiology Expert (CoRaX)的创新型人工智能系统,旨在通过整合眼动追踪数据和放射学报告,提高胸部放射学诊断的准确性。该系统通过分析放射科医生与X光图像的交互,识别并纠正感知错误,从而提升决策过程。CoRaX系统的设计不仅提高了诊断效率,还具有教育潜力,可支持经验不足的放射科医生的培训。
Read more...本文介绍了一种名为Collaborative Radiology Expert (CoRaX)的创新型人工智能系统,旨在通过整合眼动追踪数据和放射学报告,提高胸部放射学诊断的准确性。该系统通过分析放射科医生与X光图像的交互,识别并纠正感知错误,从而提升决策过程。CoRaX系统的设计不仅提高了诊断效率,还具有教育潜力,可支持经验不足的放射科医生的培训。
Read more...本文提出了一种名为FedDecomp的新型个性化联邦学习(PFL)方法,旨在解决数据异质性问题。FedDecomp通过参数加性分解,将每个模型参数分解为共享参数和个性化参数,从而更彻底地解耦共享知识和个性化知识。此外,FedDecomp通过交替训练策略,优先训练低秩矩阵以吸收非独立同分布(non-IID)数据的影响,进一步提高了性能。实验结果表明,FedDecomp在多个数据集和不同程度的非IID数据分布下,性能优于现有方法。
Read more...本文探讨了视觉语言模型(VLMs)在多步骤推理中的应用,这是一个由于缺乏包含多步骤视觉和语言处理的数据而具有挑战性的问题。为了克服这一挑战,研究者提出了一种从最少到最多的视觉推理范式,该范式通过分解问题为子问题并调用外部工具来解决这些子问题。此外,还提出了一种新颖的数据合成方法,能够以自底向上的方式自动为图像创建问题和多步骤推理路径。这种方法将复杂的合成任务分解为几个简单的子任务,并几乎完全依赖开源模型来完成这些子任务,从而确保了合成过程的可重复性和成本效益。通过这种方法,研究者构建了50,000个视觉推理示例,并通过监督微调开发了一个视觉推理器,能够以即插即用的方式普遍增强现有VLMs的推理能力。实验表明,该视觉推理器能够持续且显著地提高四个VLMs在四个VQA基准上的性能。
Read more...本文探讨了利用地理空间基础模型(Geospatial Foundation Models, GFMs)进行巴西不同生态区域地上生物量(Above-Ground Biomass, AGB)估计的有效性。通过微调基于Swin-B变换器的地理空间基础模型,使用来自巴西不同生态区域的卫星数据,论文展示了该模型在稀疏标签预测任务中的性能与从头训练的U-Net相当,尽管其参数数量仅为U-Net的十分之一,从而节省了时间和计算资源。此外,论文还探讨了这些模型的迁移学习能力,通过在巴西不同生态区域的稀疏标签卫星图像上进行微调。
Read more...本文由Hitesh Saai Mananchery Panneerselvam和Smit Anand共同撰写,提出了一种名为“Redundancy Removal using Shift (R2S)”的视频压缩方法。该方法通过识别和移除视频帧间的冗余像素数据,以达到优化视频存储的目的。传统视频压缩方法多依赖硬编码规则,而近年来基于机器学习(ML)的视频压缩算法显示出更高的效率。R2S方法通过像素点跟踪技术,识别帧间重复的像素,并仅存储其位置信息,从而大幅减少存储需求。此外,该方法支持多种机器学习模型算法,提高了压缩的适应性和可访问性。
Read more...本文探讨了大型语言模型(LLMs)与搜索引擎服务的结合,分析了这种结合如何共同提升两者的技术能力。文章主要关注两个方面:使用搜索引擎改进LLMs(Search4LLM)和利用LLMs增强搜索引擎功能(LLM4Search)。通过深入分析,本文展示了这种集成如何通过提供多样化和高质量的数据集、改进查询理解和响应生成、以及增强搜索结果的相关性和质量,来推动服务计算领域的发展。同时,文章也指出了这种集成面临的挑战,包括模型训练中的偏见和伦理问题、计算成本的管理以及对不断变化的网络内容的持续更新需求。
Read more...本文介绍了一种基于小波图像编码和语言转换器的新型自回归图像生成方法。该方法通过小波图像编码将图像的视觉细节从粗到细进行标记化,并利用专门设计的语言转换器学习这些标记序列中的统计相关性。实验结果表明,该方法在生成高分辨率图像方面具有显著效果,并且能够通过条件生成过程实现多样化的图像输出。
Read more...本文探讨了大型语言模型(LLMs)如何通过提取的理性(rationales)来解释其生成内容,这些理性是从输入文本中提取的标记,反映了LLMs的决策过程。研究通过两种方法提取理性:基于归因的方法(使用注意力或梯度定位重要标记)和基于提示的方法(通过提示引导LLMs提取理性)。实验结果显示,基于提示的理性与人工标注的理性更为一致,即使在模型性能较差的情况下也能合理地与人类推理对齐。此外,研究发现基于提示的方法的忠实度限制可能与其预测崩溃有关。通过在相应数据集上微调这些模型,基于提示和归因的方法都显示出忠实度的提高。本研究为LLM理性的更严格和公平评估提供了见解,特别是对于基于提示的方法。
Read more...本文介绍了一种使用CNN架构和分层注意力机制的可解释图像字幕生成技术。图像字幕生成是一种为图像生成文本描述的技术,传统的深度学习解决方案虽然有效,但用户对字幕生成过程的理解不足,模型预测的解释性差,因此被称为“黑盒”方法。本文提出的方法通过引入可解释AI,使得模型生成的字幕可以被解释和可视化,提高了模型的可信度和用户之间的互操作性。此外,该模型采用了一种新的CNN解码器和分层注意力概念,以提高字幕生成的速度和准确性。模型在MSCOCO数据集上进行了训练和评估,并展示了定量和定性的结果。
Read more...本文针对深度神经网络(DNNs)的安全性和鲁棒性问题,提出了一种基于数据驱动的Lipschitz连续性方法,以提高对抗性攻击下的模型鲁棒性。该方法通过重新映射输入域到一个受限范围,降低Lipschitz常数,从而增强模型的鲁棒性。与传统的对抗训练模型不同,本方法无需重新训练,几乎不增加额外成本,且实验结果表明该方法在CIFAR10、CIFAR100和ImageNet数据集上达到了最佳的鲁棒精度。
Read more...