"BiasScanner:用AI技术揭露新闻偏见,守护民主之声"

BiasScanner: Automatic Detection and Classification of News Bias to Strengthen Democracy

摘要

随着在线新闻消费的增加,新闻偏见和虚假信息的问题日益严重。BiasScanner是一款旨在通过帮助读者审查在线新闻文章来加强民主的应用程序。该系统利用预训练的大型语言模型(如OpenAI的GPT 3.5)来识别和分类新闻文章中的偏见句子,并通过一个前端Web浏览器插件提供服务。BiasScanner能够识别和分类超过20种类型的新闻偏见,是目前最精细的模型,并且是唯一部署的自动系统。该系统不仅突出显示可能存在偏见的句子,还提供每个分类决策的解释以及每篇新闻文章的总结分析。

Read more...

"BiSIC:开创性的双向立体图像压缩技术,引领视觉体验新纪元"

Bidirectional Stereo Image Compression with Cross-Dimensional Entropy Model

摘要

本文介绍了一种名为BiSIC的新型双向立体图像压缩架构,旨在解决传统单向压缩方法中存在的压缩质量不平衡问题。BiSIC通过采用3D卷积编解码器骨干网络来捕获局部特征,并结合双向注意力块来利用全局特征。此外,本文还设计了一种新颖的跨维度熵模型,该模型集成了多种条件因素,包括空间上下文、通道上下文和立体依赖性,以有效估计潜在表示的分布进行熵编码。实验结果表明,BiSIC在PSNR和MS-SSIM指标上均优于传统的图像/视频压缩标准以及基于学习的最先进方法。

Read more...

"Cooperative Reward Shaping: 提升多智能体路径寻找中的合作与效率"

Cooperative Reward Shaping for Multi-Agent Pathfinding

摘要

本文介绍了一种名为Cooperative Reward Shaping (CoRS)的新型奖励塑造技术,旨在解决多智能体路径寻找(MAPF)问题中的效率和合作性挑战。传统的多智能体路径规划算法在处理多个智能体的分布式路径规划时效率低下,而多智能体强化学习(MARL)通过将MAPF问题建模为MARL问题,能够实现智能体在部分观测下的高效路径规划和碰撞避免。然而,由于缺乏全局信息,MARL策略往往缺乏智能体间的合作,导致MAPF效率降低。CoRS方法通过评估一个智能体对其邻居的影响,并将这种交互整合到奖励函数中,从而促进智能体间的主动合作。该方法在分布式训练分布式执行(DTDE)框架下进行了实验验证,并与现有的最先进(SOTA)规划器进行了比较,结果表明在涉及大量智能体的场景中,CoRS方法表现出色。

Read more...

"GROOT:开创性的生成式音频水印技术,引领音频内容监管新纪元"

GROOT: Generating Robust Watermark for Diffusion-Model-Based Audio Synthesis

摘要

本文介绍了一种名为GROOT的新型生成式音频水印方法,旨在通过扩散模型(DMs)主动监管生成的音频内容。随着生成模型如扩散模型的快速发展,区分合成音频与自然音频的任务变得日益困难。GROOT方法通过在音频合成过程中嵌入水印,实现了对合成音频及其源扩散模型的预先监管。该方法利用固定参数的扩散模型和专用编码器,在生成音频的同时嵌入水印,并可通过轻量级解码器检索水印。实验结果显示,GROOT在鲁棒性方面表现出色,尤其在面对复合攻击时,平均水印提取准确率高达95%。

Read more...

"MVSD:基于扩散模型的互学习框架,革新声学匹配与去混响技术"

Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion

摘要

本文介绍了一种基于扩散模型的互学习框架MVSD,用于声学匹配和去混响任务。传统的声学匹配和去混响方法通常独立处理每个任务,且依赖于配对训练数据,这在实际应用中难以获取,限制了大量未配对数据的使用。MVSD框架通过考虑两个任务之间的内在互惠关系,利用对称任务之间的反馈信号,即使在易于获取的单向未配对数据上也能优化逆向任务。此外,MVSD采用扩散模型作为基础条件转换器,避免了传统GAN架构中的训练不稳定和过度平滑问题。实验结果表明,该框架在两个标准基准测试中提高了声学匹配和去混响任务的性能,并能更好地匹配特定的视觉场景。

Read more...

"Ref-AVS: 利用多模态线索实现精确视觉对象分割的新方法"

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

摘要

本文介绍了一种名为“Ref-AVS”的新任务,该任务旨在通过包含多模态线索(如音频和视觉描述)的自然语言表达来分割视觉场景中的对象。传统参考分割任务主要集中在无声视觉场景上,忽略了多模态感知和交互在人类体验中的重要作用。为了支持这一研究,作者构建了首个Ref-AVS基准,提供了对象的像素级标注,并提出了一种新方法,该方法能够有效利用多模态线索进行精确分割。实验结果表明,该方法在三个测试子集上均优于现有方法,显示出其在使用多模态线索表达进行精确对象分割方面的有效性。

Read more...

"TCM-FTP:利用大型语言模型微调技术革新中医处方预测"

TCM-FTP: Fine-Tuning Large Language Models for Herbal Prescription Prediction

摘要

本文介绍了一种名为TCM-FTP的新方法,用于通过微调大型语言模型(LLMs)来预测中药处方。该方法针对传统中医(TCM)中处方预测的技术挑战,特别是在高质量临床数据稀缺和症状与草药之间复杂关系的情况下。TCM-FTP利用从消化系统疾病专家那里收集的实际医疗记录构建了一个新的数据集DigestDS,并通过监督微调和低秩适应技术(LoRA)来提高计算效率。此外,通过在处方中随机排列草药来利用其顺序无关的特性进行数据增强。实验结果显示,TCM-FTP在预测草药和剂量方面显著优于现有方法,F1分数达到0.8031,剂量预测的归一化均方误差为0.0604。这表明微调LLMs对于TCM处方预测的重要性,并提供了一种有效的方法来实现这一点。

Read more...

"WGQA:提升Transformer模型推理效率的新策略"

Weighted Grouped Query Attention in Transformers

摘要

本文由Sai Sena Chinnakonduru和Astarag Mohapatra提出,针对Transformer语言模型中的注意力机制进行了创新改进。随着模型规模的扩大,传统的多头注意力(MHA)在硬件内存限制下,推理成本显著增加。为了解决这一问题,作者提出了Weighted Grouped-Query Attention(WGQA),通过引入新的可学习参数,使得模型在微调过程中能够进行加权平均,从而在不增加额外推理开销的情况下,实现了与MHA相当的性能,平均提升了0.53%。此外,论文还探讨了不同参数聚合方式对模型性能的影响,并通过实验验证了WGQA在多个数据集上的有效性。

Read more...

"创新自监督学习方法提升多模态MRI图像分析性能"

Enhanced Self-supervised Learning for Multi-modality MRI Segmentation and Classification: A Novel Approach Avoiding Model Collapse

摘要

本文介绍了一种针对多模态磁共振成像(MRI)分割和分类的增强型自监督学习方法,旨在通过避免模型崩溃来提高模型精度。传统的深度学习算法在处理MRI图像时需要大量手动标注的数据,这限制了模型的进一步改进。自监督学习(SSL)通过预训练从无标签数据中有效学习特征表示,但在多模态MRI数据上,大多数SSL方法忽视了模态间的相似性,导致模型崩溃。为解决这一问题,研究者提出了一种多模态MRI掩码自编码器(M2-MAE),包含混合掩码模式(HMP)和金字塔Barlow双胞胎(PBT)模块,通过重建掩码块来学习多模态图像的语义连接,并在BraTS2023、PI-CAI和肺气体MRI数据集上验证了其优越性。该方法显著提升了分割和分类任务的性能,支持对小病变区域的准确检测。

Read more...

"利用LLMs进行项目评估:心理测量分析的新视角"

Leveraging LLM-Respondents for Item Evaluation: a Psychometric Analysis

摘要

本文探讨了利用大型语言模型(LLMs)如GPT-3.5、GPT-4等进行项目评估的心理测量分析。研究旨在通过模拟人类回答的方式,评估LLMs在数学领域的应用能力,特别是在大学代数中的表现。研究发现,尽管某些LLMs在某些领域的能力超过了大学生,但单一的LLM无法完全模拟人类的回答模式。然而,通过组合多个LLMs的回答,可以更接近人类的能力分布。此外,研究还评估了数据增强策略,发现重采样方法在提高项目参数的Spearman相关性方面最为有效。

Read more...
1 of 156 Next Page