探索WSI-VQA:引领全幻灯片图像解释的新纪元

WSI-VQA: Interpreting Whole Slide Images by Generative Visual Question Answering

摘要

本文介绍了一种名为WSI-VQA的创新框架,用于通过生成式视觉问答(VQA)来解释全幻灯片图像(WSI)。WSI-VQA通过将各种幻灯片级任务重新构建为问答模式,展示了其通用性,使病理学家能够通过人机交互实现免疫组织化学分级、生存预测和肿瘤分型。此外,研究团队建立了一个包含8672个幻灯片级问答对的WSI-VQA数据集,并开发了名为Wsi2Text Transformer(W2T)的生成模型,该模型在医学正确性方面优于现有的判别模型,显示出在临床场景中的应用潜力。

Read more...

探索不完全信息游戏中的神经网络高效训练策略

Efficiently Training Neural Networks for Imperfect Information Games by Sampling Information Sets

摘要

本文由Timo Bertram等人撰写,探讨了在不完全信息游戏中,如何通过采样信息集来高效训练神经网络。不完全信息游戏的特点是玩家无法观察到游戏的全部状态,这使得评估游戏状态变得复杂。传统的解决方案需要对信息集中的所有可能状态进行评估,这在计算上是不切实际的。本文提出了一种新的方法,通过采样信息集中的少量状态来近似整个信息集的期望值,从而在有限的计算资源下实现高效的训练。实验结果表明,这种方法在德州扑克和侦察盲棋等游戏中表现出色,为不完全信息游戏的人工智能研究提供了新的方向。

Read more...

探索人类与LLM对话:心理模型与毒性起源的先进研究

Exploring Human-LLM Conversations: Mental Models and the Originator of Toxicity

摘要

本文探讨了人类与大型语言模型(LLMs)在真实世界中的交互,特别是在不受限制的环境下,与以往专注于特定任务的伦理修剪模型(如ChatGPT)的研究形成对比。研究旨在理解毒性内容的起源,发现尽管LLMs被合理地指责提供有毒内容,但这些内容大多是由人类主动寻求或至少引发的。通过手动分析数百个被API商业供应商判定为有毒的对话,研究还对当前拒绝回答某些用户请求的做法提出了质疑。此外,基于多个实证指标,推测人类在交互过程中其心理模型发生了变化,从与机器交互的心态转向与人类交互的心态。

Read more...

探索医学影像新前沿:RadiomicsFill-Mammo技术引领合成肿瘤图像生成

RadiomicsFill-Mammo: Synthetic Mammogram Mass Manipulation with Radiomics Features

摘要

本文介绍了一种名为RadiomicsFill-Mammo的创新技术,该技术利用放射组学特征生成具有特定属性的合成乳腺肿瘤图像。文章探讨了在医学影像领域中,由于隐私问题和高标签成本导致的高质量数据获取困难,以及数据集不平衡对神经网络训练的影响。RadiomicsFill-Mammo通过使用稳定扩散模型和放射组学特征,能够生成与特定临床变量(如BI-RADS评分和乳腺密度)相匹配的逼真肿瘤图像,从而提高肿瘤检测能力并增强治疗规划。该研究不仅推动了医学影像研究,还为肿瘤模拟开辟了新的应用前景。

Read more...

探索大型视觉语言模型中的多对象幻觉:ROPE 评估协议的先进性与应用前景

Multi-Object Hallucination in Vision-Language Models

摘要

本文探讨了大型视觉语言模型(LVLMs)中的多对象幻觉问题,通过引入基于识别的对象探测评估(ROPE),系统地研究了模型在关注多个对象时的错误感知,以及导致幻觉的因素。研究发现,LVLMs在关注多个对象时更容易出现幻觉,测试对象类分布会影响幻觉行为,且幻觉行为受到数据特定因素、显著性和频率以及模型内在行为的影响。

Read more...

探索大型语言模型在不确定性下的回退行为:从循环到幻觉的转变

From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty

摘要

本文探讨了大型语言模型(LLMs)在面对不确定性时表现出的不良行为,如幻觉和序列重复。文章提出将这些行为视为模型在不确定性下的“回退行为”,并分析了这些行为与模型预训练令牌数量、参数数量或遵循指令训练的关系。实验表明,随着模型复杂性的增加,其回退行为从序列重复转变为退化文本,最终变为幻觉。此外,文章还发现,尽管常见的解码技术如随机采样可以减轻某些不良行为,如序列重复,但会增加更难以检测的幻觉。

Read more...

探索大型语言模型的事实幻觉问题:基于知识图谱的虚假前提问题评估

KG-FPQ: Evaluating Factuality Hallucination in LLMs with Knowledge Graph-based False Premise Questions

摘要

KG-FPQ: Evaluating Factuality Hallucination in LLMs with Knowledge Graph-based False Premise Questions 是一篇关于大型语言模型(LLMs)在面对虚假前提问题(FPQs)时产生事实幻觉问题的研究论文。论文提出了一种基于知识图谱(KGs)自动构建FPQs的方法,以评估LLMs在处理这些虚假信息时的性能。该研究通过创建一个包含约178,000个FPQs的综合基准(KG-FPQ),对多个代表性LLMs进行了广泛评估,揭示了LLMs在不同领域和任务格式下的表现差异。

Read more...

探索大型语言模型的认知扇效应:人类行为的计算机模拟研究

Large Language Model Recall Uncertainty is Modulated by the Fan Effect

摘要

本文由Jesse Roberts等研究者撰写,探讨了大型语言模型(LLMs)是否能展现出与人类相似的认知扇效应。通过在预训练阶段使用人类文本数据,研究者设计了两组情境回忆实验来诱发扇效应。实验结果显示,LLMs的回忆不确定性,通过标记概率衡量,确实受到扇效应的影响。此外,当不确定性被消除时,观察到的扇效应会被破坏。研究还表明,无论扇效应值是在情境中诱发还是在预训练数据中诱发,其效果是一致的。这些发现为扇效应和典型性是同一现象的表现提供了计算机模拟证据。

Read more...

探索情感的深度:MSP-Podcast SER挑战2024的多模态自监督学习方法

MSP-Podcast SER Challenge 2024: L"antenne du Ventoux Multimodal Self-Supervised Learning for Speech Emotion Recognition

摘要

本文详细介绍了LIA团队在2024年MSP-Podcast语音情感识别(SER)挑战中的参赛方案。该挑战分为两个任务,本文专注于任务1,即对MSP-Podcast数据集中的语音片段进行八种情感状态的分类。研究团队采用了一种多模态自监督学习方法,通过结合语音和文本数据,训练多个独立的模型,并使用支持向量机(SVM)进行分数级融合,以提高情感分类的准确性。该方法在开发集上获得了0.35%的F1-macro分数,显示出其在情感识别领域的先进性和潜力。

Read more...

探索文化包容性:视觉语言模型在视障辅助技术中的应用与挑战

Vision-Language Models under Cultural and Inclusive Considerations

摘要

本文由哥本哈根大学计算机科学系的Antonia Karamolegkou等人撰写,探讨了大型视觉语言模型(VLMs)在帮助视障人士描述日常生活中的图像时的文化包容性和多样性问题。文章指出,现有的评估数据集可能无法充分反映不同文化背景用户的需求和实际使用情境。为此,研究团队创建了一个调查问卷,以确定用户对图像描述的偏好,并通过筛选现有数据集VizWiz构建了一个文化中心评估基准。研究结果显示,尽管最先进的模型表现良好,但仍存在幻觉和自动评估指标与人类判断不一致的问题。研究团队公开了调查问卷、数据、代码和模型输出,以促进进一步的研究和应用。

Read more...
Previous Page 51 of 156 Next Page