革新生物医学问答:利用生成语言模型提升答案的准确性与可靠性

How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions

摘要

本文介绍了一种生物医学领域的检索增强生成(RAG)系统,旨在提高在线用户问题答案的准确性和可靠性。该系统通过微调的大型语言模型(LLM)进行参考问题回答,其中从PubMed检索的相关摘要作为输入传递给LLM的上下文。系统的输出是基于PubMed摘要的答案,每个陈述都相应地引用了来源,允许用户验证答案。与PubMed搜索引擎相比,该检索系统实现了23%的绝对改进。基于小样本的手动评估,我们的微调LLM组件在引用相关摘要方面与GPT-4 Turbo取得了可比的结果。我们公开了用于微调模型的数据集以及基于Mistral-7B-instruct-v0.1和v0.2的微调模型。

Read more...

高效无环因果图采样:一种可扩展的贝叶斯因果发现方法

Scalable Variational Causal Discovery Unconstrained by Acyclicity

摘要

本文介绍了一种可扩展的贝叶斯因果发现方法,该方法能够在不显式强制无环性的情况下,有效地从观测数据中学习因果图的后验分布。传统的因果发现方法在处理大规模问题时面临计算上的挑战,尤其是在确保无环性约束方面。本文提出的方法通过引入一种新颖的可微分DAG采样技术,能够高效地生成无环因果图,并通过变分推断框架学习因果图的后验分布。实验结果表明,该方法在合成数据集和真实数据集上都表现出色,优于现有的几种先进方法。

Read more...

"FADeR:解决无监督异常检测中的不完整掩蔽问题"

Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly Detection

摘要

本文由YeongHyeon Park等人提出,针对无监督异常检测(UAD)中的不完整掩蔽问题,提出了一种名为“缺陷表示的特征衰减”(FADeR)的方法。在UAD研究中,尽管最先进的模型在公共基准数据集上已经达到了饱和点,但它们通常采用大规模定制神经网络(NN)以提高检测性能或追求多任务统一模型。为了适应边缘计算环境,需要开发计算效率高且可扩展的解决方案,避免使用大规模复杂NN。FADeR通过仅使用两层多层感知器(MLP)在解码过程中衰减异常重建的特征信息,将未见过的异常模式重建为已见过的正常模式,从而减少误报。实验结果表明,FADeR在性能上优于类似规模的NN,并且在与其它单一确定性掩蔽方法集成时,表现出性能增强的可扩展性。

Read more...

"Re-Tuning:突破大型语言模型的组合性限制"

Re-Tuning: Overcoming the Compositionality Limits of Large Language Models with Recursive Tuning

摘要

本文介绍了一种名为Re-Tuning的新方法,旨在帮助大型语言模型(LLM)解决组合任务。尽管LLM在传统的语言理解任务中表现出色,但它们在解决组合任务时遇到困难,这些任务的解决方案依赖于解决同一问题的较小实例。Re-Tuning方法通过递归地调整模型,将问题分解为子问题,解决这些子问题,并将结果结合起来,从而显著提高了模型在整数加法、动态规划和奇偶性等代表性组合任务上的性能。与保持解决问题的中间步骤的现有最先进方法相比,Re-Tuning不仅实现了更高的准确性,而且在GPU内存效率方面表现更佳。

Read more...

"保护AI生成内容的真实性:水印技术在对抗性攻击下的鲁棒性评估"

On Evaluating The Performance of Watermarked Machine-Generated Texts Under Adversarial Attacks

摘要

本文探讨了在对抗性攻击下,水印技术在机器生成文本中的性能评估。随着大型语言模型(LLMs)在文本生成和复杂任务中的广泛应用,其生成的内容如深度伪造新闻、学术欺诈和版权侵犯等问题日益严重。水印技术通过在机器生成文本中嵌入可识别标记,为内容验证和来源追踪提供了一种有前景的解决方案。然而,当前LLM水印方案在潜在的水印移除攻击下的鲁棒性尚未得到全面探索。本文通过系统地梳理主流水印方案和移除攻击,并将其分类为文本生成前(pre-text)和文本生成后(post-text)两类,进行了多样化的分析。实验评估了八种水印(五种pre-text,三种post-text)和十二种攻击(两种pre-text,十种post-text)在87种场景下的性能,结果显示KGW和Exponential水印在保持高文本质量和较高水印保留率的同时,仍对大多数攻击较为脆弱。此外,本文还强调了开发更鲁棒水印方案的必要性。

Read more...

"创新脑年龄估计模型GDSM:小数据集中的高效与精确"

Brain Age Estimation with a Greedy Dual-Stream Model for Limited Datasets

摘要

本文介绍了一种基于贪婪双流模型(GDSM)的脑年龄估计方法,该方法针对有限数据集的挑战进行了优化。脑年龄估计是通过分析大脑图像来预测个体的生物学年龄,这对于理解衰老过程和神经退行性疾病的发展具有重要价值。传统的脑年龄估计方法通常依赖于大型数据集和计算资源密集型的模型,而本文提出的GDSM模型通过结合局部和全局的大脑特征,能够在小型数据集上实现鲁棒性能。该方法在IBID数据集上的平均绝对误差(MAE)为3.25年,展示了其在有限数据集上的高效性和先进性。

Read more...

"强化学习的新里程碑:Robust Decision Transformer在数据损坏场景下的卓越表现"

Robust Decision Transformer: Tackling Data Corruption in Offline RL via Sequence Modeling

摘要

本文探讨了离线强化学习(Offline RL)在处理现实世界数据中常见的噪声和错误时的挑战。传统基于时间差分的离线RL方法在数据质量较差时表现不佳,尤其是在数据量有限的情况下。为此,研究者提出了基于序列建模的Robust Decision Transformer(RDT),通过引入高斯加权学习、迭代数据校正和嵌入丢弃等技术,显著提高了模型在数据损坏情况下的鲁棒性。实验结果表明,RDT在多种数据损坏场景下均优于传统方法,展现了序列建模在处理离线RL数据损坏问题中的潜力。

Read more...

"智能手机上的个性化AI:利用LLMs和传感技术革新用户体验"

Enabling On-Device LLMs Personalization with Smartphone Sensing

摘要

本文介绍了一种创新的端到端框架,该框架结合了设备上的大型语言模型(LLMs)与智能手机传感技术,以实现情境感知和个性化服务。该框架解决了当前基于云的LLMs在隐私、延迟和成本方面的关键限制,并通过在智能手机上部署LLMs,利用多模态传感器数据和定制的提示工程,确保了隐私保护并增强了个性化性能。通过一个大学学生的案例研究,展示了该框架提供定制化建议的能力。此外,该框架在隐私、性能、延迟、成本、电池和能源消耗方面实现了设备上和云LLMs之间的最佳平衡。未来的工作将集成更多样化的传感器数据,并进行大规模用户研究,以进一步完善个性化服务。

Read more...

"智能视觉-语言推理器:多模态AI在复杂推理任务中的突破"

Smart Vision-Language Reasoners

摘要

本文探讨了视觉-语言模型(VLM)作为推理器的应用,特别是在多模态AI领域。文章基于SMART任务(简单多模态算法推理任务),通过八个不同的推理轴(数学、计数、路径、测量、逻辑、空间和模式)来研究VLM的推理能力,并寻求改进的方法。文章提出了一种新的QF多模态层,通过融合预训练的视觉和语言骨干网络,以及适当的超参数和训练选择,实现了在SMART任务上高达48%的准确性提升。此外,文章还提供了完整的代码实现,可在GitHub上获取。

Read more...

"测试时训练:RNN的新纪元 - 通过自监督学习实现高效序列建模"

Learning to (Learn at Test Time): RNNs with Expressive Hidden States

摘要

本文提出了一种新型的序列建模层,称为Test-Time Training (TTT)层,其核心思想是将隐藏状态本身作为一个机器学习模型,并且更新规则为自监督学习的一个步骤。TTT层在测试序列上的更新过程等同于在测试时训练模型。文章介绍了两种实例化:TTT-Linear和TTT-MLP,它们的隐藏状态分别是线性模型和两层多层感知机(MLP)。实验表明,这两种实例化在125M到1.3B参数的规模上,与强大的Transformer和现代RNN模型Mamba相比,都能匹配或超越基准性能。特别是在长上下文处理中,TTT-Linear和TTT-MLP显示出更大的潜力,为未来的研究指明了一个有希望的方向。

Read more...
Previous Page 64 of 156 Next Page