"超越指令遵循:大型语言模型在规则遵循中的挑战与前景"
摘要
本文探讨了大型语言模型(LLMs)在遵循规则方面的能力,特别是在实际应用中确保安全性和准确性的重要性。文章提出了一个名为RuleBench的综合基准,用于评估LLMs在多种规则遵循任务中的表现。实验结果显示,尽管LLMs在遵循指令方面表现出色,但在遵循复杂规则方面仍存在局限。文章还分析了LLMs在规则遵循中的错误类型,并提出了改进方向,强调了规则遵循能力对于实现人工通用智能(AGI)的重要性。
Read more...本文探讨了大型语言模型(LLMs)在遵循规则方面的能力,特别是在实际应用中确保安全性和准确性的重要性。文章提出了一个名为RuleBench的综合基准,用于评估LLMs在多种规则遵循任务中的表现。实验结果显示,尽管LLMs在遵循指令方面表现出色,但在遵循复杂规则方面仍存在局限。文章还分析了LLMs在规则遵循中的错误类型,并提出了改进方向,强调了规则遵循能力对于实现人工通用智能(AGI)的重要性。
Read more...本文介绍了一种创新的方法,用于建立严格且成本效益高的人工智能模型临床试验。该研究由国际开放基准委员会(BenchCouncil)主导,强调了在临床实践中对AI模型进行严格和成本效益评估的必要性。文章提出了一种双中心AI随机对照试验(DC-AI RCTs)和基于虚拟临床医生的体内试验(VC-MedAI),这些方法能够有效地替代传统的临床试验。通过在14个医疗中心进行的7500份诊断记录的试验,研究结果显示VC-MedAI在诊断决策上与人类临床医生表现相当,这表明这些方法能够为AI模型在临床实践中的评估提供一个类似临床前设置的环境,并以成本效益高和快速迭代的方式重塑发展范式。
Read more...本文介绍了一种结合3D U-Net和Contextual Transformer(CoT)的高级方法,用于在磁共振成像(MRI)中精确分割脑肿瘤。该方法通过扩展CoT的架构至3D格式,并将其与基础模型无缝集成,利用MRI扫描中的复杂上下文信息,强调了元素在扩展空间范围内的相互依赖性。该模型通过从CoT同步肿瘤质量特征,相互增强特征提取,从而精确捕捉肿瘤质量的详细结构,包括位置、大小和边界。实验结果显示,该方法在BraTS2019数据集上的分割性能优于当前最先进的方法,实现了82.0%、81.5%和89.0%的Dice分数,分别对应于增强肿瘤、肿瘤核心和整个肿瘤。
Read more...本文介绍了一种应用于欧洲X射线自由电子激光(EuXFEL)中 quench 识别的机器学习辅助故障检测和隔离方法。EuXFEL 使用800个超导射频腔来加速电子束至高达17.5 GeV的能量。各种故障事件可能干扰加速器的正常运行,包括可能导致腔体超导性丧失并中断其操作的 quench 事件。本文提出的解决方案采用两阶段方法分析反映腔体动态的信号:(I)故障检测阶段使用分析冗余处理数据并生成残差,通过广义似然比评估残差以检测故障行为;(II)故障隔离阶段通过 k-medoids 算法区分 quench 和其他故障。最后,通过与当前部署的 quench 检测系统比较,展示了新方法的改进性能。
Read more...本文介绍了一种名为“推测性增强生成(Speculative RAG)”的新框架,旨在通过利用一个更大的通用语言模型(LM)来高效验证由一个较小的、经过蒸馏的专家LM并行生成的多个RAG草稿,从而提升检索增强生成(RAG)的性能。每个草稿都是从检索到的文档的不同子集中生成的,提供了证据的不同视角,同时减少了每个草稿的输入令牌计数。这种方法通过将草稿生成任务委托给较小的专家LM,并由较大的通用LM执行单一验证通过,加速了RAG过程。实验证明,Speculative RAG在TriviaQA、MuSiQue、PubHealth和ARC-Challenge基准测试中实现了最先进的性能,同时减少了延迟。
Read more...本文介绍了一种名为mclSTExp的创新方法,该方法利用多模态对比学习结合Transformer和Densenet-121编码器,用于预测组织学图像中的空间转录组表达。mclSTExp通过将每个点视为“单词”,并利用Transformer的自注意力机制整合其内在特征与空间上下文,进一步通过对比学习融入图像特征,从而增强模型的预测能力。该方法在乳腺癌和皮肤鳞状细胞癌等多个数据集上展示了优越的性能,不仅能够准确预测基因表达,还能解释特定癌症过表达基因和免疫相关基因,为个性化治疗策略的开发提供了新的视角。
Read more...本文探讨了人工智能(AI)工具在各行各业中的广泛应用及其带来的监管挑战。文章聚焦于《AI权利法案蓝图》,为从业者、研究人员和政策制定者提供了如何实施监管原则的实用概述。文章强调了AI系统的安全性、隐私性、可解释性、公平性和用户选择权的重要性,并指出了现有研究与监管指南之间的差距,以及在实施这些原则时可能出现的权衡。
Read more...本文介绍了一种名为ARCO的自适应多智能体强化学习(MARL)硬件/软件协同优化编译器框架,旨在提高深度神经网络(DNN)加速器设计的性能。ARCO通过集成三个专门的actor-critic智能体,分别专注于硬件和软件优化,实现了一种协作的硬件/软件协同优化策略。该框架通过集中训练和分散执行(CTDE)策略,有效地缩小了搜索空间,并优先考虑高置信度的配置,从而在各种DNN模型上实现了高达37.95%的吞吐量提升,同时减少了高达42.2%的优化时间。
Read more...本文介绍了一种名为Atlas的新型方法,用于自动合成云系统的因果图,以实现高效的故障定位。Atlas利用大型语言模型(LLMs)从系统文档、遥测数据和部署反馈中生成因果图,并结合数据驱动的验证步骤,以提高其准确性和可靠性。该方法在多种故障定位场景中进行了评估,显示出其生成因果图的能力不仅可扩展且具有普遍性,其性能远超传统的数据驱动算法,并与真实基准相当。
Read more...本文介绍了一种名为CADC(Collaborative Aware Data Compression)的新方法,旨在压缩深度学习推荐模型(DLRM)的训练数据。随着电子商务行业中DLRM的广泛应用,训练这些大型模型所需的数据量呈指数级增长,导致训练成本和资源需求急剧上升。CADC通过矩阵分解技术,有效地捕获用户-项目交互历史,从而在保持模型精度的同时,大幅减少训练数据集的大小。该方法在多个数据集上进行了测试,显示出在减少训练数据量的同时,能够有效维持推荐系统的性能。
Read more...