"保卫智能对话:揭秘多轮对话LLMs的分布式后门攻击与防御策略"
摘要
本文探讨了多轮对话大型语言模型(LLMs)在面对分布式后门触发攻击时的安全性问题。这些模型在多轮对话环境中容易受到更为隐蔽和有害的后门攻击,其中触发器可能跨越多个话语,导致基于上下文的攻击。文章提出了一种新的分布式后门触发攻击方法,并针对现有防御策略的不足,提出了一种基于对比解码的新防御策略,该策略能够在低计算成本下有效缓解后门攻击。
Read more...本文探讨了多轮对话大型语言模型(LLMs)在面对分布式后门触发攻击时的安全性问题。这些模型在多轮对话环境中容易受到更为隐蔽和有害的后门攻击,其中触发器可能跨越多个话语,导致基于上下文的攻击。文章提出了一种新的分布式后门触发攻击方法,并针对现有防御策略的不足,提出了一种基于对比解码的新防御策略,该策略能够在低计算成本下有效缓解后门攻击。
Read more...本文针对大型语言模型(LLMs)在自然语言处理任务中普遍存在的“幻觉”问题,即生成与输入源不符的不可靠或不一致内容,提出了一种名为RelD的鲁棒鉴别器。RelD通过训练在构建的双语问答对话数据集RelQA上,该数据集包含LLMs生成的答案及一套全面的评估指标。实验结果表明,RelD能有效检测出不同LLMs生成的答案中的幻觉现象,并在分布内和分布外数据集上均表现出色。此外,本文还对幻觉的类型进行了深入分析,为未来减少幻觉现象的工作提供了有价值的见解。
Read more...本文介绍了一种基于大型语言模型(LLM)的计划型对话代理(PCA)框架,旨在提高对话代理的控制性和主动性。传统的对话系统在控制性和主动性方面存在局限,而PCA框架通过离线规划标准操作程序(SOP)和在线规划最佳行动路径,实现了对话过程的控制性和主动性。此外,论文还提出了一种半自动对话数据创建框架,并开发了多个PCA变体和评估指标,实验结果显示PCA在对话控制性、主动性、任务成功率和逻辑一致性方面表现优异。
Read more...本文探讨了通用分类器在人类绘制草图上的应用效果,特别是在不同抽象层次上的表现。论文提出了一种结合大型基础模型与人类草图理解的新方法,通过学习特定于草图的提示和抽象层次的代码本,使CLIP模型能够更好地适应草图分类。该方法不仅在零样本和少样本设置下超越了现有算法,而且在不同抽象边界的场景中也表现出色。论文的核心贡献在于首次将人类草图与基础模型结合,解决了数据稀缺和抽象层次多样性两大挑战,展示了在草图分类领域的广泛应用前景。
Read more...本文探讨了人工智能(AI)算法在双边市场中促进算法价格共谋的问题。通过使用Q学习算法,AI代理在双边市场中实现了比伯川德竞争更高的共谋水平。研究发现,网络外部性的增加显著增强了共谋,表明AI算法利用这些外部性来最大化利润。此外,用户异质性和外部选项的效用通常会减少共谋,而更高的折扣率则会增加共谋。即使在低折扣率下,默许共谋仍然是可行的。为了缓解共谋行为并指导潜在的监管措施,本文提出在Q学习算法中加入惩罚项。
Read more...本文介绍了一种名为ChartGemma的新型图表理解和推理模型,该模型通过直接从图表图像生成的指令调优数据进行训练,以捕捉图表的高级趋势和低级视觉信息。ChartGemma在多个基准测试中取得了最先进的结果,包括图表总结、问答和事实检查,并且在真实世界图表上的定性研究显示,ChartGemma生成的总结比同类模型更真实和事实正确。本文还公开了代码、模型检查点、数据集和演示。
Read more...本文介绍了一种名为Craftium的新型框架,用于创建和探索丰富的3D视觉强化学习(RL)环境。Craftium基于开源的Minetest游戏引擎和流行的Gymnasium API,旨在为研究人员提供高度定制化的环境,以满足特定的研究需求。该框架不仅支持简单的视觉任务,还能创建无限和程序生成的世界。此外,Craftium还提供了五个即用型环境,作为基准测试和开发新环境的示例。
Read more...本文介绍了一种名为CRiM-GS的新型连续刚体运动感知高斯喷射方法,旨在从运动模糊图像中重建精确的3D场景,并实现实时渲染速度。该方法考虑了实际相机在曝光时间内由于相机移动导致的复杂运动模式,通过神经常微分方程(ODEs)预测相机的连续运动。具体而言,利用刚体变换来模拟相机运动,并通过适当的正则化保持物体的形状和大小。此外,引入了一个连续的可变形3D变换在SE(3)场中,以适应刚体变换到现实世界问题的需求,确保更高的自由度。通过重新审视基本的相机理论并采用先进的神经网络训练技术,实现了对连续相机轨迹的精确建模。实验结果表明,该方法在基准数据集上实现了最先进的性能,无论是在定量还是定性上。
Read more...本文介绍了一种用于药物-靶点相互作用(DTI)建模的基准测试平台 GTB-DTI,旨在推动 DTI 研究,特别是强调结构信息的利用。作者通过对现有方法的详细综述和实验,统一了超参数设置,比较了不同的编码策略和特征处理方法,并对 31 种不同的模型进行了基准测试。最终,作者提出了一种新的模型组合,该组合在回归任务中取得了新的最先进的结果,并且在 DTI 分类中表现与最先进的方法相似。
Read more...本文介绍了一种名为KHGRec的新型知识增强异构超图推荐系统,旨在解决现有基于知识图谱(KG)的推荐系统中忽视复杂高阶交互和异构输入源带来的噪声和不准确性问题。KHGRec通过捕获用户-项目网络和知识图谱中的群体特征,利用协同知识异构超图(CKHG)和两个超图编码器来建模群体间的相互依赖性并确保可解释性。此外,KHGRec通过跨视图自监督学习和注意力机制融合来自输入图的信号。在四个真实世界数据集上的广泛实验表明,KHGRec相对于各种最先进的基线模型,平均相对改进达到了5.18%。此外,KHGRec在噪声抗性、缺失数据和冷启动问题上的测试也展示了其框架的鲁棒性。
Read more...