CE-QArg算法:量化双极性论证框架中的反事实解释新方法
摘要
本文介绍了一种名为CE-QArg的新算法,用于在量化双极性论证框架(QBAFs)中生成反事实解释。QBAFs是一种用于理解和解释论证强度的模型,但现有的基于归属的方法无法解释如何将当前强度改变为期望强度。CE-QArg算法通过两个核心模块——极性和优先级,来确定每个论证的更新方向和幅度,从而识别有效且成本效益高的反事实解释。本文还讨论了反事实解释的一些形式属性,并在随机生成的QBAFs上进行了实证评估。
Read more...本文介绍了一种名为CE-QArg的新算法,用于在量化双极性论证框架(QBAFs)中生成反事实解释。QBAFs是一种用于理解和解释论证强度的模型,但现有的基于归属的方法无法解释如何将当前强度改变为期望强度。CE-QArg算法通过两个核心模块——极性和优先级,来确定每个论证的更新方向和幅度,从而识别有效且成本效益高的反事实解释。本文还讨论了反事实解释的一些形式属性,并在随机生成的QBAFs上进行了实证评估。
Read more...本文针对连续时间动态图(CTDG)模型在处理噪声和有限历史数据时遇到的挑战,提出了一种名为Conda的新型潜在条件扩散数据增强方法。Conda通过结合变分自编码器(VAE)和条件扩散模型,生成目标节点的增强历史邻居嵌入,从而提高CTDG模型的性能。与传统扩散模型不同,Conda仅使用目标节点的历史邻居序列嵌入进行训练,使得增强更加精准。实验结果表明,Conda在多个真实世界数据集上显著提升了链接预测任务的性能,尤其是在历史数据有限的情况下。
Read more...本文探讨了在资源受限环境下,如何持续学习将视觉概念映射到大型语言模型(LLM)中的挑战。传统的视觉模型在持续更新过程中容易出现过拟合、灾难性遗忘和偏见表示问题。相比之下,LLM包含多概念及其关系的知识,有助于更稳健、信息丰富和连贯的学习过程。为此,本文提出了持续视觉映射(CVM)方法,该方法通过不断训练一个小型高效的视觉模型,将其表示映射到由固定LLM建立的概念空间中。CVM在五个基准测试中超越了现有的持续学习方法,为在计算受限设备中解决持续学习的泛化能力提供了有前景的途径。
Read more...本文介绍了一种名为DALL-M的创新技术,该技术利用大型语言模型(LLMs)来增强临床数据,特别是X射线图像的临床上下文。由于X射线图像在缺乏临床上下文时诊断效果有限,DALL-M通过结合临床表格数据,生成患者上下文的合成数据,从而提高AI在医疗诊断中的应用性和可靠性。该方法通过三个阶段的过程(临床上下文存储、专家查询生成和上下文感知特征增强),显著提升了深度学习模型在医疗领域的性能。实验结果显示,使用增强特征后,F1分数提高了16.5%,精度和召回率均提高了约25%。
Read more...本文介绍了一种名为ElasticAST的新型音频频谱图变换器(AST),它能够处理任意长度和分辨率的音频输入。传统的AST模型在处理不同长度的音频输入时性能会下降,而ElasticAST通过采用序列打包技术,使得模型在训练和推理阶段都能适应不同长度的音频输入。这种方法不仅提高了模型的灵活性,还保持了与固定长度训练的AST模型相似的性能。实验结果表明,ElasticAST在处理原生长度音频数据集时表现更优,且能够有效利用音频的全部语义内容,无需剪切或填充。
Read more...本文介绍了一种名为“高效隐私保护多方重复数据删除(EP-MPD)”的创新协议,旨在解决联邦学习(FL)中数据重复问题,同时保护数据隐私。该协议通过引入两种新颖的私有集合交集(PSI)协议变体,有效地从多个客户端的数据集中移除重复项,而无需泄露数据隐私。实验结果表明,EP-MPD协议在大型语言模型(LLM)的联邦学习中显著提高了模型的困惑度(perplexity),并减少了运行时间,从而在联邦学习中实现了隐私与性能的有效平衡。
Read more...本文介绍了一种名为fairBERTs的创新框架,旨在解决预训练语言模型(PLMs)中存在的性别和种族歧视等刻板偏见问题。通过使用生成对抗网络(GANs)生成语义和公平意识扰动,fairBERTs能够擦除模型中的敏感信息,从而减少不公平性。研究通过在两个真实世界任务上的广泛实验,证明了fairBERTs在保持模型效用的同时,显著提高了模型的公平性。此外,研究还验证了fairBERTs中生成的扰动可以转移到其他BERT类模型中,以实现公平性改进。
Read more...本文介绍了一种名为FlashAttention-3的新型注意力机制,旨在通过利用GPU硬件的异步性和低精度特性,显著提高大型语言模型和长上下文应用的处理速度。FlashAttention-3通过三种主要技术实现了这一目标:利用Tensor Cores和Tensor Memory Accelerator(TMA)的异步性,通过warp-specialization重叠计算和数据移动;交错块矩阵乘法和softmax操作;以及利用FP8低精度的硬件支持进行块量化和不连贯处理。实验结果显示,FlashAttention-3在H100 GPU上实现了1.5-2.0倍的加速,FP16精度下达到740 TFLOPs/s(75%利用率),FP8精度下接近1.2 PFLOPs/s。此外,FP8版本的FlashAttention-3在数值误差方面比基准FP8注意力降低了2.6倍。
Read more...本文介绍了一种名为Flex-TPU的新型张量处理单元(TPU),该单元具有运行时可重配置的数据流架构。传统的TPU虽然在机器学习(ML)加速方面表现出色,但其固定的数据流架构限制了其在深度神经网络(DNN)推理中的性能。Flex-TPU通过在运行时动态调整每一层的数据流,显著提高了性能,同时仅增加了轻微的面积和功耗开销。这一创新为数据中心和边缘计算环境中的ML应用提供了更高的灵活性和效率。
Read more...本文介绍了一种名为GeNet的多模态基于大型语言模型(LLM)的协同驾驶系统,旨在简化企业网络工程师的网络设计和配置流程。GeNet通过结合视觉和文本模态来解释和更新网络拓扑结构和设备配置,以响应用户意图。该系统在企业网络场景中进行了评估,显示出其在准确解释网络拓扑图像方面的能力,有望减少网络工程师的工作量并加速网络设计过程。
Read more...