探索非线性不变量:一种革命性的无监督出分布检测方法
摘要
本文介绍了一种名为NL-Invs的新型无监督出分布(U-OOD)检测方法,该方法通过学习训练集中的数据不变量来实现。NL-Invs是首个采用体积保持网络进行OOD检测的方法,它能够学习非线性不变量,并在大型U-OOD基准测试中达到最先进的性能。此外,该方法还展示了在表格数据上的应用潜力,表明其在不同数据模式上的通用性和对线性不变量的优势。
Read more...本文介绍了一种名为NL-Invs的新型无监督出分布(U-OOD)检测方法,该方法通过学习训练集中的数据不变量来实现。NL-Invs是首个采用体积保持网络进行OOD检测的方法,它能够学习非线性不变量,并在大型U-OOD基准测试中达到最先进的性能。此外,该方法还展示了在表格数据上的应用潜力,表明其在不同数据模式上的通用性和对线性不变量的优势。
Read more...本文探讨了预训练语言模型(PLMs)是否能够理解中文幽默。研究背景在于幽默理解在自然语言处理(NLP)中是一个重要且具有挑战性的研究领域。尽管PLMs在幽默识别和生成方面已有初步尝试,但其幽默理解能力仍未得到充分解答。本文通过设计一个包含三个评估步骤和四个评估任务的综合框架,以及构建一个全面的中文幽默数据集,系统地研究了PLMs的幽默理解能力。实证研究表明,通过微调和对PLMs注入外部知识,可以显著提升其幽默理解能力,这对于未来优化PLMs在幽默理解和生成方面的应用具有重要指导价值。
Read more...本文探讨了当前剪枝算法在压缩大规模模型方面的有效性,特别是在恢复最稀疏模型方面的能力。通过一系列广泛的实验,作者发现现有的剪枝算法在性能上与理想的稀疏网络存在显著差距。这些差距主要归因于当前剪枝算法在过度参数化情况下的不良行为、导致网络中路径断开以及容易陷入次优解的问题。文章呼吁进一步研究新的剪枝技术,以实现真正的网络稀疏性。
Read more...本文探讨了在数据稀缺环境下,如何利用跨语言迁移和少量样本学习技术进行论点挖掘(Argument Mining)。研究团队通过实验证明,在处理需要检测长且复杂话语结构的序列标注任务时,数据迁移方法优于模型迁移方法,且微调(fine-tuning)技术胜过基于提示的少量样本学习方法。文章还强调了任务类型(序列跨度的长度和复杂性)和采样方法对少量样本学习效果的重要性。实验结果表明,通过适当的数据采样和微调预训练语言模型,可以在数据稀缺的情况下实现高效的论点挖掘。
Read more...本文介绍了一种新颖的方法,用于将大型语言模型(LLMs)与个人偏好对齐,这种方法被称为个性化人类反馈强化学习(RLPHF)。文章提出了一种无需重新训练LLM的方法,通过从多个特定偏好的专家LLM中合并输出,动态生成符合用户偏好的文本。实验表明,这种方法在效率和可扩展性上优于现有的偏好合并技术,为个性化LLM的微调提供了一种有效替代方案。
Read more...本文主要研究了在机器人操作任务中指令多样性和任务难度的作用。通过对多种模型架构进行实验,分析了它们在不同指令和输入扰动下的性能,探讨了模型对语言和视觉信息的依赖程度,以及在复杂环境下的泛化能力。
Read more...本文探讨了如何通过模型合并技术为低资源语言构建具有任务解决能力的大型语言模型(LLMs)。传统的适应方法涉及连续预训练(CT)后进行监督微调(SFT),但在低资源语言环境下,这种方法难以平衡语言建模和任务解决能力。因此,本文提出了一种新的模型合并方法,该方法无需额外训练即可将具有不同能力的模型合并为一个模型。实验基于Llama-2-7B模型,结果显示模型合并在数据极其稀缺的情况下优于CT-then-SFT方法。此外,本文还分析了模型合并过程中的性能饱和现象,并引入松弛变量以减少重要参数的损失,从而提升性能。本文希望模型合并技术能够为更多受数据稀缺困扰的人类语言带来更高的数据效率。
Read more...本文介绍了一种用于边缘可部署蜂窝网络测试中软件日志分类的卷积神经网络(CNN)架构,旨在解决电信行业中由复杂网络模拟器生成的软件日志的自动分类问题。这些日志通常包含数万行文本,且与自然语言差异较大,只有专业工程师能够解读并进行故障排查。传统的AI解决方案,如大型语言模型(LLMs),在处理这些特定领域的日志时存在局限性,包括受限的上下文窗口、不适用于非自然语言文本以及高昂的推理成本。本文提出的CNN模型能够处理长达200,000个字符的文本序列,并在分类复杂软件日志时达到超过96%的准确率,显著优于LLM方法,同时降低了生产成本。该模型适用于边缘设备部署,具有广泛的行业应用前景。
Read more...本文探讨了在表格数据分类任务中,对大型语言模型(LLMs)进行微调时可能出现的多重性问题。由于训练过程中的随机性(如种子、权重初始化、样本增删),即使性能相似的模型也可能对相同输入产生冲突的预测。这种多重性在金融、招聘、教育、医疗等高风险决策场景中尤为关键。为此,本文提出了一种新颖的度量标准,用于量化单个预测的鲁棒性,而无需昂贵的模型重训练。该度量通过分析模型在输入嵌入空间中的局部行为来量化预测的稳定性,并展示了如何利用局部邻域采样为广泛类别的微调模型提供概率性的鲁棒性保证。此外,本文还通过实际数据集的实验验证了理论结果,强调了在高风险和安全关键应用中部署LLMs时解决微调不稳定性的重要性。
Read more...本文介绍了一种基于增强型远程光电容积脉搏波(rPPG)信号形态的生物识别认证方法。该方法利用面部视频中的rPPG信号进行非接触式心脏信号测量,通过去除面部外观同时保留rPPG信息来保护面部隐私。文章提出了一种两阶段训练策略,结合外部cPPG数据集进行rPPG-cPPG混合训练,以实现rPPG生物识别认证并增强rPPG信号形态。实验结果表明,rPPG信号形态隐藏在面部视频中可用于生物识别认证。
Read more...