预测编码网络和推理学习:教程与综述读后感:探索人工智能的新视角

Predictive Coding Networks and Inference Learning: Tutorial and Survey

摘要

本文综述了预测编码网络(PCNs)和推理学习(IL)的相关内容,详细介绍了其工作原理、工作流程、应用前景等。PCNs是基于预测编码(PC)框架的神经网络,其核心思想是通过最小化预测误差来学习。IL是一种用于训练PCNs的学习算法,与传统的反向传播(BP)算法相比,IL具有更高的效率和更好的性能。本文还介绍了PCNs的应用场景,包括图像识别、语音识别、自然语言处理等。最后,本文对PCNs的未来发展进行了展望。

Read more...

"AntibotV:车辆网络中的僵尸网络检测框架"

AntibotV: A Multilevel Behaviour-based Framework for Botnets Detection in Vehicular Networks

摘要

本文提出了一种名为AntibotV的多层次基于行为的框架,用于在车辆网络中检测僵尸网络。随着连接汽车的普及,车辆网络为个人和公共交通公司提供了安全性和效率,但同时也引发了隐私和安全问题。黑客可能利用僵尸恶意软件远程控制车辆,例如远程禁用刹车或启动引擎。本文不仅考虑了文献中已有的车内攻击,还考虑了针对车辆网络环境的新的零日僵尸恶意软件攻击,如WSMP-Flood和Geo-WSMP Flood。AntibotV框架结合了两个主要模块进行攻击检测,分别监控网络级别和车内级别的车辆活动。实验结果显示,该框架的检测率超过97%,误报率低于0.14%。

Read more...

"Domino效应:开启基础模型在未见域中的强大适应力"

Domain-Aware Fine-Tuning of Foundation Models

摘要

本文探讨了基础模型(FMs)在计算机视觉中的零样本域适应潜力,特别是在面对域移(domain shift)问题时的表现。通过比较不同的骨干架构并引入新颖的域感知组件,本文提出了一种名为Domino的域自适应归一化方法,该方法在微调过程中显式利用域嵌入,从而使模型具备域感知能力。实验结果表明,Domino能够显著提升模型在未见域中的泛化能力,尤其是在结合真实和合成数据时。

Read more...

"Domino效应:引领基础模型在未见域的泛化革命"

Domain-Aware Fine-Tuning of Foundation Models

摘要

本文探讨了基础模型(FMs)在计算机视觉中的零样本域适应潜力,特别是在面对域移(domain shift)时模型的性能问题。通过比较不同的骨干架构并引入新颖的域感知组件,本文提出了一种名为Domino的域适应归一化方法,该方法在微调过程中显式利用域嵌入,使模型具有域感知能力。实验结果表明,Domino能够显著提升模型在未见域上的泛化能力,特别是在结合多样化的合成数据时。

Read more...

"GeCA:开创性的细胞自动机模型,革新高分辨率图像合成与医疗影像分析"

An Organism Starts with a Single Pix-Cell: A Neural Cellular Diffusion for High-Resolution Image Synthesis

摘要

本文介绍了一种名为Generative Cellular Automata (GeCA)的新型模型,该模型受生物进化中从单细胞到复杂有机体的启发,用于高分辨率图像合成。GeCA通过集成神经细胞自动机(NCA)与扩散目标,专门为NCA的独特结构设计,显著提升了在光学相干断层扫描(OCT)图像上的眼科疾病分类性能。特别是在OCT图像数据稀缺且类别分布不均的情况下,GeCA实现了平均F1分数12%的提升,超越了传统的基于扩散的方法和最新的基于变换器的去噪模型。

Read more...

"PIE:革新代码编辑,大型语言模型的实时效率提升"

Let the Code LLM Edit Itself When You Edit the Code

摘要

本文探讨了在代码生成领域中,开发者实时编辑代码并请求大型语言模型(LLM)即时预测下一个令牌或下一行代码的典型场景。传统的LLM需要重新编码整个KV缓存以提供精确预测,这在处理长序列时计算成本高昂。本文提出了一种名为Positional Integrity Encoding(PIE)的新方法,该方法基于旋转位置编码(RoPE),通过移除引起时间混淆的旋转矩阵并重新应用正确的旋转矩阵,确保了令牌间的位置关系正确,仅需一轮矩阵乘法操作。实验证明,PIE在RepoBench-C-8k数据集上显著减少了计算开销,同时保持了模型性能。

Read more...

"Precision at Scale: 革新领域特定数据集的自主生成方法"

Precision at Scale: Domain-Specific Datasets On-Demand

摘要

本文介绍了一种名为“Precision at Scale (PaS)”的创新方法,该方法能够自主创建特定领域的数据集,以减少当前性能差距。PaS通过利用最先进的基础和生成模型,创建属于任何给定领域的图像集合,且仅需最少的人工干预。该方法在两个复杂领域进行了广泛分析,证明了PaS数据集在多样性、规模和训练视觉变换器及卷积神经网络的有效性方面的优越性。特别地,自动生成的领域特定数据集在预训练方面优于大规模监督数据集,如ImageNet-1k和ImageNet-21k。

Read more...

"R2S框架:利用对话逻辑链提升大型语言模型的多轮对话能力"

Raw Text is All you Need: Knowledge-intensive Multi-turn Instruction Tuning for Large Language Model

摘要

本文介绍了一种名为R2S的创新框架,该框架利用对话逻辑链(CoD)指导大型语言模型(LLMs)生成知识密集型的多轮对话,用于指令调优。通过整合开源数据集和领域特定的网络爬取文档到一个名为K-BENCH的基准中,覆盖了包括英语维基百科、中文科学和中文文物等多个领域。R2S方法首先确定当前对话的逻辑流程,然后提示LLMs生成关键短语以搜索相关响应内容。这种方法使得创建GINSTRUCT指令数据集成为可能,该数据集在对话式交互中保留了原始文档知识。利用这一数据集,我们微调了GLLM模型,该模型旨在将原始文档转换为结构化的多轮对话,从而将全面的领域知识注入到SFT模型中,以增强指令调优。这项工作标志着在提高LLMs处理和生成更准确、上下文相关响应的适应性和有效性方面迈出了重要一步。

Read more...

"TieBot:机器人如何通过视觉演示学习打领带"

TieBot: Learning to Knot a Tie from Visual Demonstration through a Real-to-Sim-to-Real Approach

摘要

本文介绍了一种名为TieBot的创新系统,该系统通过视觉演示学习如何打领带,采用了一种从真实到模拟再到真实的(Real-to-Sim-to-Real)学习框架。TieBot通过层次特征匹配方法从演示视频中估计领带的网格序列,并利用这些估计的网格作为子目标,通过教师-学生训练范式学习从点云观察中抓取和放置领带的位置。最后,该系统在实际应用中学习残差策略,以弥合模拟与真实世界之间的差距。实验证明,TieBot在模拟和真实环境中均有效,双臂机器人在10次试验中成功打领带的成功率达到50%。

Read more...

"Translatotron-V(ision): 革命性的端到端图像内机器翻译模型"

Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation

摘要

本文介绍了一种名为Translatotron-V(ision)的端到端图像内机器翻译(IIMT)模型,旨在将包含源语言文本的图像翻译成包含目标语言文本的图像。传统的级联方法存在错误传播、参数庞大和部署困难等问题。Translatotron-V(ision)通过引入目标文本解码器和图像标记器,有效减轻了模型的建模负担,并防止模型直接预测像素,从而在保持图像视觉特征的同时,实现了高效的翻译。此外,本文还提出了一种名为Structure-BLEU的评估指标,用于评估生成图像中翻译文本的质量。实验结果表明,该模型在参数减少的情况下,性能与级联模型相当,显著优于基于像素的端到端IIMT模型。

Read more...
Previous Page 78 of 156 Next Page