T-MAC:通过查找表实现CPU上的低比特LLM高效部署

T-MAC: CPU Renaissance via Table Lookup for Low-Bit LLM Deployment on Edge

摘要

本文介绍了一种名为T-MAC的创新方法,旨在通过基于查找表(LUT)的方式,在CPU上高效部署低比特大型语言模型(LLM)。随着LLM在边缘设备上的部署日益重要,权重量化成为减少模型内存占用的关键技术。然而,低比特LLM在推理过程中需要混合精度矩阵乘法(mpGEMM),现有系统缺乏对mpGEMM的原生支持,通常通过反量化权重进行高精度计算,这会导致显著的推理开销。T-MAC通过直接支持mpGEMM而不需要反量化,同时消除了乘法并减少了所需的加法,从而实现了高效的低比特LLM推理。该方法通过将传统的数据类型中心乘法转换为按位查找表,实现了统一的、可扩展的mpGEMM解决方案。评估结果显示,T-MAC在低比特Llama和BitNet模型上,与llama.cpp相比,吞吐量提高了4倍,能耗降低了70%。此外,T-MAC在M2-Ultra上实现了单核30个令牌/秒,八核71个令牌/秒的生成吞吐量,甚至在低端设备如Raspberry Pi 5上达到了11个令牌/秒,显著超过了成年人的平均阅读速度。T-MAC为在资源受限的边缘设备上实际部署低比特LLM铺平了道路,而不会牺牲计算效率。

Read more...

探索视频占用模型(VOCs):新一代视频预测模型的前沿技术

Video Occupancy Models

摘要

本文介绍了一种新型的视频预测模型——视频占用模型(VOCs),旨在支持下游控制任务。VOCs在紧凑的潜在空间中运行,避免了逐像素预测的需要,并直接预测未来状态的折扣分布,从而无需多步展开。文章展示了VOCs在构建用于下游控制的视频预测模型中的有效性。代码已公开在github.com/manantomar/video-occupancy-models。

Read more...

提升自动驾驶安全:基于RFAConv和Triplet Attention的YOLOv8模型优化

Optimization of Autonomous Driving Image Detection Based on RFAConv and Triplet Attention

摘要

本文针对自动驾驶场景中的图像检测问题,提出了一种基于RFAConv和Triplet Attention机制的YOLOv8模型优化方法。论文通过引入C2f_RFAConv模块和Triplet Attention机制,显著提升了YOLOv8在目标检测任务中的性能,特别是在多尺度目标检测和实时处理能力方面。实验结果表明,改进后的YOLOv8模型在MAP值和PR曲线方面均有显著提升,为自动驾驶系统的安全性和效率提供了有力支持。

Read more...

无人机网络监控新突破:有效负载感知多路径路由协议的实现与应用

UAV Networks Surveillance Implementing an Effective Load-Aware Multipath Routing Protocol (ELAMRP)

摘要

本文由Raja Vavekanand等人发表于《International Journal of Innovative Science and Research Technology》,主要探讨了无人机网络监控中实施有效负载感知多路径路由协议(ELAMRP)的方法。论文针对无人机在军事、灾难管理和环境监测等领域的广泛应用,提出了一种创新的多通道负载感知技术,旨在通过智能分配网络流量,提高数据传输质量和监控系统的效率与可靠性。研究通过模拟和实际测试验证了该协议在负载均衡、减少延迟和提高数据传输比率方面的有效性,预期将提升无人机监控系统的灵活性和效率,适用于安全、应急响应和环境监测等多种应用场景。

Read more...

通过块替换提高部分顺序计划的并发性:一种创新方法

Improving Execution Concurrency in Partial-Order Plans via Block-Substitution

摘要

本文由Sabah Binte Noor和Fazlul Hasan Siddiqui共同撰写,主要探讨了在部分顺序计划(Partial-Order Plan, POP)中通过块替换(Block Substitution)提高执行并发性的方法。文章首先定义了在POP中实现动作并行执行的必要和充分条件,然后提出了一种算法,通过优化资源利用率来增强计划的并发性。该算法通过消除计划中的动作顺序限制,并将子计划替换为计划外动作,从而提高计划的灵活性。实验结果显示,该方法在25%的计划中显著提高了并发性,总体并发性提高了2.1%。

Read more...

6G时代的语义革命:KB-MANO框架引领通信与编排的未来

Semantic Revolution from Communications to Orchestration for 6G: Challenges, Enablers, and Research Directions

摘要

本文由Masoud Shokrnezhad等人撰写,探讨了在6G服务背景下实现万物互联交互的挑战。面对通信基础设施资源稀缺的问题,论文提出了一种创新的解决方案——语义通信(SemCom),旨在提高物理层效率。然而,实现高效的SemCom面临知识共享的难题,特别是在动态和非平稳环境中,对端到端质量要求极高。为此,论文引入了知识库管理与编排(KB-MANO)框架,该框架基于计算网络融合(CNC)和终身学习理念,旨在优化网络和计算资源分配,以更新和重新分配系统中的知识库(KBs),从而最小化知识管理活动对实际服务提供的影响。论文还提出了一个概念验证,展示了KB-MANO与无线接入网络资源分配的集成。最后,论文展望了未来研究方向,强调了语义导向通信系统在6G技术领域的变革潜力。

Read more...

BISTRO框架:融合行为与语义的在线招聘推荐新方法

Adapting Job Recommendations to User Preference Drift with Behavioral-Semantic Fusion Learning

摘要

本文介绍了一种名为BISTRO的新型会话式框架,旨在通过融合语义和行为信息的融合学习,及时建模用户偏好,以适应在线求职中用户偏好不断调整的问题。论文提出的解决方案包括三个阶段:粗粒度语义聚类、细粒度职位偏好提取和个性化顶级职位推荐。通过在三个真实世界的离线招聘数据集上进行广泛实验,以及在在线招聘环境中的应用,证明了该框架的有效性和效率。

Read more...

Mooncake:解耦架构下的高效LLM服务调度平台

Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving

摘要

本文介绍了一种名为Mooncake的KVCache-centric解耦架构,用于高效地服务大型语言模型(LLM),特别是在处理长上下文和过载场景时。Mooncake通过分离预填充和解码集群,并利用GPU集群中未充分利用的CPU、DRAM和SSD资源来实现KVCache的解耦缓存。其核心是KVCache-centric调度器,旨在在满足与延迟相关的服务水平目标(SLOs)的同时最大化整体有效吞吐量。与传统研究假设所有请求都将被处理不同,Mooncake面临高度过载场景的挑战,为此开发了一种基于预测的早期拒绝策略。实验表明,Mooncake在长上下文场景中表现出色,与基线方法相比,在某些模拟场景中可以实现高达525%的吞吐量增加,同时遵守SLOs。在实际工作负载下,Mooncake的创新架构使Kimi能够处理75%以上的请求。

Read more...

创新复合模仿学习与光线追踪技术:提升无人机避障能力的新篇章

RaCIL: Ray Tracing based Multi-UAV Obstacle Avoidance through Composite Imitation Learning

摘要

本文介绍了一种基于复合模仿学习的多无人机避障方法,通过结合近端策略优化(PPO)、行为克隆(BC)和生成对抗模仿学习(GAIL),并融入光线追踪技术,显著提升了无人机在复杂环境中的避障能力。研究展示了光线追踪在增强障碍物检测和避障效率方面的重要作用,并通过实验验证了该方法在多无人机场景下的有效性和可扩展性。

Read more...

探索BitNet b1.58:小型网络中的量化感知训练革命

BitNet b1.58 Reloaded: State-of-the-art Performance Also on Smaller Networks

摘要

本文介绍了一种名为BitNet b1.58的1.58位量化感知训练方法,该方法在小型语言模型和视觉模型上实现了与大型语言模型相媲美的性能。通过引入一种依赖于中位数而非均值的量化过程,BitNet b1.58能够在模型参数从100K到48M的范围内保持高性能。研究结果表明,1.58位量化感知训练不仅在小型语言模型上接近最先进水平,而且在视觉模型上甚至超越了现有技术,为低资源应用中的模型部署提供了新的可能性。

Read more...
Previous Page 143 of 156 Next Page