T-MAC:通过查找表实现CPU上的低比特LLM高效部署
摘要
本文介绍了一种名为T-MAC的创新方法,旨在通过基于查找表(LUT)的方式,在CPU上高效部署低比特大型语言模型(LLM)。随着LLM在边缘设备上的部署日益重要,权重量化成为减少模型内存占用的关键技术。然而,低比特LLM在推理过程中需要混合精度矩阵乘法(mpGEMM),现有系统缺乏对mpGEMM的原生支持,通常通过反量化权重进行高精度计算,这会导致显著的推理开销。T-MAC通过直接支持mpGEMM而不需要反量化,同时消除了乘法并减少了所需的加法,从而实现了高效的低比特LLM推理。该方法通过将传统的数据类型中心乘法转换为按位查找表,实现了统一的、可扩展的mpGEMM解决方案。评估结果显示,T-MAC在低比特Llama和BitNet模型上,与llama.cpp相比,吞吐量提高了4倍,能耗降低了70%。此外,T-MAC在M2-Ultra上实现了单核30个令牌/秒,八核71个令牌/秒的生成吞吐量,甚至在低端设备如Raspberry Pi 5上达到了11个令牌/秒,显著超过了成年人的平均阅读速度。T-MAC为在资源受限的边缘设备上实际部署低比特LLM铺平了道路,而不会牺牲计算效率。
Read more...








