量化 | 浅忆博客

在上一篇文章记一次小模型微调/蒸馏学习(Qwen3-0.6B 从收货地址中提取结构化信息) 中已经蒸馏出数据，由于服务器没有显卡，我将模型转为GGUF，然后量化为Q5_K_M，使用llama.cpp 进行推理。 ...