使用llama.cpp量化Qwen0.6B模型CPU运行

在上一篇文章记一次小模型微调/蒸馏学习(Qwen3-0.6B 从收货地址中提取结构化信息) 中已经蒸馏出数据,由于服务器没有显卡,我将模型转为GGUF,然后量化为Q5_K_M,使用llama.cpp 进行推理。 ...

2026年3月5日 · 7 分钟 · 浅忆