使用llama.cpp量化Qwen0.6B模型CPU运行在上一篇文章记一次小模型微调/蒸馏学习(Qwen3-0.6B 从收货地址中提取结构化信息) 中已经蒸馏出数据,由于服务器没有显卡,我将模型转为GGUF,然后量化为Q5_K_M,使用llama.cpp 进行推理。 ...