Gemma 4 QAT 让 E2B 跑进 1GB 内存：Google 把「训练时量化」做成消费级 AI 的最后一块拼图

把一个大模型塞进手机内存，过去两年的主流做法是训练完再压——PTQ。但当权重压到 4-bit 以下，PTQ 几乎都会带来明显的质量损失。Google 在 Gemma 4 上给出的答案是 QAT：把量化算子写进训练循环，让模型在权重更新的每一轮都预演自己被压扁后的样子，等到出 checkpoint 时就天然适合低位推理。为了兼顾 PC 端与移动端，Google 把 QAT 分成了两套配方。E2B/E4B 这一档是为手机重做一套格式：静态激活省掉每次推理的动态 scale 计算；通道级量化对齐 NPU 的 memory layout；token 生成那部分 2-bit 极致压缩，核心推理层保留更高精度；embedding 与 KV cache 也单独压缩，让长上下文对话不会爆内存。E4B 以上的端侧/服务器档则走标准 Q4_0，确保 llama.cpp、Ollama、LM Studio、vLLM、MLX 一条龙可用。真正的关键指标是 Gemma 4 E2B（文本-only，去掉 PLE）只需要 < 1GB 内存。这基本意味着任何一台 8GB RAM 的手机、一块入门级 Apple Silicon 都能跑。Google 同时给了 MTP（Multi-Token Prediction）版本的 QAT 检查点，让推理加速和权重压缩叠加生效。Gemma 4 QAT 的价值不在某个单一数字，而在于训练—压缩—分发—部署被第一次系统性地打通。下一步消费级 AI 的瓶颈不再是模型能力，而是能不能在不联网、不烧电池的前提下，把一个真能用的助手塞进 1GB 的 RAM。Google 把这条链拆开了，而开源生态（llama.cpp、Unsloth、LiteRT-LM）随即跟进，意味着 4-bit 以下的本地 LLM 不再是 geek 玩具，而是真的要进入应用清单的选项。