Gemma 4 QAT 让 E2B 跑进 1GB 内存:Google 把「训练时量化」做成消费级 AI 的最后一块拼图

把一个大模型塞进手机内存,过去两年的主流做法是训练完再压——PTQ。但当权重压到 4-bit 以下,PTQ 几乎都会带来明显的质量损失。Google 在 Gemma 4 上给出的答案是 QAT:把量化算子写进训练循环,让模型在权重更新的每一轮都预演自己被压扁后的样子,等到出 checkpoint 时就天然适合低位推理。为了兼顾 PC 端与移动端,Google 把 QAT 分成了两套配方。E2B/E4B 这一档是为手机重做一套格式:静态激活省掉每次推理的动态 scale 计算;通道级量化对齐 NPU 的 memory layout;token 生成那部分 2-bit 极致压缩,核心推理层保留更高精度;embedding 与 KV cache 也单独压缩,让长上下文对话不会爆内存。E4B 以上的端侧/服务器档则走标准 Q4_0,确保 llama.cpp、Ollama、LM Studio、vLLM、MLX 一条龙可用。真正的关键指标是 Gemma 4 E2B(文本-only,去掉 PLE)只需要 < 1GB 内存。这基本意味着任何一台 8GB RAM 的手机、一块入门级 Apple Silicon 都能跑。Google 同时给了 MTP(Multi-Token Prediction)版本的 QAT 检查点,让推理加速和权重压缩叠加生效。Gemma 4 QAT 的价值不在某个单一数字,而在于训练—压缩—分发—部署被第一次系统性地打通。下一步消费级 AI 的瓶颈不再是模型能力,而是能不能在不联网、不烧电池的前提下,把一个真能用的助手塞进 1GB 的 RAM。Google 把这条链拆开了,而开源生态(llama.cpp、Unsloth、LiteRT-LM)随即跟进,意味着 4-bit 以下的本地 LLM 不再是 geek 玩具,而是真的要进入应用清单的选项。