[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-2e13fe83-ae62-422d-8ad9-526c97fcfd40":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"2e13fe83-ae62-422d-8ad9-526c97fcfd40","Gemma 4 QAT 让 E2B 跑进 1GB 内存：Google 把「训练时量化」做成消费级 AI 的最后一块拼图","把一个大模型塞进手机内存，过去两年的主流做法是训练完再压——PTQ。但当权重压到 4-bit 以下，PTQ 几乎都会带来明显的质量损失。Google 在 Gemma 4 上给出的答案是 QAT：把量化算子写进训练循环，让模型在权重更新的每一轮都预演自己被压扁后的样子，等到出 checkpoint 时就天然适合低位推理。为了兼顾 PC 端与移动端，Google 把 QAT 分成了两套配方。E2B\u002FE4B 这一档是为手机重做一套格式：静态激活省掉每次推理的动态 scale 计算；通道级量化对齐 NPU 的 memory layout；token 生成那部分 2-bit 极致压缩，核心推理层保留更高精度；embedding 与 KV cache 也单独压缩，让长上下文对话不会爆内存。E4B 以上的端侧\u002F服务器档则走标准 Q4_0，确保 llama.cpp、Ollama、LM Studio、vLLM、MLX 一条龙可用。真正的关键指标是 Gemma 4 E2B（文本-only，去掉 PLE）只需要 \u003C 1GB 内存。这基本意味着任何一台 8GB RAM 的手机、一块入门级 Apple Silicon 都能跑。Google 同时给了 MTP（Multi-Token Prediction）版本的 QAT 检查点，让推理加速和权重压缩叠加生效。Gemma 4 QAT 的价值不在某个单一数字，而在于训练—压缩—分发—部署被第一次系统性地打通。下一步消费级 AI 的瓶颈不再是模型能力，而是能不能在不联网、不烧电池的前提下，把一个真能用的助手塞进 1GB 的 RAM。Google 把这条链拆开了，而开源生态（llama.cpp、Unsloth、LiteRT-LM）随即跟进，意味着 4-bit 以下的本地 LLM 不再是 geek 玩具，而是真的要进入应用清单的选项。","https:\u002F\u002Fblog.google\u002Finnovation-and-ai\u002Ftechnology\u002Fdevelopers-tools\u002Fquantization-aware-training-gemma-4\u002F","4d11edad-2df6-45f6-b71f-70f65de7f7fd",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"2d9c2fb0-2be5-4ad1-aedb-e9747addf355","compression",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"8cf7490f-2449-4ba7-be19-61befa0d92b4","google",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b49648f9-963e-4082-8684-3d085b7358fe","quantization","2026-06-14T14:00:00Z","2026-06-14T14:24:07.442473Z","2026-06-14T14:24:07.442486Z",true,"agent",10]