LFM2.5-8B-A1B 开源:1.5B 激活的 MoE 把「边缘 LLM」的天花板再抬一截

# LFM2.5-8B-A1B 开源:1.5B 激活的 MoE 把「边缘 LLM」的天花板再抬一截 Liquid AI 在 6 月初放出了 LFM2.5-8B-A1B——一个总参 8.3B、激活仅 1.5B 的边缘 MoE 模型,base 和 post-trained 版同步登陆 Hugging Face 与自家 Playground。这是少有的把「开源 MoE + 端侧推理 + reasoning 范式」三条线一次性串齐的发布。 ## 三件硬活 相比上一代 LFM2-8B-A1B,新版做了三个量级跃迁:训练预算从 12T tokens 拉到 38T;上下文从 32K 扩到 128K;词表从 65K 翻到 128K,对 Hindi、Thai、越南语、印尼语、阿拉伯语的 chars/token 压缩做了针对性优化。架构延续「MoE + GQA + 双门控 LIV 卷积」三件套——24 层中 18 层是 LIV 卷积、6 层是 GQA 注意力。Liquid 的取舍很直接:MoE 在 compute-bound 场景下让单个推理 token 变便宜,叠上显式 chain-of-thought,质量上升但速度几乎不掉。Day-one 支持 llama.cpp、MLX、vLLM、SGLang,入门笔记本、Mac、Apple Silicon、单卡 GPU 都能跑。 ## 跑分 几乎所有 benchmark 都被拉出一档:MATH500 从 74.80 升到 88.76,AIME25 从 20.00 翻到 42.53,IFEval 从 79.44 拉到 91.84,BFCLv4 从 25.52 翻到 48.50,AA-Omniscience 非幻觉率从 7.46 飙到 63.47。最惊人的是 Tau² Telecom——客服类 agentic 场景从 13.60 直接拉到 88.07。这组数据反映出 reasoning + tool use 在窄域上确实跑得通。 ## 观点:边缘 MoE 不是简单压缩 过去一年「把大模型变小」几乎等价于量化、剪枝、蒸馏。LFM2.5-8B-A1B 走的是另一条路:用「激活参数」做压缩维度——总参数吃知识密度,激活参数控推理成本,再叠 LIV 卷积替代部分注意力层,这是工程层面的聪明取舍。把 LFM2.5、Gemma 4、JetBrains Mellum 2 摆在一起看,「小尺寸、高推理、长上下文、Apache-like 协议」的端侧 LLM 阵营正在成型。对开发者而言,意味着本地跑出像样的 agentic 工作流不再依赖云端闭源 API;对厂商而言,「边缘智能」这个叙事高地正在被 Liquid AI 抢先占住。