科大讯飞在 6 月 11 日的无锡长三角机器人及自动化展览会上,正式发布星火多模态大模型 X2-VL。这是星火 X2 系列的首个视觉语言变体,主打方向是「具身智能 + 国产算力」的落地闭环。 X2 底座在 2 月已经发布,采用 293B 参数的 MoE 稀疏架构,结合权重量化、低精度 KVCache、Virtual Tensor Parallel 等工程化优化,让模型可在单台昇腾服务器上运行,推理性能相比 X1.5 提升 50%。X2-VL 是在这一底座之上引入多模态感知,目标不是再做一次「能看图说话」的刷分演示,而是把视觉理解嵌入机器人在真实场景里的感知-决策闭环。 选择具身智能作为第一站,背后是讯飞对下一阶段增量价值的判断:纯语言模型已经在 API 经济里卷成了红海,下一步必须在「模型 + 场景 + 硬件」的端到端交付里抢位。把 X2-VL 投放到无锡的具身机器人产业链,本质上是在抢「全国产化 VLA」的卡位——从底层昇腾芯片、X2-VL 多模态感知到行业 Agent,一条链路全部走国产栈。 X2-VL 的看点不在刷榜,而在「同一套 X2 底座能否撑住从对话到感知的多任务负载」。如果验证成立,国产多模态的「分工」会从「视觉 LLM + 单独规划模型」的拼装范式,转向「统一底座 + 任务路由」的下一阶段。