智平方 NeuroVLA：把"皮层-小脑-脊髓"塞进 VLA，端侧机器人反应速度跑到 20 毫秒

具身智能的"最后一公里"长期卡在延迟上：云端大模型再聪明，网络往返和串行推理的物理时间，也让机器人在遇到突发碰撞时只能"看着"自己撞上去。智平方近期发布的 NeuroVLA，试图用一套三级类脑架构一次性解决这个矛盾。 NeuroVLA 是全球首个把"皮层—小脑—脊髓"对应到具体计算模块的 VLA（Vision-Language-Action）模型：皮层负责语义理解与长程任务规划，由较大参数量的多模态模型承担；小脑承担高频运动协调与动态修正，以更小、更快的子模型实时调节轨迹；脊髓则专注毫秒级运动执行与安全反射，本质上是嵌入控制器的硬实时回路。三个模块按时间尺度分工，长推理留给皮层，微秒到毫秒级别的反射推给"脊髓"。实测数据显示，这套架构把机器人运动抖动降低了 75% 以上，并能在碰撞发生 20 毫秒内完成反射响应，系统功耗也明显下降。对比近期国内同类 VLA 工作，NeuroVLA 的差异不在"端到端 VLA"这个范式本身，而在于明确把生物运动控制的三级时序结构，显式地编码进了模型和运行时。行业意义在于：VLA 正在从"能不能做对"进入"做得有多稳"的下半场。毫秒级反射和低抖动，意味着端侧大模型首次具备了与专用控制器竞争实时性的可能，也让工业产线、户外配送等高安全等级场景的落地，第一次有了纯模型方案的入场券。