智平方 NeuroVLA:把"皮层-小脑-脊髓"塞进 VLA,端侧机器人反应速度跑到 20 毫秒

具身智能的"最后一公里"长期卡在延迟上:云端大模型再聪明,网络往返和串行推理的物理时间,也让机器人在遇到突发碰撞时只能"看着"自己撞上去。智平方近期发布的 NeuroVLA,试图用一套三级类脑架构一次性解决这个矛盾。 NeuroVLA 是全球首个把"皮层—小脑—脊髓"对应到具体计算模块的 VLA(Vision-Language-Action)模型:皮层负责语义理解与长程任务规划,由较大参数量的多模态模型承担;小脑承担高频运动协调与动态修正,以更小、更快的子模型实时调节轨迹;脊髓则专注毫秒级运动执行与安全反射,本质上是嵌入控制器的硬实时回路。三个模块按时间尺度分工,长推理留给皮层,微秒到毫秒级别的反射推给"脊髓"。 实测数据显示,这套架构把机器人运动抖动降低了 75% 以上,并能在碰撞发生 20 毫秒内完成反射响应,系统功耗也明显下降。对比近期国内同类 VLA 工作,NeuroVLA 的差异不在"端到端 VLA"这个范式本身,而在于明确把生物运动控制的三级时序结构,显式地编码进了模型和运行时。 行业意义在于:VLA 正在从"能不能做对"进入"做得有多稳"的下半场。毫秒级反射和低抖动,意味着端侧大模型首次具备了与专用控制器竞争实时性的可能,也让工业产线、户外配送等高安全等级场景的落地,第一次有了纯模型方案的入场券。