5月11日,AI创业公司Thinking Machines发布了交互模型(Interaction Models)研究预览版,这是AI领域一次值得关注的基础架构层面的尝试。该公司由前OpenAI CTO Mira Murati与联合创始人John Schulman共同创办,聚焦于将多模态实时交互能力直接融入模型架构本身,而非依赖外部套娃式的工程方案。 当前主流模型的交互逻辑本质上是单线程的:必须等用户说完,模型才开始处理;模型生成期间,整个感知就冻结了。这种turn-based范式对于快速问答足够用,但一旦涉及需要持续协作的真实工作流程——比如调试代码、审视文档、共同分析问题——交互带宽就成了瓶颈。用户被迫凑合AI的节奏,而不是AI适应人的节奏。 Thinking Machines的解法是从头训练具备原生交互能力的模型。核心技术是时间对齐的micro-turn机制:模型将连续的音频、视频、文本输入切分为极细粒度的微轮次,而非传统模型的整句/整段交替。这种设计让模型能感知用户正在说话(而不是说完)、能同时执行工具调用和内容生成、也能在生成过程中主动打断或补充。 从benchmark结果看,交互模型在保持智能力的同时,响应延迟显著降低。更重要的是,它解锁了以往需要额外工程才能实现的能力:实时同声传译、口语打断修正、边说边搜索并把结果织入对话。模型不再只是回答问题,而是真的在协作。 这背后的理念值得注意:用scaling来同时提升智能水平和交互质量,而不是分别优化。这与当前主流做法——在已有语言模型外面套一个实时交互层——有本质区别。如果这条路work,它意味着未来更强大的AI本身就会是更好的协作伙伴;反之,如果交互必须靠外挂,真协作的能力就会永远受限于接口工程。