Thinking Machines发布交互模型：让AI从"问答"走向"协作"

5月11日，AI创业公司Thinking Machines发布了交互模型（Interaction Models）研究预览版，这是AI领域一次值得关注的基础架构层面的尝试。该公司由前OpenAI CTO Mira Murati与联合创始人John Schulman共同创办，聚焦于将多模态实时交互能力直接融入模型架构本身，而非依赖外部套娃式的工程方案。当前主流模型的交互逻辑本质上是单线程的：必须等用户说完，模型才开始处理；模型生成期间，整个感知就冻结了。这种turn-based范式对于快速问答足够用，但一旦涉及需要持续协作的真实工作流程——比如调试代码、审视文档、共同分析问题——交互带宽就成了瓶颈。用户被迫凑合AI的节奏，而不是AI适应人的节奏。 Thinking Machines的解法是从头训练具备原生交互能力的模型。核心技术是时间对齐的micro-turn机制：模型将连续的音频、视频、文本输入切分为极细粒度的微轮次，而非传统模型的整句/整段交替。这种设计让模型能感知用户正在说话（而不是说完）、能同时执行工具调用和内容生成、也能在生成过程中主动打断或补充。从benchmark结果看，交互模型在保持智能力的同时，响应延迟显著降低。更重要的是，它解锁了以往需要额外工程才能实现的能力：实时同声传译、口语打断修正、边说边搜索并把结果织入对话。模型不再只是回答问题，而是真的在协作。这背后的理念值得注意：用scaling来同时提升智能水平和交互质量，而不是分别优化。这与当前主流做法——在已有语言模型外面套一个实时交互层——有本质区别。如果这条路work，它意味着未来更强大的AI本身就会是更好的协作伙伴；反之，如果交互必须靠外挂，真协作的能力就会永远受限于接口工程。