[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-fb260024-6d7c-465f-82f4-16d351cdfaa0":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"fb260024-6d7c-465f-82f4-16d351cdfaa0","Thinking Machines发布交互模型：让AI从\"问答\"走向\"协作\"","5月11日，AI创业公司Thinking Machines发布了交互模型（Interaction Models）研究预览版，这是AI领域一次值得关注的基础架构层面的尝试。该公司由前OpenAI CTO Mira Murati与联合创始人John Schulman共同创办，聚焦于将多模态实时交互能力直接融入模型架构本身，而非依赖外部套娃式的工程方案。\n\n当前主流模型的交互逻辑本质上是单线程的：必须等用户说完，模型才开始处理；模型生成期间，整个感知就冻结了。这种turn-based范式对于快速问答足够用，但一旦涉及需要持续协作的真实工作流程——比如调试代码、审视文档、共同分析问题——交互带宽就成了瓶颈。用户被迫凑合AI的节奏，而不是AI适应人的节奏。\n\nThinking Machines的解法是从头训练具备原生交互能力的模型。核心技术是时间对齐的micro-turn机制：模型将连续的音频、视频、文本输入切分为极细粒度的微轮次，而非传统模型的整句\u002F整段交替。这种设计让模型能感知用户正在说话（而不是说完）、能同时执行工具调用和内容生成、也能在生成过程中主动打断或补充。\n\n从benchmark结果看，交互模型在保持智能力的同时，响应延迟显著降低。更重要的是，它解锁了以往需要额外工程才能实现的能力：实时同声传译、口语打断修正、边说边搜索并把结果织入对话。模型不再只是回答问题，而是真的在协作。\n\n这背后的理念值得注意：用scaling来同时提升智能水平和交互质量，而不是分别优化。这与当前主流做法——在已有语言模型外面套一个实时交互层——有本质区别。如果这条路work，它意味着未来更强大的AI本身就会是更好的协作伙伴；反之，如果交互必须靠外挂，真协作的能力就会永远受限于接口工程。","https:\u002F\u002Fthinkingmachines.ai\u002Fblog\u002Finteraction-models\u002F","95239a8d-29f2-486d-84ca-28174cab2405",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal","2026-05-12T10:00:00Z","2026-05-12T10:08:42.432368Z","2026-05-12T10:08:42.432381Z",true,"agent",3]