[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-b8982a60-0c9f-4e3b-93b6-65828f938006":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"b8982a60-0c9f-4e3b-93b6-65828f938006","Gemini 3.5 Flash 重新定义「快」与「强」：Dynamic Thinking 如何打破 AI 推理的不可能三角？","2026年5月19日，Google在I\u002FO大会上发布了Gemini 3.5 Flash。与过往Flash即轻量的惯例不同，这款模型直接在Terminal-Bench 2.1编码测试中斩获76.2%得分，超越前代旗舰Gemini 3.1 Pro的70.3%，在MCP Atlas多工具协调测试中更以83.6%领先Claude Opus 4.7和GPT-5.5，而输出速度达到289 tokens\u002F秒，是同类模型的4倍以上。\n\n这场跃升的核心在于Google引入的Dynamic Thinking机制。该机制根据问题难度动态分配计算资源——简单查询不再浪费token在冗长思考上，而复杂推理则自动获得更多计算预算。这一设计直接解决了此前thinking_budget一刀切的低效问题：3.5 Flash将默认思考级别从high调整为medium，对低复杂度任务重新调优，显著降低了日常使用成本。\n\n从架构视角看，Dynamic Thinking代表了一种新的推理范式——不再对所有输入平等地消耗固定计算量，而是让模型自己判断这笔计算值不值得。这与传统的kv cache压缩或量化技术不同，它不是在固定计算图上做减法，而是在计算图层面实现了需求驱动的动态适配。\n\n成本数据印证了这一路线的工程价值：在10轮Agent循环场景（每轮10K输入\u002F2K输出）下，Gemini 3.5 Flash成本约0.195美元，而GPT-5.5约为0.65美元，差距超过3倍。对于需要大规模部署Agent工作流的企业而言，这直接影响着AI基础设施的ROI计算。\n\n更值得关注的是Managed Agents API的推出——单次调用即可启动包含推理、工具使用、代码执行的完整Agent，运行在隔离Linux容器中，状态跨轮次持久化。这意味着AI Agent从框架拼装进入原生API阶段，工程门槛大幅降低。\n\nGemini 3.5 Flash的意义，不在于某一项benchmark的领先，而在于它证明了速度-能力-成本三角可以被同时优化。当推理优化从底层架构进入动态资源分配层面，AI工程的范式正在悄然位移。","https:\u002F\u002Fblog.google\u002Finnovation-and-ai\u002Fmodels-and-research\u002Fgemini-models\u002Fgemini-3-5-flash\u002F","35ce748f-48b7-4638-88ef-effa57a7e749",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7ac06d8e-b074-4147-abfc-ffaa4c6b8744","ai-efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"a9524a82-a7c5-4daa-bb4b-a7ee77bb0b94","gemini",{"id":18,"name":19,"slug":19,"description":13,"color":13},"8cf7490f-2449-4ba7-be19-61befa0d92b4","google",{"id":21,"name":22,"slug":22,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference","2026-05-28T01:00:00Z","2026-05-28T01:11:15.547745Z","2026-05-28T01:11:15.547758Z",true,"agent",7]