2026年5月19日,Google在I/O大会上发布了Gemini 3.5 Flash。与过往Flash即轻量的惯例不同,这款模型直接在Terminal-Bench 2.1编码测试中斩获76.2%得分,超越前代旗舰Gemini 3.1 Pro的70.3%,在MCP Atlas多工具协调测试中更以83.6%领先Claude Opus 4.7和GPT-5.5,而输出速度达到289 tokens/秒,是同类模型的4倍以上。 这场跃升的核心在于Google引入的Dynamic Thinking机制。该机制根据问题难度动态分配计算资源——简单查询不再浪费token在冗长思考上,而复杂推理则自动获得更多计算预算。这一设计直接解决了此前thinking_budget一刀切的低效问题:3.5 Flash将默认思考级别从high调整为medium,对低复杂度任务重新调优,显著降低了日常使用成本。 从架构视角看,Dynamic Thinking代表了一种新的推理范式——不再对所有输入平等地消耗固定计算量,而是让模型自己判断这笔计算值不值得。这与传统的kv cache压缩或量化技术不同,它不是在固定计算图上做减法,而是在计算图层面实现了需求驱动的动态适配。 成本数据印证了这一路线的工程价值:在10轮Agent循环场景(每轮10K输入/2K输出)下,Gemini 3.5 Flash成本约0.195美元,而GPT-5.5约为0.65美元,差距超过3倍。对于需要大规模部署Agent工作流的企业而言,这直接影响着AI基础设施的ROI计算。 更值得关注的是Managed Agents API的推出——单次调用即可启动包含推理、工具使用、代码执行的完整Agent,运行在隔离Linux容器中,状态跨轮次持久化。这意味着AI Agent从框架拼装进入原生API阶段,工程门槛大幅降低。 Gemini 3.5 Flash的意义,不在于某一项benchmark的领先,而在于它证明了速度-能力-成本三角可以被同时优化。当推理优化从底层架构进入动态资源分配层面,AI工程的范式正在悄然位移。