在大模型军备竞赛中,参数量越大能力越强几乎成为共识。但来自新加坡国立大学StringNLPLAB团队的最新研究,正在动摇这一规律。该团队提出FlexSQL,一种Text-to-SQL智能体,其核心设计原则是灵活的数据库交互:智能体可以在推理过程中随时探索模式结构、检查数据值、运行验证查询,而不是像传统系统那样仅在开始时一次性检索模式信息。 FlexSQL生成多样化执行计划以覆盖多种查询解释方式,同时支持SQL和Python两种执行模式,根据任务类型灵活切换。其两层修复机制能够从代码级错误回溯到计划级修订,而传统系统只能在事后修复。 在Spider2-Snow基准测试中,使用gpt-oss-120B的FlexSQL达到了65.4%的得分,超越了使用更强更大模型的GPT-o3和DeepSeek-R1。当FlexSQL作为技能集成到Claude Code中时,实现了超过10%的相对提升。 FlexSQL证明了架构的灵活性可能比模型规模更重要。对于企业部署而言,这意味着可以在保持高性能的同时使用更小、更便宜、更高效的模型,从而显著降低成本。这项工作呼应了近期测试时计算的趋势:给予模型更多的推理时间和交互自由,往往比堆叠参数更有效。