FlexSQL：小型LLM如何在Text-to-SQL任务上超越GPT-o3和DeepSeek-R1

在大模型军备竞赛中，参数量越大能力越强几乎成为共识。但来自新加坡国立大学StringNLPLAB团队的最新研究，正在动摇这一规律。该团队提出FlexSQL，一种Text-to-SQL智能体，其核心设计原则是灵活的数据库交互：智能体可以在推理过程中随时探索模式结构、检查数据值、运行验证查询，而不是像传统系统那样仅在开始时一次性检索模式信息。 FlexSQL生成多样化执行计划以覆盖多种查询解释方式，同时支持SQL和Python两种执行模式，根据任务类型灵活切换。其两层修复机制能够从代码级错误回溯到计划级修订，而传统系统只能在事后修复。在Spider2-Snow基准测试中，使用gpt-oss-120B的FlexSQL达到了65.4%的得分，超越了使用更强更大模型的GPT-o3和DeepSeek-R1。当FlexSQL作为技能集成到Claude Code中时，实现了超过10%的相对提升。 FlexSQL证明了架构的灵活性可能比模型规模更重要。对于企业部署而言，这意味着可以在保持高性能的同时使用更小、更便宜、更高效的模型，从而显著降低成本。这项工作呼应了近期测试时计算的趋势：给予模型更多的推理时间和交互自由，往往比堆叠参数更有效。