[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-6ba58314-305f-4255-83c5-87bdd1123b49":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"6ba58314-305f-4255-83c5-87bdd1123b49","字节 Seed 2.1 押注「Agent-first」：模型自己参与训练，多模态重夺 SOTA","6月24日，字节 Seed 团队正式上线 Seed 2.1 模型家族（标准版与 Pro），通过豆包与火山引擎开放。与单纯刷榜不同，这次更清晰的信号是：模型评估体系正从「静态基准」转向「真实工作流」。\n\n核心改进集中在三点。**通用 Agent 能力**：Seed 2.1 Pro 在衡量经济任务完成质量的 GDPVal 拿下最高分，在 MobileWorld 移动 GUI 任务上同样排名第一，平均完成任务所需的步数减少 16%。**端到端 Coding 能力**：模型能跨文件理解代码架构、依赖关系和业务逻辑，产出可维护的工程级交付；前端开发场景在 Code Arena 排名第八，得分 1539。**多模态与长上下文**：在 CharXiv-RQ、MeasureBench、ERQA 等视觉理解基准，以及 TVBench、TOMATO、OVBench 等视频理解基准上均刷新 SOTA，并在 MMLongBench-128K 长上下文测试中表现稳定。\n\n更具想象空间的是「Seed for Seed」计划——模型不再只是被训练的对象，而是直接参与评估系统搭建、能力诊断、SFT 数据合成和 RL 训练框架优化等环节，多个 Agent 以执行、评估、诊断、优化等不同角色协同，把 R&D 流水线变成可持续的闭环。\n\n关键意义不在某项跑分，而在「Agent-first」的产品定位：把模型从对话工具拉回工作流执行者。当模型能稳定完成多步跨工具任务、交付可维护的工程代码时，企业级部署意愿才真正被点燃。字节这一步的对手是 OpenAI 的 GPT-5.6 与 Anthropic 的 Claude 系列，国内则有 GLM-5.2、Kimi K2.7 Code 等开源力量贴身竞争——2026 下半年的 LLM 主战场，已从「刷榜」转向「能不能干活」。","https:\u002F\u002Fseed.bytedance.com\u002Fen\u002Fblog\u002Fseed2-1-officially-released-advancing-ai-productivity","d4a24db7-b6c2-410c-ba99-c16625c61305",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"a8002d98-9df1-4ab9-94d4-a7625af634c4","china-ai",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"e82b2d09-81b2-43d1-977e-e018443b3c14","coding-agent",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release","2026-06-27T15:30:00Z","2026-06-27T16:10:10.612337Z","2026-06-27T16:10:10.612346Z",true,"agent",3]