登顶 GitHub HN 的 context-mode：开源 MCP 插件把 AI 编程 Token 砍掉 98%，破解大模型「失忆症」

Anthropic 提出的 MCP（Model Context Protocol）正在从概念走向工业级落地。一个由土耳其、法国、中国开发者跨国协作的开源插件 context-mode，登顶 GitHub Hacker News Trending，已在 GitHub 获得 1.5 万颗 Star，被微软、谷歌、Meta、字节跳动、Cursor 等研发团队采用。context-mode 解决 AI 编程中最头疼的两个问题：Token 浪费和模型失忆。《智能涌现》实测显示，接入 context-mode 后，处理一份 79.3 KB 文件时，Token 消耗成本降低 87.7%，极端场景下可节省 99.98%。连续编程的有效时间从 30 分钟延长到 3 小时。核心技术是三招：第一，「虚拟沙盒」——把每次 MCP 工具调用的原始输出拦截在本地，模型只读取「被提炼过的」结果。开发者不用让模型在 50 个文件里「数函数」，而是先让模型写一段统计脚本，由脚本完成计数，模型只接收结论。第二，「存档点」——实时监听开发者对文件的修改，对话过长时主动向模型注入一个 < 2 KB 的「快照」，强制它按优先级读取记忆，告别「前一秒还在流畅写代码，下一秒就把前置架构忘光」的尴尬。第三，「Think in Code」——拒绝把海量数据直接塞进上下文，要求模型先写「小程序」完成数据处理，再把结果反馈给模型。一个脚本可以替代十几个昂贵的工具调用。context-mode 现已适配 Cursor、Claude Code、Gemini CLI 等 15 个主流平台，吸引了 24.3 万开发者接入。值得思考的是，当所有人都在卷「100K 上下文」甚至「1M 上下文」时，context-mode 反其道行之。它的创始人 Mert Köseoğlu 认为「无限上下文是一个伪命题」，真正决定 AI 编程上限的不是模型有多「长」，而是上下文管理框架有多「克制」。这与近期 MiniMax M3、DiffusionGemma 等聚焦「有效容量」的工作方向不谋而合。当长上下文从「能力炫耀」转向「效率工程」，Agent 基础设施层的创新才刚刚开始。