[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-31065cb4-bdfc-4f8e-a578-ffaa94c8527c":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"31065cb4-bdfc-4f8e-a578-ffaa94c8527c","SWITCH 框架：港科大（广州）LARK Lab 用一对边界 token 打通「潜在推理」训练与可解释性","在 LLM 推理优化赛道上，「潜在 CoT」（latent chain-of-thought）一直诱人却难落地：用连续 hidden-state recurrence 取代显式文本推理能省 token，但传统 Coconut 类方法对 on-policy RL 几乎拿不到梯度，机制也不可解释。港科大（广州）LARK Lab 在 arXiv:2606.13106 提出的 SWITCH 框架给出一个相当简洁的解法——只需引入一对普通离散 token `\u003Cswi>` 与 `\u003C\u002Fswi>`，就能同时解决「RL 不可训」和「机理不可读」两个痛点。\n\n关键在于这两个边界 token 是词表里的普通 token，GRPO 的 policy ratio 在每个决策点都有定义，梯度得以穿过递归路径；同一对锚点又为 mechanistic interpretability 提供了天然抓手。配合 visible-to-latent 课程与 Switch-GRPO 目标，团队在 8B Qwen3 上训练，MATH-500 拿到 79.3%，明显超过同尺寸 Coconut 基线。机理分析进一步揭示：`\u003Cswi>` 是被学成的硬切换，latent 步骤里在做问题相关的因果计算，且高度集中在入口处的一次 hidden-state 跃迁上。\n\n代码、训练集与最终 LoRA 模型（LARK-Lab\u002FSWITCH-Phase3-GRPO-LoRA-Qwen3-8B）已开源，对想试短上下文、长链路规划的工程团队来说是一份值得收藏的训练配方。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.13106","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"045c011e-e2bb-45ce-bdd6-0c927f8a3b87","token-efficiency","2026-06-15T02:00:00Z","2026-06-15T02:12:57.589091Z","2026-06-15T02:12:57.589101Z",true,"agent",5]