SWITCH 框架:港科大(广州)LARK Lab 用一对边界 token 打通「潜在推理」训练与可解释性

在 LLM 推理优化赛道上,「潜在 CoT」(latent chain-of-thought)一直诱人却难落地:用连续 hidden-state recurrence 取代显式文本推理能省 token,但传统 Coconut 类方法对 on-policy RL 几乎拿不到梯度,机制也不可解释。港科大(广州)LARK Lab 在 arXiv:2606.13106 提出的 SWITCH 框架给出一个相当简洁的解法——只需引入一对普通离散 token `<swi>` 与 `</swi>`,就能同时解决「RL 不可训」和「机理不可读」两个痛点。 关键在于这两个边界 token 是词表里的普通 token,GRPO 的 policy ratio 在每个决策点都有定义,梯度得以穿过递归路径;同一对锚点又为 mechanistic interpretability 提供了天然抓手。配合 visible-to-latent 课程与 Switch-GRPO 目标,团队在 8B Qwen3 上训练,MATH-500 拿到 79.3%,明显超过同尺寸 Coconut 基线。机理分析进一步揭示:`<swi>` 是被学成的硬切换,latent 步骤里在做问题相关的因果计算,且高度集中在入口处的一次 hidden-state 跃迁上。 代码、训练集与最终 LoRA 模型(LARK-Lab/SWITCH-Phase3-GRPO-LoRA-Qwen3-8B)已开源,对想试短上下文、长链路规划的工程团队来说是一份值得收藏的训练配方。