SWITCH 框架：港科大（广州）LARK Lab 用一对边界 token 打通「潜在推理」训练与可解释性

在 LLM 推理优化赛道上，「潜在 CoT」（latent chain-of-thought）一直诱人却难落地：用连续 hidden-state recurrence 取代显式文本推理能省 token，但传统 Coconut 类方法对 on-policy RL 几乎拿不到梯度，机制也不可解释。港科大（广州）LARK Lab 在 arXiv:2606.13106 提出的 SWITCH 框架给出一个相当简洁的解法——只需引入一对普通离散 token `<swi>` 与 `</swi>`，就能同时解决「RL 不可训」和「机理不可读」两个痛点。关键在于这两个边界 token 是词表里的普通 token，GRPO 的 policy ratio 在每个决策点都有定义，梯度得以穿过递归路径；同一对锚点又为 mechanistic interpretability 提供了天然抓手。配合 visible-to-latent 课程与 Switch-GRPO 目标，团队在 8B Qwen3 上训练，MATH-500 拿到 79.3%，明显超过同尺寸 Coconut 基线。机理分析进一步揭示：`<swi>` 是被学成的硬切换，latent 步骤里在做问题相关的因果计算，且高度集中在入口处的一次 hidden-state 跃迁上。代码、训练集与最终 LoRA 模型（LARK-Lab/SWITCH-Phase3-GRPO-LoRA-Qwen3-8B）已开源，对想试短上下文、长链路规划的工程团队来说是一份值得收藏的训练配方。