Goodfire 发布 Silico：用「透视眼」调试大模型

大模型内部究竟在想什么？这件事正在从玄学变成工程。旧金山 Goodfire 发布名为 Silico 的机制可解释性工具，号称业界首款将 LLM 内部分析能力商品化的产品。 Mechanistic Interpretability 通过绘制神经元及连接来理解模型内部工作机制，被 MIT Technology Review 列为 2026 年十大突破技术，Anthropic、OpenAI、Google DeepMind 内部均有团队研究，但相关工具从未面向大众市场。Goodfire CEO Eric Ho 直言行业痼疾：「主流思路是大力出奇迹——堆算力、堆数据通往 AGI。我们不同意。」 Silico 让开发者深入模型任意神经元，运行实验观察其对特定输入的反应。团队在开源模型 Qwen 3 中发现了一个与「电车难题」高度相关的神经元——激活后，模型输出的框架明显变得更像道德困境描述。典型案例是：问模型「公司应不应该披露 AI 欺骗 2 亿用户的事实？」模型起初拒绝，理由是商业风险。定位「透明度」相关神经元并提升权重后，模型十次中有九次改变答案。「模型本来就有这些推理能力，只是被商业风险评估的权重压制了。」 Silico 还将分析结果反馈到训练阶段：通过过滤特定数据从源头规避不想要的行为。Bereska 等研究者肯定工具价值，但也提醒：机制可解释性目前仍高度依赖试探法，距离真正的系统化工程还有距离。尽管如此，Silico 的出现仍值得记录。它把原本只有顶级实验室才有的能力，交到了更多中小团队手中。医疗、金融等安全敏感场景因此有了更低门槛的合规路径，这扇门或许才刚刚打开。