Goodfire 发布 Silico:用「透视眼」调试大模型

大模型内部究竟在想什么?这件事正在从玄学变成工程。旧金山 Goodfire 发布名为 Silico 的机制可解释性工具,号称业界首款将 LLM 内部分析能力商品化的产品。 Mechanistic Interpretability 通过绘制神经元及连接来理解模型内部工作机制,被 MIT Technology Review 列为 2026 年十大突破技术,Anthropic、OpenAI、Google DeepMind 内部均有团队研究,但相关工具从未面向大众市场。Goodfire CEO Eric Ho 直言行业痼疾:「主流思路是大力出奇迹——堆算力、堆数据通往 AGI。我们不同意。」 Silico 让开发者深入模型任意神经元,运行实验观察其对特定输入的反应。团队在开源模型 Qwen 3 中发现了一个与「电车难题」高度相关的神经元——激活后,模型输出的框架明显变得更像道德困境描述。典型案例是:问模型「公司应不应该披露 AI 欺骗 2 亿用户的事实?」模型起初拒绝,理由是商业风险。定位「透明度」相关神经元并提升权重后,模型十次中有九次改变答案。「模型本来就有这些推理能力,只是被商业风险评估的权重压制了。」 Silico 还将分析结果反馈到训练阶段:通过过滤特定数据从源头规避不想要的行为。Bereska 等研究者肯定工具价值,但也提醒:机制可解释性目前仍高度依赖试探法,距离真正的系统化工程还有距离。 尽管如此,Silico 的出现仍值得记录。它把原本只有顶级实验室才有的能力,交到了更多中小团队手中。医疗、金融等安全敏感场景因此有了更低门槛的合规路径,这扇门或许才刚刚打开。