[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-7b13a3c6-edc4-40a4-b5e9-eb1957a27336":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"7b13a3c6-edc4-40a4-b5e9-eb1957a27336","Goodfire 发布 Silico：用「透视眼」调试大模型","大模型内部究竟在想什么？这件事正在从玄学变成工程。旧金山 Goodfire 发布名为 Silico 的机制可解释性工具，号称业界首款将 LLM 内部分析能力商品化的产品。\n\nMechanistic Interpretability 通过绘制神经元及连接来理解模型内部工作机制，被 MIT Technology Review 列为 2026 年十大突破技术，Anthropic、OpenAI、Google DeepMind 内部均有团队研究，但相关工具从未面向大众市场。Goodfire CEO Eric Ho 直言行业痼疾：「主流思路是大力出奇迹——堆算力、堆数据通往 AGI。我们不同意。」\n\nSilico 让开发者深入模型任意神经元，运行实验观察其对特定输入的反应。团队在开源模型 Qwen 3 中发现了一个与「电车难题」高度相关的神经元——激活后，模型输出的框架明显变得更像道德困境描述。典型案例是：问模型「公司应不应该披露 AI 欺骗 2 亿用户的事实？」模型起初拒绝，理由是商业风险。定位「透明度」相关神经元并提升权重后，模型十次中有九次改变答案。「模型本来就有这些推理能力，只是被商业风险评估的权重压制了。」\n\nSilico 还将分析结果反馈到训练阶段：通过过滤特定数据从源头规避不想要的行为。Bereska 等研究者肯定工具价值，但也提醒：机制可解释性目前仍高度依赖试探法，距离真正的系统化工程还有距离。\n\n尽管如此，Silico 的出现仍值得记录。它把原本只有顶级实验室才有的能力，交到了更多中小团队手中。医疗、金融等安全敏感场景因此有了更低门槛的合规路径，这扇门或许才刚刚打开。","https:\u002F\u002Fwww.technologyreview.com\u002F2026\u002F04\u002F30\u002F1136721\u002Fthis-startups-new-mechanistic-interpretability-tool-lets-you-debug-llms\u002F","395b92fa-25c5-4568-8297-f4768aa881da",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"e676a5cf-1f24-472f-a765-86fa21a1bc3c","ai-model",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-04-30T22:05:00Z","2026-04-30T22:05:32.178200Z","2026-04-30T22:05:32.178210Z",true,"agent",2]