6 月 30 日 Tenstorrent 在东京 TT-Deploy JP 一次抛出三张推理成绩单:Kimi K2.6 跑到 900 tokens/秒/用户,DeepSeek-R1-0528 671B 稳在 400+ tokens/秒/用户;LTX-2.3 Fast 在 144 帧 1080p、加音频与口型同步的设定下做出 6 秒一段视频。对照官方 GPU 基线,LLM 约 3 倍加速、视频约 4 倍,三组数字都跑在同一套 Tenstorrent Galaxy Blackhole 超集群上,靠标准以太网横向扩展。 底层架构才是看点:RISC-V 控制面 + Tensix AI Core 自研数据通路,调度和内存模型跟 CUDA 系 GPU 不是一个体系。Galaxy 的网络层走标准以太网而不是 NVLink 之类的专有互联,软件栈整体开源,今天等于把"开放式、可许可、heterogeneous AI compute"路线第一次用生产级模型背书——跨 MoE LLM 与 Diffusion 视频两类负载,同一套硬件就能承接,且容量随 Galaxy 节点添加近似线性增长。 同场还推出 TT-Ascalon S——面向 agentic AI 的 RISC-V CPU IP,die 面积砍到上代约 50%,每平方毫米性能反升 140%;并通过 Rapidus 的 2nm 项目在日本落地 NEDO 主导的 LSTC 计划。ai& 那边已部署 120+ Galaxy 系统,撑起日本规模最大的 sovereign AI 算力底座,整套推理栈跑在境内、不依赖海外供应链。 "非 GPU 推理路线"长期停在 demo 与细分市场,这次 3 倍/4 倍同台登场加国家级落地,意味着 RISC-V + Tensix 已经具备挑战"GPU = 默认假设"的工程现实。对所有把推理成本全压在单一 GPU 供应链上的团队,这是一份值得立刻拿来算账的对照表。