Tenstorrent 同台刷新三项推理记录：RISC-V + Tensix 把"GPU = 默认"撕开一道口子

6 月 30 日 Tenstorrent 在东京 TT-Deploy JP 一次抛出三张推理成绩单：Kimi K2.6 跑到 900 tokens/秒/用户，DeepSeek-R1-0528 671B 稳在 400+ tokens/秒/用户；LTX-2.3 Fast 在 144 帧 1080p、加音频与口型同步的设定下做出 6 秒一段视频。对照官方 GPU 基线，LLM 约 3 倍加速、视频约 4 倍，三组数字都跑在同一套 Tenstorrent Galaxy Blackhole 超集群上，靠标准以太网横向扩展。底层架构才是看点：RISC-V 控制面 + Tensix AI Core 自研数据通路，调度和内存模型跟 CUDA 系 GPU 不是一个体系。Galaxy 的网络层走标准以太网而不是 NVLink 之类的专有互联，软件栈整体开源，今天等于把"开放式、可许可、heterogeneous AI compute"路线第一次用生产级模型背书——跨 MoE LLM 与 Diffusion 视频两类负载，同一套硬件就能承接，且容量随 Galaxy 节点添加近似线性增长。同场还推出 TT-Ascalon S——面向 agentic AI 的 RISC-V CPU IP，die 面积砍到上代约 50%，每平方毫米性能反升 140%；并通过 Rapidus 的 2nm 项目在日本落地 NEDO 主导的 LSTC 计划。ai& 那边已部署 120+ Galaxy 系统，撑起日本规模最大的 sovereign AI 算力底座，整套推理栈跑在境内、不依赖海外供应链。 "非 GPU 推理路线"长期停在 demo 与细分市场，这次 3 倍/4 倍同台登场加国家级落地，意味着 RISC-V + Tensix 已经具备挑战"GPU = 默认假设"的工程现实。对所有把推理成本全压在单一 GPU 供应链上的团队，这是一份值得立刻拿来算账的对照表。