MultiHashFormer 用多重哈希签名改写 LLM 词表嵌入:3B 模型跑赢标准 Transformer

语言模型的 token 嵌入矩阵与词表大小线性绑定——"vocabulary tax" 困扰行业多年。 arXiv 2606.28057 提出的 MultiHashFormer 给出解法:放弃独占嵌入向量,改用**多个独立哈希函数**生成每 token 的"哈希签名"(若干离散哈希 ID 的短序列)。Hash Encoder 把签名压成单个 latent 向量喂给 Transformer 解码器,Hash Decoder 生成下一 token 的签名再映射回文本。 精妙之处:只要哈希函数数量足够,签名组合空间远超词表容量,自回归 LM 因此摆脱"多对一冲突"诅咒。论文在 100M / 1B / 3B 三档规模上验证,MultiHashFormer **稳定跑赢**标准 Transformer LM。 更亮眼的是**多语种词汇扩展**:往现有词表加新语言时无需重训嵌入层,参数 footprint **保持常数**——对正在卷全球化的出海 LLM 和本地化厂商尤其重要。 论文目前 under review,能否扩到 70B+ 规模、推理时哈希查表的工程开销仍是开放问题。