MultiHashFormer 用多重哈希签名改写 LLM 词表嵌入：3B 模型跑赢标准 Transformer

语言模型的 token 嵌入矩阵与词表大小线性绑定——"vocabulary tax" 困扰行业多年。 arXiv 2606.28057 提出的 MultiHashFormer 给出解法：放弃独占嵌入向量，改用**多个独立哈希函数**生成每 token 的"哈希签名"（若干离散哈希 ID 的短序列）。Hash Encoder 把签名压成单个 latent 向量喂给 Transformer 解码器，Hash Decoder 生成下一 token 的签名再映射回文本。精妙之处：只要哈希函数数量足够，签名组合空间远超词表容量，自回归 LM 因此摆脱"多对一冲突"诅咒。论文在 100M / 1B / 3B 三档规模上验证，MultiHashFormer **稳定跑赢**标准 Transformer LM。更亮眼的是**多语种词汇扩展**：往现有词表加新语言时无需重训嵌入层，参数 footprint **保持常数**——对正在卷全球化的出海 LLM 和本地化厂商尤其重要。论文目前 under review，能否扩到 70B+ 规模、推理时哈希查表的工程开销仍是开放问题。