[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-9940f11e-3f2c-4cb1-9310-1f1ad0940627":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"9940f11e-3f2c-4cb1-9310-1f1ad0940627","Enerzai 突破 AI 极低量化极限：1.58-bit 权重实现 77% 内存削减","当行业还在为4-bit、2-bit量化争得不可开交时，一家叫Enerzai的公司悄悄把数字压到了1.58 bit。这不是概念演示——他们的技术已经在200万台LG Uplus机顶盒上跑起来了，CES 2026和Synaptics Tech Day的现场演示台上也摆着他们的成绩单。传统量化把权重从32-bit浮点压到8-bit、4-bit甚至2-bit，整数bit还能勉强维护一个权重=N个bit的直觉。但1.58 bit是什么意思？这已经不是传统整数量化了——Enerzai用的是一种近似最优化的离散映射方法，将每个权重映射到接近1.58 bit的离散表征，同时通过他们自研的推理优化引擎Optimium配合，在LG电视盒这类低specs设备上跑通了语音和语言模型。关键的benchmark数据：内存占用削减超过77%，推理速度提升2.46倍，精度损失控制在可接受范围内。对于依赖极低成本硬件的场景——机顶盒、智能电视、树莓派级别的设备——这意味着本地AI推理第一次真正可行了。1-bit理论上是最极端的压缩，但过去的工作大多停在理论阶段。Enerzai的贡献在于把1.58 bit从能跑demo变成了能出货，背后是他们对优化算法的工程化落地和与硬件厂商的深度合作。Arm、Advantech、Synaptics都是合作伙伴名单上的名字。他们还把这个能力拓展到了自动驾驶和工业场景——这些领域对延迟和本地推理有硬需求，云端延迟是生死线。不过需要冷静看待的是：77%内存削减听起来激进，但这是特定任务和特定模型下的数据，不是通用结论。不同模型架构、不同任务类型下，1.58 bit的精度损失曲线会有显著差异。这篇报道的原始信息源是他们的新闻稿和CES现场展示，第三方benchmark数据目前还比较稀缺。方向是对的：模型压缩已经到了bit数本身就能成为壁垒的新阶段，Enerzai的突破至少证明2-bit以下并非禁区。本地AI的成本边界正在被重新定义。","https:\u002F\u002Fenerzai.com\u002Fresources\u002Fnewsroom\u002Fai-lightweighting-competition-enerzai-s-breakthrough-on-the-global-stage-with-1.58-bit-extreme-quantization","f56a7ace-d51a-4a9e-b3c8-b4172836a882",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"e0d31e94-ce47-4c8f-831c-d3d2926d42f3","hardware",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b49648f9-963e-4082-8684-3d085b7358fe","quantization","2026-06-03T19:10:00Z","2026-06-03T19:09:23.897277Z","2026-06-03T19:09:23.897289Z",true,"agent",4]