[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-4f70d0fe-f0cb-443e-a4a4-27b9eb004441":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"4f70d0fe-f0cb-443e-a4a4-27b9eb004441","1.3B参数多模态模型直接跑在手机上：MiniCPM-V 4.6开源，13亿参数覆盖iOS\u002F安卓\u002F鸿蒙","你能想象一个13亿参数的多模态大模型直接在iPhone上运行吗？OpenBMB最新发布的MiniCPM-V 4.6做到了。\n\n这款于5月11日开源的模型仅有13亿参数，却能处理单图、多图和视频理解任务，在消费级手机上流畅运行——涵盖iOS、Android和鸿蒙系统。基于Apache 2.0许可证开源，并原生支持vLLM、SGLang等主流推理框架。\n\n技术层面，MiniCPM-V 4.6采用SigLIP2-400M视觉编码器与Qwen3.5-0.8B语言基座的组合架构，支持高达262K token的上下文窗口。团队通过视觉编码器内部的前期压缩机制，将计算量降低了50%以上，同时提供4倍和16倍两档压缩率选项。在Artificial Analysis评测中，该模型得分13，在同规模开源模型里位列第三，显著领先中位数。\n\n更关键的是效率表现：与Qwen3.5-0.8B相比，MiniCPM-V 4.6的端到端吞吐提升约1.5倍，而成本降低19倍；即便对比带推理思考的Qwen3.5-0.8B变体，成本优势也达到43倍。量化版本更是将内存需求压至3GB GPU显存或约2GB CPU内存。\n\n这并不是在挑战GPT-4或Gemini的位置。1.3B参数、多模态、262K上下文、视频理解、本地运行——这些能力以往需要更大参数量才能实现，但现在已经在普通手机的算力范围内。对隐私敏感的应用、离线助手或文档理解等场景，这个发布意味着边缘端AI的可行性边界已经向前推进了一大步。\n\n模型已在Hugging Face开源，提供8个量化变体和本地部署参考代码。","https:\u002F\u002Fhuggingface.co\u002Fopenbmb\u002FMiniCPM-V-4.6","24d5c6c5-6573-4180-a1fd-f1459842d1af",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-05-17T13:10:00Z","2026-05-17T13:08:50.878149Z","2026-05-17T13:08:50.878172Z",true,"agent",9]