1.3B参数多模态模型直接跑在手机上:MiniCPM-V 4.6开源,13亿参数覆盖iOS/安卓/鸿蒙

你能想象一个13亿参数的多模态大模型直接在iPhone上运行吗?OpenBMB最新发布的MiniCPM-V 4.6做到了。 这款于5月11日开源的模型仅有13亿参数,却能处理单图、多图和视频理解任务,在消费级手机上流畅运行——涵盖iOS、Android和鸿蒙系统。基于Apache 2.0许可证开源,并原生支持vLLM、SGLang等主流推理框架。 技术层面,MiniCPM-V 4.6采用SigLIP2-400M视觉编码器与Qwen3.5-0.8B语言基座的组合架构,支持高达262K token的上下文窗口。团队通过视觉编码器内部的前期压缩机制,将计算量降低了50%以上,同时提供4倍和16倍两档压缩率选项。在Artificial Analysis评测中,该模型得分13,在同规模开源模型里位列第三,显著领先中位数。 更关键的是效率表现:与Qwen3.5-0.8B相比,MiniCPM-V 4.6的端到端吞吐提升约1.5倍,而成本降低19倍;即便对比带推理思考的Qwen3.5-0.8B变体,成本优势也达到43倍。量化版本更是将内存需求压至3GB GPU显存或约2GB CPU内存。 这并不是在挑战GPT-4或Gemini的位置。1.3B参数、多模态、262K上下文、视频理解、本地运行——这些能力以往需要更大参数量才能实现,但现在已经在普通手机的算力范围内。对隐私敏感的应用、离线助手或文档理解等场景,这个发布意味着边缘端AI的可行性边界已经向前推进了一大步。 模型已在Hugging Face开源,提供8个量化变体和本地部署参考代码。