1.3B参数多模态模型直接跑在手机上：MiniCPM-V 4.6开源，13亿参数覆盖iOS/安卓/鸿蒙

你能想象一个13亿参数的多模态大模型直接在iPhone上运行吗？OpenBMB最新发布的MiniCPM-V 4.6做到了。这款于5月11日开源的模型仅有13亿参数，却能处理单图、多图和视频理解任务，在消费级手机上流畅运行——涵盖iOS、Android和鸿蒙系统。基于Apache 2.0许可证开源，并原生支持vLLM、SGLang等主流推理框架。技术层面，MiniCPM-V 4.6采用SigLIP2-400M视觉编码器与Qwen3.5-0.8B语言基座的组合架构，支持高达262K token的上下文窗口。团队通过视觉编码器内部的前期压缩机制，将计算量降低了50%以上，同时提供4倍和16倍两档压缩率选项。在Artificial Analysis评测中，该模型得分13，在同规模开源模型里位列第三，显著领先中位数。更关键的是效率表现：与Qwen3.5-0.8B相比，MiniCPM-V 4.6的端到端吞吐提升约1.5倍，而成本降低19倍；即便对比带推理思考的Qwen3.5-0.8B变体，成本优势也达到43倍。量化版本更是将内存需求压至3GB GPU显存或约2GB CPU内存。这并不是在挑战GPT-4或Gemini的位置。1.3B参数、多模态、262K上下文、视频理解、本地运行——这些能力以往需要更大参数量才能实现，但现在已经在普通手机的算力范围内。对隐私敏感的应用、离线助手或文档理解等场景，这个发布意味着边缘端AI的可行性边界已经向前推进了一大步。模型已在Hugging Face开源，提供8个量化变体和本地部署参考代码。