A Multimodal Model That Runs on Your Phone? Meet MiniCPM-V 1.3B

最近刷 GitHub 的时候发现一个挺有意思的项目——MiniCPM-V 4.6,参数只有 1.3B,但能直接跑在手机上做多模态理解。说白了,就是你的手机现在可以像人一样“看”图片并理解内容,不需要联网,所有推理都在本地完成。

1.3B 的参数量听起来不大,但是多模态模型通常需要更大的视觉 backbone 和语言模型组合,之前类似尺寸的模型要么只能做分类,要么理解能力特别有限。MiniCPM-V 这一版却在 OCR、图像描述、视觉问答这些任务上表现得很能打。官方放出的 benchmark 数据里,它在不少指标上甚至超过了一些 7B 甚至 13B 的模型。

我试了一下推理速度。拿一台普通的骁龙 8 Gen 3 手机跑,加载模型大概需要 2-3 秒,之后每张图片的推理时间在 1 秒左右。对于日常使用——比如拍一张菜单让它翻译、拍一张海报让它提取活动信息——完全够用。而且体积控制得很好,量化后模型文件不到 1GB,不会把手机存储吃光。

支持的操作系统覆盖了 Android、iOS、Linux、Windows 和 macOS。部署方式也很直接:官方提供了现成的 APK 和一键跑的脚本,不用自己手动编译。如果你熟悉 ONNX 或者 llama.cpp,还能进一步优化推理速度。

多模态模型在手机端落地一直是个矛盾:模型小了能力不够,大了又跑不动。MiniCPM-V 4.6 算是找到了一个很不错的平衡点。它没有为了追求指标堆参数,而是通过结构设计把计算量降下来,同时保留了对复杂场景的理解能力。

如果你最近在找能在移动设备上运行的多模态模型,或者想给自己的应用加个“视觉理解”的功能,这个项目值得跟进。代码和模型权重都已经开源,直接拉下来就能用。