MiniCPM-V面向图文理解的端侧多模态大模型系列

99 0 0

MiniCPM 是由面壁智能与清华大学自然语言处理实验室共同开源的一系列端侧大语言模型。其主体语言模型 MiniCPM-2B 具有2.4B的非词嵌入参数量，在综合性榜单上与 Mistral-7B 相近，整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。在当前最接近用户体感的榜单 MTBench 上，MiniCPM-2B 也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。

该模型具有以下特点：

高效性：MiniCPM 采用了先进的技术和算法，能够在端侧设备上实现高效的运行，减少了对云端计算资源的依赖。
多模态能力：MiniCPM 不仅支持文本生成，还具备多模态能力，能够处理图像、音频等多种类型的数据。
开源开放：MiniCPM 是开源的，这意味着开发者可以自由地使用、修改和扩展该模型，促进了技术的创新和发展。

自2024年2月以来，共发布了4个版本模型，旨在实现领先的性能和高效的部署，目前该系列最值得关注的模型包括：

MiniCPM-Llama3-V 2.5：🔥🔥🔥 MiniCPM-V系列的最新、性能最佳模型。总参数量8B，多模态综合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型，OCR 能力及指令跟随能力进一步提升，并支持超过30种语言的多模态交互。通过系统使用模型量化、CPU、NPU、编译优化等高效推理技术，MiniCPM-Llama3-V 2.5 可以实现高效的终端设备部署。
MiniCPM-V 2.0：MiniCPM-V系列的最轻量级模型。总参数量2B，多模态综合性能超越 Yi-VL 34B、CogVLM-Chat 17B、Qwen-VL-Chat 10B 等更大参数规模的模型，可接受 180 万像素的任意长宽比图像输入，实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。