MiniCPM-o 2.6 是 MiniCPM-o 系列中最新推出的多模态大模型,拥有 8B 参数量。该模型在视觉、语音及多模态直播等应用场景中表现出色,性能接近 GPT-4o。其支持实时双语语音识别,涵盖 30 多种语言,并采用先进的 token 密度技术,能够在处理 180 万像素图像时仅生成 640 个 tokens,大幅提升推理效率。此外,该模型可在 iPad 等端侧设备上高效运行,支持多模态流式交互。 MiniCPM-o 2.6 具备强大的视觉处理能力,可适应任意长宽比的图像输入,最高支持 1344×1344 像素。语音方面支持中英双语实时对话,具备情感控制、语速调节、声音克隆等功能。同时,它支持视频和音频流的连续处理,实现与用户的实时互动。在推理效率方面,相比同类模型减少 75% 的 token 使用量,且兼容多种推理框架,如 llama.cpp、ollama 和 vLLM,提供 int4 和 GGUF 格式的量化版本以降低资源消耗。 该模型基于端到端全模态架构设计,支持在线流式处理,具备灵活的语音建模能力,适用于多种场景下的多模态交互需求。
发表评论 取消回复