多模态 - 智狐AI导航

书生

书生通用大模型体系是一套全面、高效的AI解决方案，涵盖了语言处理、多模态分析、气象预报、翼型设计和三维建模等多个领域。

Ai平台模型 2026年06月24日 0 点赞 0 评论 727 浏览

FakeShield

FakeShield是一款由北京大学研发的多模态大型语言模型框架，主要用于检测和定位图像篡改。它通过结合视觉与文本信息，生成篡改区域掩码并提供详细的判断依据。其核心模块包括领域标签引导的检测模块和多模态定位模块，支持多种篡改技术的分析，具有较高的准确性与可解释性。FakeShield广泛应用于社交媒体内容审核、法律取证、新闻媒体真实性验证以及版权保护等领域。

AI项目与工具 2025年06月12日 41 点赞 0 评论 728 浏览

豆包大模型1.5

豆包大模型1.5是字节跳动推出的高性能AI模型，采用大规模稀疏MoE架构，具备卓越的综合性能和多模态能力。支持文本、语音、图像等多种输入输出方式，适用于智能辅导、情感分析、文本与视频生成等场景。模型训练数据完全自主，性能优于GPT-4o和Claude 3.5 Sonnet等主流模型，且具备成本优势。

AI项目与工具 2025年06月12日 23 点赞 0 评论 728 浏览

Diff

Diff-Instruct是一种基于积分Kullback-Leibler散度的知识迁移方法，用于从预训练扩散模型中提取知识并指导生成模型的训练。它能够在无需额外数据的情况下，通过最小化IKL散度提升生成模型的性能。Diff-Instruct适用于多种场景，包括预训练扩散模型的蒸馏、现有GAN模型的优化以及视频生成等。

AI项目与工具 2025年06月12日 61 点赞 0 评论 729 浏览

OmniAudio

OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型，具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程，支持FP16和Q4_K_M量化版本，确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域，为用户提供便捷、高效的语音交互体验。

AI项目与工具 2025年06月12日 95 点赞 0 评论 729 浏览