多模态 - 智狐AI导航

ChatDZQ爱晚亭

基于大语言模型开发，提供“智能+个性微调+向量训练”（即CVP）服务，集成AI聊天、AI创作、AI绘画、AI海报及各种AI工具。

AI服务商 2025年06月05日 10 点赞 0 评论 664 浏览

Awesome GPT

一个精选的GPT-4o生成图片集锦，收集了OpenAI 最新多模态模型 GPT‑4o 生成的精彩案例，展示其强大的文本‑图像理解与创作能力。

Ai学习资源 2025年06月05日 92 点赞 0 评论 662 浏览

VideoPoet是一款基于大模型的AI视频生成工具，支持从文本、图像或视频输入中合成高质量的视频内容及匹配的音频。其核心优势在于多模态大模型设计，能够处理和转换不同类型的输入信号，无需特定数据集或扩散模型即可实现多种风格和动作的视频输出。主要功能包括文本到视频转换、图像到视频动画、视频风格化、视频编辑和扩展、视频到音频转换以及多模态学习等。技术原理涉及多模态输入处理、解码器架构、预训练与任务适应

AI项目与工具 2024年01月01日 98 点赞 0 评论 662 浏览

NVLM

NVLM是NVIDIA研发的多模态大型语言模型，涵盖图像理解、语言理解、跨模态融合、图像描述生成、视觉推理及多模态翻译等功能。它具备多种架构（NVLM-D、NVLM-X、NVLM-H），并采用动态高分辨率输入、1-D平铺标签设计及多模态预训练与微调技术，广泛应用于图像描述、视觉问答、文档理解、多模态搜索及辅助驾驶等领域。

AI项目与工具 2025年06月12日 57 点赞 0 评论 661 浏览

moonshot

moonshot-v1-vision-preview 是一款由月之暗面开发的多模态图像理解模型，具备精准的图像识别、OCR 文字识别和数据解析能力。支持 API 集成，适用于内容审核、文档处理、医学分析、智能交互等多个领域。模型可识别复杂图像细节、分析图表数据，并从美学角度进行图像评价，适合需要高效图像处理和智能交互的应用场景。

AI项目与工具 2025年06月12日 52 点赞 0 评论 661 浏览

RMBG

RMBG-2.0是一款基于先进AI技术的开源图像背景移除模型，通过深度学习和多模态数据处理实现了高达90.14%的准确率。该模型在高分辨率图像上经过大量训练，支持电子商务、广告、游戏开发等领域，具备高精度背景移除、多模态数据处理及云服务器无关架构等特点，为用户提供了高效、灵活的解决方案。

AI项目与工具 2025年06月12日 91 点赞 0 评论 660 浏览

VSI

VSI-Bench是一种用于评估多模态大型语言模型（MLLMs）视觉空间智能的基准测试工具，包含超过5000个问题-答案对，覆盖多种真实室内场景视频。其任务类型包括配置型任务、测量估计和时空任务，可全面评估模型的空间认知、理解和记忆能力，并提供标准化的测试集用于模型性能对比。 ---

AI项目与工具 2025年06月12日 10 点赞 0 评论 658 浏览

Seaweed

Seaweed-7B 是一款由字节跳动开发的视频生成模型，拥有约 70 亿参数，支持从文本、图像或音频生成高质量视频。具备文本到视频、图像到视频、音频驱动生成、长镜头、连贯叙事、实时生成等功能，适用于内容创作、教育、广告等多个领域。采用变分自编码器和扩散变换器技术，结合多阶段训练与优化策略，提升生成效率与质量，兼顾性能与成本效益。

AI项目与工具 2025年06月11日 80 点赞 0 评论 658 浏览

GoCharlie

GoCharlie 是一个专为零售行业设计的全栈 AI 平台，集成了定制化的大型语言模型 Charlie。它支持多模态数据处理，包括文本、图像、视频和音频，为企业提供内容创作、客户服务、营销活动策划及数据分析等全方位解决方案，帮助企业提升运营效率和客户满意度。

AI项目与工具 2025年06月12日 32 点赞 0 评论 657 浏览

Neural4D 2o

Neural4D 2o 是一款基于多模态数据训练的 3D 大模型，支持文本、图像、3D 和运动数据输入，实现高精度的 3D 内容生成与编辑。具备上下文一致性、角色身份保持、换装和风格迁移等功能，支持自然语言指令操作。采用 Transformer 编码器与 3D DiT 解码器架构，原生兼容 MCP 协议，提升创作效率与交互体验，适用于 3D 内容创作、游戏开发、影视动画等多个领域。

AI项目与工具 2025年06月11日 50 点赞 0 评论 657 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期