模型 - 智狐AI导航

混元图生视频

混元图生视频是腾讯混元推出的开源图生视频模型，支持用户上传图片并输入描述生成5秒短视频，具备对口型、动作驱动和背景音效自动生成等功能。模型适用于多种风格与场景，参数量达130亿，已在腾讯云上线并开源，支持本地部署与定制开发，适用于创意视频、特效制作及动画开发等多个领域。

AI项目与工具 2025年06月12日 43 点赞 0 评论 750 浏览

VideoDrafter

一个高质量视频生成的开放式扩散模型，相比之前的生成视频模型，VideoDrafter最大的特点是能在主体不变的基础上，一次性生成多个场景的视频。

Ai开源项目 2025年06月05日 89 点赞 0 评论 750 浏览

Whisper语音识别模型

Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。

Ai开源项目 2025年06月05日 90 点赞 0 评论 750 浏览

Magic Data

Magic Data专注于为不同行业的AI模型提供高质量的训练和测试数据，以提升模型的性能和智能。

创作工具 2026年06月26日 0 点赞 0 评论 749 浏览

AvatarGO

AvatarGO是由南洋理工大学、上海AI Lab和香港大学联合开发的AI框架，能够根据文本描述生成高质量的4D人体与物体交互场景。其核心在于利用LLM引导的接触重定位、空间感知的分数蒸馏采样和运动优化技术，实现精确的接触识别与动画生成，有效解决穿透问题。支持多种人物与物体组合，适用于虚拟导购、展厅讲解、VR/AR内容创作等多个领域。

AI项目与工具 2025年06月12日 17 点赞 0 评论 749 浏览

Agent

Agent-S 是一款基于图形用户界面（GUI）的人机交互自动化框架，通过经验增强的分层规划和代理-计算机接口（ACI），实现了复杂任务的自动化分解与执行。它结合多模态大型语言模型（MLLMs）进行推理和控制，并具备持续学习和跨操作系统通用性的特点，适用于办公自动化、网页交互、个人助理、客户服务和教育等多个场景。

AI项目与工具 2025年06月12日 50 点赞 0 评论 749 浏览

Venturekit AI

可为企业家和企业主生成全面且量身定制的商业计划的AI工具，只需回答几个关于您的业务的问题，Venturekit 就会为您制定一份全面的商业计划。

创业营销 2025年06月05日 80 点赞 0 评论 749 浏览

NeMo

NeMo 是一款基于 NVIDIA 技术的端到端云原生框架，专为生成式 AI 模型的设计与部署而打造。它具备模块化架构、多模态支持、优化算法及分布式训练能力，可应用于语音识别、自然语言处理、文本到语音转换、对话式 AI 等多个领域，同时支持预训练模型微调和端到端开发流程，为企业提供高效灵活的解决方案。

AI项目与工具 2025年06月12日 38 点赞 0 评论 748 浏览

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别（ASR）模型系列，支持普通话、中文方言和英语，具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本，分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色，且已开源，推动语音识别技术的发展。

AI项目与工具 2025年06月12日 82 点赞 0 评论 747 浏览

日日新SenseNova V6

日日新SenseNova V6是商汤科技推出的第六代多模态大模型，基于6000亿参数架构，支持文本、图像、视频的原生融合。具备强推理、长记忆与情感表达能力，适用于视频分析、教育辅导、智能客服、具身智能等多个领域，提升交互体验与内容处理效率。

AI项目与工具 2025年06月11日 19 点赞 0 评论 746 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期