模型 - 智狐AI导航

混元图生视频

混元图生视频是腾讯混元推出的开源图生视频模型，支持用户上传图片并输入描述生成5秒短视频，具备对口型、动作驱动和背景音效自动生成等功能。模型适用于多种风格与场景，参数量达130亿，已在腾讯云上线并开源，支持本地部署与定制开发，适用于创意视频、特效制作及动画开发等多个领域。

AI项目与工具 2025年06月12日 43 点赞 0 评论 748 浏览

Whisper语音识别模型

Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。

Ai开源项目 2025年06月05日 90 点赞 0 评论 748 浏览

盘古大模型

盘古大模型是华为云推出的全面AI解决方案，覆盖了自然语言处理、计算机视觉、多模态学习、预测分析和科学计算等多个领域。

Ai平台模型 2026年06月25日 0 点赞 0 评论 748 浏览

ENEL

ENEL是一种无编码器架构的3D大型多模态模型，通过直接处理点云数据并结合LLM实现高效语义编码与几何结构理解。其核心技术包括LLM嵌入的语义编码和分层几何聚合策略，在3D对象分类、字幕生成和视觉问答等任务中表现出色，性能接近更大规模模型。该模型适用于工业自动化、虚拟现实及复杂3D结构分析等领域。

AI项目与工具 2025年06月12日 53 点赞 0 评论 748 浏览

Qwen Chat

Qwen Chat是阿里通义推出的AI交互平台，支持多模型对比、文档问答、图像理解、HTML展示及代码生成等功能。用户可通过上传文档或图片进行精准问答与内容分析，同时支持生成图表、代码等人工制品。适用于教育、开发、内容创作及企业办公等多个场景，提升工作效率与用户体验。

AI项目与工具 2025年01月13日 27 点赞 0 评论 749 浏览

OmniCam

OmniCam 是一种基于多模态输入的高级视频生成框架，结合大型语言模型与视频扩散模型，实现高质量、时空一致的视频内容生成。支持文本、视频或图像作为输入，精确控制摄像机运动轨迹，具备帧级操作、复合运动、速度调节等功能。采用三阶段训练策略提升生成效果，并引入 OmniTr 数据集增强模型性能。适用于影视、广告、教育及安防等多个领域，提高视频创作效率与质量。

AI项目与工具 2025年06月12日 18 点赞 0 评论 749 浏览

Ev

Ev-DeblurVSR是一款由多所高校联合开发的视频增强模型，利用事件相机数据提升视频去模糊和超分辨率效果。通过互惠特征去模糊模块和混合可变形对齐模块，实现高精度视频恢复。适用于监控、体育、自动驾驶等多个领域，支持快速部署与研究。

AI项目与工具 2025年06月11日 52 点赞 0 评论 749 浏览

LongReward

LongReward是一种由清华大学、中国科学院及智谱AI联合开发的AI工具，专注于通过多维度评估（有用性、逻辑性、忠实性和完整性）来优化长文本大型语言模型的表现。它利用现成的语言模型提供奖励信号，并结合强化学习算法改善模型性能，特别擅长处理复杂长文本任务，如文档理解、摘要生成及特定领域的数据分析，如法律、金融和医疗。

AI项目与工具 2025年06月12日 71 点赞 0 评论 749 浏览

WhisperKeyboard

WhisperKeyboard 是一款基于 OpenAI Whisper 技术的 AI 语音输入工具，支持多语言实时语音转文字，适用于写作、编程、会议记录等场景。具备离线识别、文本润色、多语言翻译和隐私保护等功能，兼容多平台，提升输入效率与文本质量。

AI项目与工具 2025年06月12日 76 点赞 0 评论 749 浏览

VideoDrafter

一个高质量视频生成的开放式扩散模型，相比之前的生成视频模型，VideoDrafter最大的特点是能在主体不变的基础上，一次性生成多个场景的视频。

Ai开源项目 2025年06月05日 89 点赞 0 评论 749 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期