视频 - 智狐AI导航

gling

Gling是一款集成了先进AI技术的视频编辑工具，主要功能涵盖自动去除不良拍摄片段、消除沉默及填充词、生成AI字幕、自动缩放画面、降低背景噪音等。它还能够为视频生成优化标题与章节，适用于个人视频博主、播客制作人、在线教育者及企业培训等多个领域，助力提升视频质量和效率。

AI项目与工具 2025年06月12日 78 点赞 0 评论 900 浏览

MiniMax MCP Server

MiniMax MCP Server 是一款基于 MCP 协议的多模态生成服务器，支持视频、图像、语音及声音克隆等功能。其具备高分辨率输出、自然语音生成与声音克隆能力，兼容多种主流客户端。平台采用客户端-服务器架构，结合 RAG 技术提升响应准确性，适用于教学、游戏开发、内容创作等多个领域。

AI项目与工具 2025年06月11日 14 点赞 0 评论 900 浏览

Gemini Live

Gemini Live是一款由谷歌开发的智能语音助手，拥有自然语言理解和多模态识别能力，支持语音、图像和视频交互。其主要功能包括自然语言对话、多模态识别、个性化语音选择、任务自动化以及智能打断和续接。此外，Gemini Live还与谷歌的原生应用深度集成，提升用户体验。目标用户包括商务人士、技术探索者、多语言用户、创意人士和老年人。

AI项目与工具 2025年06月12日 13 点赞 0 评论 895 浏览

Motion Dreamer

Motion Dreamer是由香港科技大学（广州）研发的视频生成框架，采用两阶段架构生成物理合理的视频内容。通过引入“实例流”实现从稀疏到密集的运动控制，支持用户以少量提示生成时间连贯的视频。其随机掩码训练策略增强了模型的推理能力与泛化性能，已在多个数据集上验证其优越性。适用于视频创作、动画制作、VR/AR及自动驾驶等多个领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 895 浏览

LatentSync

LatentSync是由字节跳动与北京交通大学联合研发的端到端唇形同步框架，基于音频条件的潜在扩散模型，无需中间3D或2D表示，可生成高分辨率、动态逼真的唇同步视频。其核心技术包括Temporal Representation Alignment (TREPA)方法，提升视频时间一致性，并结合SyncNet监督机制确保唇部动作准确。适用于影视制作、教育、广告、远程会议及游戏开发等多个领域。

AI项目与工具 2025年06月12日 95 点赞 0 评论 894 浏览

AniPortrait

AniPortrait是一款由腾讯开源的AI视频生成框架，通过音频和一张参考肖像图片生成高质量的动画。该框架包含两个核心模块：Audio2Lmk模块将音频转换为2D面部标记点，而Lmk2Video模块则基于这些标记点生成连贯且逼真的视频动画。AniPortrait以其高质量的视觉效果、时间一致性和灵活的编辑能力著称，能够精确捕捉面部表情和嘴唇动作。

AI项目与工具 2025年06月12日 68 点赞 0 评论 893 浏览