深度学习 - 智狐AI导航

Voice

Voice-Pro是一款开源的多功能音频处理工具，集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等功能，支持超过100种语言，广泛应用于教育、娱乐和商业领域，显著提升音频处理效率和便捷性。

AI项目与工具 2025年06月12日 33 点赞 0 评论 744 浏览

NeMo

NeMo 是一款基于 NVIDIA 技术的端到端云原生框架，专为生成式 AI 模型的设计与部署而打造。它具备模块化架构、多模态支持、优化算法及分布式训练能力，可应用于语音识别、自然语言处理、文本到语音转换、对话式 AI 等多个领域，同时支持预训练模型微调和端到端开发流程，为企业提供高效灵活的解决方案。

AI项目与工具 2025年06月12日 38 点赞 0 评论 744 浏览

WorldCraft

WorldCraft是一款基于大型语言模型的3D世界创建系统，支持用户通过自然语言交互快速生成和调整虚拟场景。其核心模块包括物体定制、场景布局优化和轨迹控制，具备高精度的几何与纹理控制能力。系统兼容多种3D生成工具，适用于建筑设计、影视娱乐、教育等多个领域，为非专业人士提供高效、直观的创意设计解决方案。

AI项目与工具 2025年06月12日 80 点赞 0 评论 744 浏览

EasyOCR

EasyOCR是一款基于深度学习技术的开源OCR工具，支持超过80种语言及多种书写系统。它提供高精度的文字识别能力，用户可通过简单的API轻松地将图像中的文本转换为可编辑的文本。EasyOCR易于安装和使用，支持跨平台操作，并具备批量处理能力。该工具在图像质量有一定要求的情况下，能够高效处理大量图像文件。

AI项目与工具 2025年06月12日 89 点赞 0 评论 743 浏览

Vocalist.ai

一款可以使用定制的声乐模型将人声录音转换为专业品质的歌唱和说唱表演的录音室级AI声音转换工具，在几秒钟内将您的声音转变为世界一流的歌手和说唱歌手。

Ai语音工具 2025年06月05日 96 点赞 0 评论 738 浏览

DeOldify

DeOldify是一款利用深度学习技术的AI工具，可为黑白照片和视频上色并增强其视觉效果。它支持静态图像转动态视频、跨时代人物模拟等功能，适用于家庭相册修复、历史档案管理、教育演示及影视制作等多个场景，帮助用户更生动地记录和分享历史记忆。

AI项目与工具 2025年06月12日 88 点赞 0 评论 736 浏览

KeySync

KeySync是一种高分辨率口型同步工具，由帝国理工学院和弗罗茨瓦夫大学联合开发。其采用两阶段生成框架，结合掩码策略和视频分割模型，实现音频与唇部动作的精准对齐。支持高清视频生成，具备遮挡处理、减少表情泄露等功能，在视觉质量、时间连贯性和同步精度上优于现有方法，适用于自动配音、虚拟形象、视频会议等多场景应用。

AI项目与工具 2025年06月11日 32 点赞 0 评论 735 浏览

Genmoai

Genmoai-smol 是一款专为单 GPU 设备设计的开源视频生成模型，能够将文本描述转化为高质量视频内容。其核心优势在于高保真度运动表现、强大的文本提示遵循能力及显存优化技术，支持用户在资源受限条件下开展视频创作。该工具提供了 Gradio UI 和命令行界面两种操作方式，并广泛应用于视频内容创作、超现实效果视频制作和技术研究等领域。

AI项目与工具 2025年06月12日 26 点赞 0 评论 734 浏览

Candy.AI

Candy.AI是一个创新的AI伴侣平台，它通过个性化定制和深度学习技术，为用户提供了一个高度互动和情感丰富的虚拟女友体验。

创作工具 2026年06月23日 0 点赞 0 评论 734 浏览

Mogao

Mogao是由字节跳动开发的多模态生成基础模型，结合双视觉编码器和先进位置嵌入技术，实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域，具备强大的跨模态处理能力和生成稳定性。

AI项目与工具 2025年06月11日 97 点赞 0 评论 734 浏览

深度学习

首页

深度学习

列表

默认

浏览次数

发布日期