深度学习 - 智狐AI导航

IMAGPose

IMAGPose是由南京理工大学开发的统一条件框架，用于人体姿态引导的图像生成。其核心功能包括多场景适应、细节与语义融合、灵活对齐及全局一致性保障。通过FLC、ILC和CVA模块，解决了传统方法在生成多样姿态图像时的局限性，适用于虚拟现实、影视制作、电商展示等多个领域。

AI项目与工具 2025年06月12日 42 点赞 0 评论 701 浏览

Tingo.ai

用户能够根据自己的喜好创建和互动一个AI女友。这个工具以其定制化选项、深度学习能力和灵活的互动功能为主要特点，为用户提供了一个可以进行情感交流和个性化互动的虚拟伴侣。

创作工具 2026年06月23日 0 点赞 0 评论 700 浏览

FaceSwap AI

FaceSwap是一个功能强大且用户友好的在线换脸工具，利用AI技术提供快速、高质量的换脸效果。无论是个人娱乐还是专业项目，FaceSwap都能满足用户的需求。

Ai视频生成 2026年06月23日 0 点赞 0 评论 700 浏览

ImageRAG

ImageRAG 是一种基于检索增强生成（RAG）技术的图像生成工具，通过动态检索相关图像提升文本到图像模型的生成能力。它能够增强对罕见概念的理解与生成，提升图像的真实度和相关性，支持多模态生成与个性化定制。无需额外训练即可适配多种 T2I 模型，广泛应用于创意设计、品牌推广、教育及影视等领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 700 浏览

StochSync

StochSync是一种基于扩散同步（DS）和分数蒸馏采样（SDS）的图像生成技术，适用于360°全景图和3D纹理生成。它通过引入最大随机性与多步去噪方法，兼顾图像细节与连贯性，无需额外训练即可生成高质量图像。支持高分辨率输出，适用于复杂几何纹理化任务。

AI项目与工具 2025年06月12日 65 点赞 0 评论 699 浏览

UniFluid

UniFluid是由谷歌DeepMind与麻省理工学院联合开发的统一自回归框架，支持图像生成与视觉理解任务。它通过连续视觉标记处理多模态输入，结合Gemma模型和VAE技术，实现高质量图像生成与强大视觉理解能力。该框架在图像编辑、视觉问答和图像描述等任务中表现出色，具备良好的下游任务迁移能力，适用于创意设计、内容创作等多个领域。

AI项目与工具 2025年06月12日 54 点赞 0 评论 699 浏览

Fish Speech 1.5

Fish Speech 1.5是一款基于深度学习的文本转语音（TTS）工具，支持多语言文本输入，通过Transformer、VITS、VQVAE和GPT等技术实现高质量语音合成。它具备零样本和少样本语音合成能力，延迟时间短，无需依赖音素，泛化性强，且支持本地化部署。Fish Speech 1.5可应用于有声读物、辅助技术、语言学习及客户服务等多个领域。

AI项目与工具 2025年06月12日 14 点赞 0 评论 698 浏览

VideoRefer

VideoRefer是由浙江大学与阿里达摩院联合开发的视频对象感知与推理系统，基于增强型视频大型语言模型，实现对视频中对象的细粒度理解与分析。其核心包括大规模视频数据集、多功能空间-时间编码器和全面评估基准，支持对象识别、关系分析、推理预测及多模态交互等功能，适用于视频剪辑、教育、安防、机器人控制和电商等多个领域。

AI项目与工具 2025年06月12日 19 点赞 0 评论 698 浏览

FlashMLA

FlashMLA 是 DeepSeek 开发的开源 MLA 解码内核，针对 NVIDIA Hopper 架构 GPU 优化，提升可变长度序列处理效率。支持 BF16 精度、页式 KV 缓存及分块调度，内存带宽达 3000 GB/s，算力达 580 TFLOPS。适用于大语言模型推理和 NLP 任务，具备高性能与低延迟特性，支持快速部署与性能验证。

AI项目与工具 2025年06月12日 12 点赞 0 评论 693 浏览

CodeFormer

CodeFormer是一款由南洋理工大学和商汤科技合作开发的AI照片和视频修复工具。它利用变分自动编码器（VQGAN）和Transformer技术，能够对模糊和马赛克处理过的照片或视频进行高质量修复。CodeFormer支持图片和视频的高清修复，操作简便且为开源免费软件，适用于家庭相册修复、社交媒体照片优化及专业图像处理等多种场景。

AI项目与工具 2025年06月12日 24 点赞 0 评论 693 浏览

深度学习

首页

深度学习

列表

默认

浏览次数

发布日期