深度学习 - 智狐AI导航

SPRIGHT

SPRIGHT是由多所高校和机构联合开发的视觉-语言数据集，旨在提升文本到图像生成模型的空间一致性。通过重新描述约600万张图像，强化空间关系表达，如“左/右”、“上/下”等，显著提高图像生成的准确性。该数据集支持复杂场景的图像生成，并经过多维度评估验证其可靠性。SPRIGHT为视觉-语言模型的研究和应用提供了重要资源，广泛应用于图像生成、VR/AR、教育及科研等领域。

AI项目与工具 2025年06月12日 77 点赞 0 评论 887 浏览

MoE++

MoE++是一种基于混合专家架构的新型深度学习框架，通过引入零计算量专家、复制专家和常数专家，有效降低计算成本并提升模型性能。它支持Token动态选择FFN专家，并利用门控残差机制实现稳定路由，同时优化计算资源分配。该框架易于部署，适用于多种应用场景，包括自然语言处理、智能客服及学术研究。

AI项目与工具 2025年06月12日 40 点赞 0 评论 886 浏览

NSFW Detector

NSFW Detector是一款基于深度学习的开源工具，利用Google的`vit-base-patch16-224-in21k`模型，能够在CPU环境中高效检测图像、PDF、视频及压缩包内的不适宜内容。该工具支持API集成与Docker部署，具备多CPU加速特性，可实现快速且安全的本地化内容分类，广泛应用于社交媒体、内容共享平台、企业网络等多个领域。

AI项目与工具 2025年06月12日 46 点赞 0 评论 885 浏览

Edicho

Edicho 是一种基于扩散模型的图像编辑工具，能够在多图像间实现一致性编辑，无需额外训练。其核心技术包括 Corr-Attention 注意力模块和 Corr-CFG 去噪策略，通过显式图像对应关系提升编辑质量与一致性。适用于图像修复、风格转换、内容创作、医学影像增强等场景，具备良好的兼容性与扩展性。

AI项目与工具 2025年06月12日 67 点赞 0 评论 878 浏览

DAM

DAM-3B是英伟达开发的多模态大语言模型，专用于图像和视频中特定区域的详细描述。支持点、边界框、涂鸦或掩码等方式指定目标区域，生成精准文本描述。其核心技术包括焦点提示与局部视觉骨干网络，有效融合全局与局部特征。DAM-3B-Video版本扩展至视频处理，适用于动态场景。模型基于Transformer架构，支持多模态输入，广泛应用于内容创作、智能交互及无障碍工具等领域。

AI项目与工具 2025年06月11日 56 点赞 0 评论 877 浏览

FaceSwap

FaceSwap是一款开源AI换脸软件，利用深度学习技术实现人脸检测、提取及替换。它支持跨平台操作，包括Windows、macOS和Linux，并可借助GPU加速提升处理效率。FaceSwap还允许用户自定义模型训练以优化换脸效果，广泛应用于影视制作、教育、游戏开发以及虚拟现实等领域。

AI项目与工具 2025年06月12日 45 点赞 0 评论 876 浏览

SigStyle

SigStyle是一款由多所高校与Adobe合作开发的签名风格迁移框架，能将单张风格图像的视觉特征（如几何结构、色彩和笔触）精准迁移到目标图像，同时保持内容的语义和结构。其核心技术基于个性化文本到图像扩散模型，结合超网络和时间感知注意力交换技术，实现高效且高质量的风格迁移。支持多种应用场景，如艺术创作、时尚设计、影视制作等，具备灵活性和广泛适用性。

AI项目与工具 2025年06月12日 63 点赞 0 评论 871 浏览

Topaz Video AI 4

一家为专业人士提供基于人工智能的照片和视频增强软件的公司。他们的软件利用深度学习来提高图像质量，包括降噪、锐化、提升分辨率等功能。

Ai视频生成 2025年06月05日 49 点赞 0 评论 871 浏览

FlexiAct

FlexiAct是由清华大学与腾讯ARC实验室联合研发的动作迁移模型，可在空间结构差异较大的场景下实现精准动作迁移，并保持目标主体的外观一致性。其核心模块包括轻量级RefAdapter和频率感知动作提取（FAE），有效提升跨主体动作迁移的灵活性与准确性。该模型适用于影视、游戏、广告等多个领域，具有良好的应用前景。

AI项目与工具 2025年06月11日 39 点赞 0 评论 870 浏览

Etna模型

一个文字转视频的AIGC模型，Etna能够根据简短的文本描述生成相应的视频内容，支持生成时长为8-15秒的视频，且视频流畅度极高，每秒可达60帧。

Ai视频生成 2025年06月05日 28 点赞 0 评论 868 浏览

深度学习

首页

深度学习

列表

默认

浏览次数

发布日期