学习 - 智狐AI导航

OmniCorpus

OmniCorpus是上海人工智能实验室联合多家知名高校和研究机构共同创建的一个大规模多模态数据集，包含86亿张图像和16960亿个文本标记，支持中英双语。它通过整合来自网站和视频平台的文本和视觉内容，提供了丰富的数据多样性。OmniCorpus不仅规模庞大，而且数据质量高，适合多模态机器学习模型的训练和研究。它广泛应用于图像识别、视觉问答、图像描述生成和内容推荐系统等领域。

AI项目与工具 2025年06月12日 75 点赞 0 评论 855 浏览

MineWorld

MineWorld是由微软研究院开发的基于《我的世界》的实时交互式AI模型，采用视觉-动作自回归Transformer架构，实现高保真、可控性强的场景生成。通过并行解码算法，模型可在每秒4至7帧的速度下实现实时交互，适用于具身智能、强化学习、游戏代理及视频生成等场景。其核心技术包括图像与动作标记器、Transformer解码器以及优化的训练与推理流程。

AI项目与工具 2025年06月11日 93 点赞 0 评论 855 浏览

PGTFormer是一款先进的视频人脸修复框架，通过解析引导的时间一致性变换器恢复视频中的高保真细节，同时增强时间连贯性。该方法无需预对齐，通过语义解析选择最佳人脸先验，并结合时空Transformer模块和时序保真度调节器，实现了高效且自然的修复效果。其主要功能包括盲视频人脸修复、语义解析引导、时间一致性增强、时空特征提取、端到端修复和时序保真度调节。PGTFormer适用于电影和视频制作、视频

AI项目与工具 2025年06月12日 90 点赞 0 评论 854 浏览

Dubbing AI

DubbingAI 语音生成器作为实时变声器，可以将任何语音转换为优质语音和克隆语音。从游戏玩家到直播主播和内容创作者。每个人都可以使用 Dubbing AI 生成跨年龄、语言和口音的逼真配音。

Ai语音工具 2025年06月05日 19 点赞 0 评论 854 浏览

SignLLM

SignLLM是一款支持多语言手语生成的AI模型，能将文本转换为自然流畅的手语视频，覆盖包括ASL、GSL、LSA、KSL在内的八种手语。其核心技术包括离散化与层次化表示、自监督学习、符号-文本对齐等。该工具可用于教育、医疗、法律、媒体等多个场景，提升听障人群的沟通便利性与信息获取能力。

AI项目与工具 2025年06月12日 86 点赞 0 评论 853 浏览

LLM2LLM

LLM2LLM是一种基于教师-学生架构的迭代数据增强方法，通过生成针对性的合成数据提升语言模型在低数据量场景下的性能。该技术通过识别并强化模型预测错误的数据点，实现精准优化，同时控制数据质量和规模。适用于医学、法律、教育等数据稀缺领域，具有良好的可扩展性和实用性。

AI项目与工具 2025年06月12日 96 点赞 0 评论 853 浏览

Color Pop

Color Pop是一款结合人工智能技术的涂色应用，用户可输入文本生成精美线条图，并利用丰富的纹理与工具进行个性化涂色创作。它支持超过600种设计图样，兼具娱乐性与减压功能，适用于家庭亲子活动、教育学习、艺术治疗等多种场景。

AI项目与工具 2025年06月12日 71 点赞 0 评论 852 浏览

GPDiT

GPDiT是一种由多所高校和企业联合开发的视频生成模型，结合了扩散模型与自回归模型的优势，具备高质量视频生成、视频表示学习、少样本学习和多任务处理能力。其核心技术包括轻量级因果注意力机制和无参数的旋转基时间条件策略，提升了生成效率与质量。该模型适用于视频创作、编辑、内容理解及创意生成等多种应用场景。

AI项目与工具 2025年06月11日 81 点赞 0 评论 852 浏览

InstantID

InstantID 是一种基于扩散模型的图像生成技术，专注于实现零次（zero-shot）身份保留（Identity-Preserving）的个性化图像合成。该技术允许用户仅使用一张面部图像，在多种风格中生成个性化的图像，同时确保高保真度。其主要功能包括个性化图像合成、身份特征保留、风格迁移、新视角合成、身份插值和多身份合成。InstantID 兼容预训练模型，无需额外微调即可实现灵活的图像生成。

AI项目与工具 2024年01月01日 56 点赞 0 评论 851 浏览

TripoSF

TripoSF是由VAST推出的新型3D基础模型，采用SparseFlex表示方法和稀疏体素结构，显著降低内存占用并提升高分辨率建模能力。其“视锥体感知的分区体素训练”策略优化了训练效率，使模型在细节捕捉、拓扑结构支持和实时渲染方面表现突出。实验数据显示，TripoSF在Chamfer Distance和F-score等关键指标上分别降低82%和提升88%。适用于视觉特效、游戏开发、具身智能及产品

AI项目与工具 2025年06月12日 71 点赞 0 评论 850 浏览

学习

首页

学习

列表

默认

浏览次数

发布日期