多任务 - 智狐AI导航

PaliGemma 2 mix

PaliGemma 2 Mix 是谷歌 DeepMind 推出的多任务视觉语言模型，支持图像描述、目标检测、OCR、文档理解等功能。模型提供多种参数规模和分辨率选项，适用于不同场景。其基于开源框架开发，易于扩展，可通过简单提示切换任务。适用于科学问题解答、文档分析、电商内容生成等多个领域。

AI项目与工具 2025年06月12日 23 点赞 0 评论 510 浏览

ACE

ACE是一款基于扩散Transformer架构的多模态图像生成与编辑工具，通过长上下文条件单元（LCU）和统一条件格式实现自然语言指令的理解与执行。它支持图像生成、编辑、多轮交互等多种任务，适用于艺术创作、媒体制作、广告设计、教育培训等多个领域，提供高效且灵活的视觉内容解决方案。

AI项目与工具 2025年06月12日 74 点赞 0 评论 498 浏览

SVFR

SVFR是一款由腾讯优图实验室与厦门大学联合开发的视频人脸修复框架，能够统一处理视频中的人脸修复、着色和缺失区域补全任务。基于Stable Video Diffusion模型，结合任务嵌入、统一潜在正则化等技术，提升修复精度与时间稳定性。适用于影视后期、网络视频制作及数字档案修复等领域，具有广泛的应用价值。

AI项目与工具 2025年06月12日 81 点赞 0 评论 491 浏览

Aero

Aero-1-Audio 是一款基于 Qwen-2.5-1.5B 的轻量级音频模型，拥有 1.5 亿参数，专注于长音频处理，支持连续 15 分钟音频输入并保持上下文连贯性。在语音识别、复杂音频分析及指令驱动任务中表现出色，具备高效的训练方法和多任务处理能力，适用于语音助手、实时转写、归档理解等场景。

AI项目与工具 2025年06月11日 43 点赞 0 评论 478 浏览

smoltalk

Smoltalk-Chinese 是 OpenCSG 开发的中文大型语言模型专用合成数据集，包含 70 多万条高质量数据，涵盖多种任务类型，如信息查询、编程、数学、创意写作等。数据通过先进模型生成并经过严格筛选和去重，确保多样性与质量，适用于模型微调和多场景应用，提升语言理解和生成能力。

AI项目与工具 2025年06月12日 41 点赞 0 评论 457 浏览

ObjectMover

ObjectMover是由香港大学与Adobe Research联合开发的图像编辑模型，专注于解决物体移动、插入和移除过程中的光影协调问题。通过视频先验迁移和序列到序列建模技术，实现对光照、阴影和遮挡关系的精准控制。支持多任务学习，提升模型在真实场景中的适应性。广泛应用于特效制作、虚拟场景编辑、游戏开发等领域，具备高效、真实的图像编辑能力。

AI项目与工具 2025年06月12日 91 点赞 0 评论 456 浏览