图像

攻壳智能体

攻壳智能体是一个整合AI工具与智能体资源的平台,提供精选工具推荐、社区交流和前沿技术追踪等功能。涵盖智能体、AI浏览器、聊天助手、内容生成、数据分析等多个类别,适用于学习、办公、创作等多样化场景,助力用户高效利用人工智能技术。

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器,支持视觉生成与理解任务。其采用多码本量化技术,将视觉特征分割并独立量化,显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率,图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块,广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。

3DV

3DV-TON是一种基于扩散模型的视频虚拟试穿框架,由阿里巴巴达摩院、湖畔实验室与浙江大学联合研发。该工具通过生成可动画化的纹理化3D网格作为帧级指导,提升试穿视频的视觉质量和时间一致性。其支持复杂服装图案和多样化人体姿态,提供高分辨率基准数据集HR-VVT,适用于在线购物、时尚设计、影视制作等多个领域。

Omni Reference

Omni Reference 是 Midjourney V7 提供的一项图像生成辅助功能,允许用户将特定人物、物体或场景嵌入生成图像中。通过 `--oref` 和 `--ow` 参数,用户可灵活控制参考图像的权重与风格融合程度,提升创作精度与多样性。支持 Web 和 Discord 两种平台操作,适用于角色嵌入、产品展示、场景构建等多种应用场景。

Pixelfox

Pixelfox 是一款基于AI技术的在线图片编辑工具,支持背景移除、AI换脸、图像修复、图片放大等多种功能。用户无需下载软件,直接在浏览器中上传图片即可快速完成编辑。操作简单、处理高效,适用于摄影、电商、社交媒体等多个领域,适合各类图像处理需求。

Cobra

Cobra是由清华大学、香港中文大学和腾讯ARC实验室联合开发的漫画线稿上色框架,采用因果稀疏注意力机制和局部可复用位置编码技术,实现高精度、高效率的自动上色。支持颜色提示调整,提升灵活性与个性化。适用于漫画、动画、插画等多种场景,具有高效的推理能力和良好的扩展性。项目已开源,包含技术论文与模型资源。

T2I

T2I-R1是由香港中文大学与上海AI Lab联合开发的文本到图像生成模型,采用双层推理机制(语义级和 Token 级 CoT),实现高质量图像生成与复杂场景理解。其基于 BiCoT-GRPO 强化学习框架,结合多专家奖励模型,提升生成图像的多样性和稳定性。适用于创意设计、内容制作、教育辅助等多个领域,具有广泛的应用潜力。

Hula

Hula 是一款 AI 视频生成工具,支持将静态照片或视频转换为动态内容,提供多种风格转换功能,如复古、动漫、童话等。用户可生成未来宝宝形象、制作聊天贴纸,并体验“时间旅行”功能,展现不同时代的自我形象。适用于社交媒体内容创作、创意视频制作和个人形象设计等多种场景。

mnml.ai

mnml.ai 是一款面向建筑师和室内设计师的 AI 渲染工具,支持将手绘或数字草图快速转换为高质量渲染图,涵盖多种风格和应用场景。其具备 AI 草图转图像、视频制作、渲染增强、风格迁移等功能,操作简便,适合各类用户使用。同时支持文本提示生成设计,提升工作效率与表现力。

F

F-Lite是一款由Freepik与FAL开源项目联合开发的10B参数文本到图像生成模型,基于版权安全数据集训练,支持商业应用。它采用T5-XXL文本编码器,结合扩散模型架构,实现高精度图像生成。支持多分辨率输出,包含256、512和1024像素,并推出专为纹理优化的F-Lite Texture版本。模型通过强化学习和多项优化技术提升生成质量与效率,适用于创意设计、内容创作、游戏开发等多个领域。