图像

HiDiffusion

大幅提升扩散模型的图像生成质速度提升6倍,由字节跳动的研究团队开发,只需添加一行代码即可

FotoForensics

一个由Hacker Factor提供的在线图像篡改检测工具,主要用于分析图像是否被修改过,比如你可以使用FotoForensics检测图像是否被PS过。

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器,支持视觉生成与理解任务。其采用多码本量化技术,将视觉特征分割并独立量化,显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率,图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块,广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。

PixelFlow

PixelFlow是由香港大学与Adobe联合开发的图像生成模型,支持在像素空间中直接生成高质量图像。其基于流匹配技术和多尺度生成策略,实现从低分辨率到高分辨率的逐步生成,有效降低计算成本。该模型在类别条件图像生成和文本到图像生成任务中表现优异,具备强大的语义理解和视觉表达能力。此外,PixelFlow采用端到端训练方式,支持多种ODE求解器,适用于艺术设计、内容创作、教育研究等多个领域。

LayerDiffusion

LayerDiffusion是一种创新的AI工具,利用大规模预训练的潜在扩散模型生成具有透明度的图像。该技术引入了“潜在透明度”的概念,将图像的alpha通道透明度信息编码到潜在空间中。LayerDiffusion不仅可以生成单个透明图像,还能生成多个透明图层,支持条件控制生成和图层内容结构控制,确保高质量的图像输出。此外,它还能够生成多个透明图层,并通过共享注意力机制和低秩适应确保图层间的和谐混

Drawing Prompt

Drawing Prompt 是一款集自动扩展提示词、随机生成提示及 AI 图像生成于一体的智能绘画辅助工具。其核心功能包括通过简单词汇生成复杂绘画提示,提供灵感启发,以及基于高级 SDXL 模型生成视觉图像。Drawing Prompt 具备多语言支持、无须登录的特点,保护用户隐私,适用于艺术创作、设计、教育及广告等多个领域,助力用户提升创作效率与质量。

Tersa

Tersa 是一款开源免费的 AI 工作流构建平台,提供直观的拖放界面,支持 77 个主流 AI 模型,如 GPT-4o、Claude 3.5 Sonnet、DALL-E 3 和 Whisper 等,适用于文本生成、图像视频创作、音频转录和代码优化等多种任务。用户可通过拖放文件快速构建复杂流程,无需编程基础,广泛应用于内容生成、代码审查、原型开发和多模态功能集成等领域。

FlexTok

FlexTok 是由EPFL与苹果联合开发的图像处理技术,通过将图像转为离散标记序列实现高效压缩与生成。支持8K视频实时渲染,压缩率提升300%,功耗降低45%。具备无损超分辨率重建和灵活图像生成能力,适用于智能家居、安防监控及移动设备等场景。