模型

EyeDiff

EyeDiff是一款基于扩散模型的文本到图像生成工具,专为多模态眼科图像生成设计。通过自然语言提示,EyeDiff能够捕捉常见及罕见眼病的关键特征,显著提升诊断准确性。该工具采用CLIP文本编码器与交叉注意力机制,结合潜在扩散模型(LDM),生成高质量、与文本高度一致的图像,适用于数据增强、疾病筛查、数据共享及医学教育等场景。

ZelinAI

ZelinAI是一个AI应用构建平台,允许用户通过零代码方式构建自己的AI应用。它专注于Prompt学习和训练、AI参数调试等场景,并支持将模型打包为专属AI应用。此外,用户还可以通过分享...

混元DiT

混元DiT(Hunyuan-DiT)是腾讯混元团队开源的高性能文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够生成多分辨率的高质量图像。该模型结合了双语CLIP和多语言T5编码器,通过精心设计的数据管道进行训练和优化。混元DiT的主要功能包括双语文本到图像生成、细粒度中文元素理解、长文本处理能力、多尺寸图像生成、多轮对话和上下文理解、高一致性和艺术性。此外,混元DiT在

Phantom

Phantom是由字节跳动研发的视频生成框架,支持从参考图像中提取主体并生成符合文本描述的视频内容。它采用跨模态对齐技术,结合文本和图像提示,实现高质量、主体一致的视频生成。支持多主体交互、身份保留等功能,适用于虚拟试穿、数字人生成、广告制作等多种场景。模型基于文本-图像-视频三元组数据训练,具备强大的跨模态理解和生成能力。

WebRL

WebRL是一种由清华大学与智谱AI共同研发的自我进化的强化学习框架,专注于通过开放大型语言模型优化网络代理性能。该框架采用动态任务生成与结果监督奖励机制,并结合自适应强化学习策略,解决了任务稀缺和反馈稀疏等问题。其显著提升了开源模型在WebArena-Lite基准测试中的表现,具备自我进化、持续改进的特点。

StochSync

StochSync是一种基于扩散同步(DS)和分数蒸馏采样(SDS)的图像生成技术,适用于360°全景图和3D纹理生成。它通过引入最大随机性与多步去噪方法,兼顾图像细节与连贯性,无需额外训练即可生成高质量图像。支持高分辨率输出,适用于复杂几何纹理化任务。

Add

Add-it是一款无需训练的图像编辑工具,允许用户通过文本指令在图像中插入新对象。其核心功能包括保持场景结构一致性、确保对象自然融合、支持非真实感图像处理等。Add-it采用扩展的注意力机制和主题引导潜在混合技术,无需额外训练即可实现高质量图像编辑。广泛适用于广告、内容创作、影视制作等领域。

PydanticAI

一个Pydantic 团队开发的Python代理框架,可以通过生成式AI轻松构建生产级应用程序。

EasyControl Ghibli

EasyControl Ghibli 是一款基于扩散模型的 AI 工具,专注于将普通图像转换为吉卜力风格,具备风格迁移、面部特征保留、高效运行等优点。它通过少量数据训练即可生成高质量图像,适用于插画、动画、广告及个人照片风格化等多种场景。用户可免费使用,操作便捷,适合艺术创作与内容生成需求。