生成

SynthLight

SynthLight是由耶鲁大学与Adobe Research联合开发的基于扩散模型的人像重照明工具,通过物理渲染引擎生成合成数据并结合多任务训练策略,实现高质量的光照效果生成。它能够根据环境光照图重新渲染人像,生成自然的高光、阴影和漫反射效果,并适用于摄影后期、虚拟场景、游戏开发及广告设计等多个领域,具备良好的泛化能力和实用性。

MiniCPM

MiniCPM-o 2.6 是一款高性能的多模态大模型,具备 8B 参数量,支持视觉、语音及多模态直播等多种功能。其在图像处理、语音识别和实时交互方面表现优异,采用高效的 token 技术提升推理速度,可在端侧设备上运行。支持多种语言和音色配置,适用于智能助手、内容创作、教育、客服和医疗等多个领域。

DriveDreamer4D

DriveDreamer4D是一个专注于提升自动驾驶场景4D重建质量的框架,通过整合世界模型先验知识生成新的轨迹视频,同时确保时空一致性,从而增强训练数据集的多样性和真实性。它具备4D场景重建、新轨迹视频合成、时空一致性控制以及提升渲染质量等功能,广泛应用于自动驾驶系统开发、闭环仿真测试及传感器数据模拟等领域。 ---

Cosmos

Cosmos是由英伟达推出的生成式世界基础模型平台,支持自动驾驶和机器人领域的虚拟环境生成与训练。它能够根据文本、图像或视频输入生成高度仿真的虚拟世界状态,并提供高效的数据处理与安全机制。平台包含多个参数规模的模型,适用于不同性能需求的应用场景。Cosmos还支持开放模型许可,便于开发者进行定制化部署。其应用场景涵盖驾驶模拟、策略优化、复杂环境训练及工业数字孪生等。

Pix2Gif

Pix2Gif是一个由微软研究院开发的基于运动引导的扩散模型,能够将静态图像转换成动态的GIF动画或视频。该模型通过运动引导的扩散过程实现图像到GIF的生成,并利用文本描述和运动幅度作为输入。Pix2Gif还引入了感知损失机制,确保生成的GIF帧在视觉上与原始图像保持一致性和连贯性。

Remusic AI

一键生成自己独有的歌曲和音乐,可以定义歌词和风格,如国风、Rap和摇滚等,人人都是音乐歌曲创作者。

Mogao

Mogao是由字节跳动开发的多模态生成基础模型,结合双视觉编码器和先进位置嵌入技术,实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域,具备强大的跨模态处理能力和生成稳定性。

ColorJoyful

ColorJoyful是一款基于AI的在线填色工具,可将简单轮廓图转化为丰富多彩的图像,支持个性化图案、色彩和风格选择。用户可通过关键词或上传图片生成线稿,并获得智能色彩建议与一键填充功能。适用于亲子互动、艺术创作、教育及个人娱乐等多种场景,操作简便,适合各年龄段用户使用。

MotionCLR

MotionCLR是一款利用自注意力和交叉注意力机制的人体动作生成与编辑工具。它能够根据文本提示生成动作,并支持多种编辑操作,如动作强调、减弱、替换、擦除及风格迁移。MotionCLR在动作生成的精度、多样性及编辑灵活性上表现出色,广泛应用于游戏开发、动画制作、虚拟现实等领域。

Step

覆盖了从个人使用到企业级应用的多个方面的多模态大模型。