生成

Video Diffusion Models

Video Diffusion Models项目展示了扩散模型在视频生成领域的潜力,通过创新的梯度条件方法和自回归扩展技术,生成了具有高度时间连贯性和质量的视频样本。

字幕说

字幕说是一款为自媒体创作者设计的在线工具,提供文字转语音、音文对齐、视频合成等功能。支持多语言发音、字幕翻译与优化,帮助用户高效生成高质量视频内容,无需出镜即可完成制作,提升创作效率。

Loopy

Loopy是一款由字节跳动开发的音频驱动的AI视频生成模型。该模型能够将静态照片转化为具有面部表情和头部动作的动态视频,与给定的音频文件同步。Loopy利用先进的扩散模型技术,无需额外的空间信号或条件,捕捉并学习长期运动信息,从而生成自然流畅的动作。其主要功能包括音频驱动、面部动作生成、无需额外条件以及长期运动信息捕捉。Loopy适用于娱乐、教育、影视制作等多种场景。

通义代码模式

通义代码模式是一款基于大语言模型的AI工具,支持用户通过自然语言指令生成代码并实时预览结果。它适用于快速开发动态网页和交互式应用,涵盖前端页面生成、数据可视化、小游戏开发等多种功能。无论是开发者还是非专业人士,都能通过此工具轻松创建各类应用,降低开发门槛,提升效率。

Red_Panda

Red_Panda 是一款由 Recraft AI 开发的先进 AI 图像生成工具,以其高精度的文本到图像转换能力和卓越的解剖学准确性著称。它能够生成复杂长文本对应的高质量图像,支持用户通过风格控制和图形设计工具实现个性化定制。此外,Red_Panda 还具备矢量图像生成能力,并集成 AI 图像编辑功能,广泛应用于设计、品牌营销、教育及出版等多个领域。

Manga TV

一个由人工智能驱动的可以通过文本自动生成漫画视频的平台,Manga TV彻底改变了漫画创作的过程。

aoGen

aoGen 是一款面向电商行业的 AI 图像生成工具,可快速生成多种风格的虚拟模特并实现服装适配,提供虚拟试衣功能以提升购物体验。其图像增强与编辑功能包括智能修复和物体移除,还可将静态图片转为动态视频,支持多场景应用,有效降低拍摄成本并提升视觉吸引力。

Aragon.ai

Aragon.ai 是一款基于人工智能技术的头像生成平台,通过上传照片并结合用户选定的服装和背景,快速生成高质量的专业头像。平台支持个性化定制,具备强大的图像处理能力,可一次性生成大量头像,并提供照片编辑工具。其应用场景广泛,包括职业形象打造、社交媒体展示、企业团队建设以及个人品牌塑造等领域。

Video

Video-LLaVA2是一款由北京大学ChatLaw课题组开发的开源多模态智能理解系统。该系统通过时空卷积(STC)连接器和音频分支,显著提升了视频和音频的理解能力。其主要功能包括视频理解、音频理解、多模态交互、视频问答和视频字幕生成。时空建模和双分支框架是其核心技术原理。Video-LLaVA2广泛应用于视频内容分析、视频字幕生成、视频问答系统、视频搜索和检索、视频监控分析及自动驾驶等领域。