场景

CogVideo

目前最大的通用领域文本生成视频预训练模型,含94亿参数。CogVideo将预训练文本到图像生成模型(CogView2)有效地利用到文本到视频生成模型,并使用了多帧率分层训练策略。

WeChat Bot

基于WeChaty结合OpenAI ChatGPT、Kimi、讯飞等多种AI服务实现的开源微信机器人项目,用于自动回复微信消息或管理微信群/好友。

Generative Omnimatte

Generative Omnimatte 是一种基于 AI 的视频编辑技术,通过其核心模型 Casper 实现视频的多层次分解与编辑。它能够自动分离物体与背景,并支持动态背景处理及多对象场景的精细编辑。主要功能包括视频分层、对象移除、背景替换、Trimask 控制等,广泛应用于电影制作、广告设计、游戏开发及虚拟现实领域。

Diffuse to Choose

一种基于扩散的图像修复模型,主要用于虚拟试穿场景。它能够在修复图像时保留参考物品的细节,适用于在线购物等虚拟试穿场景中的图像修复任务。

T2I

T2I-R1是由香港中文大学与上海AI Lab联合开发的文本到图像生成模型,采用双层推理机制(语义级和 Token 级 CoT),实现高质量图像生成与复杂场景理解。其基于 BiCoT-GRPO 强化学习框架,结合多专家奖励模型,提升生成图像的多样性和稳定性。适用于创意设计、内容制作、教育辅助等多个领域,具有广泛的应用潜力。

GenAI_Agents

一个专注于生成式AI Agents技术的开源项目,GenAI_Agents提供从基础到高级的教程与实现代码,帮助开发者学习并构建智能、交互式的AI系统。

美图AI Logo

美图AI Logo,用户只需输入一句想法,即可生成多个不同风格的Logo。

QAnything

QAnything是一款由网易有道开发的基于本地知识库的问答系统,致力于支持任意格式文件或数据库的问答。它支持多种文件格式和数据库,使用户能够在没有网络连接的情况下离线安装和使...

灵格AI英语

灵格AI英语是一款基于AI技术的英语学习工具,提供视频学习、AI导师互动、发音纠正、场景对话练习等功能,帮助用户提升听说能力。平台支持个性化学习路径,涵盖日常口语、知识学习、考试备考等多场景应用,适合不同需求的学习者使用。

ZAKER

机器人客服、智能客服、ai机器人客服