生成

VQAScore

VQAScore是一种基于视觉问答(VQA)模型的评估工具,用于衡量文本提示生成图像的质量。它通过计算回答“是”概率的方式评估图像与文本提示的对齐程度,无需额外标注,提供更精确的结果。VQAScore支持多种生成任务,包括图像、视频及3D模型,并能作为多模态学习的研究工具,在自动化测试和质量控制中发挥重要作用。

MineWorld

MineWorld是由微软研究院开发的基于《我的世界》的实时交互式AI模型,采用视觉-动作自回归Transformer架构,实现高保真、可控性强的场景生成。通过并行解码算法,模型可在每秒4至7帧的速度下实现实时交互,适用于具身智能、强化学习、游戏代理及视频生成等场景。其核心技术包括图像与动作标记器、Transformer解码器以及优化的训练与推理流程。

Midjourney提示词(咒语)生成器

Midjourney提示词(咒语)是一个免费在线生成器,可以快速生成midjourney关键词、咒语的实用工具平台,内置2000+宝典,实时翻译,利用Midjo

HiDream

HiDream-I1是一款由HiDream.ai团队开发的开源AI图像生成模型,具备17亿参数,支持多种图像风格生成,包括真实、卡通和艺术风格。其在提示词理解、细节渲染和图像一致性方面表现出色,适用于艺术创作、商业设计、教育科研等领域。模型采用扩散模型和混合专家架构(MoE),并集成多种文本编码器,实现高质量与高效率的图像生成。项目已在GitHub和HuggingFace开源,便于研究与应用。

Dawn AI

Dawn AI是一款基于AI技术的图像生成工具,支持文本转图像、多种绘画风格选择以及头像生成等功能。用户可通过输入文字或上传图片,快速生成艺术作品。界面简洁易用,适合各类用户,适用于社交媒体、创意内容制作及角色定制等多种场景,提升创作效率与个性化表达。

配音神器PRO

配音神器官网_文字转语音神器_配音神器pro_语音合成软件_专业配音神器_AI配音神器

可灵2.1

可灵2.1是快手推出的AI视频生成模型,现已上线可灵AI视频平台。该模型包含标准版、高品质版和大师版,分别满足不同创作需求,支持图生视频和文生视频功能。标准版生成速度快,高品质版效果出色,大师版提供影视级效果。用户可通过上传图片或输入文字生成视频,并设置参数后下载使用。适用于短视频、营销广告、AI短剧、专业影视及教育培训等场景。

PyVideoTrans

PyVideoTrans是一款开源的视频翻译配音工具,支持多语言处理,利用先进的语音识别和翻译技术,实现视频内容的自动翻译,并添加自然流畅的配音和同步字幕。该工具适用于影视后期、教育、企业宣传及自媒体创作等场景,帮助内容创作者跨越语言障碍,扩大受众群体。

WeShop商拍

WeShop是国内首款AI商拍工具,专注于电商产品图片的智能生成。它旨在帮助品牌商家解决商品图拍摄成本高、模特贵等痛点,同时提供高效且成本效益高的解决方案。

AniTalker

AniTalker是一款先进的AI工具,能将单张静态人像与音频同步转化为生动的动画对话视频。它通过自监督学习捕捉面部动态,采用通用运动表示和身份解耦技术减少对标记数据的依赖,同时结合扩散模型和方差适配器生成多样且可控的面部动画。AniTalker支持视频驱动和语音驱动两种方式,并具备实时控制动画生成的能力。