生成

Kiln AI

Kiln AI 是一款开源 AI 开发工具,支持多平台使用,提供零代码微调、合成数据生成及团队协作功能。内置交互式工具,兼容多种模型和 AI 提供商,支持 Git 版本控制与自动部署,适用于智能客服、医疗、教育、金融等场景,注重数据隐私与安全性。

PlaiDay

PlaiDay和Orchestra平台展现了AI技术在个性化内容生成和其他领域的潜力,为用户提供了一个易于使用且功能强大的视频创作环境。

Text to Bark

Text to Bark 是由 ElevenLabs 推出的全球首个 AI 狗语文本转语音模型,能将文字转化为高度逼真的狗吠声,支持多种犬种选择和语气调整。技术基于深度学习和犬类语言学研究,适用于宠物训练、科研、娱乐及家庭互动等多种场景,具备良好的可扩展性和实用性。

Sekai

Sekai是一款结合AI技术的交互式内容平台,允许用户创建和自定义虚拟角色,并通过AI生成完整的故事情节。平台支持互动式叙事、沉浸式体验以及故事编辑与分享功能,适用于个人娱乐、社交互动、教育学习及品牌营销等多种场景。

Opus Clip

Opus Clip是一款由Opus公司开发的AI视频剪辑工具,它能够自动从长视频中提取亮点片段,并生成短视频。该工具利用AI技术分析视频内容,识别重要时刻。Opus Clip简化了视频编辑流程,使得即使是非专业用户也能够快速制作出适合社交媒体分享的短视频。此外,它还提供了手动选择和编辑片段的功能,以及基本的视频编辑工具。

PoseTalk

PoseTalk 是一款基于文本和音频驱动的开源工具,专注于生成自然且逼真的头部动画视频。它通过 Pose Latent Diffusion (PLD) 模型和级联网络实现唇部同步与运动细化,广泛应用于虚拟助手、在线教育和娱乐等领域,提供多样化的动画生成能力和高度精准的唇形同步效果。

MMaDA

MMaDA(Multimodal Large Diffusion Language Models)是由普林斯顿大学、清华大学、北京大学和字节跳动联合开发的多模态扩散模型,支持跨文本推理、多模态理解和文本到图像生成等多种功能。其采用统一的扩散架构和模态不可知设计,结合混合长链推理微调策略与UniGRPO强化学习算法,提升跨模态任务性能。MMaDA在多项任务中表现优异,适用于内容创作、教育辅助、智能客

I ♡ Captions

I ♡ Captions轻松为视频和音频创建高质量的字幕。上传您的内容,根据渠道的具体要求生成精确的字幕,将字幕工作量减少高达75%。

VirSci

VirSci是一款基于大型语言模型(LLMs)的多智能体AI科学研究工具,通过模拟科学家团队合作加速科研创新。其主要功能包括合作者选择、主题讨论、创意生成、新颖性评估、摘要生成及自我审查等,支持从团队组建到科学发现的全流程。VirSci具备强大的自然语言处理能力、数字孪生技术和知识库支持,广泛应用于科学研究、团队协作、教育和项目管理等领域。

Narration Box

Narration Box是一种语音合成服务,用户可以创建画外音、旁白、有声读物、音频页面、播客等。它拥有超过700个人工智能增强的仿人叙述者,支持20多种语言,功能强大的语音编辑器,...