AI项目与工具

StableV2V

StableV2V是一款基于文本、草图和图片输入的开源视频编辑工具,利用Prompted First-frame Editor(PFE)、Iterative Shape Aligner(ISA)和Conditional Image-to-video Generator(CIG)三大模块,实现视频中物体的精准编辑与替换,同时保持编辑内容与原始视频在动作和深度信息上的高度一致性,适用于电影制作、教育、

氢刻

氢刻是一款结合AI技术的卡片式学习工具,支持个性化知识库构建与智能复习功能,适用于语言学习、概念记忆及专业考试等多个场景。其核心功能包括卡片笔记创建、智能复习推荐、AI辅助记忆及跨平台数据导入导出,助力用户高效管理和巩固知识。

MaskGCT

MaskGCT是一款基于掩码生成模型与语音表征解耦编码技术的语音合成大模型,由趣丸科技与香港中文大学(深圳)联合开发。其主要功能包括声音克隆、跨语种语音合成、语音控制及高质量语音数据集支持。该模型在多个TTS基准数据集上表现优异,可快速精准地克隆音色并灵活调整语音属性,适用于多种语言,已开源并面向全球用户开放。

Sharly

Sharly是一款先进的人工智能文档分析工具,主要功能包括快速分析文档内容、提取关键信息、生成摘要、多语言支持及问答交互。它适用于学术研究、法律事务、项目管理、市场分析等多个领域,能够显著提高用户的效率和决策质量。

SadTalker

SadTalker是一个由西安交通大学、腾讯AI实验室和蚂蚁集团合作开发的开源AI数字人项目。该工具利用单张人脸图像和语音音频,通过3D运动系数生成逼真的说话人脸动画。它通过ExpNet精确学习面部表情,PoseVAE合成不同风格的头部运动,并采用3D面部渲染技术,实现高质量、风格化的视频动画。SadTalker还具备多语言支持和多模态学习能力,适用于虚拟助手、视频制作、语言学习、社交媒体和教育等

Miracle F1

Miracle F1 是一款由美图 WHEE 推出的 AI 图像生成工具,具备高真实感的图像生成能力,能精准处理光影、材质和空间效果。其语义理解能力强,可准确还原复杂描述,如“纯色背景”“夜景灯光”等。支持多种风格,涵盖 3D 立体、二次元、复古等,适用于电商展示、活动海报、插画设计等多个场景。基于扩散模型和优化算法,提升了生成效率与质量。

TurboTTS

TurboTTS是一款支持多语言的在线文本转语音工具,提供300多种真实语音选择,生成自然流畅的语音效果。适用于短视频、教育、广告及播客等多种场景,操作简单,支持多种音频格式下载,并可合法用于商业用途。凭借AI技术,用户能高效完成语音内容制作,满足多样化需求。

Dify Marketplace

Dify Marketplace是一个集插件分发、API集成、用户管理于一体的工具平台,涵盖生产力提升、数据分析、内容创作等多个领域。平台提供严格的审核机制以确保插件质量,支持在线安装与本地部署,并鼓励开发者参与生态建设。适用于内容创作、市场分析、技术开发、教育及个人效率提升等多种场景。

TRELLIS

TRELLIS是一款由清华大学、中国科学技术大学及微软研究院共同开发的3D生成模型,利用Structured LATent(SLAT)表示法,通过文本或图像提示生成高质量、多样化的3D资产。它融合了稀疏的3D网格结构与密集视觉特征,支持多格式输出及局部编辑,无需拟合训练即可生成细节丰富的模型。此外,TRELLIS具备两阶段生成流程,可灵活适应不同需求。

Muse

Muse是一款基于AI技术的音乐创作工具,能够将文本输入转化为MIDI文件,支持用户自定义多种音乐参数。其主要功能包括文本到MIDI的转换、灵活的参数调整以及高效的创作流程优化。Muse广泛应用于音乐教育、专业音乐制作、影视配乐等领域,助力用户快速生成高质量的音乐素材,同时激发创新灵感。