模型

Pix2Gif

Pix2Gif是一个由微软研究院开发的基于运动引导的扩散模型,能够将静态图像转换成动态的GIF动画或视频。该模型通过运动引导的扩散过程实现图像到GIF的生成,并利用文本描述和运动幅度作为输入。Pix2Gif还引入了感知损失机制,确保生成的GIF帧在视觉上与原始图像保持一致性和连贯性。

Cline

Cline 是一款集成于 VSCode 的 AI 编程助手,支持代码生成、编辑、终端命令执行及 Web 开发调试。可连接多种语言模型,提供项目理解与任务执行能力,增强开发效率。具备安全交互机制和扩展功能,适用于全栈开发场景。

Vocalist.ai

一款可以使用定制的声乐模型将人声录音转换为专业品质的歌唱和说唱表演的录音室级AI声音转换工具,在几秒钟内将您的声音转变为世界一流的歌手和说唱歌手。

QwQ

QwQ-32B-Preview是一款由阿里巴巴开发的开源AI推理模型,具有325亿参数,擅长处理数学与编程领域的复杂任务。它能在多个基准测试中超越同类产品,并提供透明化的推理流程。然而,该模型在语言切换及跨领域应用上存在一定局限性。

AdamCAD

只需通过用简单的语言描述就能为你生成复杂的CAD图纸,而且还能通过3D打印机直接打印出来,适用于工业设计和机械工程行业。

CityDreamer

CityDreamer,一个专门为城市设计的AI生成的3D城市街景生成模型。

Orpheus TTS

Orpheus TTS 是一款基于 Llama-3b 架构的开源文本到语音系统,支持自然、富有情感的语音生成。具备零样本语音克隆能力,无需预训练即可模仿特定语音,延迟低至 200 毫秒,适合实时应用。支持多种语音风格和情感控制,适用于有声读物、虚拟助手、游戏、教育等多个领域。

ACTalker

ACTalker 是一种基于视频扩散模型的端到端工具,可生成高质量、自然的说话人头部视频。支持多信号控制(如音频、表情),采用并行 Mamba 结构和门控机制,实现跨时间和空间的精准面部动作控制。实验表明其在音频同步性和视频质量上表现优异,适用于虚拟主播、远程会议、在线教育等多种场景。

Magic Data

Magic Data专注于为不同行业的AI模型提供高质量的训练和测试数据,以提升模型的性能和智能。