模型

DiffusionGPT

DiffusionGPT是一款基于大型语言模型的开源文本到图像生成系统,由字节跳动与中山大学联合开发。它采用思维树和优势数据库技术,能够解析和处理多样化的文本提示,生成高质量图像。系统通过多模型的选择与集成、基于人类反馈的优化以及高效的图像生成执行,实现了从文本到图像的无缝转换。DiffusionGPT适用于多种应用场景,具有广泛适用性和灵活性。

VPP

VPP(Video Prediction Policy)是清华大学与星动纪元联合开发的AIGC机器人模型,基于视频扩散模型实现未来场景预测与动作生成。支持高频预测与跨机器人本体学习,显著降低对真实数据的依赖。在复杂任务中表现出色,适用于家庭、工业、医疗、教育等多个领域。其开源特性推动了具身智能机器人技术的发展。

Diff

Diff-Instruct是一种基于积分Kullback-Leibler散度的知识迁移方法,用于从预训练扩散模型中提取知识并指导生成模型的训练。它能够在无需额外数据的情况下,通过最小化IKL散度提升生成模型的性能。Diff-Instruct适用于多种场景,包括预训练扩散模型的蒸馏、现有GAN模型的优化以及视频生成等。

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别(ASR)模型系列,支持普通话、中文方言和英语,具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本,分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色,且已开源,推动语音识别技术的发展。

Voyage Multimodal

Voyage Multimodal-3 是一款多模态嵌入模型,能够处理文本、图像以及它们的混合数据,无需复杂文档解析即可提取关键视觉特征。它在多模态检索任务中的准确率显著高于现有最佳模型,支持语义搜索和文档理解,适用于法律、金融、医疗等多个领域的复杂文档检索任务。

FreeAskInternet

FreeAskInternet是一款免费开源的本地AI搜索引擎,集成了先进的大型语言模型和元搜索引擎,支持本地化搜索聚合和智能答案生成。它确保用户数据的私密性和安全性,无需GPU支持即可运行,并提供自定义的大型语言模型选项。此外,FreeAskInternet具备友好的用户界面,可通过简单的部署流程快速搭建。

OpenDream

Opendream.ai 是一个可让您在 AI 的帮助下创建令人惊叹的图像网站,您可以使用它在短短几秒钟内生成艺术、logo、设计等。

IterComp

IterComp是一种基于迭代反馈学习机制的文本到图像生成框架,由多所顶尖高校的研究团队联合开发。它通过整合多个开源扩散模型的优势,利用奖励模型和迭代优化策略,显著提升了生成图像的质量和准确性,尤其在多类别对象组合与复杂语义对齐方面表现突出,同时保持较低的计算开销。IterComp适用于艺术创作、游戏开发、广告设计、教育和媒体等多个领域。

EvalsOne Ai

一个功能强大而简单易用的一站式评估平台,EvalsOne Ai用于迭代优化生成式AI的应用程序。它可以帮助克服AI生成中的不确定性,简化工作流程,增强团队信心,确保