AI

Image

Image-01 是一款由 MiniMax 开发的文本到图像生成模型,能够根据文本描述精准生成高质量、高分辨率图像,支持多种纵横比输出。具备优秀的人物与物体渲染能力,适用于艺术创作、广告设计、影视制作等多个领域。支持高效批量生成,单次最多输出 9 张图像,每分钟处理 10 个请求,提升创作效率。采用扩散模型与 Transformer 架构,结合线性注意力与 MoE 技术,确保图像质量与生成效率。

SuperGPQA

SuperGPQA是由字节跳动豆包团队与M-A-P联合开发的知识推理基准测试集,覆盖285个研究生级学科,包含26529道题目。其核心功能是评估大语言模型的泛化能力和真实推理水平,42.33%的题目涉及数学计算或形式推理。该测试集采用专家与大语言模型协同构建的方式,确保题目质量,并涵盖STEM与非STEM领域,填补了长尾学科评估的空白。适用于模型性能评估、优化指导及跨学科研究等多种应用场景。

SpeciesNet

SpeciesNet 是 Google 开发的 AI 模型,用于识别相机陷阱图像中的动物物种,支持超过 2000 种标签分类,涵盖动物、分类群及非生物对象。基于 6500 万张图像训练,具备高效数据处理和跨场景识别能力,适用于野生动物监测、生物多样性研究及生态保护。模型开源,可在 GitHub 获取,支持开发人员部署与优化。

GaussianCity

GaussianCity是由南洋理工大学S-Lab团队开发的高效3D城市生成框架,基于3D高斯绘制技术,采用紧凑的BEV-Point表示方法降低显存和存储需求。其空间感知的BEV-Point解码器可生成高质量3D城市场景,支持多样化视角和实时渲染,适用于游戏、影视、城市规划等领域。相比现有方法,其生成速度提升60倍,兼具高效与高质量特性。

Asyncflow v1.0

Asyncflow v1.0 是一款基于 AI 的文本转语音工具,支持超过 450 种语音选项,涵盖多种语言和风格。通过 Magic Dust AI 技术,实现快速语音克隆与高质量输出,降低训练成本。提供 API 接口,便于开发集成,适用于播客、广告、教育等多种场景,具备高效、易用和高性价比的特点。

ART

ART(Anonymous Region Transformer)是一种新型多层透明图像生成技术,支持基于全局文本提示和匿名区域布局生成多个独立透明图层(RGBA格式)。通过逐层区域裁剪机制,显著提升生成效率,速度快于传统方法12倍以上。具备高质量自编码器,支持50层以上的图像生成,减少图层冲突。广泛应用于艺术设计、内容创作、广告营销及科研等领域。

NextGenAI

NextGenAI是由OpenAI发起的全球合作项目,联合多所顶尖高校与机构,推动AI在教育、医疗、科研等领域的应用。该项目提供计算资源与技术支持,助力研究突破、教育革新与知识共享,强化学术与产业合作,促进AI技术的广泛应用与发展。

UX Pilot

UX Pilot 是一款 AI 驱动的 UX/UI 设计工具,支持高保真界面生成、线框图探索、Figma 整合及全流程设计管理。它通过智能算法提升设计效率,支持团队协作与多平台适配,适用于产品原型验证、设计迭代与开发交付,助力用户实现高效、精准的设计流程。

NotaGen

NotaGen 是由多所高校联合研发的音乐生成模型,基于预训练、微调和强化学习技术,可生成高质量古典乐谱。支持通过“时期-作曲家-乐器”等条件控制音乐风格,具备高度音乐性与可控性。采用 CLaMP-DPO 方法优化生成质量,无需人工标注。适用于音乐创作、教育、影视配乐等多种场景,提供多种模型规模选择,满足不同需求。

谛韵DiffRhythm

DiffRhythm(谛韵)是一款由西北工业大学与香港中文大学(深圳)联合开发的端到端音乐生成工具,基于潜扩散模型技术,能在10秒内生成包含人声和伴奏的完整歌曲。用户只需提供歌词和风格提示,即可快速获得高质量音乐作品。其支持多语言输入,具备歌词对齐、风格定制、非自回归生成等技术优势,广泛应用于音乐创作、影视配乐、教育及个人创作等领域。