模型

言之画

言之画是由出门问问推出的AI图像内容创作平台,用户只需输入一句话描述,便可以快速生成高质量商用图片素材。

NEXUS

NEXUS-O是一款由多家知名机构联合开发的多模态AI模型,能够处理音频、图像、视频和文本等多种输入,并以相应形式输出结果。它在视觉理解、音频问答、语音识别和翻译等方面表现出色,具备强大的跨模态对齐与交互能力。模型基于视觉语言预训练,结合高质量音频数据提升性能,并通过多模态任务联合训练增强泛化能力。适用于智能语音助手、视频会议、教育、智能驾驶、医疗健康等多个领域。

BALROG

BALROG是一款用于评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏环境中推理能力的框架。它通过程序化生成的游戏环境,测试模型的规划、空间推理及探索能力,并提供细粒度的性能指标和公开排行榜,以促进AI技术的发展,适用于游戏AI开发、机器人技术、虚拟现实等多个领域。

原子回声AtomGPT大模型

原子回声AtomGPT大模型是一个不断学习和进步的中文大模型项目,它通过向用户展示模型的学习过程,提供了一个参与和观察模型成长的平台。

novelcrafter

Novelcrafter是一款面向小说作者的AI辅助写作工具,集成了角色设定、情节规划、灵感捕捉等功能,同时支持AI交互式对话与大纲细化,助力从创意萌芽到最终成稿的全流程。具备高度灵活性和隐私保障,适合各类写作需求。

Lyra

Lyra是一款由香港中文大学、SmartMore和香港科技大学联合研发的高效多模态大型语言模型(MLLM)。它通过整合视觉、语音和文本三种模态的信息,实现了强大的跨模态理解和推理能力。Lyra不仅擅长处理长语音数据,还支持流式文本-语音生成及跨模态信息交互,适用于智能助手、客户服务、教育培训、医疗健康等多个领域。

ResAdapter

ResAdapter是一种专为扩散模型设计的分辨率适配器,允许图像生成模型生成任意分辨率和宽高比的图像,同时保持原始风格。其主要功能包括分辨率插值、分辨率外推、域一致性、即插即用设计以及广泛的兼容性。通过在扩散模型中插入ResCLoRA和引入ResENorm,ResAdapter能够在不影响模型风格的情况下扩展其分辨率范围。

Wan2.1

Wan2.1是阿里云推出的开源AI视频生成模型,支持文生视频与图生视频,具备复杂运动生成和物理模拟能力。采用因果3D VAE与视频Diffusion Transformer架构,性能卓越,尤其在Vbench评测中表现领先。提供专业版与极速版,适应不同场景需求,已开源并支持多种框架,便于开发与研究。

Loopy AI

字节跳动和浙江大学联合开发的音频驱动的AI视频生成模型,能够将静态图像转化为动态视频,实现音频与面部表情、头部动作的完美同步。

Designs AI

Designs.ai 是一个使用人工智能 (AI) 帮助您在几分钟内创建logo、视频、横幅、模型等设计的在线平台。