模型

Step-1V

覆盖了从个人使用到企业级应用的多个方面的多模态大模型。

Pippo

Pippo是由Meta Reality Labs研发的图像到视频生成模型,可基于单张照片生成多视角高清人像视频。采用多视角扩散变换器架构,结合ControlMLP模块与注意力偏差技术,实现更丰富的视角生成和更高的3D一致性。支持高分辨率输出及细节自动补全,适用于虚拟现实、影视制作、游戏开发等多个领域。技术方案涵盖多阶段训练流程,确保生成质量与稳定性。

Fabrie AI

Fabrie AI,设计师的在线设计协作平台 ,基于Fabrie白板构建的AI驱动的设计工具。它可以帮助工业设计师、时装设计师和室内设计师在几秒钟内快速生成带有草图的逼真渲染。

Sweep AI

Sweep AI 是一款利用人工智能技术优化软件开发流程的工具,集成了大型语言模型与代码分析引擎,主要功能涵盖代码搜索、重构、测试生成以及文档创建等。它旨在帮助开发者提高工作效率,简化代码管理,并支持灵活定制化设置以满足不同团队的需求。

DeepEyes

DeepEyes是由小红书团队和西安交通大学联合开发的多模态深度思考模型,基于端到端强化学习实现“用图思考”能力,无需依赖监督微调。它在推理过程中动态调用图像工具,增强对细节的感知与理解,在视觉推理基准测试V* Bench上准确率高达90.1%。具备图像定位、幻觉缓解、多模态推理和动态工具调用等功能,适用于教育、医疗、交通、安防和工业等多个领域。

悟道·天鹰(Aquila)

悟道·天鹰(Aquila)是智源研究院开源的中英双语语言大模型,具备强大的语言理解和生成能力。模型在设计上注重商用和数据合规性,同时提供持续的开源更新和技术支持。

Llama Nemotron

Llama Nemotron是NVIDIA推出的推理模型系列,具备强大的复杂推理、多任务处理和高效对话能力,适用于企业级AI代理应用。模型基于Llama架构优化,采用神经架构搜索与知识蒸馏技术,提升计算效率。包含Nano、Super和Ultra三种版本,分别面向边缘设备、数据中心和高性能计算场景。广泛应用于科研、客服、医疗、物流和金融等领域。

自得语音

自得语音技术可通过简单的步骤创造出属于你的角色。类似GPT,可生成与真人无异的语音片段,在情感、音色和语速等方面与真人一致。

通义点金

通义点金,大模型驱动的智能金融助手,深度解读财报研报,轻松分析金融事件,自动绘制图表表格,实时市场数据分析,助力用户对话金融世界。