模型

Aicolors

AI Colors,人工智能生成界面配色方案。

VideoJAM

VideoJAM是Meta开发的视频生成框架,旨在提升视频运动连贯性。通过联合学习外观与运动信息,在训练阶段同时预测像素和运动特征,并在推理阶段利用动态引导机制优化生成结果。该技术具备高度通用性,可适配多种视频生成模型,无需调整训练数据或模型结构,已在多项基准测试中表现优异,适用于影视、游戏、教育等多个领域。

WeDraw

WeDraw专注于人工智能AI绘画和大模型语料数据合成领域,是一支充满激情和创意的团队。

Aria

Aria是首个开源多模态原生混合专家(MoE)模型,支持文本、代码、图像和视频的综合处理,具有强大的多模态任务处理能力和长上下文窗口,可高效应对复杂长数据。模型开源且可扩展,适用于多模态AI领域的研究与应用。

SpatialVLA

SpatialVLA是一款由多机构联合研发的空间具身通用操作模型,具备强大的3D空间理解能力与跨平台泛化控制能力。通过Ego3D位置编码和自适应动作网格技术,实现精准的环境感知与动作生成。支持零样本任务执行与快速微调,适用于工业、物流、医疗等多个领域,推动机器人技术的发展与应用。

书生InternThinker

书生InternThinker是一款由上海人工智能实验室开发的强推理模型,具备生成高智力密度数据及元动作思考的能力。它擅长处理数学、编程、逻辑推理等复杂任务,通过长思维能力和自我反思机制提升性能。模型采用通专融合技术和大规模沙盒环境反馈,实现复杂任务的高效解决,适用于教育、编程、科研、客服及法律等多个领域。

腾讯混元

腾讯混元大模型是由腾讯研发的大语言模型,具备跨领域知识和自然语言理解能力,实现基于人机自然语言对话的方式,理解用户指令并执行任务,帮助用户实现人获取信息,知识和灵感。

VISION XL

VISION XL是一款基于潜在扩散模型的视频修复与超分辨率工具,支持视频去模糊、超分辨率提升、视频修复及帧平均等功能。它采用伪批一致性采样、批量一致性反演等技术,显著提高了处理效率和视频质量。VISION XL广泛应用于电影修复、监控视频增强、体育赛事直播等领域,能够满足高质量视频需求。

OmniParser

OmniParser是一款由微软研究院开发的屏幕解析工具,能够将UI截图转换为结构化数据,通过识别可交互图标和提取功能语义,提升基于大型语言模型的UI代理系统的性能。它支持跨平台应用,无需依赖额外信息,适用于自动化软件测试、虚拟助手、辅助技术等多个领域。

触手AI

触手AI集成了市面上主流绘图软件的完整功能,包括文生图、图生图、ControlNet控图、姿势生图、高清修复、智能修图、模型训练等一系列实用功能。触手AI无需科学上网。