训练

V-JEPA

创新的自监督学习模型,它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容,还能在图像任务上表现出色,具有广泛的应用潜力。

InstantMesh

一个基于单张图片,利用先进的稀疏视图大型重建模型(LRM)架构,快速生成3D网格(Mesh)的工具

吐司TusiArt

吐司TusiArt是一个由上海必有回响智能科技开发的AI绘画模型分享社区和在线生图平台。平台提供了丰富的AI绘画模型,支持用户在线运行和下载,无需额外软件或硬件支持。用户可以轻松生成、编辑和分享自己的作品,并且平台还支持用户自定义模型的训练和定制。平台具有易于使用的在线生图工具、开放的模型分享平台、海量模型库以及社区互动分享功能。

SaRA

SaRA是一种新型预训练扩散模型微调方法,通过重新激活预训练阶段未被充分使用的参数,有效提升模型的适应性和泛化能力。该方法支持核范数低秩稀疏训练,能够防止过拟合并优化模型性能,同时大幅降低计算资源需求。SaRA适用于多种应用场景,包括图像风格迁移、视频生成及下游数据集微调等,仅需少量代码调整即可实现高效微调。

TokenFlow

一个利用预训练的文本到图像扩散模型进行视频编辑的框架。它无需进一步训练或微调,即可实现一致的视频编辑效果。

LLM Engineer Toolkit

一个精心整理的LLM工具库,它将120多个与LLM相关的库按照功能和用途进行了细致分类,涵盖了从训练微调、应用开发、推理服务到安全评估等 LLM 开发全流程所需的工具。

DrivingDojo

DrivingDojo是一个由中国科学院自动化研究所与美团无人车团队合作研发的数据集,包含18,000个视频片段,涵盖全面的驾驶操作、多智能体交互及开放世界驾驶知识。它定义了动作指令跟随(AIF)基准,用于评估世界模型的预测能力,并支持自动驾驶算法开发、世界模型训练、多智能体交互模拟及罕见事件处理等多个应用场景。

悟道·天鹰(Aquila)

悟道·天鹰(Aquila)是智源研究院开源的中英双语语言大模型,具备强大的语言理解和生成能力。模型在设计上注重商用和数据合规性,同时提供持续的开源更新和技术支持。