模型

思必驰 DFM

思必驰 DFM-2 大模型作为思必驰的自研对话式语言大模型,展现了其在多模态交互和行业应用中的潜力。它通过结合先进的AI技术,为用户提供了更加智能化和个性化的体验,推动了智能语...

WPS AI

WPS AI是金山办公推出的一款具备大语言模型能力的生成式人工智能应用,也是中国协同办公领域的首个类ChatGPT式应用。它主要面向办公、写作和文档处理,旨在通过AI技术提升用户的工...

面壁智能

面壁智能依托在自然语言处理方面的前沿技术,构建大规模预训练模型库及配套工具,推进大模型技术与应用的标准化。

WorldSense

WorldSense是由小红书与上海交通大学联合开发的多模态基准测试工具,用于评估大型语言模型在现实场景中对视频、音频和文本的综合理解能力。该平台包含1662个同步视频、3172个问答对,覆盖8大领域及26类认知任务,强调音频与视频信息的紧密耦合。所有数据经专家标注并多重验证,确保准确性。适用于自动驾驶、智能教育、监控、客服及内容创作等多个领域,推动AI模型在多模态场景下的性能提升。

VideoJAM

VideoJAM是Meta开发的视频生成框架,旨在提升视频运动连贯性。通过联合学习外观与运动信息,在训练阶段同时预测像素和运动特征,并在推理阶段利用动态引导机制优化生成结果。该技术具备高度通用性,可适配多种视频生成模型,无需调整训练数据或模型结构,已在多项基准测试中表现优异,适用于影视、游戏、教育等多个领域。

ProX

ProX是一种用于提升大型语言模型预训练数据质量的框架,通过自动化编程手段实现数据清洗和精炼。其主要特点包括自动化细粒度数据处理、无需人工干预、显著提升模型性能以及广泛的领域适应性。ProX在多种任务中展示了超过2%的性能提升,并有效降低了训练成本。

Inf

Inf-DiT是由清华大学与智谱AI联合开发的图像上采样技术,基于扩散模型并引入单向块注意力机制(UniBA),有效降低内存消耗,支持超高分辨率图像生成。其采用扩散变换器(DiT)架构,具备灵活的图像上采样能力,并通过全局图像嵌入和交叉注意力机制增强图像的一致性与质量。该技术适用于设计、影视、印刷及医学等领域,具有广泛的应用前景。

Video Diffusion Models

Video Diffusion Models项目展示了扩散模型在视频生成领域的潜力,通过创新的梯度条件方法和自回归扩展技术,生成了具有高度时间连贯性和质量的视频样本。

ViVa AI

Sora同架构视频生成模型,支持文本生成视频、图片生成视频以及 4K 分辨率放大功能,另外也支持提示词的自动优化。