模型

Sapiens

Sapiens是由Meta实验室开发的AI视觉模型,主要用于解析图片和视频中的人类动作。它支持2D姿态估计、身体部位分割、深度估计和表面法线预测等功能,采用视觉变换器架构。Sapiens具有强大的泛化能力,适用于虚拟现实、增强现实、3D人体数字化、人机交互、视频监控分析、运动捕捉及医学成像与康复等多个领域。

EVI 3

EVI 3是Hume AI推出的全新语音语言模型,能够同时处理文本和语音标记,实现自然、富有表现力的语音交互。它支持高度个性化,根据用户提示生成任何声音和个性,并实时调节情感和说话风格。在与GPT-4o等模型的对比中,EVI 3在情感理解、表现力、自然度和响应速度等方面表现更优,具备低延迟响应能力,可在300毫秒内生成语音回答。EVI 3适用于智能客服、语音助手、教育辅导、情感支持和内容创作等多个

DevChat

DevChat是一个开源的支持多种大模型的AI编程助手,旨在让编码工作变得更加轻松。它通过与您的集成开发环境(IDE)无缝集成,提供对多个大型语言模型的访问,从而提高编程效率和代...

Rodin

Rodin是一款由影眸科技开发的AI驱动3D生成工具,专注于快速生成高质量的3D模型。它支持文本提示和图片输入生成3D资产,具备多视图融合、模型调整及材质生成等功能,适用于游戏开发、角色建模、虚拟现实等多种场景,同时兼顾生成效率与细节表现,但需进一步优化精度与数据集适应性。

Meta Motivo

Meta Motivo是一款由Meta公司研发的人工智能模型,专为提高元宇宙中虚拟人形智能体的真实性和自然性而设计。通过无监督强化学习算法,Meta Motivo实现了对全身动作的有效控制,支持零样本学习、多任务泛化以及行为模仿等功能。其核心优势在于将状态、动作和奖励统一映射至潜在空间,显著增强了元宇宙体验的真实感。此外,该模型还适用于机器人控制、虚拟助手、游戏动画等多个应用场景。

AndroidLab

AndroidLab 是一款面向 Android 自主代理的训练与评估框架,集成了文本和图像模态操作环境,提供标准化的基准测试任务。它通过支持多种模型类型(LLMs 和 LMMs),覆盖九个应用场景的 138 项任务,有效提升了开源模型的性能。此外,AndroidLab 提供了丰富的评估指标和操作模式,助力研究者优化模型表现并推动开源解决方案的发展。

TPDM

TPDM是一种基于扩散模型的图像生成技术,通过引入时间预测模块(TPM)和强化学习优化策略,实现了对去噪步骤的自适应调整,从而在保证图像质量的同时提高了生成效率。该模型适用于多种应用场景,包括文本到图像生成、艺术创作辅助以及数字媒体内容生产等,广泛应用于广告、游戏设计、影视制作等领域。

Scenario AI

Scenario AI是一家专门为游戏开发者和游戏艺术家创建生成式AI引擎的软件开发公司。借助 Scenario,您可以使用自己的数据和样式为游戏生成一致且高质量的 2D 素材。

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型,支持图像与语音的自然交互。它基于Moshi 7B架构,集成了视觉编码器和跨注意力机制,实现低延迟、自然流畅的对话体验。支持多种后端部署,适用于无障碍应用、智能家居、教育及工业场景,提升人机交互的智能化水平。

SEMIKONG

SEMIKONG是一款针对半导体行业的大型语言模型,专注于解决制造与设计中的复杂问题。它通过整合专家知识、优化预训练流程及微调,实现了对刻蚀等领域的深刻理解,显著提升了半导体制造过程的效率和质量。此外,它还辅助IC设计、提供异常检测与预测性维护支持,并通过专家反馈循环持续改进模型性能,为行业带来了高效的解决方案。