模型

AniTalker

AniTalker是一款先进的AI工具,能将单张静态人像与音频同步转化为生动的动画对话视频。它通过自监督学习捕捉面部动态,采用通用运动表示和身份解耦技术减少对标记数据的依赖,同时结合扩散模型和方差适配器生成多样且可控的面部动画。AniTalker支持视频驱动和语音驱动两种方式,并具备实时控制动画生成的能力。

LLM2LLM

LLM2LLM是一种基于教师-学生架构的迭代数据增强方法,通过生成针对性的合成数据提升语言模型在低数据量场景下的性能。该技术通过识别并强化模型预测错误的数据点,实现精准优化,同时控制数据质量和规模。适用于医学、法律、教育等数据稀缺领域,具有良好的可扩展性和实用性。

Etna模型

一个文字转视频的AIGC模型,Etna能够根据简短的文本描述生成相应的视频内容,支持生成时长为8-15秒的视频,且视频流畅度极高,每秒可达60帧。

CAMPHOR

CAMPHOR是一款由苹果团队研发的端侧小型语言模型多智能体框架,通过在设备本地处理用户输入并进行个人上下文推理,实现了高效的隐私保护与快速响应。其分层架构包含高阶推理智能体和多个专家智能体,能够分解复杂任务、与设备工具交互并生成动态执行计划。此外,通过参数共享和提示压缩技术,大幅降低了模型资源需求。

Google AI Edge Gallery

Google AI Edge Gallery 是谷歌推出的实验性应用,支持在 Android 设备上本地运行机器学习和生成式人工智能模型,无需联网。用户可切换不同模型,进行图像问答、文本生成、多轮对话等操作,并实时查看性能指标。应用支持自带模型测试,提供丰富的开发者资源,助力探索设备端 AI 的强大功能。

无问芯穹

​无问芯穹致力于提供卓越的AGI算力解决方案,以大模型能效优化工具包为核心,向下联动多家国产芯片公司,向上通过智算云服务、智算一体机多种方式服务大模型算法企业,协同算力、算法、生态推动行业大模型的高效落地,构建AGI时代的大模型基础设施。

Aether

Aether是由上海AI Lab开发的生成式世界模型,基于合成数据训练,具备4D动态重建、动作条件视频预测和目标导向视觉规划等核心功能。它通过三维时空建模和多任务协同优化,实现对环境的精准感知与智能决策,具有出色的零样本泛化能力,适用于机器人导航、自动驾驶、虚拟现实等多个领域。

ReasonGraph

ReasonGraph 是一个开源平台,用于可视化和分析大语言模型(LLM)的推理过程。它支持多种主流模型和推理方法,提供直观的图表展示和交互式功能,帮助用户理解 AI 思考逻辑、优化模型表现。模块化设计使其易于扩展,适用于学术研究、教育、开发等多个领域。

GitHub Spark

GitHub Spark是一款基于自然语言处理的AI编程工具,支持多种高级AI模型,允许用户通过自然语言描述需求快速生成微应用程序。其主要功能包括即时预览、多模型选择、自动保存和版本控制。用户可以轻松定制应用程序的外观和功能,适用于个人生产力、教育、财务、健康及娱乐等多个领域。

OpenEMMA

OpenEMMA是一个开源的端到端自动驾驶多模态模型框架,基于预训练的多模态大型语言模型(MLLMs),能够处理视觉数据和复杂驾驶场景的推理任务。它通过链式思维推理机制提升轨迹规划和感知任务性能,并集成了优化的YOLO模型以提高3D边界框预测的准确性。此外,OpenEMMA支持人类可读的输出,适用于多种驾驶环境,包括城市道路、高速公路、夜间及复杂天气条件下的驾驶。