模型

Moonshine

Moonshine是一款专为资源受限设备设计的高效语音识别模型,支持实时语音转文本,具有低延迟、高准确率的特点。它基于编码器-解码器架构和旋转位置嵌入技术,适应不同长度的音频输入,计算需求随音频长度变化而调整,适合边缘设备部署。主要应用于会议转录、语音助手、听力辅助及多语言翻译等领域。

北极九章

一家专注于增强型数据分析的公司,通过其AI数据洞察引擎DataGPT,北极九章致力于让数据触手可及,成为真正的生产力和创造力。

VideoRefer

VideoRefer是由浙江大学与阿里达摩院联合开发的视频对象感知与推理系统,基于增强型视频大型语言模型,实现对视频中对象的细粒度理解与分析。其核心包括大规模视频数据集、多功能空间-时间编码器和全面评估基准,支持对象识别、关系分析、推理预测及多模态交互等功能,适用于视频剪辑、教育、安防、机器人控制和电商等多个领域。

琴乐大模型

琴乐大模型是一款由腾讯AI Lab与腾讯TME天琴实验室联合开发的人工智能音乐创作工具。该工具能够根据用户输入的关键词、描述性语句或音频,生成高质量的立体声音频或多轨乐谱,并支持自动编辑功能。琴乐大模型采用先进的技术框架,包括音频文本对齐、乐谱/音频表征提取、大语言模型预测以及流匹配和声码器技术,确保生成的音乐符合音乐理论和人类审美标准。

Open Avatar Chat

Open Avatar Chat是阿里开源的模块化实时数字人对话系统,支持低延迟交互与多模态输入输出。系统采用模块化架构,允许灵活配置语音识别、语言模型和语音合成等组件,兼容本地与云服务。支持2D/3D数字人渲染,适用于客户服务、教育、娱乐及企业应用等多个场景,为开发者提供高效、灵活的AI对话解决方案。

腾讯混元T1

T1(Thinker)是腾讯混元推出的深度思考模型,支持逻辑推理与联网搜索,具备高速响应和长文本处理能力。采用Hybrid-Mamba-Transformer架构,提升推理效率与准确性。适用于教育、医疗、市场分析等多个领域,输出简洁、幻觉低,适合复杂指令处理和多任务场景。

DragAnything

DragAnything 是一款由快手与高校联合研发的视频生成工具,通过实体表示和轨迹输入实现对视频中物体的精确运动控制。它支持多实体独立操作、相机运动调整,并采用扩散模型生成高质量视频内容。具备用户友好的交互方式,适用于视频编辑、游戏开发、教育及广告等多个场景。

FlashMLA

FlashMLA 是 DeepSeek 开发的开源 MLA 解码内核,针对 NVIDIA Hopper 架构 GPU 优化,提升可变长度序列处理效率。支持 BF16 精度、页式 KV 缓存及分块调度,内存带宽达 3000 GB/s,算力达 580 TFLOPS。适用于大语言模型推理和 NLP 任务,具备高性能与低延迟特性,支持快速部署与性能验证。

TryOffDiff

TryOffDiff是一种基于扩散模型的虚拟试穿技术,通过高保真服装重建实现从单张穿着者照片生成标准化服装图像的功能。它能够精确捕捉服装的形状、纹理和复杂图案,并在生成模型评估和高保真重建领域具有广泛应用潜力,包括电子商务、个性化推荐、时尚设计展示及虚拟时尚秀等场景。

TongGeometry

TongGeometry是由北京通用人工智能研究院与北京大学人工智能研究所联合开发的几何模型,采用树搜索和神经符号推理技术,能自动生成高质量的几何竞赛题并完成证明。该工具构建了庞大的几何定理库,涵盖67亿个需辅助构造的定理,具备广泛应用场景,如数学竞赛、教育及研究领域,支持复杂几何问题的探索与教学资源开发。