开源

RealtimeSTT

RealtimeSTT是一款开源的实时语音转文本库,具备高精度语音活动检测、GPU加速的实时转录能力以及语音唤醒功能。支持多语言识别,适用于语音助手、会议记录、实时字幕等场景,提供灵活的音频输入与预处理机制,便于开发者快速集成和扩展。

AdaCache

AdaCache是一种开源的自适应缓存技术,由Meta开发,用于加速AI视频生成。它通过动态调整计算资源和引入运动正则化策略,优化视频生成过程中的缓存决策,显著提升生成速度,同时保持视频质量。AdaCache无需重新训练即可轻松集成到现有模型中,并适用于多GPU环境,广泛应用于影视制作、视频编辑、在线平台及虚拟现实等领域。

Lobe Vidol

Lobe Vidol是一个开源的数字人创作平台,支持用户轻松创建和定制虚拟偶像。它具备流畅的对话交互、背景设定、动作库、角色编辑功能,还支持MMD舞蹈和PMX舞台加载。通过TTS与STT技术,Lobe Vidol实现了语音与文本的双向转换,提供沉浸式用户体验。 ---

AgentCPM

AgentCPM-GUI是由清华大学与面壁智能团队联合开发的开源端侧GUI代理系统,专为中文应用场景优化。基于MiniCPM-V模型,支持通过截图输入并自主执行用户指令,具备高精度GUI元素识别与OCR能力。采用强化微调和紧凑动作空间设计,提升任务执行效率与移动端适配性。适用于智能助手、自动化测试、老年人辅助及企业应用等领域。

GPT-SoVITS

一个强大的语音合成工具,特别适合需要快速生成特定人声的场景。它通过先进的技术实现了高质量的语音克隆和文本到语音转换,支持多种语言,并提供了易于使用的WebUI工具。

Llama Tutor

Llama Tutor 是一款基于 AI 的开源个性化学习平台,利用 Llama 3.1 和 Together AI 技术生成定制化学习计划,涵盖多学科领域,提供互动式学习体验和精准解答。支持个人学习、学术教育、职业发展和语言学习等应用场景,致力于打造高效、有趣的沉浸式学习环境。

Cube 3D

Cube 3D 是 Roblox 推出的 AI 驱动 3D 生成工具,可通过文本描述快速创建高质量 3D 模型和场景。其核心功能包括文本到 3D 模型生成、网格优化、场景布局预测以及开源扩展能力。基于深度学习与原生 3D 数据训练,Cube 3D 提升了 3D 内容创作效率,适用于游戏开发、虚拟环境设计、教育及个性化创作等多种场景。

MCP Servers

MCP Servers是字节跳动推出的大模型生态平台,为开发者提供高效、灵活的大模型开发与部署环境。通过MCP协议集成搜索、数据库、API等工具,支持模块化开发和全链路闭环。平台整合MCP Market、火山方舟和Trae,实现从工具调用到应用部署的全流程。支持Local和Remote部署模式,涵盖自动化代码生成、智能数据库运维、跨仓库调试等应用场景,助力开发者提升效率。

TripoSR

TripoSR是一款由Stability AI与VAST联合开发的开源3D生成模型,能够在不到0.5秒内从单张2D图像生成高质量的3D模型。基于Transformer架构和大型重建模型(LRM)设计,采用先进的图像编码、三平面NeRF表示及优化训练策略,支持无GPU设备运行。适用于游戏开发、影视制作、建筑设计、产品设计等多个领域,具有高效、高精度和广泛适用性的特点。

Kimina

Kimina-Prover是由月之暗面与Numina团队联合开发的大型数学定理证明模型,采用强化学习技术,在Lean 4语言中实现类人逻辑推理与严谨证明。其“形式化推理模式”结合非形式化推理与代码片段,提升解题效率。在miniF2F基准测试中达到80.7%准确率,显著优于现有模型。具备高样本效率与良好可扩展性,适用于科研、软件测试、算法验证等多个领域。1.5B和7B参数版本已开源。