开源

Open Avatar Chat

Open Avatar Chat是阿里开源的模块化实时数字人对话系统,支持低延迟交互与多模态输入输出。系统采用模块化架构,允许灵活配置语音识别、语言模型和语音合成等组件,兼容本地与云服务。支持2D/3D数字人渲染,适用于客户服务、教育、娱乐及企业应用等多个场景,为开发者提供高效、灵活的AI对话解决方案。

DreamStudio

DreamStudio AI是由Stability.ai开发的先进生成式人工智能技术驱动的在线创意工具,允许用户生成图像。Stability.ai是全球领先的开源人工智能公司。

LivePortrait

利用AI技术将静态照片转换为视频,展现逼真的面部表情和动作。

Oumi

Oumi 是一个开源 AI 平台,支持从数据准备到模型部署的全流程开发。它提供零样板代码体验,支持多种训练方法和多模态模型,适用于自动驾驶、人机交互、学术研究等多个场景。平台具备高效的分布式训练能力和灵活的部署选项,适合企业和研究机构使用。

FunAudioLLM

FunAudioLLM是由阿里巴巴通义实验室开发的开源语音大模型项目,包含SenseVoice和CosyVoice两个子模型。SenseVoice擅长多语言语音识别和情感辨识,支持超过50种语言;CosyVoice则专注于自然语音生成,支持多种语言、音色和情感控制。该项目适用于多语言翻译、情感语音对话等场景,其相关模型和代码已公开发布。

Eliza

Eliza是一个基于TypeScript的开源多代理模拟框架,专为创建、部署和管理自主AI代理而设计。其主要功能涵盖多代理架构支持、角色文件框架、检索增强生成系统(RAG)、跨平台集成以及高度可扩展性。Eliza适用于聊天机器人、业务流程自动化、自主代理及游戏NPC等多种应用场景。

Umi

Umi-OCR 是一款离线 OCR 工具,支持图片、截图和 PDF 文档的文字识别,具备数学公式与二维码识别功能,可生成可搜索 PDF。支持多语言识别与界面切换,提供命令行和 HTTP 接口调用,适用于文档数字化、数据录入、教育等多个场景。

Instella

Instella是AMD推出的30亿参数开源语言模型,基于自回归Transformer架构,支持4096标记序列,具备强大的自然语言理解、指令跟随和多轮对话能力。通过多阶段训练和高效优化技术,Instella在多个任务中表现优异,适用于智能客服、内容创作、教育辅导、编程辅助和企业知识管理等多个场景。AMD全面开放了模型资源,促进AI技术发展与社区合作。

Deepfake Defenders

Deepfake Defenders 是一个由中国科学院自动化研究所的 VisionRush 团队开发的开源 AI 模型,主要用于检测和防御 Deepfake 技术生成的伪造图像和视频。它通过分析媒体内容中的细微像素变化来识别伪造内容,并提供像素级分析、实时检测等功能。该模型采用卷积神经网络(CNN)、生成对抗网络(GAN)等技术,支持多模态分析,具备开源协作特性,广泛应用于社交媒体监控、新闻验证

Open Deep Research

Open Deep Research 是一个开源 AI 智能体,支持多语言模型和 Firecrawl 数据提取,用于执行复杂的研究任务。它提供统一 API 和 Next.js 框架,具备实时数据处理、结构化信息提取及多维度分析能力,适用于文献综述、行业分析、投资研究等场景。