开源

FastAPI

FastAPI-MCP 是一款将 FastAPI 端点自动转换为 MCP 协议的开源工具,支持零配置部署,保留原有接口结构和文档,具备灵活的部署方式和自定义命名功能。适用于企业自动化、AI 应用开发、数据分析等多个场景,提升 AI 与后端服务的交互效率。

CodeWhisperer

使用您的 AI 编码配套应用程序更快、更安全地构建应用程序,Amazon CodeWhisperer 是一款基于AI的代码生成器,可帮助您更快地编写更好的代码。

Delta

Delta-CoMe是一种由清华大学NLP实验室牵头研发的增量压缩算法,它通过低秩分解与混合精度量化技术,显著减少了大型语言模型的存储和内存需求,同时保持了模型性能几乎无损。该工具支持多任务处理、推理加速,并广泛适用于云计算、边缘计算及学术研究等领域,特别擅长应对数学、代码和多模态任务。

Aider

Aider 是一款开源 AI 编程辅助工具,支持多语言开发,集成多种大型语言模型,通过命令行实现代码编辑、自动提交和多文件处理。具备语音编程、图片交互等功能,提升开发效率。适用于新项目搭建、代码修复、重构及团队协作,支持与主流 IDE 集成,提供流畅的开发体验。

OBS Studio

一款免费开源的视频录制及直播串流软件,用户可以通过OBS Studio创建包含多种视频源的场景,进行视频捕捉、合成、编码和录制,支持Windows、macOS、Linux和BSD等多个平台。

AIMv2

AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型,通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练,支持多种参数规模,适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能,并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异,具备良好的可扩展性和零样本适应能力。

Umi

Umi-OCR 是一款离线 OCR 工具,支持图片、截图和 PDF 文档的文字识别,具备数学公式与二维码识别功能,可生成可搜索 PDF。支持多语言识别与界面切换,提供命令行和 HTTP 接口调用,适用于文档数字化、数据录入、教育等多个场景。

Fish Speech 1.5

Fish Speech 1.5是一款基于深度学习的文本转语音(TTS)工具,支持多语言文本输入,通过Transformer、VITS、VQVAE和GPT等技术实现高质量语音合成。它具备零样本和少样本语音合成能力,延迟时间短,无需依赖音素,泛化性强,且支持本地化部署。Fish Speech 1.5可应用于有声读物、辅助技术、语言学习及客户服务等多个领域。

FastGPT

FastGPT是一款开源的AI知识库构建平台,支持多种文档格式导入和自动预处理,提供可视化工作流设计、多模型兼容及API集成功能。用户可快速构建智能问答系统和自动化流程,适用于客服、知识管理、教育、医疗和旅游等多个场景。平台提供不同版本的定价方案,满足个人、团队及企业的需求。

OpenVoice

OpenVoice是一款由MyShell开发的免费开源AI语音克隆工具,其主要功能包括精准的音色和音调克隆及灵活的语音风格控制。该工具能够捕捉并复制不同语言或口音的音色,生成自然流畅的语音,并支持零样本跨语言语音克隆。开发者可以通过GitHub项目地址进行本地安装和运行,也可以通过Lepton AI、MyShell或HuggingFace提供的在线演示体验该工具。