开源 - 智狐AI导航

Fish Speech 1.5

Fish Speech 1.5是一款基于深度学习的文本转语音（TTS）工具，支持多语言文本输入，通过Transformer、VITS、VQVAE和GPT等技术实现高质量语音合成。它具备零样本和少样本语音合成能力，延迟时间短，无需依赖音素，泛化性强，且支持本地化部署。Fish Speech 1.5可应用于有声读物、辅助技术、语言学习及客户服务等多个领域。

AI项目与工具 2025年06月12日 14 点赞 0 评论 698 浏览

AIMv2

AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型，通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练，支持多种参数规模，适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能，并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异，具备良好的可扩展性和零样本适应能力。

AI项目与工具 2025年06月12日 48 点赞 0 评论 698 浏览

Aider

Aider 是一款开源 AI 编程辅助工具，支持多语言开发，集成多种大型语言模型，通过命令行实现代码编辑、自动提交和多文件处理。具备语音编程、图片交互等功能，提升开发效率。适用于新项目搭建、代码修复、重构及团队协作，支持与主流 IDE 集成，提供流畅的开发体验。

AI项目与工具 2025年06月12日 83 点赞 0 评论 697 浏览

OBS Studio

一款免费开源的视频录制及直播串流软件，用户可以通过OBS Studio创建包含多种视频源的场景，进行视频捕捉、合成、编码和录制，支持Windows、macOS、Linux和BSD等多个平台。

直播录屏 2025年06月05日 41 点赞 0 评论 697 浏览

Umi

Umi-OCR 是一款离线 OCR 工具，支持图片、截图和 PDF 文档的文字识别，具备数学公式与二维码识别功能，可生成可搜索 PDF。支持多语言识别与界面切换，提供命令行和 HTTP 接口调用，适用于文档数字化、数据录入、教育等多个场景。

AI项目与工具 2025年06月12日 51 点赞 0 评论 697 浏览

Delta

Delta-CoMe是一种由清华大学NLP实验室牵头研发的增量压缩算法，它通过低秩分解与混合精度量化技术，显著减少了大型语言模型的存储和内存需求，同时保持了模型性能几乎无损。该工具支持多任务处理、推理加速，并广泛适用于云计算、边缘计算及学术研究等领域，特别擅长应对数学、代码和多模态任务。

AI项目与工具 2025年06月12日 58 点赞 0 评论 696 浏览

CodeWhisperer

使用您的 AI 编码配套应用程序更快、更安全地构建应用程序，Amazon CodeWhisperer 是一款基于AI的代码生成器，可帮助您更快地编写更好的代码。

Ai编程建站 2025年06月05日 53 点赞 0 评论 695 浏览

FastAPI

FastAPI-MCP 是一款将 FastAPI 端点自动转换为 MCP 协议的开源工具，支持零配置部署，保留原有接口结构和文档，具备灵活的部署方式和自定义命名功能。适用于企业自动化、AI 应用开发、数据分析等多个场景，提升 AI 与后端服务的交互效率。

AI项目与工具 2025年06月11日 92 点赞 0 评论 695 浏览

Hibiki

Hibiki是一款由Kyutai Labs开发的开源语音翻译解码器，支持实时语音到语音（S2ST）和语音到文本（S2TT）的翻译。其基于多流语言模型架构，结合弱监督学习和上下文对齐技术，实现低延迟、高保真度的翻译效果。适用于国际会议、在线教育、旅游、新闻采访及客户服务等场景，具备良好的实用性和可扩展性。

AI项目与工具 2025年06月12日 31 点赞 0 评论 694 浏览

FlashMLA

FlashMLA 是 DeepSeek 开发的开源 MLA 解码内核，针对 NVIDIA Hopper 架构 GPU 优化，提升可变长度序列处理效率。支持 BF16 精度、页式 KV 缓存及分块调度，内存带宽达 3000 GB/s，算力达 580 TFLOPS。适用于大语言模型推理和 NLP 任务，具备高性能与低延迟特性，支持快速部署与性能验证。

AI项目与工具 2025年06月12日 12 点赞 0 评论 693 浏览

开源

首页

开源

列表

默认

浏览次数

发布日期