开源

BISHENG毕昇大模型

一款基于 Apache 2.0 License 协议正式开源的领先开源大模型应用开发平台,能搭建分析报告生成、知识库问答、对话、要素提取等多种大模型应用。

LazyGraphRAG

LazyGraphRAG是微软研究院推出的一种图形增强生成增强检索框架,旨在降低数据索引成本并提升查询效率。相比GraphRAG,其索引成本仅为其0.1%,并通过混合搜索策略优化查询性能。该工具支持本地与全局查询,适用于多种应用场景,包括内容推荐、项目管理和客户服务等,且计划开源以促进技术普及。

MM

MM-StoryAgent是由上海交通大学X-LANCE实验室与阿里巴巴集团联合开发的开源多模态、多智能体框架,用于生成沉浸式有声故事绘本视频。它结合大型语言模型与多模态生成技术,通过多阶段写作流程和模态对齐优化,提升故事内容的质量与连贯性。支持灵活模块化设计,适用于儿童教育、数字内容创作、在线教育等多个场景,为故事创作提供高效、可定制的解决方案。

StreamRAG

一个视频搜索和流媒体代理工具,能让您在 ChatGPT 中与您的视频库聊天并观看视频流。

LiberSonora

一个基于AI的、开源有声书工具集,LiberSonora提供智能字幕提取、AI标题生成、多语言翻译等功能,并且支持 GPU 加速、批量离线处理。

KTransformers

KTransformers是一款由清华大学KVCache.AI团队与趋境科技联合开发的开源工具,用于提升大语言模型的推理性能并降低硬件门槛。它支持在24GB显卡上运行671B参数模型,利用MoE架构和异构计算策略实现高效推理,预处理速度达286 tokens/s,推理速度达14 tokens/s。项目提供灵活的模板框架,兼容多种模型,并通过量化和优化技术减少存储需求,适合个人、企业及研究场景使用。

Rasa

一个开源的AI机器学习框架,专注于构建自然语言对话系统,如聊天机器人和语音助手,Rasa广泛应用于客户服务、智能助手、企业自动化等多个领域。

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型,结合Whisper编码器与Qwen2 LLM,支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略,提升模型泛化能力和稳定性。基于约5万小时语音数据训练,性能优异,适用于智能客服、教育、心理健康监测等多个领域。

Gooey.AI

Gooey.AI提供了一个简单、可组合的无代码 AI 平台,让用户可以访问 OpenAI、Stability、Google 等的最新模型。

clone

Clone-Voice是一款基于深度学习的声音克隆工具,支持16种语言的文本转语音及声音风格转换,具有友好的操作界面和较低的硬件要求。它被广泛应用于视频制作、语言学习、有声出版物创作、广告宣传及游戏开发等领域,为用户提供多样化的个性化声音解决方案。