语音交互

字狐AI

字狐AI是一款集成多种AI功能的浏览器插件,主要功能包括智能问答、网页信息提取、写作辅助、PDF转换及OCR文字识别。用户可通过语音或文字与之互动,快速获取所需信息并提升工作效率。支持多语言识别与编辑,适用于办公文档处理、写作创作、资料阅读及PPT制作等场景。

Martin

Martin是一款由大学生团队开发的人工智能助手,支持语音交互与多平台通信,具备日程管理、邮件处理、任务跟踪、文件管理等功能。它通过自定义记忆架构理解用户偏好,提供个性化服务,适用于日常办公和生活管理,提升工作效率与便利性。

Mini

Mini-Omni 是一个开源的端到端语音对话模型,具备实时语音输入和输出的能力,能在对话中实现“边思考边说话”的功能。模型设计无需额外的自动语音识别(ASR)或文本到语音(TTS)系统,直接进行语音到语音的对话。Mini-Omni 采用文本指导的语音生成方法,通过批量并行策略提高性能,同时保持了原始模型的语言能力。它支持实时语音交互、文本和语音并行生成、跨模态理解等功能,适用于智能助手、客户服务

MinMo

MinMo是阿里巴巴通义实验室推出的多模态语音交互大模型,具备高精度语音识别与生成能力。支持情感表达、方言转换、音色模仿及全双工交互,适用于智能客服、教育、医疗等多个领域,提升人机对话的自然度与效率。

Voila

Voila是一款开源的端到端语音大模型,支持实时语音交互与多轮对话,具备高保真、低延迟的音频处理能力。集成语音与语言建模功能,支持百万级预设声音及个性化定制,适用于语音助手、角色扮演、语音翻译等场景。采用多尺度Transformer架构,提升语音理解与生成质量,降低开发成本,提高通用性与灵活性。

Oliva

Oliva 是一款基于语音驱动的 RAG 助手,结合 Langchain 和 Qdrant 向量数据库,实现语音指令到结构化数据的实时响应。支持多智能体协作、语义搜索与灵活知识库集成,适用于企业知识库、智能客服、智能家居等多种场景。具备语音识别、实时通信和自然语言处理能力,提升信息获取与交互效率。

Moshi

Moshi是一款由法国Kyutai实验室开发的端到端实时音频多模态AI模型,具备听、说、看的能力,并能模拟70种不同的情绪和风格进行交流。Moshi具有多模态交互、情绪和风格表达、实时响应低延迟、语音理解与生成、文本和音频混合预训练以及本地设备运行等特点。它支持英语和法语,主要应用于虚拟助手、客户服务、语言学习、内容创作、辅助残障人士、研究和开发、娱乐和游戏等领域。

KHOJ

KHOJ是一款开源的AI助手,支持多源知识整合与语义搜索,兼容多种文档格式和AI模型。提供图像生成、语音交互、跨平台访问等功能,支持本地与云端部署,适用于个人知识管理、学习研究、团队协作等场景,具有高度灵活性和可扩展性。

Sierra

Sierra 是一款基于对话式 AI 的客户服务解决方案,支持多语言、语音交互和品牌一致性,可实时处理复杂客户问题并优化体验。平台具备强大的适应性和数据分析能力,适用于零售、金融、电信等多个行业,提供高效、个性化的客户支持服务。

Quick Mock

Quick Mock 是一款由 MirWork AI 开发的 AI 驱动型面试准备工具,能够将职位描述转化为定制化模拟面试体验。用户可通过 Chrome 扩展程序与 AI 面试官进行实时语音对话,并获得详细的反馈和评分。该工具支持与 LinkedIn 等平台集成,简化了面试练习流程,适用于求职者、企业培训及教学辅助等多种场景,有效提升沟通能力和面试表现。