语音

Ichigo

Ichigo是一款开源的多模态AI语音助手,采用混合模态模型,支持实时处理语音和文本交织序列。它通过统一的Transformer架构实现跨模态联合推理,提供低延迟的实时性能,并支持多语言、多轮对话及模糊输入处理。Ichigo适用于智能家居、个人助理、客户服务、教育和健康咨询等多种应用场景,展现了高效、灵活的技术优势。

TurboTTS

TurboTTS是一款支持多语言的在线文本转语音工具,提供300多种真实语音选择,生成自然流畅的语音效果。适用于短视频、教育、广告及播客等多种场景,操作简单,支持多种音频格式下载,并可合法用于商业用途。凭借AI技术,用户能高效完成语音内容制作,满足多样化需求。

easegen

Easegen 是一款开源的 AI 工具,支持数字人课程的制作与管理。它能够批量生成 PPT 课件、克隆数字人形象和声音,并通过 AI 技术实现视频渲染和智能出题。其核心功能包括课程制作、视频管理、智能课件生成、数字人克隆及声音克隆,旨在提升教学内容的互动性和趣味性。Easegen 的技术基础涵盖人工智能、计算机视觉、自然语言处理和语音合成等,适用于在线教育、企业培训、学术研究、语言学习及职业培训

ElevenLabs

ElevenLabs 是一个为内容创作者和出版商提供功能强大且用途广泛的 AI 语音软件的平台。它允许用户使用其先进的多用途 AI 语音工具以任何语音和风格生成高质量的口语音频。

Jellypod

Jellypod 是一款基于 AI 的播客制作工具,支持从网页、PDF 等多种格式自动生成脚本并转为音频,涵盖 30 多种语言和口音。用户可自定义 AI 主持人,编辑脚本并一键发布到主流平台,具备高质量音频生成与内容管理功能,适用于企业、教育和个人品牌建设等场景。

Ondoku

Ondoku 是一款支持多语言的文字转语音工具,提供文本输入、图片文字提取及语音调整功能。用户可将文本或图片中的文字转换为自然语音,并下载为音频文件。适用于教育、娱乐、商务等多种场景,如课程讲解、有声书制作和视频配音,提升信息传播效率。

海豚配音

一款集逼真效果、丰富音色和细腻情感于一体的全能AI配音平台。拥有超过500种栩栩如生的真人音色和1000多种独具特色的二次元音色。

WhisperFusion

一个基于WhisperLive把声音转文字和WhisperSpeech理解这些文字的能力构建。能够与AI聊天机器人进行超低延迟对话。

S10.AI

S10.AI是一款基于人工智能的医疗辅助工具,主要功能包括实时生成精准的临床记录、EHR系统集成、自动化编码以及临床决策支持。它通过语音识别技术简化医生的工作流程,显著提升工作效率,同时保障数据安全与隐私合规。该工具适用于各类医疗机构、心理治疗机构及独立诊所,支持多语言转录并提供高度自定义选项。