语音

今天学点啥

“今天学点啥”是一款由秘塔AI开发的AI学习工具,支持用户通过关键词、文档或网页链接生成个性化互动课程,包含PPT和语音讲解。提供多种讲解风格与知识水平适配,具备实时互动、答题挑战和智能推荐功能,适用于学术、职业、兴趣及教育等多种学习场景,提升学习效率与趣味性。

Sketch2Sound

Sketch2Sound是一种由Adobe研究院与西北大学联合开发的AI音频生成技术,通过提取响度、亮度和音高概率等控制信号,结合文本提示生成高质量音效。其轻量化设计使得模型易于适配多种文本到音频框架,同时赋予声音设计师更强的表达力与可控性,广泛适用于电影、游戏、音乐制作及教育等多个领域。

爱幕字幕编辑器

一款在线免费字幕编辑器,爱幕其核心优势在于提供了全面的字幕处理功能,支持视频转码、语音识别、字幕翻译和一键字幕压制等。

RTranslator

RTranslator是一款基于AI技术的开源、免费离线翻译应用,专为Android设备设计。它支持对话模式、对讲机模式及文本翻译功能,能够实现高质量的多语言实时翻译。RTranslator采用Meta的NLLB翻译模型和OpenAI的Whisper语音识别技术,支持多种语言,完全离线运行,保障用户隐私安全。

PDF2Audio

PDF2Audio 是一款开源工具,支持将 PDF 文档转换为音频内容,适用于播客制作、教育、业务演示等多个场景。其核心功能包括 PDF 转文本、生成播客脚本、文本转语音转换、多语言支持及高级编辑功能。用户可通过自定义选项调整文本生成模型、语音风格等,支持批量处理和多种模板适配,方便用户根据需求生成高质量音频。

VoxInstruct

VoxInstruct是清华大学开源的语音合成技术,能够根据人类语言指令生成高质量的语音。该系统采用统一的多语言编解码器语言建模框架,将传统的文本到语音任务扩展到了更广泛的人类指令到语音任务。VoxInstruct通过引入语音语义标记和多种无分类器指导策略,提升了语音合成的自然度和表现力。它支持多语言和跨语言合成,适用于智能语音助手、有声读物、教育培训等多个领域。

悦录

悦录依托同花顺的语音识别技术,为用户提供免费的录音转文字、语音转文字、视频字幕等服务,1小时音频最快5分钟出稿,准确率高达97%+,全程加密,文件信息安全。

Wispr Flow

Wispr Flow 是一款基于AI技术的语音转文字工具,支持100多种语言,具备自动编辑、上下文感知和低音量识别等功能,提升写作与沟通效率。提供免费基础版及付费专业版和团队版,适用于写作、商务、学习等多种场景,注重用户隐私保护,操作便捷自然。

moemate

Moemate是一款集成了多语言对话、屏幕感知、语音克隆和自定义图像模型等功能的AI角色平台。它支持用户创建个性化AI伴侣,并兼容多种语言模型和操作系统。Moemate不仅提供娱乐体验,还具备教育辅助、信息查询和工作效率提升等实用功能,适合个人和企业用户。