PengChengStarling是鹏城实验室开源的多语言语音识别系统,具备实时语音识别功能,可广泛应用于国际会议转录、视频字幕生成和跨语言客服等场景。
该系统基于icefall项目开发,模型体积仅为Whisper-Large v3的20%,但推理速度快7倍。支持中、英、俄、越南、日、泰、印尼和阿拉伯语等8种语言,统一框架处理多语言输入,显著提升识别效率。
主要特点:
高效模型:体积比Whisper-Large v3缩小80%,节省存储和计算资源
快速推理:处理速度提升7倍,适合实时应用
多语言支持:流畅处理8种语言的语音输入
先进架构:采用RNN-T结构,包含Encoder、Decoder和Joiner模块,语音编码器使用Zipformer
性能优越:在6种语言上达到或超越Whisper-Large v3,实时因子仅0.016
应用场景:
智能助手:语音命令识别与响应
客户服务:提升咨询响应速度和准确性
语言教育:辅助发音练习和交流
会议记录:实时转录会议内容
多语言翻译:实现实时跨语言交流
性能测试显示,PengChengStarling在流式语音识别方面表现优异,每种语言约2000小时的开放数据集训练为其多语言能力奠定坚实基础。
系统还支持自适应技术,可根据用户语音特征优化识别准确率,特别适合嘈杂环境使用。
Github:https://github.com/yangb05/PengChengStarling
HuggingFace:https://huggingface.co/stdo/PengChengStarling
发表评论 取消回复