PengChengStarling是鹏城实验室开源的多语言语音识别系统,具备实时语音识别功能,可广泛应用于国际会议转录、视频字幕生成和跨语言客服等场景。

该系统基于icefall项目开发,模型体积仅为Whisper-Large v3的20%,但推理速度快7倍。支持中、英、俄、越南、日、泰、印尼和阿拉伯语等8种语言,统一框架处理多语言输入,显著提升识别效率。

主要特点:

  • 高效模型:体积比Whisper-Large v3缩小80%,节省存储和计算资源

  • 快速推理:处理速度提升7倍,适合实时应用

  • 多语言支持:流畅处理8种语言的语音输入

  • 先进架构:采用RNN-T结构,包含Encoder、Decoder和Joiner模块,语音编码器使用Zipformer

  • 性能优越:在6种语言上达到或超越Whisper-Large v3,实时因子仅0.016

应用场景:

  • 智能助手:语音命令识别与响应

  • 客户服务:提升咨询响应速度和准确性

  • 语言教育:辅助发音练习和交流

  • 会议记录:实时转录会议内容

  • 多语言翻译:实现实时跨语言交流

性能测试显示,PengChengStarling在流式语音识别方面表现优异,每种语言约2000小时的开放数据集训练为其多语言能力奠定坚实基础。

系统还支持自适应技术,可根据用户语音特征优化识别准确率,特别适合嘈杂环境使用。

Github:https://github.com/yangb05/PengChengStarling

HuggingFace:https://huggingface.co/stdo/PengChengStarling

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部