Aero-1-Audio 是由 LMMs-Lab 研发的一款轻量级音频模型,基于 Qwen-2.5-1.5B 构建,参数量为 1.5 亿。该模型专为长音频处理设计,支持连续输入长达 15 分钟的音频内容,无需分段即可保持上下文连贯性。在语音识别(ASR)任务中表现优异,具备较高的准确率,并在复杂音频分析和指令驱动任务方面展现出较强的能力。 Aero-1-Audio 具备多项核心功能,包括长音频处理、高精度语音识别、多类型音频分析以及指令执行能力,适用于多种实际场景。其技术架构强调高效与轻量化,通过优化训练方法和计算资源利用,实现了在较小规模下达到高性能的效果。此外,模型支持多任务处理,在多个基准数据集上取得了良好的词错误率(WER)表现。 项目已在 HuggingFace 模型库上线,方便开发者进行调用和研究。
发表评论 取消回复