
FireRedASR简介
FireRedASR 是由小红书 FireRed 团队于2025年2月9日发布并开源的基于大模型的语音识别模型,它在中文普通话语音识别领域取得了新的SOTA(字错误率CER 3.05%),并支持方言、英语及歌词识别。
FireRedASR的主要功能:
- 高精度语音识别:FireRedASR-LLM(8.3B参数量)在公开测试集上取得了3.05%的字错误率(CER),成为新的SOTA,相比此前的SOTA模型Seed-ASR(12B+参数)降低了8.4%的错误率。
- 高效推理:FireRedASR-AED(1.1B参数量)在保持高准确率的同时,显著提升了推理效率,其CER为3.18%。
- 多场景适配:FireRedASR在短视频、直播、语音输入和智能助手等多种日常场景下表现出色,与业内领先的ASR服务提供商和Paraformer-Large相比,CER相对降低23.7%~40.0%。
- 歌词识别能力:在需要歌词识别能力的场景中,FireRedASR-LLM的CER实现了50.2%~66.7%的相对降低,展现了极强的适配能力。
- 多语言支持:FireRedASR支持普通话,在中文方言和英语语音识别方面表现出色,进一步拓宽了其应用范围。

FireRedASR模型两个核心版本:
FireRedASR-LLM
- 架构:采用Encoder-Adapter-LLM框架,结合大型语言模型Qwen2-7B-Instruct,通过LoRA微调实现端到端语音交互。
- 性能:在普通话基准测试中CER为3.05%,相比前SOTA模型错误率降低8.4%;歌词识别场景CER相对降低50.2%~66.7%。
- 特点:参数8.3B,专注极致精度,适合高要求场景如专业字幕生成。
FireRedASR-AED
- 架构:基于注意力编码器-解码器(Conformer编码器+Transformer解码器),参数1.1B。
- 性能:CER 3.18%,优于12B参数的Seed-ASR,推理效率更高。
- 特点:平衡准确率与计算效率,适合实时应用如直播字幕、语音助手。
FireRedASR技术亮点:
- 多场景适配:在短视频、直播等日常场景中,CER相对降低23.7%~40.0%;支持中文方言和英语。
- 开源生态:模型与代码已开源(GitHub),采用工业级设计,支持社区二次开发。
- 训练策略:LLM版本固定大部分参数,仅训练编码器和适配器,保留预训练能力。
FireRedASR的应用场景
- 智能语音交互:FireRedASR可以应用于智能语音助手、语音输入法等场景,提供高精度的语音识别服务。
- 多媒体内容理解:FireRedASR在视频字幕生成、歌词识别等多媒体内容理解场景中表现出色。
- 日常场景应用:FireRedASR在短视频、直播、语音输入和智能助手等多种日常场景下表现出色,与业内领先的ASR服务提供商和Paraformer-Large相比,CER相对降低23.7%~40.0%。
FireRedASR相关链接:
项目地址:https://github.com/FireRedTeam/FireRedASR
论文地址:https://arxiv.org/abs/2501.14350
数据统计
数据评估
关于FireRedASR特别声明
本站土豆丝提供的FireRedASR都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由土豆丝实际控制,在2025年8月15日 上午12:16收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,土豆丝不承担任何责任。
相关导航

DragGAN,通过DragGAN,任何人都可以通过精确控制像素的位置来变形图像,从而操纵不同类别的姿势、形状、表情和布局。

Anda
Anda,一个以Rust为基础构建的AI智能体框架,整合了ICP区块链并且支持TEE环境,Anda的目标在于构建一个能够高度组合、自主运行且拥有持续记忆能力的AI智能体网络。

IndieHackers.site
IndieHackers.site,独立开发者导航站,发掘最优秀的工具,IndieHackers.site帮助独立开发者发现最佳的开发工具和资源,从而以更快、更好地构建和交付他们的应用程序。

Proxy
Proxy,Convergence Ai开发的基于LMLM的个人AI智能体,Proxy具备自动化浏览Web的能力,能够通过自然语言交互来帮助用户完成各种日常任务。

NotebookCopilot
Notebook Copilot,有了 Notebook CoPilot,开发笔记本的过程变得更加容易。这个简单的工具可以毫不费力地根据您的输入生成代码和 Markdown 单元格,从而显着简化您的工作流程。

Awesome-Ollama-Server
Awesome-Ollama-Server ,一个用于实时监控和检测 Ollama 服务可用性和性能的系统。支持多语言,能够方便用户进行服务检测和性能监控。

VideoSrt
VideoSrt,VideoSrt是一个可以识别视频语音自动生成字幕SRT文件的开源软件工具。适用于快速、批量的为媒体(视频/音频)生成中/英文字幕、文本文件的业务场景。

AISmartCube
AISmartCube,低代码快速搭建AI应用,图形化操作,超多官方模版,AISmartCube让你轻松实现工作场景自动化,让日常工作事半功倍。
暂无评论...
