
新HappyScribe
Happy Scribe,一个将音频转换为文字的自动化和人工转录字幕工具,以高准确度支持多种语言和格式。
SenseVoice,一款阿里通义实验室发布的FunAudioLLM框架多语言音频基础模型,SenseVoice具有多语种、混合语言、音色和情感控制能力。
SenseVoice,一款阿里通义实验室发布的FunAudioLLM框架多语言音频基础模型,enseVoice专注于高精度多语言语音识别、语音情感识别和音频事件检测,具有多语种、混合语言、音色和情感控制能力,在零样本语音生成、跨语言语音克隆和指令跟踪方面的能力表现优秀。
FunAudioLLM 通过结合先进的语音理解和生成技术,可以处理复杂的语音任务,并在多种语言环境中实现自然交。
SenseVoice可以应用于语音翻译、情感语音聊天、互动播客和富有表现力的有声读物朗读等。
SenseVoice具有音频理解能力,包括语音识别(ASR)、语种识别(LID)、语音情感识别(SER)和声学事件分类(AEC)或声学事件检测(AED)
SenseVoice性能:
拥有优秀的情绪识别能力,在测试数据上达到并超越目前最好的情绪识别模型的效果。
提供声音事件检测能力,支持bgm、掌声、笑声、哭泣、咳嗽、打喷嚏等各种常见人机交互事件的检测。
在aiSHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice上测试了多语言语音识别性能和推理效率,中文和粤语,SenseVoice-Small效果好。
github:https://github.com/FunAudioLLM/SenseVoice