Vosk是基于Kaldi集成的一个轻量级平台服务器,它可以实现和多种服务器端协议集成 国内感觉没法直接在Docker Hub上面下载,特提供了一个下载的Docker镜像包百度网盘的下载
- 通过网盘分享的文件:kali-cn.tar 链接: https://pan.baidu.com/s/18eiBLGBI5ESkYsd02QlDpg 提取码: suum
docker load -i kali-cn.tar
docker run -d -p 2700:2700 alphacep/kaldi-cn:latest
下载镜像文件到服务器,装好docker,然后把镜像load到本地,再run镜像,就可以将VOSK Kali中文语音识别模型搭建好了, 具体怎么应用看这里
FunASR是阿里达摩院提供一个基础的语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复(PR)、语言模型(LM)、说话人分离 提供一个Docker 的镜像包百度网盘下载
- 链接:https://pan.baidu.com/s/1PTVgR2WLgsKoXYBrr0ovIw?pwd=sjnc 提取码:sjnc
- 复制这段内容后打开百度网盘手机App,操作更方便哦
docker load -i funasr.tar
mkdir -p ./funasr-runtime-resources/models
sudo docker run -p 10095:10095 -it --privileged=true \
-v $PWD/funasr-runtime-resources/models:/workspace/models \
registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6
服务端启动,docker启动之后,进入到docker里边
docker exec -it <imageid> /bin/bash
启动funasr-wss-server服务程序(有16K 和 8K模型可选择):
cd FunASR/runtime
nohup bash run_server.sh \
--download-model-dir /workspace/models \
--vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \
--model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx \
--punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \
--lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \
--itn-dir thuduj12/fst_itn_zh \
--hotword /workspace/models/hotwords.txt > log.txt 2>&1 &
#查看打印日志
tail -f log.txt
如果您想关闭SSL,增加参数:--certfile 0 如果您想部署8k的模型,请使用如下命令启动服务:
cd FunASR/runtime
nohup bash run_server.sh \
--download-model-dir /workspace/models \
--vad-dir damo/speech_fsmn_vad_zh-cn-8k-common-onnx \
--model-dir damo/speech_paraformer_asr_nat-zh-cn-8k-common-vocab8358-tensorflow1-onnx \
--punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \
--lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst-token8358 \
--itn-dir thuduj12/fst_itn_zh \
--hotword /workspace/models/hotwords.txt > log.txt 2>&1 &
使用客户端测试 官方提供了:html页面、java、python、cpp 将docker镜像中的html页面下载到宿主机,然后下载到本机
docker cp <容器 ID 或名称>:/workspace/FunASR/runtime/html5 /funasr-runtime-resources
在浏览器中打开html/static/index.html,即可出现如下页面,支持麦克风输入与文件上传,直接进行体验。
再给大家提供一个语音识别测试wav数据集(中文250条英文150条)
- 链接:https://pan.baidu.com/s/1VZsJ8ooU9W9m4QNW4NLJ2g?pwd=rih9 提取码:rih9 复制这段内容后打开百度网盘手机App,操作更方便哦