uni memo

kaldiで英語の音声認識テストまで

kaldiで英語の音声認識テストまで

kaldiという音声処理のOSSを試した

tedium model(TEDの公演を学習したモデル)を使って、音声認識するまで行う。ソフトウェアはdockerコンテナで起動する

モデル、テストデータの準備

ホストマシンで行う

モデルのダウンロード

mkdir -p test/models
cd test/models

wget --no-check-certificate https://phon.ioc.ee/~tanela/tedlium_nnet_ms_sp_online.tgz

tar zxvf tedlium_nnet_ms_sp_online.tgz

ls -
english  tedlium_nnet_ms_sp_online.tgz

テストデータのダウンロード

mkdir -p test/data
test/data
wget https://raw.githubusercontent.com/alumae/kaldi-gstreamer-server/master/test/data/bill_gates-TED.mp3
wget https://raw.githubusercontent.com/alumae/kaldi-gstreamer-server/master/test/data/bill_gates-TED.txt

docker-composeの作成

version: '3.3'
services:
  app:
    image: jcsilva/docker-kaldi-gstreamer-server
    volumes:
      - ./test:/opt/test
    ports:
      - 8080:80

起動とテスト

https://github.com/jcsilva/docker-kaldi-gstreamer-server#how-to-use)) https://github.com/jcsilva/docker-kaldi-gstreamer-server#testing)) を参考にする

  • サーバ起動
docker-compose run --rm -p 8080:80 app /bin/bash

でコンテナ内に入って

cd /
sh start.sh -y /opt/kaldi-gstreamer-server/sample_english_nnet2.yaml

でサーバの起動 websocketを使うらしい

  • 起動確認

http://www.websocket.org/echo.html

からLocationを

ws://localhost:8080/client/ws/status

に設定してconnectして

RECEIVED: {"num_workers_available": 1, "num_requests_processed": 0}

と返ってくれば起動成功

  • テスト
python kaldigstserver/client.py -u ws://localhost:80/client/ws/speech  -r 8192 /opt/test/data/bill_gates-TED.mp3

を実行すると認識結果が流れる

references

2025, Built with Gatsby. This site uses Google Analytics.