Aggregatore degli strumenti per la generazione di un modello di machine learning per la lingua Italiana del progetto Common Voice. Ci trovi su Telegram con il nostro bot @mozitabot nel gruppo Developers dove dirigiamo e discutiamo lo sviluppo oppure sul forum.
- Ticket e pull requests in inglese
- Readme in Italiano
Python 3.7+
# Attiva un virtualenv
virtualenv -p python3 $HOME/tmp/deepspeech-venv/
source $HOME/tmp/deepspeech-venv/bin/activate
# Installa DeepSpeech
pip3 install deepspeech==0.8.0
# Scarica e scompatta i file per il modello italiano (verifica l'ultima versione rilasciata!)
curl -LO https://github.com/MozillaItalia/DeepSpeech-Italian-Model/releases/download/2020.08.07/model_tensorflow_it.tar.xz
tar xvf model_tensorflow_it.tar.xz
# Oppure utilizza il modello italiano con transfer learning da quello inglese (verifica l'ultima versione rilasciata!)
curl -LO https://github.com/MozillaItalia/DeepSpeech-Italian-Model/releases/download/2020.08.07/transfer_model_tensorflow_it.tar.xz
tar xvf transfer_model_tensorflow_it.tar.xz
# Trascrivi un file audio MONO, formato WAV e campionato a 16000Hz
deepspeech --model output_graph.pbmm --scorer scorer --audio your/path/to/audio/sampled_at_16Khz.wav
Da 08/2020 rilasciamo il modello in due versioni, puro ovvero solo dataset di lingua italiana (specificato nel release) e la versione con transfer learning.
La seconda versione include il transfer learning dal modello di lingua ufficiale rilasciato da Mozilla, che include altri dataset oltre a quello di Common Voice superando le oltre 7000 ore di materiale. Questo modello si è dimostrato molto piú affidabile nel riconoscimento viste le poche ore di lingua italiana che disponiamo al momento.
Nella cartella MITADS sono presenti tutti gli script che permettono la generazione del corpus testuale MITADS. Per maggiori informazioni fare riferimento al README relativo.
Fare riferimento al README nella cartella DeepSpeech per la documentazione necessaria per creare l'immagine Docker utilizzata per addestrare il modello acustico e del linguaggio.
Fare riferimento al README in notebooks.
- Roadmap per lo sviluppo
- Pacchetto di esempio su come è strutturato il dataset di Common Voice
- Esempi di importatore di dataset minimali: ldc93s1 python per DeepSpeech e lanciatore bash
- https://voice.mozilla.org/it
- https://github.com/mozilla/DeepSpeech
- https://github.com/mozilla/voice-corpus-tool
- https://github.com/Common-Voice/sentence-collector
- https://github.com/Common-Voice/commonvoice-fr - Il repository da cui questo è derivato
- https://github.com/MozillaItalia/voice-web - Il dataset primario di frasi italiane lo manteniamo qui