Mi chiedevo… Anche a @lealternative …ma esiste una app open source e rispettosa della privacy per la dettatura vocale di note o testo?
#dettaturavocale #UtilizzoQuotidiano
@sposadelvento @lealternative sarebbe utile anche a me, per evitare google
il problema maggiore fino a qualche tempo fa era costituito dalla mancanza di una tecnologia di dettatura vocale completamente open source e specialmente valida quanto le controparti proprietarie…poi è scesa in campo Mozilla con DeepSpeech e Mozilla Common Voice che sono 2 tasselli fondamentali per far funzionare questa tecnologia.
- DeepSpeech è il motore di riconoscimento vocale
- Common Voice è un progetto (tutt’ora in corso e che necessita di volontari, anche e specialmente italiani) di raccolta di voci umane che leggono determinate frasi, da utilizzare per allenare il modello di riconoscimento DeepSpeech. L’uno e l’altro sono ovviamente interdipendenti ed egualmente importanti.
Ora viene la risposta in senso stretto: poichè entrambe le tecnologie sono in sviluppo non esiste ancora una app stabile e “definitiva” di dettatura ma ci sono app beta e in fase di test ad uso ancora prevalente di sviluppatori o utenti geek.
Common Voice ad es avrebbe bisogno di maggiori “donatori di voce” in italiano (di età diverse) per proseguire più velocemente. Se volete contribuire qui c’è il link
https://commonvoice.mozilla.org/it
Si possono registrare le proprie frasi (bisogna leggere le frasi validate ed inserite dalla community italiana Mozilla, facendo attenzione alle poche regole indicate affinché gli audio siano validi e non vengano sempre rifiutati risultando inutili per il progetto) e convalidare gli audio degli altri. Questo sistema di doppio/triplo controllo garantisce che gli audio siano effettivamente validi ed utilizzabili per allenare bene il modello. Anche in fase di convalida gli audio vanno rifiutati se non rispettano le regole indicate.
@darhma @sposadelvento provato su android ma se dico “metti un timer a 5 minuti”, mostra a video correttamente la frase ma non la riconosce. Eppure è una delle frasi “demo”, sono confuso.
@darhma @sposadelvento fermi tutti! Riavviata la app ora funziona.
L’altra app sempre basata su vosk è https://github.com/ElishaAz/Sayboard
Esiste un software, l’app manca ancora credo
https://www.debugpoint.com/speech-note-text-to-speech/?amp=1
Essendo Qt, il porting su android dovrebbe essere fattibile
utilizza Whisper di OpenAI, rating “yellow” da Nextcloud.
Ethical AI Rating Rating: 🟡
Positive:
- the software for training and inference of this model is open source
- the trained model is freely available, and thus can be run on-premises
Negative:
- the training data is not freely available, limiting the ability of external parties to check and correct for bias or optimise the model’s performance and CO2 usage. -> motivo per cui Common Voice di Mozilla è importante!