Mi chiedevo.. Anche a [@lealternative](https://feddit.it/c/lealternative) ..ma esiste una app open source e rispettosa della privacy per la dettatura vocale di note o testo?

sposadelvento@mastodon.uno · 1 year ago

Mi chiedevo.. Anche a [@lealternative](https://feddit.it/c/lealternative) ..ma esiste una app open source e rispettosa della privacy per la dettatura vocale di note o testo?

damasko@mastodon.uno · 1 year ago

@sposadelvento @lealternative sarebbe utile anche a me, per evitare google

damtux@feddit.it · edit-2 1 year ago

il problema maggiore fino a qualche tempo fa era costituito dalla mancanza di una tecnologia di dettatura vocale completamente open source e specialmente valida quanto le controparti proprietarie…poi è scesa in campo Mozilla con DeepSpeech e Mozilla Common Voice che sono 2 tasselli fondamentali per far funzionare questa tecnologia.

DeepSpeech è il motore di riconoscimento vocale
Common Voice è un progetto (tutt’ora in corso e che necessita di volontari, anche e specialmente italiani) di raccolta di voci umane che leggono determinate frasi, da utilizzare per allenare il modello di riconoscimento DeepSpeech. L’uno e l’altro sono ovviamente interdipendenti ed egualmente importanti.

Ora viene la risposta in senso stretto: poichè entrambe le tecnologie sono in sviluppo non esiste ancora una app stabile e “definitiva” di dettatura ma ci sono app beta e in fase di test ad uso ancora prevalente di sviluppatori o utenti geek.

Common Voice ad es avrebbe bisogno di maggiori “donatori di voce” in italiano (di età diverse) per proseguire più velocemente. Se volete contribuire qui c’è il link

https://commonvoice.mozilla.org/it

Si possono registrare le proprie frasi (bisogna leggere le frasi validate ed inserite dalla community italiana Mozilla, facendo attenzione alle poche regole indicate affinché gli audio siano validi e non vengano sempre rifiutati risultando inutili per il progetto) e convalidare gli audio degli altri. Questo sistema di doppio/triplo controllo garantisce che gli audio siano effettivamente validi ed utilizzabili per allenare bene il modello. Anche in fase di convalida gli audio vanno rifiutati se non rispettano le regole indicate.

darhma@feddit.it · 1 year ago

Esiste Vosk che può essere utilizzəto tramite l’app Dicio, mi pare che esistesse anche un’altra implementazione per android ma in questo momento non ricordo il nome.

nulll@mastodon.social · edit-2 1 year ago

@darhma @sposadelvento provato su android ma se dico “metti un timer a 5 minuti”, mostra a video correttamente la frase ma non la riconosce. Eppure è una delle frasi “demo”, sono confuso.

nulll@mastodon.social · 1 year ago

@darhma @sposadelvento fermi tutti! Riavviata la app ora funziona.

sposadelvento@mastodon.uno · 1 year ago

@nulll @darhma ma grazie adesso la provo!!

darhma@feddit.it · 1 year ago

L’altra app sempre basata su vosk è https://github.com/ElishaAz/Sayboard

suoko@feddit.it · edit-2 1 year ago

Esiste un software, l’app manca ancora credo

https://www.debugpoint.com/speech-note-text-to-speech/?amp=1

Essendo Qt, il porting su android dovrebbe essere fattibile

damtux@feddit.it · 1 year ago

utilizza Whisper di OpenAI, rating “yellow” da Nextcloud.

Ethical AI Rating Rating: 🟡

Positive:

the software for training and inference of this model is open source

the trained model is freely available, and thus can be run on-premises

Negative:

the training data is not freely available, limiting the ability of external parties to check and correct for bias or optimise the model’s performance and CO2 usage. -> motivo per cui Common Voice di Mozilla è importante!