• damtux@feddit.it
      link
      fedilink
      arrow-up
      3
      ·
      edit-2
      1 year ago

      il problema maggiore fino a qualche tempo fa era costituito dalla mancanza di una tecnologia di dettatura vocale completamente open source e specialmente valida quanto le controparti proprietarie…poi è scesa in campo Mozilla con DeepSpeech e Mozilla Common Voice che sono 2 tasselli fondamentali per far funzionare questa tecnologia.

      • DeepSpeech è il motore di riconoscimento vocale
      • Common Voice è un progetto (tutt’ora in corso e che necessita di volontari, anche e specialmente italiani) di raccolta di voci umane che leggono determinate frasi, da utilizzare per allenare il modello di riconoscimento DeepSpeech. L’uno e l’altro sono ovviamente interdipendenti ed egualmente importanti.

      Ora viene la risposta in senso stretto: poichè entrambe le tecnologie sono in sviluppo non esiste ancora una app stabile e “definitiva” di dettatura ma ci sono app beta e in fase di test ad uso ancora prevalente di sviluppatori o utenti geek.

      Common Voice ad es avrebbe bisogno di maggiori “donatori di voce” in italiano (di età diverse) per proseguire più velocemente. Se volete contribuire qui c’è il link

      https://commonvoice.mozilla.org/it

      Si possono registrare le proprie frasi (bisogna leggere le frasi validate ed inserite dalla community italiana Mozilla, facendo attenzione alle poche regole indicate affinché gli audio siano validi e non vengano sempre rifiutati risultando inutili per il progetto) e convalidare gli audio degli altri. Questo sistema di doppio/triplo controllo garantisce che gli audio siano effettivamente validi ed utilizzabili per allenare bene il modello. Anche in fase di convalida gli audio vanno rifiutati se non rispettano le regole indicate.