• damtux@feddit.it
      link
      fedilink
      arrow-up
      3
      ·
      edit-2
      1 year ago

      il problema maggiore fino a qualche tempo fa era costituito dalla mancanza di una tecnologia di dettatura vocale completamente open source e specialmente valida quanto le controparti proprietarie…poi è scesa in campo Mozilla con DeepSpeech e Mozilla Common Voice che sono 2 tasselli fondamentali per far funzionare questa tecnologia.

      • DeepSpeech è il motore di riconoscimento vocale
      • Common Voice è un progetto (tutt’ora in corso e che necessita di volontari, anche e specialmente italiani) di raccolta di voci umane che leggono determinate frasi, da utilizzare per allenare il modello di riconoscimento DeepSpeech. L’uno e l’altro sono ovviamente interdipendenti ed egualmente importanti.

      Ora viene la risposta in senso stretto: poichè entrambe le tecnologie sono in sviluppo non esiste ancora una app stabile e “definitiva” di dettatura ma ci sono app beta e in fase di test ad uso ancora prevalente di sviluppatori o utenti geek.

      Common Voice ad es avrebbe bisogno di maggiori “donatori di voce” in italiano (di età diverse) per proseguire più velocemente. Se volete contribuire qui c’è il link

      https://commonvoice.mozilla.org/it

      Si possono registrare le proprie frasi (bisogna leggere le frasi validate ed inserite dalla community italiana Mozilla, facendo attenzione alle poche regole indicate affinché gli audio siano validi e non vengano sempre rifiutati risultando inutili per il progetto) e convalidare gli audio degli altri. Questo sistema di doppio/triplo controllo garantisce che gli audio siano effettivamente validi ed utilizzabili per allenare bene il modello. Anche in fase di convalida gli audio vanno rifiutati se non rispettano le regole indicate.

  • darhma@feddit.it
    link
    fedilink
    arrow-up
    1
    ·
    1 year ago

    Esiste Vosk che può essere utilizzəto tramite l’app Dicio, mi pare che esistesse anche un’altra implementazione per android ma in questo momento non ricordo il nome.

    • damtux@feddit.it
      link
      fedilink
      arrow-up
      1
      ·
      1 year ago

      utilizza Whisper di OpenAI, rating “yellow” da Nextcloud.

      Ethical AI Rating Rating: 🟡

      Positive:

      • the software for training and inference of this model is open source
      • the trained model is freely available, and thus can be run on-premises

      Negative:

      • the training data is not freely available, limiting the ability of external parties to check and correct for bias or optimise the model’s performance and CO2 usage. -> motivo per cui Common Voice di Mozilla è importante!