Le tecnologie della voce artificiale

La sintesi vocale è la tecnica utilizzata per riprodurre la voce umana artificialmente. Un sistema che ha questo fine prende il nome di sintetizzatore vocale. I sistemi di sintesi vocale vengono anche detti sistemi text-to-speech (TTS) (ovvero da testo a voce) perché permettono di convertire il testo in parlato. Esistono inoltre alcuni sistemi che permettono di convertire simboli fonetici in parlato.
Per realizzare la sintesi vocale si utilizzano registrazioni di parti vocali che vengono memorizzate in un database. Esistono vari sistemi di sintesi vocale che differiscono per dimensioni dei campioni vocali memorizzati: un sistema che memorizza singoli fonemi o fonemi doppi consente di ottenere il numero massimo di combinazioni a discapito della chiarezza complessiva mentre in altri sistemi concepiti per un impiego specifico si ricorre alla registrazione di parole intere o di intere frasi per ottenere un risultato di qualità elevata.
La qualità di un sintetizzatore vocale dipende della somiglianza della voce artificiale con quella umana e dal suo livello di comprensibilità. Un programma di conversione da testo a voce ben funzionante permette, ad esempio, a persone con problemi di vista o di dislessia, di ascoltare documenti scritti sul telefono o sul computer. Dai primi anni ottanta esistono infatti molti sistemi operativi che includono funzioni di sintesi vocale.
Un sistema di sintesi vocale è composto da due parti: una front-end e una back-end.

La parte front-end è quella che converte il testo in simboli fonetici mentre la parte back-end si occupa di interpretare i simboli fonetici e di leggerli, trasformandoli così in voce artificiale.
La parte front-end prevede due funzioni principali: un'analisi del testo scritto che consente di convertire tutti i numeri, le sigle e le abbreviazioni in parole per esteso; una conversione di ogni parola nei suoi corrispondenti simboli fonetici e un'analisi linguistica del testo rielaborato.
La trascrizione fonetica costituisce la rappresentazione linguistica che viene utilizzata dal back-end per la conversione in suoni, ovvero per il processo di sintesi vero e proprio.

Commenti

Post popolari in questo blog

Glossario

La voce artificiale nella musica

Voce artificiale: i grafici