Come fare musica con il text-to-speech?

Se desidera comporre una canzone, ma odia la sua voce, non conosce un cantante con cui lavorare o semplicemente non ha l’attrezzatura per registrare, può utilizzare un software di sintesi vocale che canti per lei.

Strumenti di sintesi vocale come “Emvoice”, “Synthesizer V Studio” o “Vocaloid” le permettono di creare linee vocali espressive e realistiche con voci diverse. Le linee vocali e i testi possono essere impostati tramite un’interfaccia simile a un sequencer, con vibrato, espressione e persino suoni di respirazione.

Prima di vedere come far cantare il suo computer, diamo una rapida occhiata alla storia del text-to-speech.

Che cos’è la sintesi vocale?

La sintesi vocale è una tecnologia che crea un segnale vocale artificiale. È apparsa per la prima volta negli anni ’30 con il VODER (video qui sotto), ma le prime applicazioni commerciali sono state sviluppate negli anni ’60.

All’epoca, il text-to-speech veniva utilizzato principalmente per aiutare le persone con disabilità fisiche a comunicare più facilmente. Da allora, il text-to-speech è stato utilizzato in molte applicazioni diverse, tra cui i sistemi di informazione telefonica e gli assistenti vocali intelligenti.

Nel corso dei decenni, la sintesi vocale ha visto molti miglioramenti. I primi sistemi erano molto meccanici e innaturali, ma le tecnologie moderne consentono di creare voci artificiali quasi indistinguibili dalle voci umane reali. Anche i progressi nell’intelligenza artificiale e nell’apprendimento automatico hanno migliorato notevolmente la qualità e la natura delle voci sintetiche.

Oggi il text-to-speech viene utilizzato in un’ampia gamma di applicazioni, tra cui la produzione di audiolibri, i sistemi di navigazione e gli assistenti vocali intelligenti come quelli di iPhone o Android. Viene utilizzato anche per aiutare le persone con disabilità fisiche a comunicare più facilmente e per consentire alle persone analfabete di accedere alle informazioni scritte.

Sebbene il text-to-speech abbia visto molti miglioramenti e sia diventato piuttosto realistico, ci sono ancora molte sfide, soprattutto per quanto riguarda la naturalezza delle voci artificiali, nonché la capacità di trasmettere le emozioni e le sottili sfumature del linguaggio parlato.

La voce di Stephen Hawking

La voce sintetizzata di Stephen Hawking viene ricordata come una versione personalizzata del software text-to-speech DECtalk. Quando Hawking ha iniziato a perdere la capacità di parlare a causa della progressione della sua malattia (malattia di Lime), ha iniziato a cercare un modo alternativo di comunicare. Nel 1985, ha iniziato a utilizzare un programma di sintesi vocale chiamato“Equalizer“, installato su un computer Sinclair QL.

Nel 1988 ha iniziato a utilizzare un sintetizzatore vocale DECtalk, controllato da un interruttore a levetta. Era una voce robotica e monotona che divenne famosa in tutto il mondo.

Tuttavia, nel 1988 la scheda audio del computer Sinclair QL fu ritirata dal mercato e sostituita con un modello incompatibile con il sintetizzatore vocale DECtalk. Questo costrinse Hawking a cercare un’alternativa. Alla fine optò per una voce fornita dall’azienda canadese di sintesi vocale“Speech Plus“.

Questa è diventata la voce più famosa, poiché è stata utilizzata da Hawking per oltre tre decenni, fino alla sua morte nel 2018.

Apple e la sintesi vocale

Altrettanto famosa, la sintesi vocale del Macintosh SE utilizzava il software MacinTalk, sviluppato da Apple negli anni Ottanta. Si trattava di una voce robotica e meccanica che divenne rapidamente emblematica dei computer Apple dell’epoca.

È interessante notare che da allora il text-to-speech si è evoluto in modo significativo, con voci più naturali ed espressive.

Quale software text-to-speech posso usare per fare musica?

Per quanto riguarda la composizione musicale, anche la tecnologia ha fatto molti progressi e a volte è diventata quasi indistinguibile da una voce reale.

Esistono diverse applicazioni che consentono di comporre linee melodiche con una voce sintetizzata, ma c’è un’ampia disparità in termini di realismo e di lingue disponibili da un software all’altro.

Parametri come il vibrato, l’intensità e persino i suoni del respiro sono controllabili e programmabili. Dovrà scrivere le note musicali e aggiungere il testo della sua canzone. Poi potrà modulare l’articolazione con diversi effetti vocali dall’interfaccia del software.

Vediamo quali sono i migliori software text-to-speech per la musica.

Emvoice

Emvoice offre diverse voci, come Keela, Lucy, Jay e Thomas, con diversi toni e gamme vocali per vari stili musicali. Emvoice è disponibile in formato VST per Mac e Windows.

https://emvoiceapp.com/

Eclipse Sounds

Eclipse Sounds produce probabilmente uno dei migliori software di sintesi vocale per la musica oggi disponibili, con due voci diverse: Solaria (femminile) e Asterian (maschile).

Entrambe le voci richiedono il software gratuito Synthesizer V Studio Basic, ma possono essere utilizzate al massimo delle loro potenzialità con la versione Pro del software, che le permetterà di utilizzare i plugin VST e Audio Unit.

Ecco una piccola anteprima dell’interfaccia del software:

Solaria

Solaria è una voce femminile che può cantare in tre lingue diverse,inglese, cinese e giapponese.

https://www.eclipsedsounds.com/solaria

Asterian

Una voce maschile profonda solo in inglese.

https://www.eclipsedsounds.com/asterian

Vocaloid

Vocaloid è un software di sintesi vocale molto popolare. È stato creato da Yamaha nel 2004. Da allora, il software ha subito molti aggiornamenti e miglioramenti ed è diventato molto popolare tra i musicisti e i produttori musicali, soprattutto in Giappone, dopo essere stato reso popolare dal successo di Hatsune Miku.

Il numero esatto di voci disponibili in Vocaloid dipende dalla versione e dai pacchetti aggiuntivi installati, ma di solito sono disponibili diverse voci per ogni lingua supportata.

Ad esempio, la versione inglese di Vocaloid 5 include voci come“Ruby“,“Chris“,“Amy“,“Otomania” e “YAMAHA VOCALOID 5 Library”.

Le voci dei Vocaloid sono create da studi di produzione vocale come Crypton Future Media (che ha creato Hatsune Miku), Zero-G e PowerFX.

Nonostante il relativo successo, altre voci come Solaria ed Emvoice sono preferite perché il loro suono è invecchiato piuttosto male e sembra robotico. 🤖

https://www.vocaloid.com/en/

Chi è Hatsune Miku?

È difficile parlare di sintesi vocale senza parlare della più grande star della sintesi vocale, Hatsune Miku. È un personaggio virtuale interamente creato da Crypton Future Media utilizzando il software di sintesi vocale Vocaloid (dalla versione 2). Canta esclusivamente in giapponese, poiché il suo pubblico è principalmente giapponese.

Il suo successo è tale che è diventata una vera icona della cultura pop giapponese. Tiene anche concerti virtuali, come questo del 2016:

Audiologie

Tra i sintetizzatori vocali più realistici ci sono Jun e Anri, prodotti da Audiologie. Come per Eclipsed Sounds, anche queste due voci richiedono il software Synthesizer V Studio Basic (gratuito), ma saranno disponibili più parametri con la versione Pro del software.

https://audiologie.us/