Ecco Tacotron 2, la nuova voce di Google Assistant indistinguibile da quella umana

Nella pagina riportiamo due sample, uno registrato da un operatore umano, l'altro dal nuovo sistema di text-to-speech di Google. Impossibile indovinare qual è quello del prossimo Google Assistant
di Nino Grasso pubblicata il 28 Dicembre 2017, alle 14:21 nel canale WebGoogle ha svelato di essere al lavoro su Tacotron 2, il sistema text-to-speech di seconda generazione su cui è al lavoro da anni. Un nuovo documento pubblicato da scienziati e ingegneri al lavoro per la compagnia è stato corredato da parecchi esempi che ne mostrano le potenzialità in lingua inglese. Il risultato è davvero molto interessante, con la voce generata dal computer che è indistinguibile da quella umana. Qui di seguito vi proponiamo due sample, uno registrato da un operatore umano, l'altro dal PC. Provate a indovinare qual è quello "artificiale".
È interessante notare che Google è riuscita a raggiungere questi risultati sfruttando gli stessi principi su cui si basa Tacotron, quindi principalmente due reti neurali che lavorano simultaneamente. La prima rete trasforma il testo in uno spettrogramma, cioè una rappresentazione visiva delle frequenze audio associate alle singole parti del discorso. Il risultato viene poi trasferito alla seconda rete neurale, WaveNet, sviluppata dalla sussiadiaria britannica DeepMind, che è già alla base delle versioni inglese e giapponese di Google Assistant e che arriverà presto in altri mercati.
Il principale vantaggio di WaveNet sulle alternative commerciali è che funziona come servizio stand-alone e non ha bisogno di accedere a un database di suoni pre-registrati. La tecnologia genera in maniera autonoma i suoni sulla base dello spettrogramma registrato dalla prima rete neurale, con il risultato finale che dovrebbe essere molto difficile da riconoscere rispetto ad una voce umana. Tacotron 2 considera punteggiatura e le maiuscole, ponendo maggiore enfasi sulle varie parti basandosi quindi anche su questi due aspetti, e non solo sulle singole parole.
Ci sono alcuni svantaggi con un approccio così scientifico: Tacotron 2 può al momento offrire i propri servizi solo con una singola voce femminile, e l'aggiunta di voci nuove può essere particolarmente difficoltosa. In base a quanto si deduce dal documento infatti è necessario un nuovo "training" quasi completo di WaveNet per istruire una nuova voce a sfruttarne i propri servizi. Per sentire altri sample del nuovo sistema di text-to-speech di Google potete indirizzare il browser a questa pagina.
E per inciso, la voce generata artificialmente è quella del Sample 2!
10 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infonon a caso si parla di auto-apprendimento qualora si riesca ad automatizzare questo processo, similmente a come avviene nel cervello umano, che usa tutti i sensi che ha a disposizione per classificare le cose, dargli una utilità, un nome, etc etc ^_^
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".