View Full Version : Sintesi e riconoscimento vocale
Dunque, due parole "stringate" su sintesi e riconoscimento vocale, tanto per capirci:
in gergo
TTS ("Text To Speech")
è la funzione di lettura dei testi (qualsiasi testo, scritto appositamente o trovato su web, o dox di Office, Acrobat, etc..) attrverso voci sintetizzate elettronicamente: ci sono in tutte le lingue, sia maschili che femminili, con innumerevoli timbri diversi.
Anni fa, in tempi "preistorici" le prime voci erano sapi4: quelle classiche voci metalliche e robitoche, a scatti e piene di difetti.. al contrario le più recenti sapi5 sono sempre più fedeli, articolate, leggono accenti, pause, enfasi e sono "umane": la ricerca sta avendo sempre più successo nell'inserire aspetti emozionali ed effetti (anche di umore "arrabbiato", "sereno", "curioso", etc..), oltre che versi, come interiezioni verbali.
Le voci (o pacchetti voce) vengono elaborate da una applicazione chiamata "engine TTS", ovvero un sistema che le sintetizza e "le mette in pratica": ce ne sono vari ed a differenza dei pacchetti voce gli engine sono spessissimo free (nota, voci ed engine devono esere compatibili!).
ASR ("Automatic Speech Recognition")
è al contrario la funzione per cui il PC riconosce la tua voce, trasmessa attraverso un microfono.
Per farlo bisogna leggere testi al microfono, imparare la cadenza e trasmettere al programma il tuo timbro di voce e tutta una serie di elementi che il sistema memorizza, creando in tuo "profilo vocale": all'inizio, appena iniziato a dettare al pc, vedi che su un qualsiasi editor di testo appositamente configurato gli errori di interpretazione (e quindi di scrittura) sono moltissimi... ma una volta che il sistema ha memorizzato completamente il tuo profilo la percentuale di errori cala fino a quasi zero.
Poi, man mano che lo usi, il sistema conti nua ad elaborare e memorizzare aspetti della tua voce: in pratca dopo un mesetto la percentuale di errori non è solo bassa, ma addirittura rara (dipende ovviamente dalla qualità del programma di ASR).
Tra le altre mille applicazioni, i due sistemi possono essere messi in comunicazione tra loro, creando così un vero e proprio dialogo con il pc (per capirci, un po' come HAL in 2001 Odissea nello spazio), attraverso una intelligenza artificiale, che interpreta quanto tu gli dici al microfono e ti fornisce risposte selezionando le più adatte da un elenco di risposte precompilate, o addirittura compilandone integrando campioni di "settori di frasi" in un database: il grado di sviluppo di questa applicazioen è già molto più avanti di quel che ci si possa aspettare.
Le applicazioni di questi sviluppi sono infinite:
già una società di Milano ha pubblicato un dizionario di lingue sperimentale (per ora solo Ita / Eng) che funziona con ASR e TTS, e da questo, i futuri sviluppi nei dialoghi tra lingue "difficili" sono un vantaggio evidente,
tutte le funzioni di segreteria, di costruzione vocale, di funzionalità rapida con pc (per alcune cose), applicazioni per le aziende, utilizzo personale nella lettura e/o dettatura al pc di testi, presentazioni di lunghi documenti scritti con lettura dei testi in *.wav o *.mp3... le applicazioni e le derivazioni sono infinite.
Già oggi molti dei programmi che comunemente usiamo hanno una integrazione TTS: solo che questa appare se i software sono installati nel pc ed il sitema è attivato: per questo moltissimi non si a ccorgono e non sanno neanche di questa possibilità... Adobe Acrobat, Office, addirittura programmi grafici, molti ssimi hanno la funzione "Leggi a voce alta".
I programmi TTS ed ASR: ce sne sono di già integrati in XP (pannello di controllo > sintesi e riconoscimento vocale) ma l'unica voce preinstallata è Sam / English USA.
I programmi integrati in XP sono piuttosto poveri, come quasi tutti i sistemi integrati in Windows, sono però già compatibili con sapi5.
I sistemi precedenti, Win98 e forse anche Win2000, avevano un sistema molto più rudimentale ed erano sapi4.. oggi se si volessero utilizzare (non valide, ma uniche che si trovano free sul web) voci sapi4 con XP bisognerebbe installare un tool che le rende compatibili:
operazione sconsigliata la loro qualità decisamente bassa, ma per chi volesse cose free... l'unico modo per utilizzare TTS di XP in italiano senza spendere.
I programmi sul mercato sono diversi: i migliori sono ovviamente molto costosi:
Per TTS il leader mondiale è italiana / torinese: purtroppo (mia affermazione personalissima) di proprietà Telecom Italia (e gestita alla stessa maniera):
si chiama Loquendo (o Actor Louendo TTS http://www.loquendo.com/it/index.htm
un sistema molto evoluto, carissimo (un servizio prepagato costa addirittura dieci volte gi altri sistemi meno evoluti, ma leader nel mondo) che offre funzionalità notevoli
oppure c'è un progetto tutto italiano (che una volta sviluppato sarà meglio di Loquendo) in collaborazione con mBrola / Festival (Inghilterra / USA): il programma si chiama Italian Festival ed è curato dal Dott. Cosi del CNR di Padova... ha in studio sviluppi emozionali ("emofit") della voce tra i più evoluti del mondo http://www.pd.istc.cnr.it/FESTIVAL/default.htm
Per ASR il leader è Dragon Naturally Speaking, oggi 9 Preferred http://italy.nuance.com/talk/ (consiglio vivamente di guardare il video che si scarica, spiega benissimo le funzionalità)
9 Preferred è 3 volte più veloce della videoscrittura ed ha una percentuale di errore dell'1%, 160 parole al mi nuto (!)... al termine del filmato propone una sfida di velocità scrittura / dettatura in Dragon...
Interagisce con tutti i programmi di Office e Windows.
Il sistema più perfezionato del mondo: unico svantaggio (a parte il prezzo della versione top) è che non è compatibile con il sistema sapi.
Per gli engines, il migliore è un software leggerissimo, freeware, standalone, non scrive niente sul registro (lavora semplicemente con un file *.ini), che integra TTS (non contiene pacchetti voce, da installare sul sistema) con ASR, ed ha giàin sè una base di intelligenza virtuale, oltre a mille altre funzioni tra cui il "context menù" con Explorer, tramite il quale, con il tasto DX del mouse, tutto diventa leggibile a voce alta, da file *.txt ai program mi più complessi.
Il produttore è Dimio, il tool è DSpeech http://dimio.altervista.org/ita/
(ci sono anche altri tools notevoli, e chiede solo un contributo PayPal libero).
DSpeech ha anche il plugin per Adobe e la lingua italiana (scaricabili nello stesso sito).
Si potrebbe scrivere un libro sulla sintesi e riconoscimento vocale, ed il che non sarebbe male dato che in Italia (nonostante alcuni leaders del settore siano proprio italiani) siamo tra gli ultimi, a livello di utenza e diffusione, in questo campo (purtroppo): è più facile trovare voci in Cinese, Spagnolo, Arabo, ovviamente Inglese (UK ed USA), Greco, etc... che in Italiano... e questo la dice lunga sullo scarso grado di attenzionee di appli cazione nel ns. Paese oggi.
Una prova ne è anche il fatto che tra i molti altri ho iniziato quattro threads sul tema, e nessuno, al contrario di tutti gli altri temi, ha mai aggiunto una virgola agli argomenti.
Per questo ho deciso di intavolare questo tema in modo un po' (poco, chiedo scusa) più approfondito: spero che chi ne sà più di me metta un piccolo contributo: chissà mai che questo veicolo possa contribuire allo sviluppo nel ns. Paese.
Mauro
Interessante.
Inserita in rilievo.
Dimio dovrebbe essere iscritto al forum.
C'è una sua recensione in lettori mp3, se non erro:)
Grazie, è un mio amico
poi anche altri esperti del settore vorrebbero iscriversi e partecipare, come ti dicevo
questo intervento l'ho messo dopo tre brevi thread che avevo tentato di iniziare, ma senza lo zero virgola uno di risposte o cenni:
è la triste dimostrazione che neppuresiti specializzati come H. Upgrade hanno tra gli iscritti un numero significtivo di persone che mastichino qualcosa del tema
e in altri termini (dato che H. Upgrade è un buon campione valido di esperti italiani di informatica, e che l'Italia è un paese ad alta specializzazione informatica) ciò sigifica che nonostante questo sia uno dei temi del futuro più immediato, la grande maggioranza si limita a leggere, perchè pochi hanno qualcosa da scrivere
Penso sia dovere per un forum specializzato come HUp partecipare per cercare di colmare questa lacuna tutta italiana.
NDR: i monitor helio fanno più scena, ma sono un tema meno impellente della sntesi e riconoscimento vocale: eppure aggoirnamenti su un monitor helio che diventerà argomento del quotidiano per i nostri figli c'è una fila di commenti vacui (non c'è ancora nulla di concreto da dire), mentre per un tema che interessa l'oggi l'unico che per oggi ha aggiunto un commento (grazie) sei tu..
decisamente anche nel nostro settore ci sono cose che fanno "tendenza".
no comment: la colpa è anche di Microsoft, che non investe un quattrino più del necessario su ASR e TTS per un paese che non gli promette un grosso ritorno economico sull'argomento
ma finchè resta un dialogo tra un muto e un sordo, non si fa un passo!
incoraggio quindi tutti a fare commenti e costruire qualcosa:
non occorre essere professori per dire, aggiungere, chiedere, commentare, curiosità, ...
grazie in anticipo per chi mi aiuta a dare una spinta a questo tema
Veramente interessante! Ricordo che da ragazzino all' età di 12-13 anni ho provato ad usare un software per comandare il pc con la voce ma con scarsissimi risultati!
Devo dire che anche farsi leggere un ebook dal pc con il giusto timbro di voce per ogni passaggio fin' ora è ancora un' utopia!
ho usato in passato con soddisfazione sia ibm viavoice (8) che Dragon Naturally Speaking (7).
Ormai uso quasi solo sw open source per cui attualmente questo settore mi è praticamente precluso, peccato.
Comunque è il caso che inizi a documentarmi nuovamente
@Vash_85
fin' ora è ancora un' utopia
no no, non lo è più, almeno per il 90%.
colpa è della informazione scarsa, infatti.
io non so quanti anni fa voglia dire "quando avevo 12 anni", ma credimi (ed in questo thread troverai tutti gli elementi e links) che il sistema TTS ha fatto grandi passi avanti.. oggi l'inflessione NON E' PIU' UN'UTOPIA, al contrario: è dventata cosa in buona parte superata e sta facendo passi notevoli (***)
poco in Italia e molto all'estero si fa quotidianamente in questo senso:
in Italia Loquendo, organizzazione del Prof. Cosi stanno facendo moltissimo, ma la scarsa informazione rallenta lo sviluppo da noi.
(***)
1) non solo la cadenza e la dicitura corretta
2) ma anche le emozioni
3) le interiezioni
4) versi (anche tosse, bacio, modi di dire, mugolio ..mmmh.. etc..)
5) e le CADENZE DIALETTALI GEOGRAFICHE ITALIANE sono una realtà CONSOLIDATA
(oggi per esempio puoi scegliere persino pacchetti voce con cadenze in veneto o spiccato pugliese)
il problema non è il grado di sviluppo, ma il grado di scarsa conoscenza sullo sviluppo, purtroppo dettato da ragioni di ineteressi economici
@Ezio_79
Comunque è il caso che inizi a documentarmi nuovamente
grazie se lo fai, è nell'interesse di tutti
purtroppo do open source non c'è più quasi nulla da quando una sorta di "monopolio" è andata in mano a Telecom Italia con Loquendo
infatti Telecom sta gestendone il progresso alla maniera classica di molti nostri "gruppi pubblici privatizzati", ovvero secondo un quasi monopolio sia di informazione che di gestione speculativa, dettando il prezzo
(vero anche che è leader mondiale e che ha fatto fare al settore passi da gigante, ma solo per l'estero, tanto è che il sito di Loquendo / Torino / gruppo Telecom Italia è in inglese di default e, se vuoi , anche tradotto in italiano).
Infatti, l'organzzazione ultra avanzata del Prof. Cosi, Centro Nazionale Ricerche !!!, è associata con un leader straniero e, nonostante fa ccia passi da gigante è poco divulgata, anzi, non ha per nulla vita facile, grazie a "sordità delle nostre istituzioni", "manovre di interesse" che portano a difficoltà di chi fa ricerca e sviluppo, e quant'altro
NOTA: mBrola / Festival ITA è per oggi GRATUITA: e nonostante ciò pochissimi (anzi, ancor meno) del "mondo non specializzato" la conoscono:
il perchè è tanto tristemente evidente quanto decadente: e non sono parole mie!!!
In quanto ad ASR siamo messi quasi allo stesso modo:
Dragon è leader tra quelli che fanno anche l'Italiano,
non è compatibile con il sistema convenzionale (ha un sistema personalizzato per cui non è integrabile con i maggiori TTS) avendo un monopolio è oggi carissimo, e poco in campo di ASR (riconoscimento vocale) si è fatto in italiano
ma MOLTO si è fatto nel mondo Inglese, Cinese, la maggior parte delle lingue europee, etc..
Microsoft è abbastanza avanti, ma NON in Italiano, non gli interessa
e solo ORA con Vista sembra (io non ho Vista) che al pacchetto voci abbiano integrato qualcosa di decente in italiano (da scaricare a parte nel loro sito, eh? default resta, se non erro, inglese, come per XP, con la differenza che XP non può neanche sperare più in qualcosa di italiano)
Aggiungo
che mentre Loquendo stava studiando la voce di Giulia oggi la voce TTS più evoluta DA SENTIRE ma costa un occhio*** Microsoft stava sviluppando Sam, una voce inglese USA che al confronto sembra quella dell'uomo primitivo.
Nota su sapi
sapi4 è il vecchio sistema TTS, e si trova molto in italiano gratis: è la PREISTORIA DEL TTS, quelle voci robotiche che andavano bene all'inizio e che oggi, solo approfondendo un po', fanno ridere
sapi5 è la voce evoluta (e con questo rispondo anche a Vash_85): ma si trova solo a pagamento, poco diffusa in italiano, e con il massimo dell'evoluzione solo da Loquendo
PER QUESTO C'E' PURTROPPO LA GENERALIZZATA OPINIONE COMUNE ERRATISSIMA CHE SIAMO ANCORA A LIVELLO DI UTOPIA!!!!!!!!
perchè il sistema è andato avanti con il processo nuovo del sapi5 (la sua evoluzione),
ma pochi hanno l'interesse fnanziario di pubblicizzarlo (a parte Loquendo che secondo me ha tutto l'interesse di mantenere SOLO nel nostro Paese uno stato di elite della cosa, riservato a Enti e grandi Aziende)
PERCIO' QUASI TUTTI, QUANDO SI PARLA DI TTS conoscono solo le voci sapi4, la preistoria!!
Volete dei parametri?
TTS: una buona voce Cepstral o di molti altri leader mondiali è gratuita, un'ottima voce costa circa 50 euro...
mentre in italiano: Loquendo fa solo due tipi di servizi con le voci evolute:
- o ti vende un impianto di servizi che solo le grandi aziende sono in grado di sostenere
- o si è inventata il servizio prepagato: tu prendi in affitto, prepagando con carta di credito, una delle varie voci in italiano, e mandi via internet dei testi che la voce ti legge:
bene, un servizio così è a minuti, e solo 30 minuti costano tra i 600 ed i 1200 euro!!!(non ti vende il pacchetto software come fanno tutti gli altri)
stiamo parlando di voci molto evolute: ma stiamo dicendo che una voce che diventa tua e che installi sul tuo pc costa 50 o 100 euro, mentre una voce Loquendo la affitti al 1500% e senza che diventi tua
bisogna cercare molto ed approfondire, ed allora del buon italiano c'è:
per questo in giro si dice che siamo indietro, perchè la verità è sotto monopolio
Matrixbob
06-04-2007, 22:50
[Text To Speech] Qualcuno ha mai usato FESTIVAL?! o_O (http://www.hwupgrade.it/forum/showthread.php?t=1438863)
come ti ho scritto nel thread è uno dei due migliori
Matrixbob
07-04-2007, 12:32
come ti ho scritto nel thread è uno dei due migliori
Guarda, sono 3 settimane che sto cercando ogni giorno di far funzionare FESTIVAL su Windows.
Tu ci riesci?!
Io sto pensando di fare ancora qualche tentativo e poi chiedo all'autore.
Sto veramente impazzendo. :( :cry:
Come ho scritto all'inizio del thread: siamo in questa italia con la "I" minuscola (e pensare che sono un nazionalista convinto)... il governo (e qui la "G" non la metterei neanche minuscola) non finanzia nulla per la ricerca, ed il CNR (Centro Nazionale Ricerche) di cui l'Autore è Direttore per temi connessi al TTS è uno dei tanti enti (sempre con la minuscola) per i quali un thread intero non basterebbe, solo per elencare querl che NON fanno e quel che DROVREBBERO fare..
perciò il progetto è legato ad una società leader angloamericana per "impegno e motu-proprio" dell'Autore, ma non ci sono soldi abbastanza non solo per sviluppare più velocemente un progetto che merita moltissimo, ma neppure per creare un programma "confezionato" con eseguibili ed installer, eccetera, oltre che una descrizione adeguata.. per questo ho scritto subito al Dott. Cosi, Durettore CNR e MERITEVOLE AUTORE: è stato di una disponibilità eccellente, tanto che siamo in rapporto amichevole: certo una volta ricevute le indicazioni che servono non ho voluto disturbare oltre il necessario, e per questo sto cercando (se qualcuno mi aiuta meglio) di scrivere io una relazione per supportare come posso questa iniziativa.
Senza che tutti ci si metta a contattarlo (ha già fatto molto per tutti noi / gratis / ed è stato ricambiato dalle nostre meritorie istituzioni con un silenzio indegno) ti passo io tutto quanto gli ho chiesto e quanto mi ha scritto.
Tieni conto che molti aggiornamenti sono superati e bisogna tirar fuori nel web quanto serve.
AGGIUNTE:
- personalmente mi vergogno di far parte di una nazione dove tutto ciò avviene PROBABILMENTE (io direi sicuramente, ma..) perchè la concorrenza dell'altro TTS nazionale è di Loquendo = Telecom Italia... Loquendo (con la ancor più squallida scusa di vendere il suo software anche a nonvedenti: squallido quando per scopi di lucro si tira fuori chi è meno fortunato di noi) VENDE I SUOI PRODOTTI A TEMPO = una voce senza darti il software 600 / 1200 Euro per trenta minuti di registrazioni
- anche per questo mi sto dando da fare come posso: cerco sempre di aiutare ciò che ritengo giusto e per quanto posso a danno dell'opportunismo tutto nazionale
- sono però altrettanto sconcertato (ma mai arreso!) perchè tutto sommato l'italietta di cui sto parlando si rispecchia persino nel nostro forum: non fa ancora "trend" parlare di sintesi e riconoscimento vocale"... è molto più "in" parlare di "monitor helio", "palmari" (fa figo...) o addirittura di pistacchi ucraini come mi è tristemente capitato di leggere nei "generici"... il fatto poi di leggere che ci sono sette pagine sui pistacchi ucraini mentre siam qui a cercare di far qualcosa di serio e costruttivo mi aveva persino fatto venir voglia di rinunciare all'iscrizione...
poi ho visto che il tizio che occupa spazi forum pagati da altri per perdere e far perdere tempo è stato giustamente sbattuto fuori, e per questo sono rimasto qui
dammi la mail che ti mando tutto, e graze per esserti interessato
Matrixbob
07-04-2007, 20:57
- sono però altrettanto sconcertato (ma mai arreso!) perchè tutto sommato l'italietta di cui sto parlando si rispecchia persino nel nostro forum: non fa ancora "trend" parlare di sintesi e riconoscimento vocale"... è molto più "in" parlare di "monitor helio", "palmari" (fa figo...) o addirittura di pistacchi ucraini come mi è tristemente capitato di leggere nei "generici"... il fatto poi di leggere che ci sono sette pagine sui pistacchi ucraini mentre siam qui a cercare di far qualcosa di serio e costruttivo mi aveva persino fatto venir voglia di rinunciare all'iscrizione...
poi ho visto che il tizio che occupa spazi forum pagati da altri per perdere e far perdere tempo è stato giustamente sbattuto fuori, e per questo sono rimasto qui[/COLOR]
dammi la mail che ti mando tutto, e graze per esserti interessato
:boh:
... non lo dire a me che sto facendo una WebTV-informativa x i non vedenti e quindi ho bisogno di 1 SW TTS, ma sarà 1 mese che ravano tra le canne.
Festival sembrerebbe perfetto.
Non dico che il SW Festival debba essere perfetto o quasi, ma almeno documentato sufficientemente per chi come me NON è il mago di Linux o della compilazione col MAKE pieno di variabili e cose strane.
Con Ubuntu ci ho messo 30 sec, su Win son 30g ed ho ottenuto SOLO 1/2 risultati. :(
Il MinGW entra in crisi, le versioni già compilate hanno i PATH scazzati, insomma 1 disastro! :cry:
Tra l'altro sul forum a parte io e te non ne parla nessuno ... è 1 sito commercial-hw in primis, forse è x quello.
Ti mando in PVT l'email.
Se mi aiuti te ne sarò grato.
Ne sto valutando l'utilizzo anche nella sede croce rossa della mia città, ma prima devo conoscerne le potenzialità, (che mi sembrano buone CMQ).
Fin dove posso arrivare: ne sono felice!
Da domani o lunedì si iniza, ok?
Matrixbob
08-04-2007, 08:53
Fin dove posso arrivare: ne sono felice!
Da domani o lunedì si iniza, ok?Si si, faccio colazione guardando la Ferrari in F1. Poi inizio a leggere 1 po' di cose scaricate da Internet riguardante Festival mentre attendo la tua presenza. :)
[PS]
Ti ho aggiunto anche a MSN e Skype.
meglio skype
eh, io invece ho il bimbo che è appena uscito dall'ospedale, e devo stargli dietro.. uovo, etc..
nel pomeriggio ti chiamo con skype e ti mando una mail
Matrixbob
08-04-2007, 15:31
meglio skype
eh, io invece ho il bimbo che è appena uscito dall'ospedale, e devo stargli dietro.. uovo, etc..
nel pomeriggio ti chiamo con skype e ti mando una mail
Fai bene, mi spiace, che si rimetta presto.
CMQ io oggi e domani ho un vai/vieni per casa, quindi se ti rispondo su Skype bene, altrimenti se c'è da scrivere al riguardo di FESTIVAL direi di utilizzare quest'altro 3D sotto riportato in quanto + specifico (già dal nome :)).
[Text To Speech] Qualcuno ha mai usato FESTIVAL?! o_O (http://www.hwupgrade.it/forum/showthread.php?t=1438863)
Ma in tutto questo intercalare sul TTS, e Festival nello specifico perchè m'interessa D+, nessuno ha ancora spiegato come s'installa in Win32?! :mbe: :stordita:
Matrixbob
10-04-2007, 09:34
Yooohoooo c'è nessuuuuno?! :stordita:
Sto ancora aspettando qualche gentile parola che mi porti alla installazione funzionale su Win32 di Festival. :fagiano:
Vorrei gentilmente iniziare ad usarlo. :cry:
:ot:
Dopo la Pasqua ho raggiunto il reverendo peso di 81Kg x 1,79 sconfinando nella zona sovrappeso! :O
Maledetta vita sedentaria! :muro: :muro: :muro:
Matrixbob
10-04-2007, 12:45
OK mi hanno risposto i seguenti passi, dopo in biblioteca provo:
"Quello che si trova sul sito attualmente per Windows e per la versione 1.4.3, ma con qualche modifica dovrebbe andare anche sull'ultima versione".
1] Installare FESTIVAL dal sito di Edinburgo.
2] Fare il download dei file per l'italiano (1.0) e sovrascriverli sulle directory opportune.
3] Volendo, scaricare i moduli (2.0) ed utilizzare i binari forniti assieme ad essi
Se voi ci riuscite fate 1 fischio mi raccomando!
Io ho scaricato tutta sta roba:
http://img410.imageshack.us/img410/9550/eccocirr0.gif
ed adesso provo ad installare qualcosa.
Matrixbob
13-04-2007, 18:42
Ho seguito passo per passo i documenti d'installazione nelle varie versioni:
speech tools (http://matrixbob.netsons.org/st_install.txt)
festival (http://matrixbob.netsons.org/f_install.txt)
ogi (http://matrixbob.netsons.org/ogi_install.txt)
ita1 (http://matrixbob.netsons.org/ita1_install.txt)
ita2 (http://matrixbob.netsons.org/ita2_install.txt)
I "make test" sono corretti, ma tutto continua a malfunzionare.
SayText funziona, ma il resto non va e non da molte spiegazioni al riguardo se non qualche stampa di controllo.
DOPO QUESTA MI SA CHE SMETTO:
http://img119.imageshack.us/img119/1724/oratroppofc1.gif
"La potenza è nulla senza controllo" ... mai frase è stata + corretta se associata a Festival.
CONTRO:
User friendly vote = -1/10.
Non pienamente SAPI5.
Documentazione scritta alla Topogigio e pressochè NULLA.
Gli autori si "arrabbiano" (forse giustamente) perchè non ricevono abbastanza soldi dallo Stato.
Installazioni del tipo:
01 scompattare lascinado inalterata la struttura delle cartelle venutasi a creare
02 prendere in considerazione gli speed_tools per primi
03 prima di compilare lanciare il file di configurazione ./configure
04 poi lanciare il GNU make
05 dopo X min di compilazione lanciare GNU make test
06 andare in festival e lanciare ./configure
07 lanciare il GNU make anche qui.
08 installare la versione 1.0 ITA sovrascrivendo
09 attivare la voce ITA in festival con (voice_lp_diphone) in festival o settarla di default in SITEinit.scm
---
10 dato che questa voce pare una macchineta provare il nuovo motore "Mbrola" che dovrebbe essere l'upgrade 2.0 ITA
11 a questo punto Festival cerca però di beccare il file init.scm al PATH "blidir" di chi ha compilato la 2.0 ITA
12 ovviamente tutto con PATH relativi ...
13 si cerca di correggere lo scempio usando i file locali SITEinit.scm, ecc ..., ma scazza ancora ...
non funzionano.
PRO:
Open Source con licenza GNU.
---
Penso che proverò a passare a DSpeech (http://dimio.altervista.org/ita/), che è freeware, accetta donazioni e non Open Source, ma meglio di niente.
CMQ è + ... in generale! :)
Matrixbob
16-05-2007, 17:11
UP!
Panoramica di quello che ho trovato:
Programmi per fare "text to speech": quali?! (http://www.hwupgrade.it/forum/showthread.php?t=1423335)
Voci di Vista (http://www.hwupgrade.it/forum/showthread.php?t=1436733)
:fagiano:
Anch'io ho provato a usare dspeech e sembra bellino!
Cioè....per la sintesi vocale è ottimo ma per il riconoscimento lui riconosce solo l'inglese, perchè ancora non esiste un motore di riconoscimento vocale in italiano!
Spero di sbagliarmi io, io ho scaricato Microsoft English Recognizer v5.1 ma appunto è inglese. Se qualcuno sapesse dove reperire un motore italiano mi faccia sapere grazie!
Altra cosa: una guida completa, anche in eng, per dspeech, sapete dove trovarla?
Grazie,
HeeK
Matrixbob
12-06-2007, 12:41
Programmi per fare "text to speech": quali?! (http://www.hwupgrade.it/forum/showpost.php?p=17148267&postcount=23)
marika43
12-06-2007, 13:45
Dspeech e' un buon programma ma non ha plugin/estensioni per alcun broswer (firefox, opera,...)
interessante 3d , peccato sia passato inosservato
bossrobot
17-11-2008, 07:53
interessante 3d , peccato sia passato inosservato.. e allora UP :)
Per un progetto sto studiando un po di soluzioni ASR..... o meglio piattaforme: la mia necessità è quella di fare ASR Speech Indipendent (ossia senza training come avviene per Dragon).
Soluzioni?? Solamente due valide sul mercato... Loquendo (a pagamento, con sorgenti in c... ) oppure Sphinx4 (open source e scritto in Java). In attesa dell'SDK del primo sto lavorando con il secondo.
Ottimo prodotto, veloce e stabile, perfettamente integrabile in applicazioni Web-oriented; l'ho integrato con successo ad InfraRED5, una piattaforma sempre open source, FMS... unico neo di sphinx trovare gli acoustic models italiani :(
A riguardo se qualcuno sa dirmi dove posso trovarli.. grazie 10000 :D
Per il resto spero di postare aggiornamenti a brevisssimo...
ste.renegade
15-01-2009, 00:40
ciao a tutti!!
è un vero peccato che l'argomento sia passato così inosservato finora...
anche io sto facendo ricerche in ambito di interazione vocale (da pochissimo a dir la verità) ma non si trova molto in giro, o meglio nulla di utile...
per ora ho potuto provare dragon naturally speaking (ottimo il riconoscimento, ma le voci italiane....terribili) e loquendo che pare ottimo davvero ma ha il piccolo problemino del costo....
per ora tutto qui??
qualcuno ha provato festival?
sapete consigliarmi qualcos'altro??
nei prossimi giorni continuerò le ricerche e, nel caso, posterò qui tutto ciò che trovo di utile...
un saluto e buon lavoro a tutti!!
ciao
ste
alegeott
01-02-2009, 17:38
La disponibilità di un programma ASR (riconoscimento vocale, per chi non ha letto il primo post) che giri su linux mi interesserebbe MOLTO: vorrei utilizzarlo per la dettatura vocale e combinarlo con un editor LATEX (questi almeno esistono buoni per linux).
Esiste (o esisterà) qualcosa, anche via macchine virtuali, per il riconoscimento vocale (possibilmente gratuito) su linux?
alegeott
01-02-2009, 18:12
La disponibilità di un programma ASR (riconoscimento vocale, per chi non ha letto il primo post) che giri su linux mi interesserebbe MOLTO: vorrei utilizzarlo per la dettatura vocale e combinarlo con un editor LATEX (questi almeno esistono buoni per linux).
Esiste (o esisterà) qualcosa, anche via macchine virtuali, per il riconoscimento vocale (possibilmente gratuito) su linux?
Mi rispondo da solo: ho trovato http://www-i6.informatik.rwth-aachen.de/rwth-asr/; ora sono su windows e non posso installarlo. Il pacchetto d'installazione è privo di "acoustic or language models", ma si dovrebbe poter sistemare (stando a quanto dice qui (http://www-i6.informatik.rwth-aachen.de/web/OpenPositions/HiWis/Bachelor_Proposals.pdf)).
Cercherò di provarlo in tempi brevi e fornire impressioni d'uso.
Matrixbob
19-10-2009, 11:16
ciao a tutti!!
è un vero peccato che l'argomento sia passato così inosservato finora...
anche io sto facendo ricerche in ambito di interazione vocale (da pochissimo a dir la verità) ma non si trova molto in giro, o meglio nulla di utile...
per ora ho potuto provare dragon naturally speaking (ottimo il riconoscimento, ma le voci italiane....terribili) e loquendo che pare ottimo davvero ma ha il piccolo problemino del costo....
per ora tutto qui??
qualcuno ha provato festival?
sapete consigliarmi qualcos'altro??
nei prossimi giorni continuerò le ricerche e, nel caso, posterò qui tutto ciò che trovo di utile...
un saluto e buon lavoro a tutti!!
ciao
ste
Loquendo (di Telecom?) Loquendo TTS/Actor/Eloquens: migliaia di euro;
Microsoft Agent: Free con Windows?
MyVoice 1.x: basato su Eloquens sviluppato da Loquendo, non ne si capisce il costo, ma sarò migliaia di euro prorpio per quello;
NaturalReader 6.3: 100 euro circa;
Speakonia 1.0.3.5: Free;
TextAloud 2.240: 40 euro circa;
Window-Eyes 6.1: 900 euro circa;
DSpeech 1.55 e prossime: Free;
eSpeak 1.26: Open Source;
FESTIVAL / Italian FESTIVAL: Open Source, ma non completamente SAPI5;
http://en.wikipedia.org/wiki/Comparison_of_speech_synthesizers
http://it.wikipedia.org/wiki/Sintesi_vocale
Avevo contattato il CNR e il Prof Piero (non mi ricordo il cognome forse Cosi o Cosini, chiedo scusa), mi disse che mancavano i soldi in generale al CNR e che allora una documentazione su Festival col cavolo che avrebbero trovato modo di scriverla. :D
Invece con DSpeech di Dimi mi son trovato bene, sopratuttto per la sua disponibilità ad apportare modifiche anche su richiesta, è stato bravissimo.
Anche se però poi mi son sorti dubbi che non sia solo una buona interfaccia al motore Microzoz. :)
[PS]
La mia esperienza si ferma al TTS e non al reverse STT.
Matrixbob
19-10-2009, 11:21
interessante 3d , peccato sia passato inosservato
Io faccio solo 3d interessanti. ;) :cool: :sofico:
Felixman
18-03-2010, 11:20
Volevo ringraziare i due promotori di questa interessantissima discussione, grazie alla quale mi sono potuto acculturare sull'argomento.
La tecnologia TTS la cominciai ad utilizzare (senza nemmeno sapere che si chiamasse così) circa 13 anni fa per fare scherzi telefonici. Mi collegavo in un sito dove scrivevo le frasi da far pronunciare e registrare.
Voci metalliche e robotiche. Per questo non mi sono più interessato alla faccenda. Interesse che ho invece nuovamente riscoperto per via di una mia esigenza di ascoltare mentre lavoro degli articoli giornalistici scritti sui vari siti che a leggerli mi toglievano molto tempo ed anche mi costavano parecchia fatica a leggerli sul monitor lcd.
Attualmente sto utilizzando il software dspeech come lettore e come voce ho installato una SAPI5 in italiano che si chiama Silvia.
Non male il risultato nel complesso. Niente a che vedere con le esperienze negative avute 13 anni fa. Ma volevo chiedervi dei consigli per sapere se c'era modo di ottenere migliori risultati di quelli ottenuti fino a questo momento perchè vorrei utilizzare sempre maggiormente questa tecnologia. Per il momento solo per svago, ma chissà, può essere in futuro anche per lavoro.
Software, voci, da dove scaricarle e come installarle.
Ciao a tutti e grazie.
Per la prima volta mi cade l'occhio su questo thread e vedo che molti in passato volendo provare Festival sotto Windows hanno trovato delle difficolta.
Per chi fosse ancora interessato segnalo questo link:
http://www.eguidedog.net/doc_build_win_festival.php
E' descritta la procedura per compilarlo ma è anche presente un link per scaricare i file binari già compilati.
Personalmente ho fatto qualche prova sotto XP e sembra funzionare. Non sono ancora riuscito ad utilizzare le voci italiane sviluppate all'università di Padova, mentre quelle inglesi funzionano abbastanza bene.
Per chi fosse interessato alla conversione testo->audio segnalo quest'altro servizio online:
http://www.robobraille.org/frontpage_it
La qualità della conversione è, secondo me, ottima.
Felixman
18-06-2010, 09:51
Volevo segnalare che il sito della Gazzetta dello Sport da oggi da la possibilità di vocalizzare tutti gli articoli pubblicati nel loro sito. Direi che è un notevole passo avanti. La voce però non mi sembra una di quelle di Loquendo, ma comunque abbastanza accettabile.
Felixman
18-06-2010, 10:55
Per chi non si accontentasse di avere possibilità di fare questa cosa soltanto sul il sito della Gazetta, ma anche su tutti gli altri, consiglio vivamente di utilizzare Textaloud. Molto più comodo ed immediato rispetto allo stesso Dspeech (gran programma pure lui) che purtroppo non ha ancora implementata la lettura diretta delle pagine web. Speriamo che il buon Dimio ponga presto rimedio ;)
Ritengo che l'utilizzo di questa tecnologia su siti di enorme traffico di utenti come quello della Gazzetta possa dare una notevole mano alla diffusione dello strumento di sintesi vocale, facendo anche abbassare i costi inerenti le voci migliori. Più gente si interessa a questa cosa più il mercato diventerà concorrenziale ed alla portata sempre maggiore di utenti.
Io personalmente, pur, per mia fortuna, non essendo cieco, trovo molto riposante/rilassante ascoltare le pagine web piuttosto che doverle leggere da monitor. Magari salvandole in formato mp3 per poi riascoltarmele comodamente a letto od in automobile.
Felixman
18-06-2010, 11:16
Anche il Corriere.it si adegua alla novità. Se lo si vuole è possibile pure scaricare il testo in formato mp3
Salve a tutti, ho letto questo interessantissimo thread ma non mi è sembrato di capire che nessuno dei programmi citati faccia la funzione che interessa a me..
Funzione che da qualche tempo è stata implementata da youtube, cioè la creazione automatica in tempo reale di sottotitoli appunto tramite riconoscimento vocale...
A me servirebbe per guardare spettacoli di comici anglofoni per i quali su internet non si trovano sottotitoli, dato che il mio inglese non è cosi sviluppato e rischierei di perdermi la metà delle battute senza trascrizione...
Un programma cosi (magari che so un plugin per VLC) sarebbe utilissimo, magari esiste ma non l'ho trovato...
Felixman
21-12-2010, 09:01
Io conosco un buon programma che si chiama Natural Dragon Speaking
Segnalo un software che uso da parecchio che è in grado di usare sia Sapi4, Sapi5 che Loquando Voice pack installati.
si chiama 2nd Speech Center e supporta anche il comando via riga di comando; otile per chi lo vuole usare integrando comandi in programmazione senza usare SDK appositi.
Pho3nix2
14-02-2012, 17:07
Visto che è da un pò che questo thread non viene aggiornato ripropongo la domanda ...
Programmi ASR open source funzionanti ?
Pho3nix2
20-02-2012, 20:22
Nessuno se n'è piu' occupato :O ?
Ma questo thread è morto?
Classifica migliori voci italiane per android
Vocalizer EX + Alice_Mi Premium High Quality
Nuance Silvia
Voci Loquendo HQ 44000Hz - 58300bps es.: Giulia HQ
Loquendo Silvana
Classifica migliori Voci per PC
TextAloud + IVONA 2 Giorgio
Nuance Silvia
Loquendo Federica
Loquendo Giulia
marika43
30-03-2014, 08:41
ho provato il mini-reader Ivona è fantastico (se si ha già installato su pc almeno una voce di qualità...)... ed è freeware;
insieme al freeware DSpeech (converte testo in un file m.p3) si hanno praticamente tutte le funzionalita di un programma a pagamento
il vero problema è una voce high quality.....
Mi sembra che in questo thread si parli di "da testo a voce" (non è proprio vero, me ne sono accorto rileggendo più attentamente la prima pagina che però è datata, quindi la richiesta che segue vale ancora), ma per avere qualche indicazioni su "da voce a testo" c'è un altro thread?
Se qualcuno conosce programmi soddisfacenti in tal senso me li può indicare?
Grazie in anticipo
Mi sembra che in questo thread si parli di "da testo a voce" (non è proprio vero, me ne sono accorto rileggendo più attentamente la prima pagina che però è datata, quindi la richiesta che segue vale ancora), ma per avere qualche indicazioni su "da voce a testo" c'è un altro thread?
Se qualcuno conosce programmi soddisfacenti in tal senso me li può indicare?
Grazie in anticipo
sarei interessato anch'io alla funzione "da voce a testo"... seguo!
vBulletin® v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.