Apple spiega nel dettaglio come funziona il comando 'Hey, Siri'

Si tratta di una lettura particolarmente complessa quella pubblicata da Apple all'interno del suo Machine Learning Journal (che potete trovare qui, in lingua inglese). Nella pagina la compagnia spiega quello che avviene durante l'esecuzione di uno dei comandi più semplici fra quelli disponibili su iPhone e Apple Watch, Hey Siri, insieme a tutte le complesse valutazioni che il software deve compiere per poter capire se il comando è da considerare valido e se appartiene all'utente originale.
Apple spiega che il microfono dei due dispositivi "trasforma la voce in un flusso di onde sonore istantanee, ad una velocità di 16000 campioni al secondo" prima che il sistema di rilevazione sia capace di dedurre la volontà di richiamare l'assistente vocale. Ogni campione ha una durata di circa 0,01 secondi e il modello acustico basato sulle reti neurali (Deep Neural Network, DNN) ne analizza 20 contemporaneamente per una durata di ogni singolo set di circa 0,2 secondi.
Con i campioni vengono svolti una valutazione probabilistica e un "processo di integrazione temporale" per ottenere un punteggio, e stabilire la coerenza dei campioni con il comando "Hey, Siri". Naturalmente Apple non richiede ai suoi sistemi di avere una certezza del 100% per richiamare l'assistente virtuale con l'uso della voce, in modo da garantire l'uso della funzionalità anche in ambienti in cui sono presenti anche altri suoni d'ambiente o altre voci sullo sfondo.
"Abbiamo integrato un po' di flessibilità in modo da rendere più facile l'attivazione di Siri in condizioni difficili, senza tuttavia aumentare il numero di false attivazioni", si legge nel documento. Ci sono due diverse soglie per stabilire l'attivazione dell'assistente virtuale, quella normale e quella bassa: se si supera quest'ultima ma non la prima il sistema potrebbe mancare un buon comando "Hey, Siri", ed è in queste circostanze che viene attivata una modalità più sensibile per alcuni secondi.
Questo succede del tutto automaticamente, in modo che se l'utente pronuncia nuovamente le due parole, anche senza aumentare il volume o essere più preciso, il sistema riesce a rilevare il tentativo di attivazione comportandosi adeguatamente. Questo consente, secondo Apple, di "migliorare significativamente l'usabilità del sistema senza aumentare il tasso di falsi positivi, visto che la sensibilità del riconoscimento viene aumentata solo per un breve periodo di tempo".
Nel documento vengono riportate anche altre informazioni già note: Hey Siri, ad esempio, si basa sul co-processore presente nei SoC degli ultimi modelli di iPhone in modo da funzionare senza richiedere alcuna interazione fisica e al tempo stesso senza pesare troppo in termini energetici sulla carica della batteria. Su Apple Watch invece il rilevamento della voce si attiva solo se viene percepito il movimento del polso verso l'alto, che attiva anche il display del dispositivo.
In questo modo il sistema può allocare solo una minima porzione (5%) della potenza concessa dal SoC di Apple Watch, dedicandola esclusivamente al riconoscimento della voce, e solo per una piccola porzione di tempo rispetto all'intero arco della giornata. Chi volesse approfondire l'argomento può farlo a questo indirizzo, sul sito Apple Machine Learning Journal.
20 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoTi mandano pupo a casa e ggli fanno cantare in loop gelato al gioccolato...
E ti va bene...
Nel peggiore dei casi, ti possono mandare d'alessio e la tatangelo in duetto...
E ti va bene...
Nel peggiore dei casi, ti possono mandare d'alessio e la tatangelo in duetto...
Nel senso che apple ha inventato anche questo, quando coi win phone hey cortana c'è tipo dal 2014 quando uscì il lumia 930
It's sooooo maggicc...think different
io questi sistemi li ho disattivati.. consumano per niente e se li voglio attivare premo un tasto..
La differenza è che tu premi un tasto sul volante, mentre chi ha il telefono poggiato nel suo holder sul cruscotto e non ha collegato alcun tipo di vivavoce, dovrebbe comunque distrarsi dalla guida per andare a premere un pulsante.
Io non l'ho attivato e lo uso molto. Trovo più comodo, e anche più sicuro, richiamare l'assistente vocale senza distrarmi dalla guida.
A quando un telefono denza microfono?
Il giorno che vendono uno smartphone senza microfono, lo compro. Non sopporto più questi spioni del deep learning. Voglio uno smartphone con microfono plug in, così sono sicuro che non sono in costante ascolto di quello che dico.Mi hai strappato una risata... se ascoltano me quando guido, al massimo si ascoltano i queen..
if "Hey Siri" and time before coffee
then say "Azzo vuoi?"
else
say "Siiiii?"
end
if "Hey Siri" and time before coffee
then say "Azzo vuoi?"
else
say "Siiiii?"
end
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".