Voice technology e in-car experience

L’evoluzione tecnologica dei digital voice assistant nel settore automotive.

Febbraio 7, 2022
  • Artificial Intelligence
  • Natural Language Processing

Quando gli ingegneri concepirono le prime automobili, non potevano certamente immaginare che un giorno avremmo parlato con le nostre auto. Eppure, eccoci qui, più di cento anni dopo, a usare la voce per ottenere indicazioni stradali, ordinare cibo, fare acquisti, controllare il meteo oppure lanciare il nostro podcast preferito.

 

Mentre ancora si dibatte su chi abbia inventato la prima automobile (Leonardo Da Vinci, Karl Benz o Nicolas-Joseph Cugnot?), sappiamo con certezza che la storia delle tecnologie vocali nelle auto è iniziata nel 2001 con BMW.

 

I sistemi di allora tuttavia, anziché ridurre la distrazione, spesso peggiorano le cose, costringendo il conducente a intervenire manualmente. Solo nel 2010 si giunge a una tecnologia vocale che permette un dialogo più colloquiale tra i conducenti e i sistemi di navigazione e intrattenimento.


I brand scelgono la voce

Con l’arrivo di Siri nel 2011, di Google Now nel 2012 (dal 2016 Google Assistant) e di Alexa nel 2014, inizia l’era dei digital voice assistant che hanno contribuito sensibilmente a cambiare il mondo dell’automotive, dando vita rispettivamente ad Apple CarPlay (2014) e Android Auto (2015).

 

Alexa, Siri, Google Assistant e Nuance (Cerence dal 2019) hanno sfruttato la potenza di enormi data center, il cloud e connessioni a banda larga per fornire un riconoscimento delle parole più accurato di quanto fosse possibile quando si limitava all’elaborazione “in-car”. La cronologia passata del conducente, i collegamenti ai servizi online, la posizione e la direzione del veicolo, il percorso di navigazione inviano agli assistenti digitali informazioni cruciali per definire e anticipare i desideri dell’utente. Un conducente in viaggio da Roma a Milano può ricevere informazioni dettagliate sulle stazioni di ricarica elettrica o le stazioni di servizio lungo il percorso, oppure su come trovare un parcheggio a destinazione. 

Dashboard principale di Apple CarPlay.

Tutto ciò è possibile grazie a connessioni wi-fi sempre più veloci integrate nei veicoli, computer più potenti ma efficienti da un punto di vista energetico e microfoni più sensibili, in grado di rimuovere i rumori di fondo e di distinguere chi sta parlando. Ad oggi, quando l’assistente viene addestrato su un comando, vengono aggiunti i rumori di fondo in modo da replicare situazioni tipiche come il momento del parcheggio e l’alta velocità.

 

Nel 2019, General Motors (GM) è diventata la prima casa automobilistica a integrare completamente Alexa Auto. A differenza di altri player, in cui le piattaforme integrate supportano più assistenti, GM consente ai conducenti di scegliere tra una soluzione integrata di Cerence o Alexa Auto. 

 

Le tecnologie vocali fanno ormai parte della nostra vita in diversi ambiti, ma l’industria automobilistica rimane indubbiamente il caso d’uso più importante. Si prevede infatti che quasi il 90% dei nuovi veicoli venduti a livello globale entro il 2028 saranno dotati di assistenti vocali (Automotive World).


La complessità di gestione del dialogo

Prima che la voce fosse introdotta nell’esperienza in-car, si aveva un match esatto tra il bisogno dell’utente e l’esecuzione del comando. Per aprire il finestrino, il conducente aveva infatti la sola e unica possibilità di premere il pulsante per l’apertura, senza alcun margine di errore da parte dell’assistente di bordo.

 

Nelle prime fasi di introduzione della voce, per farsi comprendere dall’auto l’utente era costretto ad esprimersi con dei comandi poco naturali, espliciti e il più possibile informativi. Erano quindi le stesse case automobilistiche a mettere a disposizione un elenco di comandi vocali supportati tra cui l’utente poteva scegliere.

 

Con il passare degli anni è diventato sempre più importante che il dialogo tra assistente vocale e utente non si limitasse a una successione di ordini ed esecuzioni di comandi. Il conducente infatti, vuole avere la libertà di potersi esprimere in modo naturale, senza trovarsi costretto a utilizzare frasi o comandi predefiniti. Proprio da qui nasce la sfida, molto complessa, affrontata dal Natural Language Understanding (NLU).

 

Quanti modi si possono utilizzare per esprimere un semplice “grazie”? “Ti vorrei ringraziare”, “grazie tante”, “grazie infinite”, “ti ringrazio” fino ad arrivare a forme più implicite, come “mi sei stato molto d’aiuto” o a forme prese in prestito dalle altre lingue ma che ormai fanno parte del nostro vocabolario quotidiano, come “thank you”. 

 

La variabilità delle espressioni si complica se pensiamo che ogni persona è spesso incline a impiegare poche parole per esprimere certi concetti. Non sempre, però, utilizzare enunciati sintetici è una buona soluzione, perché si rischierebbe di rimanere invischiati in discorsi lunghi in cui l’assistente vocale richiede altri elementi di cui ha bisogno per comprendere ed eseguire quel determinato comando. 

 

Per evitare di parlare per “formule fisse” è necessario prevedere tutte le forme più frequenti e più naturali, anche quelle più indirette. In questo modo la macchina acquisisce una capacità di comprensione sempre più raffinata: se prima si trattava solo di comandi semplici e diretti, ora è sempre più in grado di capire le intenzioni e i bisogni che l’utente intende esprimere.

Comando per il controllo audio “in-car” con riconoscimento della voce.

Pensiamo ad esempio a un utente che dica “ho caldo”: per un essere umano è facile intuire che questa frase sottende il bisogno implicito di rinfrescarsi. Come si comporta un assistente vocale? Se è stato addestrato a comprendere solo comandi espliciti, una frase del genere, che non ne contiene, non avrà per l’assistente alcun significato. Un sistema di NLU sarà in grado di capire il bisogno dell’utente e comportarsi di conseguenza.

 

D’altra parte, per la natura stessa del linguaggio naturale, le richieste dell’utente oltre che implicite, possono spesso essere anche ambigue. Come dicevamo in precedenza, quale richiesta si nasconde dietro la frase “ho caldo”? Aprire il finestrino oppure accendere l’aria condizionata?

 

Per questo, è necessario cercare di gestire l’ambiguità all’interno di un flusso di dialogo più ampio in cui, se l’assistente vocale non ha gli input necessari a mappare un’azione su un’intenzione univoca, richiede ulteriori informazioni. Gli input possono essere estrapolati nell’enunciato o da altri dati quali la localizzazione, i numeri usati più frequentemente, ecc.

 

L’utente, almeno per l’attuale stato dell’arte delle tecnologie vocali, sta comunque imparando a individuare il giusto compromesso tra sinteticità e giusto numero di informazioni essenziali.


Come funzionano gli assistenti vocali

Ci sono diversi processi e tecnologie che fanno in modo che un assistente vocale funzioni correttamente. A partire da un segnale acustico, l’Automatic Speech Recognition (ASR), fa una serie di ipotesi su come interpretarlo e gli assegna una sequenza di parole di senso compiuto.

 

I risultati dell’ASR vengono elaborati dal sistema di NLU che mira ad attribuire loro un significato, estrapolando l’azione espressa ed eventuali parole chiave o nomi propri. In questo modo si ottiene una rappresentazione semantica della richiesta.  

 

Un sistema di NLU si basa su algoritmi di machine learning addestrati su dati linguistici (testuali e audio) per comprendere al meglio il linguaggio utilizzato dall’utente. In passato, venivano impiegati sistemi rule-based che erano in grado di comprendere solo poche frasi prefissate e innaturali.

 

Addestrare algoritmi di machine learning richiede competenze sia nella scelta dei dati con cui allenarli sia nel tuning per adattarli alle diverse esigenze. In particolare, per quanto riguarda le competenze linguistiche, è necessario creare dati di training che cerchino di coprire quante più formulazioni possibili e naturali di uno stesso comando. La comprensione deve essere infatti chiara e non soggetta a fraintendimenti, attraverso una consapevolezza profonda di semantica e pragmatica. 

 

Un’altra competenza chiave è la capacità di testare e valutare le performance dell’assistente vocale per poter risolvere tutte le problematiche. I passi successivi consistono nell’esecuzione del comando richiesto e/o nella prosecuzione del dialogo. Nel caso in cui si prosegua con il dialogo entra in gioco una componente di Natural Language Generation (NLG) che formula una risposta in formato testuale. Sarà poi la tecnologia di  Text to Speech (TTS) a convertire la risposta dal formato testuale a quello vocale.

 

In sede di configurazione della voce di risposta ci si occupa anche di progettare e modulare la voce in modo da poterla rendere subito riconoscibile e personalizzata in base al brand.

La nostra competenza linguistica è molto richiesta in questo settore in quanto gli assistenti vocali vengono sviluppati in tantissime lingue: a oggi, i brand più famosi coprono infatti la maggior parte delle lingue europee, nord-americane, sud-americane, medio-orientali e asiatiche. Inoltre, nel caso delle lingue con un elevato numero di parlanti, lo sviluppo viene replicato nelle varianti linguistiche territoriali (es. inglese europeo, inglese americano, inglese indiano, inglese australiano) per permettere ai parlanti di esprimersi in maniera ancora più naturale.


I trend del futuro

Il campo di azione degli assistenti vocali si sta ampliando sempre di più. Basti pensare che fino a qualche anno fa, la voce in macchina serviva solo a portarci a una destinazione stabilita o, al massimo, a fare una chiamata. Oggigiorno gli assistenti vocali sono in grado di rispondere sempre meglio e di fare sempre più cose. I domini principali di applicazione rimangono comunque quelli legati alla navigazione (impostare una destinazione, vedere un tragitto, chiedere informazioni sul traffico), alla telefonia (chiamare, mandare e leggere messaggi o mail) e alla musica (ascoltare e gestire radio, cd e altri dispositivi musicali). 

 

Sempre più dominanti sono le richieste degli utenti di svolgere azioni e comandi legati alle caratteristiche della macchina tramite la voce, come ad esempio la regolazione del condizionatore e del riscaldamento, l’apertura e chiusura dei finestrini, fino ad arrivare a feature più elaborate come il settaggio dell’altezza del telaio, il cambio del colore delle luci e l’impostazione della temperatura a macchina spenta.

 

Il passo che gli assistenti automotive stanno compiendo è quello di uscire dal dominio ristretto dell’auto e di soddisfare le richieste degli utenti di accedere, spegnere o regolare elettrodomestici e riscaldamento presenti anche in casa. Diventano inoltre sempre più umani e vengono arricchiti di emozioni, empatia e leggerezza. L’intrattenimento degli utenti spazia dalle barzellette, agli aneddoti, alle storie, passando per le conversazioni da “amici al bar”, come sapere i risultati della partita di ieri o quale squadra è arrivata in finale di campionato. 

 

Il concetto di Artificial Human sta coinvolgendo anche gli assistenti vocali in auto: la voce meccanica che ci fa girare intorno alla rotatoria senza mai indovinare l’uscita giusta da prendere è ormai un ricordo.


Per saperne di più sulla voice technology:

innovation@h-farm.com