Nuance

Sguardi e parole: l'automobile è sempre più umana

di Andrea Bai pubblicato il 18 Aprile 2018 nel canale Tecnologia

L'interazione con l'automobile sarà sempre più multi-modale: non solo comandi vocali ma anche rilevazione dello sguardo. Nuance presenta in anteprima un sistema in fase di sviluppo che potrebbe arrivare sul mercato nel giro di un paio d'anni

Compie dieci anni il Nuance Auto Forum Europe e questa volta fa tappa a Baveno, sulla sponda piemontese del Lago Maggiore: tema dell'edizione 2018 è il concetto di Conversational AI, ovvero la creazione di interazioni collaborative tra l'automobile e chi vi si trova a bordo, siano passeggeri o il guidatore.

Come? Nuance e l'automobile? Già, perché la società nata nel 1992 come spin off del laboratorio Speech Technology and Research dello SRI International allo scopo di commercializzare un software di riconoscimento vocale, sviluppato per il governo USA, e specializzatasi poi nello sviluppo e realizzazione di software di riconoscimento vocale e dettatura, ha istituito nel 2007 una business unit focalizzata sulle tecnologie "speech" (non solo riconoscimento e dettatura, ma anche sintetizzazione e generazione del linguaggio). Per capire le dimensioni e la crescita del giro d'affari di questa specifica divisione basti pensare che oggi le soluzioni di Nuance sono usate da oltre 60 marchi automobilistici ed equipaggiano più di 200 milioni di veicoli: di questi, 45 milioni solo nel 2017.

Chi, tra i lettori, è proprietario di un'automobile capace di comprendere ed eseguire comandi vocali, probabilmente usa una soluzione Nuance senza saperlo. La società infatti si occupa di fornire piattaforme modulari aperte (Dragon DRIVE è il nome della piattaforma) ai produttori di automobili, i quali hanno la libertà di sviluppare e implementare la loro interpretazione di ciò che deve essere l'assistenza vocale alla guida. La filosofia di Nuance è che le interazioni tra guidatore e auto debbano restare nel dominio del produttore dell'auto stessa, e non nelle mani di terze parti come può avvenire con gli assistenti vocali oggi più diffusi come Siri o Google Now.

Arnd Weil - VP & General Manager Automotive & Consumer per Nuance

Ma la sola capacità di riconoscimento vocale non basta affinché il concetto di Conversational AI possa essere tradotto in realtà: si rende necessario l’abbinamento con altri presupposti tecnologici, come la capacità di riconoscere il contesto per fornire risposte pertinenti e adeguate, la personalizzazione e l’abilità nel riconoscere le varie persone a bordo dell’auto così da comprendere chi stia parlando e cosa richieda, la capacità di comprendere i comandi (e solo quelli) all'interno di un discorso più articolato. Microfoni sempre in ascolto: privacy a rischio? Nuance assicura che le uniche parole inviate nel cloud per l'elaborazione sono solamente quelle essenziali per il comando, e che il resto dei discorsi non viene registrato o archivato da nessuna parte. Ci toccherà fidarci.

La grande area di lavoro, a cui Nuance si è dedicata già da tempo (ne parlammo a novembre), è quella del miglioramento delle capacità di comprensione e comunicazione con il linguaggio naturale. Si tratta di un passaggio fondamentale per avvicinare gli assistenti vocali alle persone comuni, e renderli più "amichevoli". Pensiamoci un attimo: gli appassionati di tecnologia si sono abituati ad impartire comandi ad un assistente vocale, ma un automobilista non è necessariamente un appassionato di tecnologia. Perché la fruizione di un sistema del genere possa rispettare le aspettative dell’utente e non generare frustrazione, è necessario che la conversazione possa essere la più naturale possibile: la maggior parte del pubblico si spazientisce se deve imparare qualcosa di nuovo.

A ciò si aggiunge il filone tecnologico della biometria vocale che permette, oltre alle ovvie operazioni di autenticazione e sicurezza, di mettere in atto funzioni di personalizzazione. E' grazie alla biometria vocale che il sistema è capace di riconoscere chi stia parlando ed eventualmente impartendo comandi e rispondere di conseguenza: il comando "chiama mio fratello", quindi, produrrà esiti differenti a seconda di chi lo dovesse impartire.

Si tratta di tecnologie che vedremo presto nelle automobili di prossima uscita sul mercato. Un esempio su tutti è la nuova Mercedes Classe A, fra pochissimo in vendita, e che monta il nuovo sistema MBUX basato sulle tecnologie Nuance. La decisione di Mercedes equipaggiare la propria Classe A (che nel listino della compagnia rappresenta la proposta accessibile al mondo Mercedes) con queste tecnologie testimonia come l’interazione vocale venga non più intesa come un valore aggiunto per le automobili della fascia alta del mercato, ma inizi ad essere proposta anche in direzione del mercato di massa. Tra gli altri attori del mondo dell'auto, anche Audi ha adottato la piattaforma Dragon DRIVE sulla nuova A8.

L'attenzione sulle tecnologie in grado di comprendere e sintetizzare linguaggio naturale sono inoltre alla base degli sviluppi futuri che la società sta delineando, in particolare nell'ottica della comunicazione multimodale cioè quella modalità di comunicazione (innata nell'essere umano) che non si basa solamente sulla voce ma si compone anche di sguardi, espressioni e gesti. La comunicazione esclusivamente vocale è più complicata, meno naturale, più prona ad impreicsioni, ed è questo il motivo per il quale talvolta troviamo ostico il relazionarci con gli assistenti vocali oggi in circolazione.

In particolare la prima apertura verso l'interazione multimodale si concretizza nelle attività di sviluppo di un sistema capace di tracciare lo sguardo del guidatore così da rilevare dove egli stia ponendo la sua attenzione per contestualizzare un'eventuale richiesta vocale. Nuance sta attualmente collaborando con Tobii per quanto riguarda la fornitura delle tecnologie di eye-tracking (già partner di realtà come Acer, Dell e MSI per la realizzazione di prodotti gaming) e con DFKI per le tecnologie di Intelligenza Artificiale su cui si basano le tecniche di fusione delle informazioni che giungono dal sistema di tracciamento dello sguardo, dal sistema di riconoscimento vocale e dal posizionamento dell'automobile. Quest'ultimo aspetto, tra l'altro, è piuttosto complesso in quanto le informazioni provenienti dal GPS vengono abbinate ad un modello 3D dell'ambiente, costruito a partire da mappe bidimensionali e metadati.

Insomma: il sistema si occupa di rilevare dove è diretto lo sguardo e da qui ricostruisce, sulla base delle altre informazioni, quale sia l'effettivo punto di attenzione su cui si sono posati i nostri occhi. Il tutto per consentire all'assistente vocale, per esempio, di rispondere ad una domanda che per un umano sarebbe semplicissima: "A che ora apre quel ristorante?" dove il dimostrativo "quel" sottointende l'oggetto del nostro sguardo. Potremo quindi guidare in una città e chiedere all'assistente vocale informazioni di vario genere relative a ciò che cattura la nostra attenzione, partendo da orari di apertura di esercizi commerciali, prezzi del carburante, recensioni di ristoranti e via discorrendo.

La dimostrazione simulativa: il quadratino verde indica dove è diretto lo sguardo del guidatore

Nuance ha preparato, in occasione dell'evento, due esperienze dimostrative: una in contesto controllato e simulativo, per meglio comprendere la reattività di funzionamento del sistema di tracciamento dello sguardo - che viene scrutato ogni 12 millisecondi -e una in una situazione reale, in un percorso che si snoda tra le cittadine di Baveno e Stresa, con l'intero sistema gestito dalla piattaforma automotive NVIDIA PX2.

La dimostrazione su strada: il sistema risponde ad una richiesta vocale relativa ad un luogo che abbiamo osservato

Diciamo subito che il sistema ha sicuramente margini di miglioramento ed espansione (per esempio ad oggi riconosce solamente "punti di interesse" ma non gli altri partecipanti della strada) ma questo primo contatto con una versione assolutamente in sviluppo della tecnologia ci ha permesso di comprendere con che cosa potremo realmente avere a che fare all'interno dell'abitacolo della nostra automobile nel giro di qualche anno. Quando, di preciso? Nuance crede che, anche a fronte dell'interesse mostrato da clienti e partner, le prime concretizzazioni di questa tecnologia potrebbero manifestarsi tra il 2019 e il 2020.

Oltre ai casi d'uso qui presentati, questa tecnologia offre altre possibilità future: per esempio sarà possibile sfruttare la combinazione sguardo/voce anche per funzioni interne all’automobile oppure, ad esempio, capire dove sono indirizzati maggiormente gli sguardi delle persone. Ovviamente in questo caso lo scenario d’uso principale è quello di vendere queste informazioni a società pubblicitarie per capire dove collocare in maniera efficace i cartelloni, ma un altro caso d'uso può essere, ad esempio, quello di una più attenta comprensione delle aree rischiose della sicurezza urbana, evidenziando ad esempio quali sono quelle zone verso cui i guidatori rivolgono meno i propri sguardi.

Dalle dimostrazioni è però apparso evidente come la capacità di comprendere e produrre linguaggio naturale sia un presupposto fondamentale per le interazioni multimodali, poiché da essa dipende un’interazione davvero reattiva: pronunciare un comando con un lessico specifico rischierebbe di far “perdere l’attimo” e di restituire risultati non in linea con le richieste e le aspettative dell’utente.

Inoltre, come già sta accandendo in vari altri contesti, anche in questo caso si osserva una progressiva attenzione verso il paradigma dell' Edge Computing, con ciò che Nuance chiama “Hybrid AI”, ovvero la capacità di riconoscere interpretare ed esguire alcuni comandi in locale, senza chiamare in causa il cloud, e invece di affidarsi ad esso per altre funzioni. Si tratta di un presupposto importante perché l’automobile possa eseguire una serie di funzioni anche in situazioni dove la connettività potrebbe non essere ottimale o mancare del tutto. E non è finita qui: la piattaforma Nuance diventerà presto anche un "intermediario" verso altri assistenti vocali in ciò che la società chiama "Cognitive Arbitration". L'utente converserà con l'automobile e l'intelligenza artificiale si occuperà di smistare la richiesta all'assistente vocale, anche di terze parti, più adeguato a soddisfarla.

jepessen18 Aprile 2018, 17:01 #1

L'automobile per essere piu' umana deve mostrare il dito medio a chi gli rompe le p@@@e mentre sta guidando...

Ultravincent18 Aprile 2018, 18:54 #2

Oserei dire sempre MENO umana... e piu' automatica

Eress18 Aprile 2018, 19:12 #3

L'auto è femmina, se gli fai l'occhiolino, dopo ci sta?

joefor18 Aprile 2018, 23:22 #4

Multa e via punti a chi usa il telefonino, e stare a guardare tutti sti monitor e cazzate varie invece non è pericoloso????

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

GLI ULTIMI VIDEO

tutti gli articoli »

tutte le news »

Lenovo ThinkVision 3D 27, la steroscopia senza occhialini Primo contatto con il monitor Lenovo ThinkVision 3D 27 che grazie a particolari accorgimenti tecnici riesce a ricreare l'illusione della spazialità tridimensionale...

Recensione Zenfone 11 Ultra: il flagship ASUS ritorna a essere un 'padellone' Zenfone 11 Ultra ha tantissime qualità interessanti, fra cui potenza da vendere, un display di primissimo livello, un comparto audio potente e prestazioni di connettività...

Stellar Blade: l'action RPG di Shift Up sfoggia uno stile (quasi) unico su PS5 - Recensione Primo grande progetto della coreana Shift Up, Stellar Blade è il racconto apparentemente poco originale di un mondo post-apocalittico. La nuova esclusiva PS5 ha...

Sony FE 16-25mm F2.8 G: meno zoom, più luce Il nuovo Sony FE 16-25mm F2.8G si aggiunge all'analogo 24-50mm per offrire una coppia di zoom compatti ma di apertura F2.8 costante, ideali per corpi macchina altrettanto...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

Appian: non solo low code. La missione è l’ottimizzazione dei processi con l'IA Abbiamo partecipato ad Appian World 2024, evento dedicato a partner e clienti che si è svolto recentemente nei pressi di Washington DC, vicino alla sede storica...

La Formula E può correre su un tracciato vero? Reportage da Misano con Jaguar TCS Racing Abbiamo visto ancora una volta la Formula E da vicino, ospiti di Jaguar TCS Racing. In questa occasione però curve e rettilinei erano quelli di un circuito permanente,...

Fujifilm X100VI: con le 'ricette' è la fotocamera più divertente del momento Fujifilm X100VI è la fotocamera perfetta per divertirsi con la street photography: è tascabile, offre grande qualità, ma soprattutto permette di giocare molto con...

No Rss

Sguardi e parole: l'automobile è sempre più umana

4 Commenti