Ricerca

La nostra grande sfida

Marco Rosano è Dottorando in Informatica presso l’Università degli Studi di Catania. La sua esperienza di ricerca scientifica nasce qualche anno fa dalla collaborazione tra la nostra azienda e il Dipartimento di Matematica e Informatica, scaturita dalla visione di Luigi Gulino, CEO Orangedev e del Prof. Giovanni Maria Farinella, Professore di Machine Learning e ricercatore in ambito Intelligenza Artificiale, con l’obiettivo di sviluppare tecnologie robotiche in grado di apprendere il comportamento da adottare in base all’esperienza raccolta nel mondo reale.

La grande sfida era sfruttare le immagini scattate in prima persona (egocentric vision) da Sanbot, il robot mascotte Orangedev, come sola e unica informazione per decidere quali operazioni compiere per raggiungere un dato obiettivo. Le immagini rappresentano dei dati ricchi di informazioni da cui è possibile estrarre parecchia conoscenza sull’ambiente circostante. Quali oggetti si trovano attorno a noi? A che distanza? Ci sono pure persone nella scena? Si stanno muovendo?
Questa conoscenza può essere utilizzata per permettere al robot di ottenere una comprensione completa dell’ambiente, per navigare in autonomia in ambienti indoor, ovvero in ambienti al chiuso, a partire dalle sole immagini scattate attraverso la sua fotocamera integrata. Oltre alla localizzazione basata su immagini, un’altra sfida è quella di pianificare ed eseguire un percorso per navigare da un posto ad un altro, sempre basando tutto il processo decisionale a partire da immagini scattate in prima persona dal robot.

Queste sfide hanno caratterizzato e caratterizzano tutt’ora la nostra attività di ricerca che, nel corso dei mesi, ha portato alla pubblicazione di diversi articoli scientifici, pubblicati su conferenze e riviste scientifiche internazionali:

1.  A Comparison of Visual Navigation Approaches Based on Localization and Reinforcement Learning in Virtual and Real Environments
2. On Embodied Visual Navigation in Real Environments Through Habitat
3. Articolo scientifico in corso di pubblicazione
4. Visual RSSI fingerprinting for radio-based indoor localization
5. Image-based Navigation in Real-World Environments via Multiple Mid-level Representations: Fusion Models, Benchmark and Efficient Evaluation

Marco Rosano e Sanbot

1. A Comparison of Visual Navigation Approaches Based on Localization and Reinforcement Learning in Virtual and Real Environments

Articolo presentato alla conferenza internazionale “International Conference on Computer Vision Theory and Applications (VISAPP)”, febbraio 2020, ha avuto come obiettivo la comparazione di due diverse tecnologie di navigazione autonoma basata su immagini: 1. localizzazione basata su immagini e successiva pianificazione del percorso ottimale su grafo; 2. navigazione end-to-end senza localizzazione, con valutazione dei movimenti da eseguire condizionata dall’immagine corrente e da quella target. Nel primo metodo, un modello di Deep Learning (DL) viene adoperato per stimare la posizione del robot a partire dall’immagine scattata in prima persona; la successiva pianificazione verso il goal da raggiungere viene effettuata su un grafo/griglia di immagini/posizioni, che viene costruito a priori attraverso un’acquisizione di immagini all’interno dell’ambiente, corredate dalla loro posizione (anche approssimata) in termini di coordinate e angolo di visuale (x,y, theta). Nel secondo metodo la fase di localizzazione è omessa e un modello di DL viene utilizzato per compiere le azioni per raggiungere il goal. Il vantaggio è che il modello viene ottimizzato simulando gli episodi di navigazione in un contesto semi-supervisionato. Ciò significa che l’algoritmo apprende in autonomia quali sono le azioni migliori da intraprendere, data l’immagine corrente e quella target, sbagliando e auto correggendosi (algoritmo di Reinforcement Learning, RL). Inoltre, non essendo necessario eseguire la navigazione di allenamento nel mondo reale, è possibile ottenere il modello di navigazione risparmiando tempo e denaro (eseguire tanti episodi di navigazione in reale richiede molto tempo, senza considerare l’usura della piattaforma robotica).

Gli esperimenti condotti hanno mostrato che:

1. Costruire una mappa dell’ambiente semplifica il task, ma è un processo costoso e che richiede tempo per costruirla, soprattutto se si considerano ambienti molto grandi. È auspicabile realizzare degli algoritmi che funzionino senza mappa;

2. Una localizzazione anche inaccurata può comunque portare a dei risultati interessanti;

3. Gli algoritmi di RL sono dei metodi promettenti poiché permettono di apprendere in simulazione, ma richiedono un ulteriore sviluppo per poter funzionare su un numero elevato di posizioni goal.

Leggi l’articolo scientifico

2. On Embodied Visual Navigation in Real Environments Through Habitat

Articolo presentato alla conferenza internazionale “International Conference on Pattern Recognition (ICPR)”, si focalizza sul problema del trasferimento della conoscenza appresa dei modelli di navigazione dalla simulazione al mondo reale. Infatti, come era già emerso nello studio precedente, allenare dei modelli di navigazione basati su RL in ambienti simulati è molto conveniente in termini di tempo e costi. Purtroppo, questa metodologia presenta una limitazione importante: il mondo simulato è visivamente diverso da quello reale, che presenta pure delle dinamiche fisiche diverse (attrito delle ruote, imperfezioni della pavimentazione, ecc.) e applicare il modello appreso in simulazione, nell’ambiente reale, porta a delle performance sub ottimali. Sfruttando una combinazione di mappa densa dell’ambiente non foto-realistica (stile videogioco) e mappa sparsa dell’ambiente ma foto- realistica (formata da immagini reali) abbiamo realizzato un framework, basato sul famoso simulatore “Habitat”, che permette di risolvere il problema del “domain gap” e dunque di ottenere dei modelli di navigazione allenati con RL che funzionano in modo ottimale in ambiente reale. Grazie al metodo proposto il “Success Rate” (percentuale di episodi di navigazione che vanno a buon fine) su singolo ambiente è passato dal 2% per il modello allenato solo su ambiente simulato, al 97% per il modello adattato con il nostro framework. Abbiamo anche deciso di rilasciare pubblicamente il codice, in modo da rendere la nostra tecnologia fruibile a tutti e incoraggiare lo sviluppo di tecnologie simili.

Visita il sito

Leggi l’articolo scientifico

3. Articolo scientifico, in corso di pubblicazione

Affronta un doppio problema: sia quello del trasferimento della conoscenza dal virtuale al reale che quello da un’ambiente ad un altro qualsiasi. Il quesito che ci poniamo è il seguente: possiamo ottenere un modello di navigazione che, una volta allenato in un dato ambiente indoor, riesce ad operare correttamente in un qualsiasi altro ambiente indoor? Inoltre, possiamo ottenere questo risultato evitando di utilizzare immagini reali? Ciò permetterebbe di evitare la raccolta di immagini reali e la successiva ricostruzione del modello 3d sparso, un grande risparmio in termini ti tempo. Per ottenere ciò è necessario lavorare su dei dati che racchiudono informazioni di natura geometrica e semantica, meno legati allo stile dell’ambiente osservato dall’agente robotico. In questo modo l’immagine che rappresenta una stanza libera da ostacoli sarà molto simile, se non uguale, all’immagine acquisita in un’altra stanza, diversa dalla prima, anch’essa libera da ostacoli, così come all’immagine della stessa stanza ma acquisita nell’ambiente simulato. I risultati ottenuti sono molto positivi e sostenuti da un’estensiva serie di valutazioni effettuate in reale attraverso una piattaforma robotica dotata di attuatori di precisione.

Referenze

• Marco Rosano, Antonino Furnari, Luigi Gulino, Giovanni Maria Farinella (2020). A Comparison of Visual Navigation Approaches Based on Localization and Reinforcement Learning in Virtual and Real Environments. In International Conference on Computer Vision Theory and Applications (VISAPP).

• Marco Rosano, Antonino Furnari, Luigi Gulino, Giovanni Maria Farinella (2020). On Embodied Visual Navigation in Real Environments Through Habitat. In International Conference on Pattern Recognition (ICPR).

4. Visual RSSI fingerprinting for radio-based indoor localization

The problem of localizing objects exploiting RSSI signals has been tackled using both geometric and machine learning based methods. Solutions machine learning based have the advantage to better cope with noise, but require many radio signal observations associated to the correct position in the target space. This data collection and labeling process is not trivial and it typically requires building a grid of dense observations, which can be resource-intensive. To overcome this issue, we propose a pipeline which uses an autonomous robot to collect RSSI-image pairs and Structure from Motion to associate 2D positions to the RSSI values based on the inferred position of each image. This method, as we shown in the paper, allows to acquire large quantities of data in an inexpensive way. Using the collected data, we experiment with machine learning models based on RNNs and propose an optimized model composed of a set of LSTMs that specialize on the RSSI observations coming from different antennas. The proposed method shows promising results outperforming different baselines, suggesting that the proposed pipeline allowing to collect and automatically label observations is useful in real scenarios. Furthermore, to aid research in this area, we publicly release the collected dataset comprising 57158 RSSI observations paired with RGB images.

Leggi l’articolo scientifico

Autori: Giuseppe Puglisi, Daniele Di Mauro, Antonino Furnari, Luigi Gulino, Giovanni M Farinella

5. Image-based Navigation in Real-World Environments via Multiple Mid-level Representations: Fusion Models, Benchmark and Efficient Evaluation

La navigazione visiva dei robot è un argomento di ricerca rilevante. Gli attuali modelli di navigazione profonda apprendono comodamente le politiche di navigazione nella simulazione, data la grande quantità di esperienza che devono raccogliere. Sfortunatamente, i modelli risultanti mostrano una capacità di generalizzazione limitata quando utilizzati nel mondo reale. In questo lavoro esploriamo soluzioni per facilitare lo sviluppo di politiche di navigazione visiva addestrate nella simulazione che possono essere trasferite con successo nel mondo reale. Proponiamo innanzitutto un efficiente strumento di valutazione per riprodurre episodi realistici di navigazione nella simulazione. Investigheremo quindi una varietà di architetture di fusione profonda per combinare una serie di rappresentazioni di medio livello, con l’obiettivo di trovare la migliore strategia di fusione che massimizzi le prestazioni del mondo reale. I nostri esperimenti, eseguiti sia in simulazione che su una piattaforma robotica, mostrano l’efficacia dei modelli basati su rappresentazioni di medio livello considerati e confermano l’affidabilità dello strumento di valutazione. I modelli 3D dell’ambiente e il codice dello strumento di validazione sono disponibili pubblicamente al seguente link: https://iplab.dmi.unict.it/EmbodyVN/.

Leggi l’articolo scientifico

Autori: Marco Rosano, Antonino Furnari, Luigi Gulino, Corrado Santoro & Giovanni Maria Farinella