Semantic Navigation

Quick Check

Ausgangssituation

Autonome mobile Roboter führen Transportaufgaben in der Logistik selbstständig durch. Hierbei navigieren sie in einem dynamischen Umfeld mit beispielsweise Routenzügen, Gabelstaplern oder Personen. Die autonome Navigation nutzt 2D-Laserscanner, um die Umgebung zu erfassen. Jedoch sind deren Umgebungsinformationen begrenzt, sodass Semantiken nicht zuverlässig erkannt werden können. Eine KI-basierte Lösung kann dies verbessern. Für einen reibungslosen Betrieb muss der Roboter sein Verhalten situativ an das Umfeld anpassen, sodass er bspw. Routenzügen Vorrang gewähren kann. Für Routenzüge, Gabelstapler etc. gibt es aber noch keine Objekt- /Bilddatenbanken. Dies hat zur Folge, dass verfügbare KI-Modelle diese Objekte nicht wahrnehmen können.

 

Lösungsidee

Ein komplexes Verständnis der Umgebung kann mithilfe von visuellen Perzeptionsalgorithmen generiert und in einem vom Fraunhofer IPA entwickelten Umgebungsmodell verwaltet und analysiert werden. Möglich wird dies, wenn es gelingt, modernste KI-Methoden zu adaptieren, um die relevanten Objektklassen zu erkennen.

© LOCO dataset
Eine Gradio GUI wurde zum Benchmark von verschiedenen KI-Modellen impelentiert.

Nutzen

Umgebungsperzeption, also die KI-basierte Klassifizierung von Objekten, stellt Wissen für das Entscheiden und Planen bereit und ermöglicht, Roboter mithilfe kognitiver Funktionen zu steuern. Der Roboter kann zukünftig zwischen Objekten in der Umgebung differenzieren, sodass die Navigationsplanung abhängig von der Semantik anpassbar ist. Basierend auf dem aggregierten Wissen lassen sich Heatmaps erstellen, dank denen der Roboter zum Beispiel hochfrequentierte Bereiche zu Stoßzeiten meiden kann. Dies macht ihn produktiver.

 

Umsetzung der KI-Applikation

Evaluierung verfügbarer Methoden sowie die Anpassbarkeit an den Use Case. Die Umsetzung umfasst:

- Objekterkennung mithilfe eines modernen Modells YOLOv8

- Datenerweiterung durch Verwendung von Diffusionsmodellen

- Anwendung von Modellen basierend auf Large Language Models (LLM) des offenen Vokabulars auf die seltenen Objektklassen

- Instanzsegmentierung mit FastSAM

Partnerunternehmen

»Die Arbeit von Cagatay und seinem Team hat uns geholfen, einen besseren Einblick in den aktuellen state-of-the-art der Computer Vision im Bereich der mobilen Industrierobotik zu bekommen. Wir freuen uns auf weitere Kooperationen in der Zukunft.«

- NODE