PRIOREGAI

Zuverlässige Personen- und Posenverifikation

Ausgangssituation

Inferics beschäftigt sich mit der Posen-, Personen- und Aktivitätserkennung in Räumen mittels 3D-Vision Systemen, vorwiegend der HemiStereo® Trinocular Stereo Vision Technologie. Diese ermöglicht die Erfassung ganzer Räume und das Embedded System erlaubt die direkte Verarbeitung der Daten, sodass keine Bilder verschickt werden müssen und lediglich Nachrichten, wie Alarme, nach außen gelangen. Aufgrund dieser Eigenschaften eignet sich diese Erkennung optimal zum Einsatz in den Bereichen Gebäudeüberwachung, Heimanwendungen, Arbeitssicherheit und Klinik- bzw. Pflegebereiche und wird dort vermarktet. Die Basis bilden eigens erstellte und trainierte, tiefe Neuronale Faltungsnetze, mit deren Hilfe Wahrscheinlichkeiten für die Lokalisierung der einzelnen Körpergelenke und Gliedmaßen aus den Bildern des Sensors ermittelt werden, die sodann zu den »Skeletten« der jeweiligen Personen zusammengesetzt werden. Deren räumliche Anordnung wird mithilfe des Tiefenbildes berechnet. Die Anordnungen bzw. deren Änderungen werden wiederum von einer weiteren KI verarbeitet, um die aufgabenspezifischen Informationen über Posen und Vorgänge zu erkennen. Auf tiefen Neuronalen Netzen basierende Schätzer von Personenposen verwechseln bisweilen Bild-Hintergrundstrukturen mit Gliedmaßen und erzeugen dann Posenfehler. Dies beschränkt die Anwendungsbereiche interaktiver Produkte auf solche, in denen die somit erreichbare Erkennungsgüte ausreichend ist.

Lösungsidee 

Die Posen-Artefakte widersprechen meist den physiologischen Möglichkeiten. Letztere sind als quantifizierbares a-priori-Wissen (Größen, Proportionen und Winkel der Gliedmaßen) verfügbar. Der Einsatz dieses 3D-Wissens in Form einer Regularisierung bei der Posenschätzung wurde im Quick-Check »PrioRegAI« detailliert untersucht. Es wurden geeignete anatomische Merkmale und deren Relationen sowie Bewegungsmerkmale und Grenzen identifiziert und als messbare Kennzahlen formuliert. Daraus ergibt sich eine Vielzahl an möglichen Verifikationen von Person und/oder einzelner Gelenke. Dies ermöglicht die Korrektur der Gelenkpositionen, die jeweilige Anpassung der Konfidenzen zur Optimierung der Posenschätzung und die Vermeidung von »Geistern« (falsch erkannter Personen), z.B. auf Fotos oder durch ähnliche Muster. In diesem Exploring Project sollten die Kennzahlen praktisch angewandt und realisiert und Verifikationsstrategien zur optimalen Anwendung der Kennzahlen in Abhängigkeit der aktuell gegebenen Erkennung entwickelt, umgesetzt und evaluiert werden.

© Fraunhofer IPA
Abb.: Aktuelle Visualisierung der Bewertung pro Gelenk: »invalid«: rot, »in Toleranz«: blau, »valid«: grün.

Nutzen

Die Anwendungen in der posenbasierten Mensch-Technik-Interaktion haben unterschiedliche Anforderungen an die Güte und Verlässlichkeit der Ergebnisse. So können bei Produkten zur Gestensteuerung von Haustechnik und Unterhaltungselektronik Nicht-Detektionen im einstelligen Prozentbereich toleriert werden, während Falsch-Auslösungen in nur wenigen Situationen vorkommen dürfen. Bei Alarmierungssystemen, in welchen Menschen eine Alarm-Qualifikation vornehmen (z.B. Hausnotruf), ist eine nahezu vollkommene Detektion erforderlich, aber durchaus ein Falschalarm pro Woche tolerierbar. Anwendungen, wie die vollautomatische Alarmierung oder die Mensch-Maschine-Kooperation, stellen hier hohe Ansprüche, die mit den heutigen Technologien noch nicht erreichbar sind. Der Mehrwert der Projektinnovation besteht in der Schaffung des Zusatznutzens automatisierter Interaktion durch den Transfer KI-basierter Leistungen auch in anspruchsvollen Anwendungsbereichen. Bei weiterer Steigerung der Qualität können schließlich Anwendungen, in denen heute noch der »man in the loop« erforderlich ist, vollständig automatisiert werden.

Umsetzung der KI-Applikation

Aufbauend auf den Ergebnissen des Quick-Checks wurde die Kennzahl »Körpergröße« auf Basis anatomischen Grundwissens intensiv evaluiert und eine Metrik entwickelt, welche zum einen einen »Fehlerwert« für das gesamte Personenmodell und damit eine Einschätzung über »Person real« angibt. Zum anderen wird auf diese Weise eine zusätzliche Bewertung einzelner Gelenke ermöglicht. Die Ergebnisse sind sehr vielversprechend. Alle zur Verfügung gestellten Daten von »Geistern« wurden eindeutig klassifiziert und eine Vielzahl an Gelenken mit fehlerhaften räumlichen Werten ermittelt. Im ersten Schritt wurde eine einfache farbcodierte Visualisierung einzelner Gelenke eingeführt, sodass eine schnelle Erfassung ermöglicht wird. Zur Bewertung von Posen aufgrund von anatomischem Vorwissen wurde die Neutral-Null-Methode aus der Physiotherapie als geeignet identifiziert und exemplarisch für untere Extremitäten umgesetzt und evaluiert. Hierfür war die Festlegung eines spezifischen körpereigenen Koordinatensystems notwendig, um eine »Neutrale Position« als Bezugssystem nutzen zu können. Damit ließen sich die Gelenkwinkel bestimmen und Werte außerhalb der anatomischen Norm als Hinweis auf eine fehlerhafte Erkennung nutzen. Alle bewertenden Elemente wurden zu einem Gesamtkonzept der KI-basierten Körpererkennung zusammengefasst und sollen im Inferics-System validiert werden.

Ausgangssituation

Inferics beschäftigt sich mit der Personen-, Posen- und Aktivitätserkennung in Räumen mittels 3D-Vision-Systemen. Diese ermöglicht die Erfassung ganzer Räume. Das Embedded System erlaubt die direkte Verarbeitung der Daten durch die Patronusens® KI-Software im System, sodass keine Bilder verschickt werden müssen und lediglich Signale, wie Alarme, nach außen gelangen. Aufgrund dieser Eigenschaften eignet es sich optimal zum Einsatz in den Bereichen Gebäudeüberwachung, Heimanwendungen, Arbeitssicherheit und Klinik- bzw. Pflegebereiche.

Lösungsidee 

Auf tiefen neuronalen Netzen basierende Schätzer von Personenposen (räumliche Anordnung der Gelenke) aus Bilddaten verwechseln bisweilen Bild-Hintergrundstrukturen mit Gliedmaßen und erzeugen dann Posenfehler. Dies beschränkt die Anwendungsbereiche interaktiver Produkte auf solche, in denen die somit erreichbare Erkennungsgüte ausreichend ist. Die Posen-Artefakte widersprechen meist den physiologischen Möglichkeiten. Letztere sind als quantifizierbares A-priori-Wissen (Größen, Proportionen und Winkel der Gliedmaßen) verfügbar. Der Einsatz dieses 3D-Wissens in Form einer Regularisierung bei der Posenschätzung soll untersucht werden. Die Regularisierung kann auch beim Training des Posenschätzer-Modells die Darstellung unrealistischer Posen vermeiden.

© Fraunhofer IPA

Nutzen

Der Mehrwert der Projektinnovation besteht in der Schaffung des Zusatznutzens automatisierter Interaktion durch den Transfer KI-basierter Leistungen auch in anspruchsvollen Anwendungsbereichen.

Unmittelbare Nutznießer sind intelligente Hausnotrufsysteme und Arbeitsplatz-Sicherheitssysteme zur Absicherung von Ein-Personen-Arbeitsplätzen, deren Markt-Reichweite (und Personaleffizienz bei Alarmzentralen) durch weniger Falschalarme deutlich erhöht wird. Bei weiterer Steigerung der Qualität können schließlich Anwendungen, in denen heute noch der „man in the loop“ erforderlich ist, vollständig automatisiert werden.

Umsetzung der KI-Applikation

Zur optimalen Umsetzung der KI-Applikation wurden geeignete anatomische Merkmale und deren Relationen sowie Bewegungsmerkmale und Grenzen ermittelt und als messbare Kennzahlen formuliert. In ersten Testauswertungen wurde bereits identifiziert, dass Kennzahlen sich unterschiedlich gut eignen und es konnten deutliche, bisher unbekannte Zusammenhänge formuliert werden. Daraus ergab sich eine Vielzahl an möglichen Verifikationen einer Person und/oder einzelner Gelenke. Dies ermöglicht die Korrektur der Gelenkpositionen, die jeweilige Anpassung der Konfidenzen zur Optimierung der Posenschätzung und die Vermeidung von „Geistern“ (falsch erkannter Personen), z.B. auf Fotos oder durch ähnliche Muster.