Erweiterte Untersuchung für das »Transfer Learning« von Basisnetzwerken

Exploring Project

Ausgangssituation

Deep Learning wird in der Regel für Projekte eingesetzt, bei denen ein geeignetes Netzwerk für genau eine Aufgabe trainiert wird. Dies ist auch bei der Objekterkennung und der optischen Zeichenerkennung der Fall. Die separate Datenbeschaffung für jeweils spezielle Aufgaben ist jedoch nicht effektiv, da sowohl die Datensammlung als auch deren Kennzeichnung äußerst zeit- und arbeitsaufwendig sind. »Transfer Learning« kann dies verbessern. Hierfür müssen aber geeignete vortrainierte Basisnetzwerke vorhanden sein.

Ausgehend von den Ergebnissen des vorhergehenden Quick Checks bestand die grundsätzliche Aufgabe des Projekts darin, ein Basismodell zu entwickeln, das an spezifische Aufgaben mit Datensätzen ohne Annotationen angepasst werden kann.

Lösungsidee

Die optische Zeichenerkennung (Optical Character Recognition, kurz OCR) ist ein spezieller Anwendungsfall der Objekterkennung. Das Problem bei der OCR ist, dass Objekte als Einzelzeichen schwer zu detektieren sind. Im Projekt wurde deshalb ein Transfer-Learning-Ansatz auf der Grundlage von »Faster RCNN« (Collaborative Training between Region Proposal Localization and Classification for Domain Adaptive Object Detection) getestet, um Einzelzeichen (ohne Annotation) mithilfe eines vortrainierten Modells zu erkennen. Während der Anpassungsphase lieferte das Wissen des vortrainierten Modells eine erste Vorhersage für die Zieldomäne. Ein mögliches Beispiel für eine Zieldomäne ist hier die Zeichenerkennung von Inkjet-Druckbildern. Die einzelnen Vorhersagen werden als Pseudolabels bezeichnet. Die Pseudolabels werden anschließend mithilfe von Backpropagation dafür genutzt, die Modellparameter in der Zieldomäne iterativ anzupassen. Weiterhin wurde ein klassenausgeglichenes Quellentraining einbezogen (bei dem annotierte Daten verfügbar waren), um die Transferlernergebnisse zu verbessern. Ein weiterer Ansatz, um Transferlernergebnisse zu verbessern, war eine maßgeschneiderte Datenerweiterung.

© Fraunhofer IPA & EVT
Transfer Learning zwischen unterschiedlichen Domänen

Nutzen

Der Mehrwert liegt darin, dass neue Aufgabenstellungen schneller umsetzbar sind. Weil die Produktlebenszeiten zunehmend kürzer werden, müssen auch Prüf- und Erkennungssysteme schnell anpassbar sein. Die Nutzung von Basisnetzwerken ermöglicht, diese Netze möglichst schnell an unterschiedliche Anwendungsfälle anzupassen. Die Zeichenerkennung ist hierfür ein äußerst passendes Beispiel. Es bestehen bereits sehr erfolgreiche Erkennungsmethoden, die aber in bestimmten Bereichen (bspw. starkes Hintergrundrauschen) nicht anwendbar sind. Im Projekt wurde die Übertragbarkeit von Basiszeichenerkennungsnetzwerken gezeigt.

Umsetzung der KI-Applikation

Nach einer Überblickserstellung bestehender Modelle zur Objekterkennung wurde in diesem Projekt untersucht, wie flexibel die gefundenen Modelle für den Anwendungsfall der optischen Zeichenerkennung sind. Es wurde insbesondere überprüft, ob das heterogene Transferlernen die Aufgabe lösen kann. Hierbei handelt es sich um ein neues Verfahren, das ohne annotierte Daten in der Zieldomäne eingesetzt werden kann. Es wird nur das Wissen des vortrainierten Modells verwendet.

Partnerunternehmen

»Trotz der großen Lücke zwischen Quell- und Zieldatensatz und keiner Ground Truth im Zielbereich hat die Domain Adaptation die Modellgenauigkeit verbessert.«

Michael Beising, Geschäftsführer EVT