EVT Eye Vision Technology GmbH

Kontakt am KI-Fortschrittszentrum

Andreas Frommknecht

Transfer Learning Basic Network Examination

Quick Check

Ausgangssituation

Je häufiger Deep Learning für Projekte eingesetzt wird, desto schneller merkt man, dass meist ein geeignetes Netzwerk für genau eine Aufgabe entworfen wird. Dies ist auch bei der Objektdetektion und -erkennung der Fall. Die Basistechnologie ist da, aber wie kommt man schnell zu einem passenden Deep Learning Modell für die neue relevante Aufgabe? Hier hat sich das Transferlernen als gute Grundlage herauskristallisiert, jedoch müssen zum einen geeignete Basisnetze vorhanden sein und, wenn möglich, vorher trainiert werden. Dies gilt insbeson- dere im Hinblick auf eine möglichst kurze Time-to-Market. Es ist zu prüfen, wie solche Basisnetze für die relevantesten Aufgaben entwickelt werden können und wie sie optimal wiederverwendet werden können. Durch ein gutes Basismodell und einer geeigneten Transfer-Lernstrategie wird für dieses Projekt die Einzelzeichenerkennung als spezieller Anwendungsfall der Objekterkennung erwartet.

Lösungsidee

Optische Zeichenerkennung (OCR) und -erkennung ist ein spezieller Anwendungsfall der Objekterkennung. Das Problem bei der OCR ist, relevante und mit Einzelzeichen versehene Daten schwer zu finden. Deshalb werden alle Arten bestehender Modelle zur Objekterkennung und -erfassung untersucht. Die Fähigkeit eines jeden Modells, kleinere Objekte zu erkennen, ist entscheidend. Auf demselben Modell basierende Arbeiten werden für OCR verwendet und weiter untersucht. Für das Transferlernen werden neben der Feinabstimmung auch neue Lösungen gesucht. Das Ziel dahinter ist es, nach Möglichkeiten zu suchen, die mit minimalem Aufwand neue Daten generieren. Die Domain Adaptation ist eine Teilstudie davon, die gelernte Modellparameter aus annotierten Daten verwendet und deren Vorhersagen für die Lernaufgabe in einem neuen Anwendungs- fall anpasst. Die Domain Adaptation könnte den Aufwand für die Generierung eines Teils der erforderlichen neuen Daten vermeiden.

KI-Fortschrittszentrum_270_QC_Transfer Learning Basic Network Examination_Abb1
Abbildung 1: OCR and transfer learning, Alai Bürlike, Fraunhofer IPA

Nutzen

Das Projekt bietet einen Überblick über bestehende Modelle zur Objekterkennung und -erfassung. Darüber hinaus wird die Flexibilität hinsichtlich der Erkennungsfähigkeit jedes Modells für den Anwendungsfall der optischen Zeichendetektion und -erkennung untersucht. Das schließlich ausgewählte Modell, Faster RCNN mit mehreren RPN, tendiert dazu, die Flexibilität zu besitzen, die eine Einzelzeichenerkennung mit einer auf Wortebene annotierten Eingabe ausgibt. Dieses Faster RCNN mit mehreren RPN-Modellen ist bereit, an einem gegebenen Datensatz getestet und hinsichtlich der Fähigkeit zur Erkennung von Vordergrundobjekten und zur Erkennung einzelner Zeichen optimiert zu werden. Die Studienergebnisse aus dem Forschungsteil zur Transfer Learning-Strategie liefern den mehrfachen Stand der Technik, die beste Fine Tuning und heterogene Transfer Learning-Ansätze.

Umsetzung der KI-Applikation

In diesem Projekt werden alle untersuchten Modelle zur Objekterkennung und -erfassung mit Deep-Learning-Architekturen aufgebaut, z. B. Faster-RCNN, Transformer, YOLO. Im Transfer- Learning-Teil basieren die Finetuning und die Heterogenen Transfer-Learning-Ansätze auf Deep-Learning-Modellen, z. B. Faster-RCNN und Transformer.

Diese beiden Ansätze können nun getestet und miteinander verglichen werden. Erst dann, wenn der heterogene Transfer Learning-Ansatz eine ähnliche Leistung wie der traditionelle Transfer Learning-Ansatz mit Fine Tuning erbringt, kann der zusätzliche Aufwand für die Erstellung neuer Trainingsdaten vermieden werden.