REINFORCE

Autonome Systeme interaktiv durch BCI-Feedback trainieren

Was ist die Innovation von REINFORCE?

Autonome Systeme, wie z.B. Roboter, Smart Home, Medizintechnik oder autonomes Fahren, bieten dem Menschen in unterschiedlichsten Situationen Unterstützung und Kooperationsmöglichkeiten. Durch maschinelles Lernen können die Systeme immer mehr Prozesse eigenständig durchführen. Während der Interaktion mit dem Menschen ist es wichtig, dass sie sich anpassen, schnell reagieren und keine Fehler machen. Damit autonome Systeme dies schaffen, wird zum trainieren Reinforcement Learning (RL) eingesetzt. Richtiges Verhalten wird belohnt, falsches Verhalten bestraft. Algorithmen des RL benötigen jedoch viel Feedback, um Aktionen von autonomen Systemen korrekt bewerten und daraus lernen zu können. Zudem werden autonome Systeme heutzutage in den meisten Fällen noch in Isolation, also ohne aktive Beteiligung des Menschen trainiert. Es fehlt an direktem Feedback durch die Expert*innen im Lernprozess. Wenn Feedback doch eingeholt wird, dann geschieht dies umständlich über Sprach- oder Gesteninteraktion, was Trainingssituationen unnatürlich macht und regelmäßige Unterbrechungen im Ablauf erfordert.

Ablauf einer exemplarischen interaktiven REINFORCE-Feedbackschleife.

Durch REINFORCE kann Feedback für RL, implizit (automatisch) durch ein Brain-Computer-Interface (BCI) abgeleitet werden, d.h. ohne jeglichen Mehraufwand des Menschen. Dazu nutzt man das Fehlersignal im Gehirn: eine essenzielle Ableitung von Gehirnströmen, die u.a. beim Wahrnehmen von Fehlern auftritt. Das Signal kann verwendet werden, um autonomen Systemen sofort mitzuteilen, ob sie richtig oder falsch gehandelt haben. Da Menschen dazu neigen, eine allgemeine Vorstellung davon zu haben, wie bestimmte Aufgaben ausgeführt werden sollten, und gut darin sind, Vorhersagen über zukünftige Konsequenzen von Aktionen zu antizipieren, bietet das implizite BCI-Feedback ein nützliches Signal zum Trainieren von RL-Agenten. Die implizite, beiläufige Erfassung der Hirnsignale hat den Vorteil, dass die Expert*innen nicht in ihrer Tätigkeit gestört werden und trotzdem Rückmeldung geben können. Eine geeignete Methode zur Messung des impliziten Feedbacks ist die Elektroenzephalographie (EEG). Die Abbildung zeigt exemplarisch den interaktiven REINFORCE-Ansatz für die Zusammenarbeit zwischen einem Menschen und einem autonom agierenden System (hier: Industrieroboter). 

Nähere Informationen finden Sie in der Projektbeschreibung. 

Gerne unterstützen wir Sie bei Ihrer individuellen Bewerbung, sprechen Sie uns einfach an!