AI-powered Monitoring

Quick Check

Ausgangssituation

Adaptive Cruise Control (ACC) SSC-Services ist für die Entwicklung und den produktiven Betrieb einer Vielzahl von Softwarekomponenten verantwortlich. Dabei kommen umfangreiche Monitoring-Lösungen zum Einsatz, sodass eine Person meist für viele Systeme verantwortlich ist. Im Zuge dessen muss viel Zeit für die Pfl ege von Alerting-Regeln aufgewendet werden, um etwaige Probleme bzgl. der Systemstabilität abzudecken.

Dieses Problem lässt sich als Anomalie-Erkennung formulieren und so bspw. mit der automatischen Erkennung von Kreditkartenbetrug vergleichen. Aufgrund der großen verfügbaren Datenmenge ist das Problem ideal für Machine Learning (ML) geeignet.

Lösungsidee 

Anhand der durch das Monitoring-System aufgezeichneten Daten, wie CPU-Auslastung oder Festplattenaktivität, ist ein reichhaltiger Zeitreihendatensatz entstanden: In gesetzten Zeitintervallen sind diverse Informationen über den Systemzustand vorhanden.

Da sich Systemabstürze schon im Voraus in Systemdaten widerspiegeln, oft nach denselben Mustern, soll durch ML, ein Systemabsturz so lange wie möglich im Voraus prädiziert werden. Konkret werden drei Ansätze erprobt:

1) Supervised Learning: »herkömmliche« Modelle, wie Random Forests, Gradient Boosting oder Support Vector Machines

2) Deep Learning: Long Short-Term Memory Neural Networks

3) Unsupervised Learning: Autoencoder

© Fraunhofer IAO
Verhalten verschiedener Systemkennwerte über die Zeit

Nutzen

Eine Monitoringlösung mit Frühwarnsystem kann softwareunabhängig auf Systeminfrastrukturen eingesetzt werden und verhindert kostennegative Totalausfälle des Systems. Ebenso besteht eine bessere Skalierbarkeit sowie die Absicherung vor menschlichen Fehlern. Weiterhin kommt es zu einer Arbeitsentlastung, da falsch-positive Alert-Nachrichten aus bisherigen Monitoringsystemen umgangen werden können. Ebenso können unattraktive Arbeiten, wie das händische Überwachen, vermieden werden.

Umsetzung der KI-Applikation 

SSC-Services lieferte Zeitstempel, die ungewollte Systemzustände beschreiben. Aus diesen wurden Remaining Useful Lifetime-Label (RUL) erstellt. Die RUL beschreibt die Zeitschritte im Datensatz, bis zu einem ungewollten Systemzustand.

Die Supervised und Deep Learning Modelle wurden anhand ihres Vermögens die RUL zu prädizieren, evaluiert. Der Unsupervised Ansatz benötigt keine Labels und wurde anhand des Rekonstruktionsfehlers evaluiert.

Auf Zeitintervallen von einer Stunde konnten die Modelle keine zuverlässigen Prädiktionen liefern. Allerdings konnte auf einem Referenzdatensatz in 5-min. Intervallen gezeigt werden, dass die Modelle besser abschneiden würden.

SSC-Services wird daher Systemdaten in einer 5-min. Zeitauflösung aufnehmen. In einem Exploring Project werden die besser abschneidenden Modelle anschließend weiterentwickelt.

Partnerunternehmen

»Um die hohe Verfügbarkeit unserer Systeme sicherzustellen, spielt für uns die Möglichkeit, bei Problemen frühzeitig einzugreifen eine entscheidende Rolle. Durch den Quick Check konnten wir verschiedene Ansätze ausprobieren, um mithilfe von Machine Learning das volle Potenzial unserer Monitoringdaten auszuschöpfen.«

 

Tobias Kaatze, Leiter Prozesse und Methoden bei SSC-Services GmbH