06. Mai 2020

Ausgangssituation

Aus Zeit- oder Kostengründen wird oft auf eine zweite Meinung in der Veterinärmedizin verzichtet. Der Quickcheck-Partner verwaltet eine webbasierte Praxissoftware, die Daten zu behandelten Tieren, deren Behandlungsverläufen, Diagnosen und Infos zur Anamnese erfasst. Ein KI-Modell soll mit diesen Daten trainiert werden, um die Diagnose für die Erkrankung eines Tieres prognostizieren zu können.

Lösungsidee

Die historischen Daten zu den Tierarztbe-suchen, die in der Praxissoftware vorliegen, sollen für das Erstellen eines Machine Learning Algorithmus genutzt werden. Die Algorithmen erkennen Muster und Zusammenhänge, die in der Vergangenheit zu bestimmten Diagnosen führten. Diese Erkenntnisse können in Zukunft in Form ei-ner digitalen zweiten Meinung die fachliche Expertise des Tierarztes ergänzen.

Nutzen

  • Es profitieren sowohl die tierischen Patienten, deren Halter als auch die Tierpraxen. Eine (digitale) zweite Meinung sorgt bei komplexen Fällen für medizinische Sicherheit. Kosten durch unnötige Folgebehandlungen werden vermieden oder weitere sinnvolle Behandlungen werden veranlasst.
  • Der Veterinär möchte eine medizinisch sichere Diagnose stellen, um somit maximalen Behandlungserfolg zu erzielen. Die (digitale) zweite Meinung leisten hierzu einen wichtigen Beitrag.
  • Der Betreiber der Praxissoftware profitiert, denn eine (digitale) zweite Meinung wäre einzigartig auf dem Markt der Tierarzt Praxissoftware und würde ihm ein Alleinstellungsmerkmal verschaffen.
  • Das Vorgehen kann auf eine Übertragbarkeit auf die Humanmedizin hin evaluiert werden. Damit ergäben sich weitere Erkenntnisse darüber, inwieweit KI-Methoden für die Humanmedizin geeignet sind. Einerseits besteht in der Humanmedizin eine Datenschutzproblematik bei der Verarbeitung personenbezogener Daten, andererseits ist die Datenlage in der Humanmedizin deutlich besser (standardisierte ICD-Codes).

Umsetzung der KI-Applikation 

  • Der Datensatz beherbergt ca. 400.000 Tieruntersuchungen.
  • Enthaltene Features: anonymisierte eindeutige Tier ID, Rasse, Farbe, Ge-burtsdatum, Geschlecht, Spezies, Behandlungsgrund, Bericht, Anamnese, Diagnose
  • Der Datensatz ist hochgradig heterogen, (z.B. hat der Behandlungsgrund mehr als 100.000 verschiedene Ausprägungen).
  • Die Diagnose fehlt in mehr als 90% der Fälle, ca. 5.000 Datenpunkte sind voll besetzt.
  • Es müssen sehr viele uneinheitliche und unstrukturierte Daten (Freitext) analysiert und bereinigt werden (Synonyme und Abkürzungen oder Tippfehler müssen vereinheitlich werden).
  • Getroffene Annahmen: Diagnose ist Zielvariable und Beachtung der Spalten Geburtsdatum, Geschlecht, Spezies, Behandlungsgrund, Diagnose
  • Sieben Verfahren wurden mit der Library scikit learn evaluiert, das beste erreicht eine Genauigkeit von ca. 60%.
  • Fazit: Viel Potenzial in den Daten, in der vorliegenden Form ist es jedoch schwer bis unmöglich, einen umfangreichen Anteil der enthaltenen Informationen zu verwerten.