Bei Maschinellem Lernen (ML) ist die Reproduzierbarkeit des Codes nicht garantiert. Dasselbe Modell kann auf einem System eine Genauigkeit von 80 % und auf einem anderen System eine Genauigkeit von 81 % aufweisen. Diese Abweichung in der Genauigkeit könnte einigen Modellen einen unfairen Vorteil verschaffen oder sogar die künftige Entwicklung behindern, da die Industrie und die Labors das zuvor entwickelte Modell nicht reproduzieren können. Im folgenden Artikel werden die Faktoren für die Reproduzierbarkeit von ML-Modellen erörtert sowie Maßnahmen, die Unternehmen in Betracht ziehen sollten, um die Reproduzierbarkeit zu erhöhen.
Die Frage nach der Reproduzierbarkeit ist ein bekanntes Problem in der Wissenschaft. In einer Umfrage der Fachzeitschrift Nature gab mehr als die Hälfte der befragten Forscher an, dass sie ihre eigenen Experimente nicht reproduzieren können. Die Ergebnisse sind dramatisch: 52 % der befragten 1.576 Forscher sind der Meinung, dass es in der Wissenschaft ein erhebliches Problem bei der Reproduzierbarkeit von Ergebnissen gibt. Diese Zahlen sind alarmierend – denn wir bewegen uns mit großen Schritten auf eine Zukunft voller KI und ML zu. Da selbstlernende Algorithmen zu Beginn immer mit einem gewissen Grad an Unsicherheit behaftet sind, lässt sich die Erstellung eines einzigartigen ML-Modells durchaus mit einem wissenschaftlichen Experiment vergleichen.
Bei jedem Projekt, das das Training eines selbstlernenden Modells beinhaltet, sollte diese Frage daher frühzeitig angegangen werden. Wenn sichergestellt ist, dass ein Modell unter verschiedenen Umständen reproduzierbar ist, lassen sich nicht nur die Kosten für die Änderung und Anpassung des Modells für jede Maschine sparen. Dieser Ansatz verschafft dem Eigentümer des ML-Modells auch einen Wettbewerbsvorteil. Denn er kann auf einem robusten und zuverlässigen Produkt aufbauen, das unveränderliche Leistungen erbringt. Dies bringt uns zu der Frage, wie Forscher oder auch Entwickler wissen können, ob ihr Modell reproduzierbar ist.
Im Folgenden werden drei Beobachtungen vorgestellt, welche die Reproduzierbarkeit eines ML-Algorithmus unterstützen können. Außerdem stellen wir Ihnen einen Fragebogen mit qualitativen und quantitativen Anteilen zur Verfügung. Die Entscheidung, ob Sie ein Modell auf Reproduzierbarkeit entwerfen, sollte im Vorab getroffen werden. Denn sie zieht zusätzlichen Aufwand an Zeit und Ressourcen nach sich.
Bevor wir uns die Ergebnisse ansehen, sollte die Definition von Reproduzierbarkeit festgelegt werden. Ein Beitrag der National Academics of Science, Engineering and Medicine aus dem Jahr 2019 definiert Reproduzierbarkeit als das Erzielen konsistenter Berechnungsergebnisse unter Verwendung derselben:
Ein reproduzierbares ML-Modell sollte also unter verschiedenen Umständen in Bezug auf die oben genannten Faktoren die gleiche Leistung erbringen oder konsistente Ergebnisse liefern. Der Business Case für ML ist eng mit dieser Fähigkeit verbunden. Da das Training eines ML-Modells viel Zeit und Mühe kostet – was als Investition in zukünftige Resultate betrachtet werden sollte – wird es nur dann einen ROI liefern, wenn es immer wieder für verschiedene Anwendungsfälle und Maßstäbe anwendbar ist.
Auf dem Weg zu einer Lösung für die Reproduzierbarkeit sind unbedingt die folgenden drei Schlüsselbeobachtungen zu berücksichtigen:
Wenn Sie mit einem neuen Modell beginnen, sollten Sie sich einige Fragen stellen, bevor Sie die Entscheidung über die Konzeption und den Verlauf des Trainings treffen:
Anhand dieser Fragen können Sie für Ihr Modell entscheiden, ob Sie einige – oder alle – der Vorschläge aus diesem Blogbeitrag berücksichtigen. Zu beachten ist, dass die oben genannte Liste von Fragen nur als Anhaltspunkt dient und bei Weitem nicht erschöpfend ist. Die Fragen können sich je nach Ihren spezifischen Modellanforderungen sowie den Voraussetzungen Ihrer Infrastruktur ändern.
Die in diesem Blogpost geteilten Beobachtungen sind das Ergebnis der Masterarbeit des Autors, die er am Lehrstuhl für Data Science an der Universität Passau abgeschlossen hat. Sie können Shashank auf LinkedIn und GitHub folgen