15.10.2021 – Kategorie: Digitale Transformation

Digitalstrategie: Diesen Fehler gilt es zu vermeiden!

Digitalstrategie: Diesen Fehler gilt es zu vermeiden!Quelle: WHYFRAME/shutterstock

Für jedes Unternehmen, das aus Daten abgeleitete Modelle produktiv einsetzen will, ist Model Management ein Kernthema.

Denn der Wert der Daten ergibt sich erst durch deren Weiterverwendung. Wenn diese nicht den gleichen Ansprüchen wie die Datensammlung genügt, bleibt das geplante Gesamtergebnis auf der Strecke.

Data Management und Data Governance sind inzwischen zentrale Themen jeder Digitalstrategie, damit alle Abteilungen auf dem gleichen Stand arbeiten. Dennoch kommt es in der Praxis häufig zu Enttäuschungen – wenn nicht auch die Verwendung gemanagt wird. Ohne Model Management entstehen am Ende die gleichen Probleme, die auch bei einem Datenmanagement ohne konsequente Governance-Strategie auftreten. Die Quelle des Modells ist unklar, die Qualität und Aktualität der zugrundeliegenden Daten ist fragwürdig und Änderungen in der Methodik zwischen den Auswertungen sind nicht nachverfolgbar. Hinzu kommt, dass das Wissen, um Entstehung und Funktion oft nur im Kopf einzelner Mitarbeiter zu finden ist und sich die Algorithmen nur lokal auf deren Rechnern befinden.

Model Management ist daher relevant für jedes Unternehmen, das aus Daten abgeleitete Modelle produktiv einsetzen will. Der Wert der Daten ergibt sich erst durch ihre Weiterverwendung. Genügt diese nicht den gleichen Ansprüchen wie die Datensammlung, kann das Gesamtergebnis nicht befriedigen. Daher sollte sich jeder CTO (bzw. Chief Digital Officer/ Chief Data Officer) auch mit Strategien und Prozessen zur Nachvollziehbarkeit befassen.

Saubere Datengrundlage

Experimente müssen dokumentiert und wiederholbar sein. Ein Data Science Experiment startet mit der Auswahl der Daten für das Modelltraining. Da alle Machine Learning- und KI-Methoden letztendlich statistische Auswertungen der zugrundeliegenden Trainingsdaten sind, stellen diese einen entscheidenden Teil des Experiments dar und müssen dokumentiert werden. Idealerweise werden sie in einem entsprechenden Data-Managementsystem verwaltet, welches Meta-Informationen bereits mit pflegt. Falls nicht, sollten die Meta-Daten zumindest für das Projekt mit dokumentiert werden, ebenso der Zeitpunkt, zu dem der Datensatz aus dem zentralen System gezogen wurde.

Stammen die Daten aus einem System mit „sauberem“ Data Management, sind sie vermutlich bereits vorprozessiert, qualitätsgesichert und entsprechend dokumentiert. Trotzdem bedarf fast jeder Use Case einer eigenen Daten-Vorverarbeitung – etwa durch Beschränkungen auf einen bestimmten Typ oder Bereich oder durch das Aufteilen in Kategorien bzw. das Ersetzen fehlender Werte durch lokale Mittelwerte. Das festzuhalten, ist nicht nur für die Nachvollziehbarkeit wichtig. Für unverfälschte Ergebnisse müssen die Data Engineers später bei der Inferenz die gleichen Schritte auf die Daten anwenden. Da es hier auf die exakten Veränderungen ankommt, muss der verwendete Code vorgehalten werden.

Digitalstrategie und das eigentliche Modelltraining

Im nächsten Schritt kann der Data Scientist ein Modell mit den aufbereiteten Daten trainieren. Dies beinhaltet das Trainieren und Vergleichen mehrerer unterschiedlicher Modelle und Parametereinstellungen. Dabei sollte der exakt ausgeführte Code des Experiments abgespeichert und das ausgewählte Modell mit seinen Tuning-Parametern und den verschiedenen Performance-KPIs auf einem gesonderten Validierungsset dokumentiert werden. So lässt sich effizient kontrollieren, ob es bei einer erneuten Trainingsausführung zu Performanceveränderungen kommt oder ob sich ein anderes Modell als geeigneter herausstellt. Ist ein Modell fertig trainiert, soll es zur Erstellung von Vorhersagen angewandt werden. Dabei ist es wichtig, später das Modell der betreffenden Vorhersage zuordnen zu können. Diese Inferenz findet oftmals nicht nur in den Analystics-Abteilungen der Unternehmen statt, sondern auch in Softwarekomponenten in Industrie, E-Commerce und Medizin. Dabei muss für alle Komponenten eine kontinuierliche Entwicklungspipeline geschaffen werden – ­also auch für trainierte Modelle.

Digitalstrategie
Fast jeder Use Case bedarf einer eigenen Daten-Vorverarbeitung – etwa durch Beschränkungen auf einen bestimmten Typ oder Bereich oder durch das Aufteilen in Kategorien bzw. das Ersetzen fehlender Werte durch lokale Mittelwerte. Bild: Fujitsu

Eine gute Experimentbeschreibung besteht aus dem zugrundeliegenden Datensatz (mit Entnahmedatum), dem Code der Vorverarbeitungsschritte, dem Code des Modelltrainings und optional beschreibenden Daten ­(Parameter, Performance) zu dem erzeugten Modell. Zusätzlich ist mindestens zu dokumentieren, wann das Modell wo produktiv im Einsatz war.

Nutzung durch geschulte Laien

Das Aufsetzen einer Model Management Infrastruktur geschieht meist durch die Software-Entwicklung. Je nach gewünschten Funktionsumfang gibt es hierfür eine Vielzahl verschiedener Tools – auch im Open Source Bereich. Für eine simple Version-Control käme z.B. DVC (Data Version Control) in Frage während Tools wie Sacred oder MLFlow mit umfangreichen Funktionen und sogar mit eigenen Graphical User Interfaces aufwarten und so eine Bedienung durch geschulte Laien erlauben.

Ist zum Beispiel MLFlow einmal eingerichtet, kann der Data Scientist das Skript in seiner bevorzugten Programmiersprache und IDE (Integrated Development Environment) entwickeln. Dann wird das Skript mit allen nötigen Metadaten in der Datenbank registriert. Nun steht das Modell im Frontend zur Verfügung, und Trainings können über das User Interface gestartet werden. Während des Trainings werden Parameter, Artefakte und Metriken historisiert. Ist das Training beendet, wird das Frontend aktualisiert, sodass der Data Scientist die Qualität überprüfen kann. Danach kann das Modell für Inferenz genutzt werden oder zur Produktivsetzung an andere Systeme verteilt werden.

Die Standardisierung der Modellentwicklung, der Analysetools, der Provisionierung und der Möglichkeit Machine Learning Funktionalität auch Laien verfügbar zu machen, bedeuten für den praktischen Einsatz enorme Vorteile. Die zu implementierenden Komponenten können in vielen Entwicklungssprachen und Umgebungen also auch „Cloud native“ oder „on premise“ umgesetzt werden.

Lesen Sie auch: Digitalstrategie – Industriebetriebe beschleunigen den Umstieg auf die Cloud.

Die Autoren

Dr. Lisa Wagner ist Senior Systems Architect bei Fujitsu.
Marcel Naujeck ist Software Solutions Architect bei Fujitsu.
Bilder: Fujitsu


Teilen Sie die Meldung „Digitalstrategie: Diesen Fehler gilt es zu vermeiden!“ mit Ihren Kontakten:


Scroll to Top