16.09.2020 – Kategorie: Technologie

Machine-Learning-Modelle: Wie sie die Skalierung von IoT-Daten ermöglichen

Machine Learning Machine-Learning-ModelleQuelle: Elnur/shutterstock

Das Analystenhaus IDC hat in einer Umfrage von 2019 festgestellt, dass immer mehr deutsche Unternehmen IoT-Projekte umsetzen wollen. Voraussetzung hierfür sind Machine-Learning-Modelle. Warum der Treiber dieser Entwicklung vor allem das Industrial IoT ist.

IDC befragte für die Studie 258 Unternehmen, von denen 42 Prozent IoT-Projekte bereits umgesetzt hatten oder sich in der konkreten Pilotierung befanden, weitere 47 Prozent planten und evaluierten solche Projekte. Mit der Umsetzung dieser Projekte entstehen enorme Datenmengen, die verwaltet, in Data Lakes gesammelt und danach ausgewertet werden müssen. Ohne künstliche Intelligenz und die richtige IoT-Datenstrategie ist diese Analyse jedoch zum Scheitern verurteilt und aus dem See wird alsbald ein Sumpf. Machine-Learning-Modelle spielen hierbei eine wichtige Rolle.

Für jeden Anwendungsfall das richtige ML-Modell

Es reicht jedoch nicht aus, ein einziges ML-Modell für alle Datenquellen und Geräte einzusetzen. Nicht wenige Anwendungsfälle erfordern, dass jedes angeschlossene Gerät individuelle Machine-Learning-Modelle erhält. Beispiele für solche Anwendungsfälle sind die Optimierung einer Supply Chain (Sensoren an Schiffscontainern zur genauen Lokalisierung der Ware), die vorausschauende Wartung von Maschinen, das Laden von Elektrofahrzeugen oder das Smart Home-Management. Dabei treten aus technologischer Sicht ein paar Hindernisse auf:

  • Die Menge aller erhobenen IoT-Daten ist zu groß für eine Maschine und muss in der Cloud verwaltet werden.
  • Die pro Gerät erfassten Daten passen wiederum auf eine Maschine.
  • Für jedes Gerät ist ein eigenes ML-Modell erforderlich.
  • Das Data Science-Team führt die Implementierung von Single-Node-Bibliotheken wie Sklearn und Pandas durch, sodass sie eine niedrige Friktion bei der Verteilung eines Proof-of-Concepts für nur eine Maschine benötigen.

Machine-Learning-Modelle: Model Training und Model Scoring

Um diese Probleme zu lösen, bieten sich zwei Lösungswege an: Model Training und Model Scoring. IoT-Geräte wie Sensoren von Fahrzeugen zur Messung der Witterungsbedingungen produzieren eine beeindruckende Datenmenge. ML-Modelle mit nur einer Maschine sind für ein Problem dieser Komplexität nicht skalierbar und lassen sich oft nicht gut in Produktionsumgebungen integrieren. Data Science-Teams wollen sich auf der anderen Seite keine Gedanken darüber machen, ob der von ihnen verwendete Data Frame eine einzige Maschine mit Pandas Objekt oder über Apache Spark betrieben wird. Die Modelle und ihre Performance müssen für die Reproduzierbarkeit, die Überwachung und den Einsatz protokolliert werden.

  • Model Training: Bei diesem Ansatz wird eine Funktion erstellt, die die Daten für ein einzelnes Gerät als Eingabe übernimmt. Dann wird es trainiert. Das daraus resultierende Modell und alle Bewertungsmetriken sollten protokolliert werden.
  • Model Scoring: Hier wird eine zweite Funktion erstellt, die das trainierte Modell auf das IoT anwendet und Prognosen ableitet.

Beide Funktionen müssen dann in Pandas UDFs umgewandelt werden, um sie mit Apache Spark zu verarbeiten. Pandas-UDF ermöglicht die effiziente Verteilung von beliebigem Python-Code innerhalb eines Spark-Auftrags, wodurch die Verteilung von ansonsten seriellen Operationen ermöglicht wird. Diese individualisierten Modelle, werden mit den IoT-Daten fortwährend trainiert, um bessere und belastbare Ergebnisse zu erzielen.

Herausfiltern der passenden Machine-Learning-Modelle

Mit der Anzahl der im Model Training verfügbaren Datensätze und der Bewertungsmetrik können die Modelle, die gut abschneiden, von den Modellen, die schlecht abschneiden, herausgefiltert werden. Data Scientists können diese Informationen verwenden, um zwischen einem Modell pro IoT und einem Modell, dass auf alle IoT trainiert ist, hin- und herschalten zu können. Letztlich ist die Analyse der IoT-Daten für den Geschäftserfolg jedes datengetriebenen Unternehmens von zentraler Bedeutung. Die Analyse wiederum steht und fällt jedoch mit dem richtigen ML-Modell und dem ihm zugrunde liegenden Ansatz.

Databricks
Roman Pritzkow ist RVP DACH bei Databricks.

Über den Autor: Roman Pritzkow ist RVP DACH bei Databricks. Als Anbieter von Von Unified Data Analytics unterstützt Databricks Unternehmen dabei, alle Daten für die Analyse vorzubereiten, datengesteuerte Entscheidungen im gesamten Unternehmen zu ermöglichen und maschinelles Lernen schnell einzuführen, um die Konkurrenz zu überflügeln.

Lesen Sie auch: Transfer Learning: Wie diese Technik den KI-Einsatz vereinfachen kann


Teilen Sie die Meldung „Machine-Learning-Modelle: Wie sie die Skalierung von IoT-Daten ermöglichen“ mit Ihren Kontakten:


Scroll to Top