18.02.2021 – Kategorie: Digitale Transformation
Dark Data: Verborgene Schätze oder stromfressender Datenfriedhof?
Wahrlich, keiner ist weise, der nicht das Dunkel kennt. Hermann Hesse, der diese Verse schrieb, sah es voraus: Im Dunkel sind manch unsichtbare Schätze verborgen, die auch den immateriellen Reichtum erst komplett machen. Sie aus der Finsternis der weltweiten Daten-Friedhöfe zu bergen, wird in der Informationstechnologie eine erfolgskritische Aufgabe.
Dark Data ist für die IT das, was Dark Matter für die Astronomie ist. Die Existenz der dunklen Materie im Kosmos lässt sich aufgrund ihrer Wechselwirkungen zwar ableiten, aber die dunkle Materie bleibt trotz ihrer etwa fünf Sechstel der Masse unsichtbar.
Ähnlich verhält es sich mit den dunklen Daten (Dark Data) der Informationstechnologie. Sie werden gesammelt, sie werden gespeichert, verbrauchen Platz und Strom. Cisco Systems, Spezialist für Netzwerk und IT, rechnet in einer Stadt mit einer Million Einwohnern mit der Generierung eines täglichen Datenvolumens von 200 Millionen Gigabyte inklusive smarter Anwendungen und vernetzter Anlagen wie Immobilien und Produktionsstätten.
Daten-Leichen verbrauchen Speicherkapazität
Nach der Speicherung weiterverwendet werden aber lediglich 0,1 Prozent, der Rest bleibt ungenutzt und landet auf dem Daten-Friedhof. Andere Studien kommen zu dem Ergebnis, dass um die 70 bis weit über 80 Prozent – IBM spricht hier sogar von 90 Prozent – aller von Unternehmen, Institutionen und Organisationen gesammelten Daten zwar vorhanden – siehe Speicherkapazität – , aber letztendlich Daten-Leichen sind. Damit entziehen sie sich auch jeder Analyse, Auswertung und somit auch Nutzung. Welches Potenzial, welcher Schatz ist da vergraben? Ist eine Wiederbelebung sinnvoll?
Neben den Kosten für Speichermedien und Strom sowie der umweltschädlichen Emission von Millionen Tonnen CO2 kann Dark Data auch juristische Probleme bereiten. So müssen laut DSGVO personenbezogene Daten sofort gelöscht werden, wenn sie den Zweck, zu dem sie erhoben wurden, erfüllt haben. Hier drohen aus dem Grab heraus Bußgelder in erheblicher Höhe. Zudem ist es noch nicht einmal sicher, dass Unternehmen ihre dunklen Daten für die Generierung von mehr Umsatz oder für Einsparungen nutzen können, aber möglich ist es – wenn nicht sogar wahrscheinlich. Indes: Um das zu erfahren, muss man vermeintlich tote Daten zum Leben erwecken. Aber wie?
Strukturiertes Vorgehen mit KI, Cloud und NLP
Einer, der sich genau darüber Gedanken macht, ist Dr. Marco Natale, Berater in der Business Unit Data & Analytics der Cosmo Consult Gruppe, einer der weltweit führenden Anbieter Microsoft-basierter Branchen- und End-to-End-Businesslösungen. „Alle Daten können heute ohne großen Aufwand archiviert werden. Speicherplatz gibt es zur Genüge und ist heute auch recht günstig. Einige Daten müssen von Unternehmen vielleicht aus rechtlichen Gründen gespeichert werden, andere, weil sie jemand später analysieren möchte, und weitere ganz automatisch oder weil man ja nie wissen kann, ob man sie später einmal braucht“, beschreibt Natale die gegenwärtige Situation
„Und jede Abteilung speichert etwas anderes oder auch das Gleiche, kocht jedenfalls ihr eigenes Datensüppchen. Niemand hat den Überblick, es wird nichts kategorisiert und keiner weiß so richtig, wo welche Daten liegen. Anstatt gezielt einen Datensee, einen sogenannten Data Lake, anzulegen, entsteht so mit der Zeit ein Datensumpf, dessen Inhalt man nicht mehr differenziert und zuverlässig identifizieren und nutzen kann“, so Natale weiter.
Um diesen Zustand in einen sinnvollen und zukunftssicheren Griff zu bekommen, ist zunächst einmal die Benennung mindestens eines Verantwortlichen in jedem Unternehmen Voraussetzung, der sich mit allen Abteilungen, die Daten speichern, in Verbindung setzt und die Verarbeitung und Inhalte der jeweiligen Daten versteht und einordnet. Dann muss als erster Schritt ein Data Management organisiert werden, man muss überlegen, ob man neue und alte Daten in einer zentralen Einheit speichern will und wo das geschehen soll.
Dafür bietet sich heute eine Cloud-Lösung an, deren Speicherkapazität nahezu unbegrenzt ist. „In der Cloud lässt sich dann ein KI-basierter Automatismus installieren, welche Daten schon einmal genutzt wurden und welche nicht. Außerdem könnte die KI über ein NLP, ein Natural Language Processing, den Inhalt der Daten verstehen. Auf diese Weise erhalten wir schon eine Vorklassifikation“, schlägt Natale ein Szenario vor. Zusätzlich sollte ein Data Government mit klaren Regeln errichtet werden, die die Abläufe und Struktur der Daten bestimmen. So lässt sich verhindern, dass wieder ein Datenfriedhof entsteht und niemand mehr weiß, wo Daten mit welchen Inhalten liegen.
Automatisiert Potenziale von Dark Data identifizieren
Die alten Daten, die nun auch in der Cloud liegen, sind nach Möglichkeit schon vorsortiert, vorklassifiziert sowie vorstrukturiert und sollten mit Methoden künstlicher Intelligenz analysiert werden. Bei sehr großen Datenmengen kann eine KI aufgrund der Dateninhalte ein weiteres Clustering vornehmen.
„Dabei kann man sogar eine weitere Vorsortierung aufgrund des vermuteten Wertes der enthaltenen Informationen vornehmen, indem eine automatisierte KI-Lösung einen zusätzlichen Algorithmus, also eine weitere KI nutzt“, beschreibt Natale das Vorgehen. So kann man schon voll automatisiert Prognosewerte erhalten. Diese Werte sind zwar noch nicht so zuverlässig, als wenn ein menschlicher Experte eine Bewertung vornehmen würde. Aber man kann bereits Potenziale identifizieren und Daten ziemlich genau nach ihrem vermuteten Wert sortieren. Darüber hinaus ist allein aufgrund der Fülle der Daten eine Bewertung durch den Menschen kaum zu bewältigen. Ein nächster Schritt könnte dann etwa in einer Visualisierung der voraussichtlich lohnenden Daten mit einem BI-System bestehen.
„Mit diesen Aktionen, die auch zu den Themenschwerpunkten der Cosmo Consult Data & Analytics gehören, können die auf den Datenfriedhöfen verborgenen Schätze aktiviert, erkannt und genutzt werden“, konstatiert Marco Natale, der sich täglich im Bereich Advanced Analytics mit intelligenten Prognosen, der Lösung von komplexen mathematischen Optimierungsproblemen und dem Einsatz von künstlicher Intelligenz innerhalb der Produktion (AIoT) beschäftigt. Dabei reichen die Use Cases, mit denen er sich konfrontiert sieht, von der intelligenten Analyse von Sensor- und Qualitätsdaten zur Stabilisierung von Produktionsprozessen über Absatzprognosen zur Bestands- oder Bestelloptimierung bis hin zur geschilderten Identifizierung ungenutzter Datenschätze.
Dark Data: Daten wieder zum Leben erwecken
Aber der Data & Analytics-Profi weiß auch: „Wir können zwar auch aus der Unstrukturiertheit der Dark Data automatisiert Potenziale herleiten und mit unserer KI-Prognosen und Bewertungen aufstellen, aber letztendlich braucht man immer noch Menschen dahinter, die die Informationen wirklich verstehen, die Daten konsistent und nutzbar machen und damit zum Leben erwecken.“
Der Autor: Volker Vorburg ist freier Journalist für Technikthemen rund um die Digitalisierung.
Teilen Sie die Meldung „Dark Data: Verborgene Schätze oder stromfressender Datenfriedhof?“ mit Ihren Kontakten: