Unstrukturierte Daten nutzbar machen – so funktioniert’s!

Share on facebook
Share on twitter
Share on linkedin
Share on xing
Share on whatsapp
Share on email
Share on print

Unstrukturierte Daten nutzbar machen – so funktioniert’s!

Share on facebook
Share on twitter
Share on linkedin
Share on xing
Share on whatsapp
Share on email
Share on print
Hinter Zahlen und Datensätzen steckt nicht einmal die Hälfte des Wissens einer Organisation. Neue Einblicke gewinnen und bessere Entscheidungen treffen können Unternehmen daher, wenn sie ihren gesamten Datenbestand betrachten.
Unstrukturierte Daten nutzbar machen – so funktioniert's!

Quelle: agsandrew/shutterstock

Daten fallen heute in so gigantischen Mengen an, dass man sie viel umfangreicher nutzen sollte, um daraus bessere Einblicke in die Geschäftsprozesse zu erlangen. Dies hat sich in den Unternehmen längst herumgesprochen. Doch während die Idee leicht zu verstehen ist, kann die Ausführung eine Herausforderung sein. Dafür gibt es viele Gründe: mangelndes oder nicht ausreichend qualifiziertes Personal für die Datenanalyse, mangelhafte Toolsets und fehlerhafte Annahmen.

Eines der größten Hindernisse liegt darin, dass nicht der gesamte Datenbestand betrachtet und verstanden wird. Sicher ist es verlockend, Data Warehouses aus bestehenden Datenbanken zu erstellen und die daraus resultierenden Daten für Analysen zu nutzen. Das Problem bei diesem Ansatz: Er verlässt sich zu sehr auf strukturierte Daten. Unstrukturierte Daten, wie z. B. in E-Mails, Collaboration-Tools wie Microsoft Teams und Dokumenten werden in der Regel ignoriert. Diese beeinträchtigt jedoch empfindlich die Genauigkeit und die Wirkung des Datenanalyseprozesses.

Was sind unstrukturierte Daten?

Um strukturierte mit unstrukturierten Daten zu vergleichen, muss man zunächst ihre unterschiedliche Natur verstehen. Strukturierte Daten umfassen Zahlen oder Text, die in die vordefinierten Felder eines relationalen Datenbankmanagementsystems (RDBMS) wie Oracle oder Microsoft SQL Server passen. Sie nehmen die Form von Zeilen und Spalten einer Datenbank an: Namen und Adressen, demografische Statistiken, Smartphone-Standorte und so weiter.

Strukturierte Daten sind einfach zu bearbeiten und zu durchsuchen, allerdings machen sie nur ein Fünftel aller Daten in einem Unternehmen aus. Der weitaus größte Teil sind die unstrukturierten Daten. Darunter versteht man alle Informationen, die nicht in ein RDBMS passen, weil sie nicht die Einheitlichkeit strukturierter Daten aufweisen. Sie finden sich in PDFs, Office-Dokumenten, PPT Präsentationen, E-Mail-Threads oder Social-Media-Posts. Es handelt sich um Text und Zahlen oder auch Videos, Töne und Bilder, die nicht nach einem Zeilen- und Spaltenschema angeordnet sind.

Wo sich die Markenstimmung verbirgt

Sie sind schwieriger zu erfassen, zu verarbeiten, zu durchsuchen und zu analysieren als ihre strukturierten Gegenstücke und dennoch darf man sie nicht außer Acht lassen. Aufgrund ihrer schieren Überzahl nicht, und vor allem, weil sich in ihnen wertvolle, nicht auf den ersten Blick erkennbare Werte verstecken. Ein Großteil dessen, was Vermarkter „Markenstimmung“ (brand sentiment) nennen, ist in unstrukturierten Daten verborgen.

Aus strukturierten Datensätzen in CRM-Systemen oder Verkaufsstatistiken kann man vielleicht Probleme in der Kundenbindung herauslesen. Wenn Kunden weniger Nachbestellungen tätigen, könnte das ein Hinweis auf ein Problem mit der Markenstimmung sein. Viel besser aber lässt sich negative Markenstimmung noch aus einer Analyse von Social-Media-Beiträgen erkennen. Wenn neun von zehn Kommentaren Sätze wie „Dieses Produkt ist schrecklich“, ist sofortiges Handeln gefragt. Genau um solche Stimmungen zu erkennen, muss man in der Lage sein, unstrukturierte Daten zu analysieren.

Ein weiterer zwingender Grund liegt in der Datenklassifizierung. Darunter versteht man die Identifizierung und anschließende Kennzeichnung von Daten anhand von Klassifizierungen wie „geistiges Eigentum“, „vertraulich“ oder „persönlich identifizierbare Informationen (PII)“. Datenklassifizierung ist grundlegend für Datensicherheit und Compliance. Schließlich ist es  unmöglich, Daten effektiv zu schützen, wenn man nicht weiß, wo und was sie sind oder bedeuten.

Der Zweck von Datensicherheitsprogrammen ist der Schutz der „Kronjuwelen“ eines Unternehmens, also seiner wertvollsten und sensibelsten Informationen. Um zu wissen, was darunter zählt, muss man zunächst alle möglichen Datensätze betrachten und identifizieren, welche Teile in diese hochgeschützte Klassifizierung gehören. Dies richtig zu tun bedeutet, auch unstrukturierte Daten zu untersuchen.

Unstrukturierte Daten: Erst was klassifiziert ist, lässt sich angemessen schützen

Ein Unternehmen könnte zum Beispiel großen Wert auf den Schutz seiner Patente legen. Das hört sich einfach an, aber was, wenn Informationen, die die Patentanmeldungen unterstützen, über das gesamte Unternehmen verteilt sind? Dokumente, die in Dateilaufwerken und Cloud-Speichern schlummern, könnten reichhaltiges geistiges Eigentum wie technische Zeichnungen und Forschungsberichte enthalten. Sie dürfen nicht in fremde Hände fallen, sind aber durch die unstrukturierten Daten verwundbar. Um sie zu schützen, muss man die Daten analysieren und herausfinden, wo sich das geistige Eigentum verbirgt. Als solches muss man es dann klassifizieren, um es überhaupt angemessen schützen zu können.

Compliance stellt einen weiteren Anwendungsfall dar. Vorschriften wie HIPAA oder DSGVO, die auf den Schutz personenbezogener Daten abzielen, erfordern die Analyse unstrukturierter Daten. PII-Daten können zum Beispiel leicht in E-Mail-Nachrichten und den ggf. darin enthalten anhängen, wie z.B. PDF-Dokumenten, enthalten sein. Wer nicht weiß, dass diese Daten vorhanden sind, kann sie nicht gegen Datenverletzungen oder unbefugten Zugriff schützen und setzt sich demnach dem Risiko erheblicher finanzieller Strafen aus.

Natural Language Processing erkennt Nuancen

Unstrukturierte Daten lassen sich am besten finden und analysieren mit einer Enterprise Search-Lösung. Deren Crawler durchsuchen den Inhalt von Microsoft Office-Dokumenten, PDFs, E-Mail-Servern und jeder anderen Quelle unstrukturierter Daten im Unternehmen. Während sie die Daten an die Search Engine zurückspielen, erstellt diese einen durchsuchbaren Index der unstrukturierten und strukturierten Daten. Anschließend kann sie mit integrierten Funktionen oder Tools von Drittanbietern Datenklassifikationen zu den unstrukturierten Daten hinzufügen, die sie indiziert hat. Dabei hilft der Einsatz von Funktionen des Natural Language Processing (NLP), also der Fähigkeit eines Computerprogramms, menschliche Sprache so zu verstehen, wie sie gesprochen bzw. geschrieben wurde. Eine gute NLP-Lösung erkennt Nuancen in unstrukturierten Daten, die sich einer eher traditionellen, mechanischen Suchanwendung entziehen könnten.

Unstrukturierte Daten sind ein wichtiger Teil der Datenanalysestrategie eines Unternehmens. Sie sollten auch bei den Bemühungen um Datensicherheit und Compliance eine wichtige Rolle spielen, denn die Konsequenzen einer Nichtbeachtung können schwerwiegend sein. Moderne Enterprise-Search-Lösungen helfen dabei, unstrukturierte Daten zu entdecken, zu klassifizieren und zu analysieren. Sie sollten daher heute zur Standardausrüstung eines Unternehmens gehören.  

Lesen Sie auch: Dokumentenaufbewahrung – datenschutzkonform, verschlüsselt & rechtssicher.

Bild: Sinequa

Der Autor Alexandre Bilger ist Präsident und CEO des französischen Enterprise-Search-Spezialisten Sinequa. Als Absolvent zweier „Grandes Ecoles“ (École Polytechnique und École des Mines) begann er seine Laufbahn als Software-Architekt, ist seit 2006 bei Sinequa und seit 2010 CEO des Unternehmens.

Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Share on xing
XING
Share on whatsapp
WhatsApp
Share on email
E-Mail
Share on print
Drucken

Andere Leser haben sich auch für die folgenden Artikel interessiert

Redaktionsbrief

Tragen Sie sich zu unserem Redaktionsbrief ein, um auf dem Laufenden zu bleiben.

Aktuelle Ausgabe

Topthema: Communication & Collaboration

Wie der produktive Sprung in die neue Arbeitswelt gelingt

Mehr erfahren

Wir wollen immer besser werden!

Deshalb fragen wir SIE, was Sie wollen!

Nehmen Sie an unserer Umfrage teil, und helfen Sie uns noch besser zu werden!

zur Umfrage

Entdecken Sie weitere Magazine

Schön, dass Sie sich auch für weitere Fachmagazine unseres Verlages interessieren.

Unsere Fachtitel beleuchten viele Aspekte der Digitalen Transformation entlang der Wertschöpfungskette und sprechen damit unterschiedliche Leserzielgruppen an.