Big-Data-Analyse: Linguistisch aufbereitet

0

Die größte Herausforderung im Umfeld von Big Data ist zweifelsohne die Auswertung von Text- beziehungsweise der von Menschen generierten Daten. Hierzu bedarf es einer tiefgehenden linguistischen und semantischen Analyse. Erst dadurch lässt sich eine Suchanfrage wirklich verstehen und die Bedeutung eines Textes erfassen. So erhält der Suchende Ergebnisse, die über den Horizont seiner ursprünglichen Keyword-Abfrage inhaltlich weit hinausgehen. Gleichzeitig können Informationen über geschäftsrelevante Filter kategorisiert werden. Dies hilft dem Anwender, unter allen von der Suchmaschine als relevant angezeigten Ergebnissen die für ihn entscheidenden sofort zu erfassen. Ermöglicht wird dies durch die Technik des „Natural Language Processing“ (NLP) oder auch Computerlinguistik. Such- und Analysewerkzeuge ohne NLP-Technologie werden den heutigen Anforderungen von Unternehmen an Enterprise Search und Big-Data-Analyse nicht mehr gerecht. Die Software von Sinequa („Leader“ im aktuellen Gartner Magic Quadrant for Enterprise Search 2015) beinhaltet etwa NLP-Technologie für 20 verschiedene Sprachen, darunter solch „schwierigen“ wie Chinesisch, Japanisch, Koreanisch oder Arabisch.

NLP-Technologien im Einsatz für Enterprise Search

Unter NLP versteht man die Fähigkeit eines Computerprogramms, menschliche Sprache so zu verstehen, wie sie gesprochen beziehungsweise geschrieben wurde. Traditionell versteht eine Software einen Menschen am besten, wenn dieser eine möglichst präzise, eindeutige und strukturierte Sprache verwendet. In der Realität aber ist die menschliche Sprache oft eben nicht eindeutig und genau, sondern hängt von komplexen Variablen ab (sozialer Kontext, regionale Spezifika usw.). Zum Einsatz kommen NLP-Technologien bevorzugt im Bereich des Enterprise Search, also der organisierten Suche in strukturierten und unstrukturierten Daten innerhalb einer Organisation.   
NLP geht über bloße Sprachidentifikation, Worttrennung und Text-Extraktion, wie sie viele Suchmaschinen heute bieten, weit hinaus. Zu den NLP-Aufgaben innerhalb von Software-Programmen gehören zum einen Techniken wie Satzsegmentierung und -analyse (Parsing), also das Aufteilen von Phrasen in verschiedene Teile, um Beziehungen und Bedeutung zu verstehen. Außerdem Deep Analytics, Named-Entity-Extraktion und Co-Referenzauflösung.

Die Sinequa-Lösung etwa ermöglicht im Rahmen linguistischer Analysen

  • eine automatische Extraktion von Begriffen und Navigation in begrifflich geordneten und nach Relevanz sortierten Informationen
  • Text-Mining mit Tagging einzelner Wörter
  • Erkennung semantischer Zusammenhänge (etwa bei gleichzeitigem Auftreten der Begriffe innerhalb eines Satzes) und
  • eine Integration von „Unternehmens-Wissen“ in Form von Wörterbüchern, Taxonomien, Ontologien usw.

Mit solchen Funktionen lassen sich Daten aus beliebigen Textdaten extrahieren, ob Projektberichte, klinische Studien, Veröffentlichungen, Patentanmeldungen oder E-Mails. Solche Daten enthalten üblicherweise eine Fülle von Informationen, die nicht „kodifiziert“ sind und sich nicht in bloßen Zahlen ausdrücken lassen. Die Suchresultate erhält der Anwender schnell und einfach innerhalb seiner täglichen Arbeitsumgebung – ohne wissen zu müssen, wo sie genau herkommen und welches Format sie haben.

Die Big-Data-Analyseplattform von Sinequa setzt sich aus mehreren Bestandteilen zusammen.

 

Beim Pharmakonzern AstraZeneca haben Mitarbeiter in der Forschung und Entwicklung über die Sinequa-Plattform einen einheitlichen Informationszugang (Unified Information Access) auf das gesamte Unternehmenswissen, jeweils unter Beachtung der Zugriffsrechte. In einem forschungsintensiven biopharmazeutischen Unternehmen wie AstraZeneca erstellen interne wie externe Spezialisten tagtäglich eine immense Anzahl hochtechnischer Dokumente: Forschungsunterlagen, Einträge in medizinische Datenbanken, Versuchsberichte, Patenteinreichungen usw. Hinzu kommt die gesammelte Kommunikation zwischen Forschern aus verschiedenen Fachgebieten, bestehend aus internen Notizen, E-Mails usw. Die Informationen in diesen Dokumenten können sehr unterschiedlicher Natur sein und Themen aus Medizin, Pharmazie, Biologie, Chemie, Biochemie, Genetik usw. behandeln. Diese setzen sich wiederum mit Krankheiten, Genen, Wirkstoffen und Wirkungsweisen auseinander. Meist liegen die Informationen in Textform vor, ebenso aber auch als strukturierte Daten wie Molekularstrukturen, Formeln, Kurven und Diagramme.Alle intern und extern zur Verfügung stehenden Quellen eingeschlossen, kommen gut und gerne Datenmengen von 500 Millionen Dokumenten zusammen, mit denen sich ein Pharma-Unternehmen auseinandersetzen muss, Tendenz steigend. Auf der anderen Seite stehen die Experten, die in den verschiedenen Geschäftsfeldern eines biopharmazeutischen Unternehmens tätig sind: Auch hier kann in einem weltweit tätigen Unternehmen die Anzahl schnell bei 10.000 und mehr Personen liegen.
Im Rahmen der Forschungs- und Entwicklungsarbeit kommt es bei AstraZeneca täglich vor, dass jemand einen Experten beziehungsweise Informationen im Konzern zu einem dezidierten Thema sucht. Wer kennt sich zum Beispiel mit „Arteriosklerose“ besonders gut aus, wer weiß über Wirkstoffe und aktive Moleküle in den Medikamenten Bescheid, welche Dokumente zu Nebenwirkungen und Patenten gibt es?

Die Analyse  von Big Data lässt sich für eine Vielzahl von Bereichen nutzen.

Die Analyse
von Big Data lässt sich für eine Vielzahl von Bereichen nutzen.

 

Soziale Unternehmensnetzwerke oft zu wenig gepflegt

Eine Person zu finden, die all diese Anforderungen abdeckt, dürfte in den meisten Fällen unmöglich sein. Es muss also ein Team zusammengestellt werden. Wo aber mit der Suche beginnen? Meist versuchen es die Firmen zunächst mit sozialen Unternehmensnetzwerken (Enterprise Social Networks). In der unternehmerischen Praxis jedoch schlägt dieser im Grunde logische Lösungsansatz oft fehl. Denn die Pflege der eigenen Kompetenz-Matrix in einem sozialen Netzwerk ist meist zu kompliziert und zeitaufwändig. Anfangs noch korrekte Informationen sind schnell veraltet.
AstraZeneca experimentierte deshalb zunächst mit einfachen Suchmaschinen, um Experten anhand der Spuren zu lokalisieren, die sie in Dokumenten hinterlassen: Was hat ein Mitarbeiter veröffentlicht? Welche Patente hat er entwickelt? Zu welchen Themen hat er korrespondiert? Die eingesetzten Suchlösungen waren jedoch nicht in der Lage, die Vielfalt an Daten aus den verschiedensten Quellen zu verarbeiten; ihre Fähigkeiten zur Content-Analyse waren unterentwickelt oder schlichtweg zu langsam.
Die Lösung lag schließlich in der Inhaltsanalyse mit computerlinguistischen Methoden. In einem initialen Prozess analysierte der Pharmakonzern mit der Sinequa-Software zunächst rund 200 Millionen interne und externe Dokumente aus dem Bereich F&E. Dabei wurden auch fachspezifische Relationen zwischen Begriffen (synonyme und semantisch verwandte Begriffe) ermittelt. Der Index ergab ein Datenreservoir, aus dem relevante Informationen in weniger als zwei Sekunden zusammengestellt werden können. Bei Eingabe eines Begriffes in die Suchmaske stellt das System aus allen hinterlegten Informationen die besten Experten zusammen. (ak)

Autor: Matthias Hintenaus, Sales Director DACH bei Sinequa.

RSS Feed

Neuen Kommentar schreiben

Entdecken Sie die Printmagazine des WIN-Verlags