10.07.2023 – Kategorie: Digitale Transformation

Sprachdialogsysteme: Wie KI Sprache verstehen lernen kann

GenAI generative KI ChatGPTQuelle: Sutthiphong - Adobe Stock

ChatGPT und Bard verblüffen damit, wie gut sie Texte und teilweise sogar Sprache generieren. Was beide nicht können: gesprochene Sprache verstehen. Das hat einen Grund: Zuhören und begreifen, was ein Mensch sagt und was er damit meint, ist viel schwieriger. Genau das beherrschen KI-Sprachdialogsysteme. Es geht künftig darum, beides zusammenzufügen.

Sprachdialogsysteme der Zukunft: ChatGPT und Bard generieren auf Anfragen wie „Schreibe einen Artikel über Marbella aus der Sicht eines Touristen“ einen ziemlich guten Text, den man bislang einer KI nicht zugetraut hätte. Doch in Wirklichkeit ist das Ergebnis kaum mehr als ein gekürzter Wikipedia-Artikel. Bei der Frage „Welche jüngsten Entdeckungen des James Webb Space Teleskops kann ich meinem neunjährigen Kind erzählen?“ patzt der Google-KI Bard bereits: Das Ergebnis liest sich plausibel, ist aber teilweise schlichtweg falsch.

Der steinige Weg der Sprachdialogsysteme

Indes: Alle diese generativen KI-Systeme werden künftig immer besser werden. Zudem bietet es sich an, sie mit Sprachausgabe zu versehen, so dass man sich vermeintlich mit der KI (fast) wie mit einem Menschen unterhalten kann. Doch das täuscht: Bei der Eingabe sind nämlich in allen Fällen die Stichworte, um die es geht, sehr präzise anzugeben, bevor ein einigermaßen vernünftiger Text erzeugt und gegebenenfalls vorgelesen wird. In einer völlig anderen KI-Liga bewegt sich das Verstehen dessen, was ein Mensch von sich gibt. Dazu ein Beispiel: Wenn jemand bei einer Versicherung anruft und erzählt, dass seine Katze auf das Sofa des Nachbarn gesprungen ist und dieses zerkratzt hat, dann muss die KI erkennen, dass er weder über Katzen noch über Sofas und auch nicht über seinen Nachbarn sprechen will, sondern einen Schadensfall meldet, den seiner Meinung nach seine Haftpflichtversicherung begleichen soll.

Moderne Sprachdialogsysteme auf KI-Basis verstehen das. Der Unterschied ist offensichtlich: Bei ChatGPT und Bard fallen alle relevanten Begriffe wie „Marbella, Tourist, James Webb Space Teleskop, neunjähriges Kind“, aber bei dem Anruf gehen alle verwendeten Worte an dem vorbei, was er meint, obgleich er es gar nicht ausspricht. Anhand dieses Beispiels wird deutlich, warum die in Sprachdialogsystemen verwendete KI viel weiter reichen muss als bei den bloßen KI-Textgeneratoren. Hinzu kommt: Menschen drücken sich sehr unterschiedlich aus und sprechen zudem ein breites Spektrum an Dialekten.

Kombilösungen aus Spracherkennung und KI-Ausgabe

Daher ergänzen sich generative Ansätze wie ChatGPT und Sprachdialogsysteme, die gesprochene Sprache verstehen und interpretieren können. In der Zukunft sind Kombilösungen zu erwarten, von der Stimmerkennung bis zur Ausgabe richtiger Informationen. Doch der Reihe nach. Bevor ein Sprachdialogsystem in einem Unternehmen in Betrieb geht, muss es trainiert werden. Manche Hersteller versuchen dazu, vorab zu erahnen, was Anrufer wohl alles sagen könnten, und programmieren diese Annahmen in ihre Systeme ein. Doch dabei liegt die Fehlerhäufigkeit sehr hoch, weil sich viele Menschen eben nicht so ausdrücken, wie man es erwartet.

Besser funktioniert ein anderer Weg: Durch eine Auswertung aller Telefonate über mehrere Wochen hinweg erfährt das System, was Anrufer wirklich sagen und was sie damit meinen. Darüber hinaus wird zusätzlich eine umfangreiche Fachwörterdatenbank aufgebaut, in der sowohl das typische Fachvokabular der Branche als auch alle spezifischen Begriffe des jeweiligen Unternehmens aufgenommen werden.

Kostenersparnis von 40 Prozent durch KI-Erkennung

Weiterhin werden firmenspezifische Kategorien festgelegt, worum es den Anrufern geht. Dabei handelt es sich um sogenannte „Intents“, also Absichten. In welche Kategorie fällt das Anliegen? Kreditkarte sperren, Hotelzimmer reservieren, Flug buchen, Bestellung aufgeben, Rabattaktion in Anspruch nehmen, den Wartungsdienst beauftragen… Erst wenn alle diese Schritte durchlaufen sind, wird ein Sprachdialogsystem bei einem Unternehmen eine Verstehensquote von 85 Prozent oder mehr aufweisen. Um das in betriebswirtschaftliche Zahlen zu fassen: Wenn die KI bei 85 Prozent der Anrufe den Intent korrekt erkennt und zum richtigen (menschlichen) Ansprechpartner durchstellt, ergibt sich allein dadurch für ein Unternehmen im Durchschnitt eine Kostenersparnis in der Größenordnung von 40 Prozent, weil der Anrufer nicht „durch die Firma geistert“.

Neue Sprachdialogsysteme: Erst nach der Erkennung kommt die Antwort

Erst nachdem die KI erkannt hat, was der Anrufer will, könnten künftig Systeme wie ChatGPT oder Bard zum Einsatz kommen. Dazu muss das Fehlerpotenzial der heutigen KI-Generatoren allerdings noch deutlich gesenkt werden. Die Lösung wird darin liegen, die Antworten nicht in den Untiefen des WWW zu suchen, sondern in firmenspezifischen Datenbanken. Denn nur dort kann ein Unternehmen sicherstellen, dass ausschließlich richtige Antworten abgelegt sind.

Es wird noch ein weiter Weg sein, bis KI-Systeme, die Sprache verstehen, reibungslos mit KI-Systemen, die Antworten generieren können, zusammenarbeiten. Solange hilft im ersten Fall nur, nach der Intent-Erkennung zum richtigen (menschlichen) Ansprechpartner durchzustellen. Und im zweiten Fall werden wir uns noch länger damit abfinden müssen, dass nicht alles, was die KI-Generatoren erzeugen, auch wahr ist, selbst wenn es noch so gut formuliert ist.

Sprachdialogsysteme
Bild: Spitch

Der Autor Jörg Rebell ist Presales Manager Business Development DACH bei Spitch.

Lesen Sie auch: ChatGPT: Wie künstliche Intelligenz Einzug in den Alltag hält


Teilen Sie die Meldung „Sprachdialogsysteme: Wie KI Sprache verstehen lernen kann“ mit Ihren Kontakten:


Scroll to Top