KI & Robotics

Vom Befehl zum Gespräch: Wie LLMs Sprachassistenten revolutionieren

Zum Ende dieses Jahres werden bereits 70 Prozent aller Kundeninteraktionen über Chatbots auf der Grundlage von "Large Language Models" (LLMs) abgewickelt. Gehört die Ära der Sprachassistenten wie Siri oder Alexa damit der Vergangenheit an? Im Gegenteil – es zeichnet sich nämlich ab, dass LLMs eher dazu beitragen, die etablierten Assistenten weiter aufzuwerten und auf die nächste Entwicklungsstufe zu heben!

Zwölf Jahre ist es schon her, dass Apple Siri angekündigt hat – den sprachgesteuerten "persönlichen Assistenten", der in das iPhone 4S integriert wurde. Und acht Jahre sind vergangen, seit Amazon's Echos und Alexa in unsere Häuser kamen. Heute bietet Sprachassistenten keinen Grund zur Aufregung mehr: Wie selbstverständlich existieren sie in unseren Telefonen oder Wohnungen und halten sich stets bereit, unseren Lieblingssong abzuspielen, das Licht einzuschalten, uns zu sagen, wie spät es ist oder wie das Wetter morgen Nachmittag sein wird. Im Zuge der technologischen Entwicklung ist diese einst revolutionäre Technologie in die Jahre gekommen, insbesondere im Vergleich zu den hoch entwickelten "Large Language Models" wie Chat GPT-4, BARD oder LlaMA.

Sprachassistenten scheinen begrenzt und fehlerhaft zu sein, denen wir nur einfache Befehle geben können, die sie verstehen. Obwohl sie immer noch sehr funktional sind, haben sie doch häufig Probleme dabei, einen kohärenten Dialog zu führen – an den wir uns bei fortschrittlicheren KI-Chatbots doch längst gewöhnt haben.

"LLMs" als Innovationstreiber

Die Integration von "LLMs" in Sprachassistenten könnte die Art und Weise, wie wir sie nutzen, daher völlig verändern. Die begrenzten Befehls- und Kontrollsysteme von Siri oder Alexa dürften bald fortschrittlicheren Systemen Platz machen, die unsere Sprache zusammen mit unseren Emotionen oder in unserem Kontext besser verstehen. Die Verschmelzung von Chatbot- und Sprachassistententechnologien ist bereits im Gange.

Während der zehnten Ausgabe der Connect hat Meta die Einführung einer neuen intelligenten Brille angekündigt, die in Zusammenarbeit mit EssilorLuxottica (Ray Ban) entwickelt wurde. Neben Funktionen wie Live-Aufnahmen und der Integration von Meta-Apps verfügt die Brille über fünf Mikrofone, die den Zugriff auf den neuesten Meta AI Chatbot über Sprachsteuerung ermöglichen.

Parallel investiert auch Amazon in neue Entwicklungen im Bereich der Sprachassistententechnologie. Alexa verfügt jetzt über ein eigenes "LLM",  welches das Produkt, wie wir es kennen, revolutionieren soll. Die neueste Version von Amazons Sprachassistentin kann Sätze in Konversationen verstehen und den Kontext interpretieren, so dass sie in der Lage ist, mehrere Anfragen mit einem einzigen Befehl zu beantworten. 

Deutliche Verbesserungen voraus

"Large Language Models" werden also die Konversationsfähigkeiten von Sprachassistenten verbessern. Das bedeutet, dass Ihr diesen nicht mehr genau sagen müsst, was sie machen sollen, oder Eure Befehle wiederholen und variieren müsst. Zum Beispiel könnt Ihr bald sagen "Mir ist kalt", und der Assistent wird die Temperatur in Eurer Klimaanlage ändern. Er wird endlich in der Lage sein, die Nuancen eines Gesprächs zu erfassen und auf menschenähnliche Weise zu reagieren.

Wir alle schätzen Chatbots wie Chat GPT dafür, dass sie sich an die Informationen erinnern, die wir ihnen zuvor gegeben haben, so dass wir das Gespräch nicht jedes Mal von vorne beginnen müssen. Mit "Large Language Models" werden künftig auch Sprachassistenten immer besser in der Lage sein, Interaktionen zu personalisieren, indem sie aus früheren Gesprächen lernen. Ein Gerät, das von einem "LLM" gesteuert wird, kann sich zum Beispiel an bestimmte Musikvorlieben erinnern, Restaurants auf der Grundlage früherer Entscheidungen vorschlagen und sogar maßgeschneiderte Empfehlungen für Filme oder Bücher geben.

Die globale Natur der heutigen Gesellschaft erfordert Sprachassistenten, die nahtlos zwischen verschiedenen Sprachen wechseln können. "Large Language Models" haben in diesem Bereich bemerkenswerte Fortschritte gemacht. Sie ermöglichen es Sprachassistenten, mehrere Sprachen zu verstehen und so fließend zu antworten, wie es bisher nicht möglich war. Das eröffnet neue Wege für die kulturübergreifende Kommunikation und den Handel und macht Sprachassistenten für eine vielfältige Benutzergruppe zugänglicher. 



"Sprachassistenten haben in den vergangenen Jahren dank der Fortschritte bei Sprachsynthese, Spracherkennung, Verständnis natürlicher Sprache sowie bei Erkennungstechnologien einen weiten Weg zurückgelegt", sagt Paweł Bulowski, Advanced Analytics Program Manager in der AI & Data Division bei ET&SM. Die Verwendung von "LLMs" in solchen Lösungen biete nun "immense Möglichkeiten". Als Vorreiter nennt er Anbieter wie Poly AI.

Gleichzeitig sei es wichtig zu  wissen, dass "LLMs" immer nur so gut sind wie die Daten, mit denen sie trainiert wurden, mahnt der Experte: "Das erste Chat GPT hatte zum Beispiel Probleme, weil es auf veralteten Datensätzen trainiert wurde. Ich glaube, jeder erinnert sich daran, wie frustrierend das war."

Lösungen wie RAG und Agents seien entwickelt worden, um dieses Problem anzugehen. RAG zum Beispiel ermögliche es "LLMs", auf eine Wissensdatenbank zuzugreifen, die ihre Antworten mit externen Daten anreichert. Umgekehrt ermöglichen Agenten den "LLMs" die Interaktion mit anderen Anwendungen, etwa mit Python, für spezifische arithmetische Berechnungen. "Es ist, als würden Sie Ihren LLM-Lösungen Superkräfte verleihen. Sie können nicht nur Datenbanken nutzen, sondern auch einen Flug für Sie buchen oder eine Zahlung vornehmen", bringt es Pawel auf den Punkt. 

Manches daran ist aber noch Zukunftsmusik, ...

... räumt unser ERGO Kollege ein: "Derzeit kann KI noch keine längeren fotorealistischen Videos schaffen, die wirklich authentisch wirken." Irgendwo hake es in der Regel immer noch: Sei es, dass ein Bewegungsablauf unnatürlich wirke oder ein Gesicht zu glatt. Die Macher von Indiana Jones 5 stellten fest, wie schwierig es ist, das menschliche Auge digital überzeugend zu reproduzieren. Denn wir alle sind gewohnt daran, den Augenausdruck unseres Gegenübers zu interpretieren: Schon kleinste Bewegungsnuancen verändern, wie wir den anderen wahrnehmen. Mit der Analyse und Wiedergabe dieser Feinheiten war die KI überfordert, und die menschlichen Spezialisten mussten ständig korrigierend eingreifen.

"Solche Probleme könnten sich durch den Fortschritt bei der Entwicklung von AI irgendwann lösen lassen", ist Pawel überzeugt: "Eine andere Grenze der KI wird aber bestehen bleiben: Die Ergebnisse können immer nur so gut sein, wie das Material, an dem die KI trainiert wurde. Hat man von einer Schauspielerin, einer historischen Persönlichkeit, einem Naturphänomen oder einer Landschaft keine guten Aufnahmen in hinreichender Menge, kann die KI nicht lernen, sie überzeugend digital zu reproduzieren. Die Kameraleute dürften also erst einmal nicht überflüssig werden."

Passend dazu