Auf dem Weg zur sprechenden Super-KI?


NLU, LLM und GPT-3

Digitalisierung & Technologie, 05.12.2022

Die klassischen, regelbasierten Sprachassistenten auf Smartspeakern und Smartphones oder Chatbots auf Webseiten sind nicht perfekt. Manchmal werde ich nicht verstanden und muss unterschiedliche Varianten ausprobieren, bis ich verstanden werde. Aber warum ist es für einen Computer eigentlich so schwierig, gesprochene Sprache korrekt zu verarbeiten? Darüber haben sich Nicolas Konnerth, Head of Voice bei ERGO, und Sebastian Groth, Product Owner für Voice Assistants und Conversational Services bei ERGO, auf LinkedIn Gedanken gemacht.

Frau spricht in Smartphone

Sebastian Groth, ERGO

Sebastian Groth, Product Owner für Voice Assistants und Conversational Services

„Ich glaube, jeder Bot-Entwickler träumt heimlich von eine künstlichen Intelligenz wie J.A.R.V.I.S. oder C3PO, die ohne Probleme die gesprochenen Anweisungen eines Menschen versteht und daraus korrekte Handlungen ableiten kann – ganz ohne Missverständnisse“, schreibt Sebastian Groth in seinem neuen Essay und fragt sich: „Warum ist es aus einer programmiertechnischen Sicht aber so schwierig, das gesprochene Wort richtig zu interpretieren?“ In seinem Streifzug durch die Geschichte der Spracherkennung blickt er zurück auf die Anfänge in den 1980er Jahren („Grammatik als Schlüssel“), betrachtet die 1990er (erste Machine-Learning-Ansätze) und landet schließlich bei aktuellen Methoden (Deep Neural Networks und Large Language Models). 

Wie geht es also weiter mit der Entwicklung von Sprachmodellen? Sind wir auf dem Weg zu einer Super-KI wie wie J.A.R.V.I.S. oder C3PO, die jede unserer Äußerungen genauso gut versteht wie ein Mensch? Wer es wissen möchte, findet Sebastian Groths Beitrag hier bei LinkedIn:

 

Nicolas Konnerth, ERGO

Nicolas Konnerth, Head of Conversational AI

Einen detaillierten Blick darauf, welche Large Language Models (LLMs) es bereits gibt, was sie leisten können und welche Fallstricke sie mit sich bringen, gibt es passend dazu im neuesten Blogbeitrag von Nicolas Konnerth, Head of Voice bei ERGO. LLMs berechnen aus der Erfahrung riesiger Datenmengen, welche Antwort ein Nutzer auf seine Frage wohl erwarten könnte. Die Antwort ist also eine statistische Wahrscheinlichkeit.

„Large Language Models wie GPT3, BERT oder LaMDA haben immer eine scheinbar perfekte Antwort parat und kommen einer echten Intelligenz so nahe, dass manche sogar behaupten, dahinter stecke eine echte Empfindungsfähigkeit“, schreibt Nicolas Konnerth. Doch: Die Technologie hat ihre  Tücken. Mehr dazu sowie einige anschauliche Beispiele gibt es in seinem Blogbeitrag bei LinkedIn: 

 

Ihre Meinung

Wenn Sie uns Ihre Meinung zu diesem Beitrag mitteilen möchten, senden Sie uns bitte eine E-Mail an: next@ergo.de

Ähnliche Beiträge

Digitalisierung & Technologie 08.03.2023

Was ist ChatGPT – und wenn ja, wie viele?

Wo man hinschaut, liest man über ChatGPT. Seit vielen Monaten hat //next-Kolumnist Markus Sekulla keinen solchen Hype mehr erlebt. Egal ob Medien, Twitter oder LinkedIn: Viel wird zurzeit über den Prototyp des neuen KI-Systems von OpenAI geschrieben. Daher wird es Zeit für eine etwas andere Betrachtung des Themas.

Digitalisierung & Technologie 17.03.2023

ChatGPT in der Versicherungsbranche

Unsere Experten Jennifer Betz, Jens Sievert und Nicolas Konnerth erklären die Auswirkungen von ChatGPT auf die Versicherungsbranche und mögliche Anwendungsfälle für Versicherungsunternehmen.

Digitalisierung & Technologie 03.05.2023

Wie funktioniert der Chatbot eigentlich wirklich?

Hand auf's Herz: Habt ihr verstanden, wie ChatGPT hinter den Kulissen wirklich funktioniert? Welche Rolle Algorithmen, Vektoren und Wahrscheinlichkeiten dabei spielen, dass diese Technologie so funktioniert, wie sie funktioniert – und dabei stetig besser wird? Die folgenden zwei Erklärvideos – eines auf Deutsch, eines auf Englisch – haben uns beim Verstehen geholfen.