Voice

Lassen wir mal die Kirche im Dorf – und Alexa im Wohnzimmer! 

„Voice“, also Spracherkennung- und Steuerung, sind im Trend. Da die Infrastruktur grundsätzlich vorhanden ist und sich die Technologie stetig weiterentwickelt, können wir also durchaus von „Next Big Thing“ sprechen, findet Nicolas Konnerth – und reagiert damit auf den skeptischen Kommentar von //next-Kolumnist Markus Sekulla. 

   

Geht es nach Gartner‘s „Hype Cycle“, so nimmt jeder Trend in etwa einen ähnlichen Verlauf: Es gibt einen initialen Auslöser, gefolgt von einem steilen Gipfel überzogener Erwartungen und einem Fall in das Tal der Enttäuschungen, bis letztendlich – und das ist das Wichtige – der Trend nachhaltig erfolgreich wachsen kann. Da die Gipfel und Täler dieses Verlaufs – je nach Trend – mal höher und mal tiefer ausfallen können, ist es immer schwierig, einen Trend dort zu verorten, wo er aktuell zu sein scheint. Bei Sprachassistenten würde ich mich allerdings weit aus dem Fenster lehnen und sagen, dass wir den Gipfel bereits weit hinter uns gelassen haben: Unterschiedliche Studien zeigen auf, dass bereits jeder vierte Deutsche einen Smart Speaker besitzt. Damit wir nicht während der Autofahrt auf unsere neuen digitalen Freunde verzichten müssen, werden laut ABIresearch bis 2023 bereits 20 Millionen Neufahrzeuge für die Nutzung gängiger Sprachassistenten vorausgerüstet zu sein. Die Infrastruktur ist also schon einmal da.

Doch: Werden die Assistenten auch entsprechend in den Alltag eingebunden? Google’s Sindar Pichai verkündete bereits 2016 auf einer Keynote, dass etwa 20 Prozent des Suchvolumens auf mobilen Devices per Sprache formuliert wird. Jeder dritte Deutsche ist mittlerweile regelmäßiger Nutzer von Sprachassistenten.

Wie werden Sprachassistenten genutzt?

Sprachassistenten sind also bereits in der breiten Masse angekommen und werden offensichtlich auch genutzt. Die Frage stellt sich nur: Wofür eigentlich? Hier muss ich einen Punkt an Markus Sekulla geben – denn tatsächlich beschränkt sich die Nutzung in den häufigsten Fällen auf recht triviale Anwendungsfälle wie beispielsweise Musik hören, einfache Informationen wie Nachrichten oder Wetter abrufen, Kommunikation, Navigation und das Steuern von Smart Home Geräten. 

Wer tiefergehende Dialoge erwartet oder mehr Menschlichkeit, hängt vielleicht noch am Gipfel überzogener Erwartungen fest. Dabei liegt die Schuld nicht am Sprachassistenten, denn die Erwartungshaltung steckt ja bereits in der Bezeichnung „Assistent“. Als solche können sie uns im Alltag unterstützen und warten auf den Zuruf von Befehlen durch den Nutzer. Die meisten Nutzer akzeptieren das bereits – entsprechend weit ist die Verbreitung der digitalen Assistenten. 

Hoffnung auf immer intelligentere digitale Gesprächspartner

Natürlich bleibt dabei die Hoffnung, dass Sprachassistenten immer mehr aus starren Dialogen ausbrechen und intelligentere Gespräche anbieten. Dass wir von einer solchen Zukunft nicht mehr weit entfernt, sondern mittendrin sind, demonstrierte Google mit der ‚Duplex‘ genannten Sprachtechnologie bereits 2018 sehr eindrucksvoll: Ein Sprachassistent rief auf Wunsch des Nutzers bei einem Friseursalon an und vereinbarte einen Termin. Das Besondere war aber nicht der Anwendungsfall alleine, sondern die Art und Weise, wie der Sprachassistent den Termin vereinbarte. Der Assistent mimte erfolgreich einen Menschen, nutzte Füllwörter und „ähms“ im Gespräch und bat sogar an einer Stelle um einen kurzen Moment, um den Termin im Kalender zu prüfen. Die Täuschung war so gut, dass es Anlass zur Diskussion bot, ob Google Duplex quasi im Vorbeigehen den legendären Turing Test bestanden hatte. 

Der bekannte Informatiker Alan Turing prognostizierte 1950, dass es im Jahr 2000 künstliche Intelligenzen geben würde, die Menschen so gut täuschen könnten, dass diese mit höchstens 70 prozentiger Wahrscheinlichkeit die KI von einem menschlichen Gesprächspartner unterscheiden könnten. Auch wenn das von Google Duplex durchgeführte Gespräch strenggenommen nicht als Turing Test anerkannt werden dürfte, weil das Thema des Gesprächs bereits zu stark eingegrenzt war und der menschliche Gesprächspartner sich seiner Rolle als Proband nicht bewusst war, so nährt die Demonstration zumindest Hoffnung auf immer intelligentere digitale Gesprächspartner. 

Next Big Thing...

Mittlerweile ist Google Duplex von einem reinen Showcase weit entfernt: In den USA können Nutzer diesen Dienst bereits in Anspruch nehmen – ergänzt sogar um einen zusätzlichen Service, der auch Buchungen auf Webseiten für den Nutzer vornimmt.

„Was hat das jetzt mit meinem Amazon Echo oder meinem Google Home zu Hause zu tun?“, mag sich der eine oder andere Leser an dieser Stelle fragen. „Eine ganze Menge“, sage ich: Die sprachtechnologische Finesse steckt nicht zwangsläufig in der Hardware, sondern in einer Cloud. Von den stetigen, technologischen Errungenschaften im Bereich der Sprachtechnologie profitiert somit jeder Smart-Speaker-Besitzer automatisch, ohne sich um ein lästiges oder auch teures Upgrade seiner Hardware bemühen zu müssen. Amazon beschäftigt mittlerweile alleine mehr als 10.000 Mitarbeiter, um Alexa noch intelligenter zu machen. Da die Infrastruktur grundsätzlich vorhanden ist, und sich die Sprachtechnologie stetig weiterentwickelt, können wir tatsächlich von „The Next Big Thing“ sprechen. 

Nicolas Konnerth, 23.09.2020

Was macht ein Head of Voice bei ERGO?