Das Tech-Center Voice Recognition ist routiniert darin, Benchmarks zu bauen. Aus der ERGO Werkstatt kam die erste per Stimme abschließbare Versicherungspolice am Markt. Und die Phonebots der jüngsten Generation bieten flüssige, fallabschließende Dialoge mit dynamisch generierter Sprache an. Was kommt als nächstes? In diesem Artikel schaut ERGO CDO Mark Klein über den Branchen-Tellerrand hinaus. In der digitalen Medizin könnte Voice Recognition die Diagnostik revolutionieren. Was ist heute schon möglich und was bedeutet das für Versicherer?
„Du hörst Dich aber schlecht an!“ – das hat bestimmt jeder schon einmal zu Familienmitgliedern oder Freunden gesagt, die kränkeln – oder von ihnen gehört. Selbst am Telefon fällt es auf, die Stimme klingt belegt, müde, ohne Energie. Ein Schnupfen hört sich an, als hätte man eine Wäscheklammer auf der Nase.
Die Stimme kann zweifelsohne ein Indikator für Krankheit sein. Im wissenschaftlichen Jargon spricht man von Biomarkern, von Hinweisgebern darauf, dass etwas nicht stimmt. Folgerichtig befassen sich Mediziner und Experten für Voice Recognition seit langem mit der Frage, ob aus der Stimmlage mehr abzulesen ist als ein Schnupfen.
Die Smartphone-App des Start-ups Vocalis kann COPD, die chronisch obstruktive Lungenerkrankung, bereits im Anfangsstadium erkennen. Die App erkennt erste Anzeichen von Atemnot beim Sprechen. Im Frühjahr 2020 beschloss das Sprachanalyse-Unternehmen mit Niederlassungen in Israel und den Vereinigten Staaten, die Diagnosefunktion auch bei Covid-19 zu nutzen.
Die KI verglich die Stimme von Covid-19-Infizierten mit Stimmprofilen von negativ auf Covid-19 getesteten Menschen. Dadurch „lernte“ die Software die Eingrenzung eines für Covid charakteristischen Stimmabdrucks. Seine App konnte etwa Kliniken bei der Vorsortierung von Verdachtsfällen unterstützen, sagt Tal Wenderow, Präsident und Vorstandsvorsitzende von Vocalis.
Vor allem aber wollte das Unternehmen testen, was der KI-Algorithmus am Stimmprofil erkennt. Vocalis ist nur eines von vielen Start-ups, das sich im jungen Forschungsfeld Stimmdiagnostik bewegt. Mit Covid-19-Signaturen in der Stimme beschäftigen sich viele weitere Unternehmen, sie entwickeln beispielsweise Algorithmen, die erkennen sollen, ob jemand eine Gesichtsmaske trägt.
Aber KI-Algorithmen sind in der Stimmforschung zu viel mehr in der Lage. Der Forscher Björn Schuller gehört zu den weltweit führenden Experten auf dem Gebiet der Stimmenanalyse. Der studierte Elektroningenieur promovierte im Jahr 2005 über das Erkennen von Emotionen über die Stimme.
Heute rückt der Professor für Embedded Intelligence for Health Care and Wellbeing die „Gretchen-Frage“ ins Zentrum seiner Forschungen: Wie kann es künstliche Intelligenz schaffen, die menschliche Stimme in einem Maße auszuwerten, um bestimmte Erkrankungen frühzeitig zu detektieren?
Unsere Stimme gibt mehr preis als wir glauben. Zum Beispiel sprechen ADHS-Patienten eher starr. Depressive Patienten wiederum klingen monoton und Parkinsonkranke zeigen schon im frühen Stadium ein kaum wahrnehmbares Zittern in der Stimme. Künstliche Intelligenz ist in der Lage, solche feinen akustischen Unterschiede herauszufiltern: Bei Parkinson gelingt das in mehr als 90 Prozent der Fälle, bei ADHS und psychischen Krankheiten liegt die Trefferquote bei über 80 Prozent!
Schuller, der an der Uni Augsburg sowie am Imperial College London lehrt, hat eine Diagnose-KI entwickelt, die auf der Basis künstlicher neuronaler Netze funktioniert. Die von Schuller geschaffenen neuronalen Netze lernen selbstständig, worauf im Sprachsignal zu achten ist. Mit dem Ergebnis, dass die Medizin-KI fast wie ein Mensch diagnostizieren kann.
Alleine durch Stimmanalyse spuckt der Super-Computer dann Herzfrequenz und Cortisolspiegels des Patienten aus, sein Alter und sogar die Größe – mit einer Abweichung von fünf bis sieben Zentimetern. Die Nervenschaltungen der künstlichen neuronalen Netze sind zwar reine Mathematik, jedoch sollen sie lernen, Entscheidungen zu treffen, die einem menschlichen Wesen möglichst nahekommen.
Die durchschnittliche Trefferquote von Schullers KI ist erstaunlich. In bis zu 85 Prozent der Fälle stimmt die Stimmenanalyse mit den tatsächlichen Krankheitsbefund überein. Maschinenlernsysteme können inzwischen Stimmen-Biomarker für eine Vielzahl von Erkrankungen identifizieren – darunter Demenz, Depression, Autismus-Spektrum-Störungen und sogar Herzkrankheiten.
Die künstliche Stimmanalyse könnte die menschliche Diagnose nicht einfach nur ersetzen oder ergänzen – sondern regelrecht in den Schatten stellen.
Grundsätzlich kann natürlich jeder Arzt die Stimme des Gegenübers grob einschätzen – allerdings auch viele Feinheiten überhören. Zusätzlich sind manche Patienten geübt darin, ihre Stimmung zu überspielen. Das fällt den meisten Menschen nicht auf: Wer als Depressiver in einigen Situationen seine Stimme anhebt, kann womöglich sogar seinem Arzt vorspielen, dass es ihm besser gehe.
Computer könnten diese Unterschiede erkennen. Eine Zukunftsvision der smarten Voice-Medizintechnik könnte ein Armband sein, das über die Nutzerstimme möglichst viele Krankheiten frühzeitig detektiert. Und das ähnlich wie ein Fitnessarmband dazu motiviert, sich mit dem eigenen gesundheitlichen Zustand zu beschäftigen.
Klar, dass die großen Tech-Unternehmen die Entwicklungen nicht verpassen wollen. Einen ersten marktfähigen Versuch unternahm Amazon mit „Halo“ (inzwischen wurde der Nachfolger „Halo View“ vorgestellt). Ein Wearable, das via Mikrofon die Stimme seines Nutzers analysiert.
Das Armband konnte etwa zwischen förmlichen Geschäftsverhandlungen und einem wütenden Familienstreit unterscheiden – und Empfehlungen abgeben, die Stimme zu senken oder ruhiger zu sprechen.
Auch der Musik-Streaming-Dienst Spotify hat 2021 ein Patent zugesprochen bekommen: Mit einer Analyse der Stimme sollen Songs basierend auf dem „emotionalen Zustand, Geschlecht, Alter oder Akzent“ vorgeschlagen werden.
Allerdings – trotz einiger Euphorie über die Treffergenauigkeit bei sprachbasierter Stimmanalyse ist Vorsicht geboten. Es gibt einige potenzielle Fallstricke, von fehlerhaften Diagnosen bis hin zum Eindringen in die persönliche und medizinische Privatsphäre als Problem des Datenschutzes.
Bisher sind potenzielle Biomarker lediglich in Forschungs-Studien mit einer bestimmten Anzahl an Patientengruppen identifiziert worden.
Sind die „Treffer“ eine typische Folge der untersuchten Krankheit? Oder sind es eher die Unterschiede zwischen Testgruppen, etwa die Alltagsumgebung, der Bildungsstand, andere Erkrankungen, der Gemütszustand oder einfach Müdigkeit? All das können Störgrößen bei der Auswertung sein.
Egal wie gut – Sprachanalysesysteme, die persönliche Gesundheitsinformationen liefern, sind ein sensibles Instrument. Sie gehören ausschließlich in die Hände von Medizinern, um zu heilen oder das krank werden zu verhindern. Die Technologie muss sicher vor kriminellen Handlungen sein. Stimmen sind schon heute so gut synthetisierbar, dass man sie von der originalen, menschlichen Stimme kaum unterscheiden kann. Deepfakes – im negativen Sinne – bergen ein enormes Sicherheitsrisiko.
Aber in der Verbindung von Sicherheit und Einfachheit, zum Beispiel als Assistenzsysteme, können Stimmendetektoren dereinst Mehrwerte bieten – etwa eine Sprachanalytik im Auto, die einen nahenden Schock oder Herzinfarkt erkennt und meldet, bevor etwas passiert.
Wir bei ERGO und im Voice-Team werden uns weiterhin mit den Technologien befassen – und neugierig die Entwicklungen in der Medizin und in anderen Branchen weiterverfolgen.
Wie Biomarker die Erforschung von Krankheiten revolutionieren:
https://next.ergo.com/de/Digital-Health/2021/Biomarker-Genetik-Forschung-Prognosen-Biotech-KI
Test ohne Test? Künstliche Intelligenz erkennt Covid19 bereits am Husten
https://next.ergo.com/de/KI-Robotics/2020/KI-Test-Covid19-Husten
Most Popular