KI im Ohr

Über das Hören mit Künstlicher Intelligenz (Teil 1)
Plasmakugel mit Blitzen

KI im Ohr? – Von künstlicher Intelligenz (KI) hört und liest man ständig. Die Vorstellung, dass Menschen Maschinen erschaffen, die selbst denken können, ist ein alter Traum – und ein viel beschriebener Alptraum. Emsige Roboter und freundliche Automaten, Menschenmaschinen, Frankenstein… Und dank immer höherer Rechenleistung und immer größerer Datenströme wird das jetzt alles wahr. Oder?

Um mehr über die KI im Ohr bzw. über Hören und KI zu erfahren, fuhr ich vor einiger Zeit nach Gilching. Das ist ein kleiner Ort bei München mit einem Technologiepark auf weitem, freiem Feld. In dem Park sitzt audEERING – ein junges Unternehmen, das aus der Technischen Universität München hervorgegangen ist. Ich schreibe hier fast nie über Unternehmen; diese Artikel-Serie eine Ausnahme. audEERING ist nicht nur deshalb interessant, weil sie dort eine KI entwickeln, die am Hustengeräusch hören kann, ob jemand Corona hat. Das Unternehmen ist vor allem auf einem Gebiet der „Audio Intelligence“ (also der KI im Ohr) führend: Emotionen in menschlichen Stimmen erkennen.

Lernende Maschinen und neuronale Netze

Im Kern geht es darum, dass nicht nur zählt, was man sagt, sondern vor allem, wie man es sagt, hat mir Geschäftsführerin Dagmar Schuller bei meinem Interview-Besuch erklärt. – Versuche einfach mal, ein harmloses Wort wie „Ja“ oder „Nein“ oder auch nur ein „Hm“ oder „Aha“ unterschiedlich auszusprechen – also mal freudig, mal traurig, wütend, böse, herablassend spöttisch… Genau das ist das Thema. audEERING kann diese verschiedenen Emotionen aus den Schallwellen menschlicher Stimmen heraushören – mithilfe intelligenter Audio-Analyse und sehr genau. Das System ist schon heute in der Lage, anhand weniger Sekunden Sprachmaterial etwa 50 Emotionsklassen zu erkennen. Das heißt, die „KI im Ohr“ kann Gefühle wahrscheinlich müheloser bzw. zuverlässiger hören als es viele Menschen können. Doch vor der Frage, wozu KI im Ohr gut ist, steht in diesem ersten Artikel unserer Serie über „KI im Ohr“ etwas Generelles…

Um neuronale Netze ging es uns schon beim Thema Gehirn und Musik. Bei KI geht es auch um neuronale Netze – nur um künstliche: „KI war schon vor 30 Jahren nichts Ungewöhnliches“, so Dagmar Schuller. „Nur hatten die neuronalen Netze, mit denen man auch heute beim Machine Learning arbeitet, nur eine Ebene. Bestenfalls gab es zwei Schichten; mehr ging nicht. Heute sind diese neuronalen Netze vielschichtiger.“

Illustration zum Beitrag über KI im Ohr auf die-hörgräte.de

Neben dem Begriff der künstlichen Intelligenz ziehen derzeit noch weitere Begriffe durch die Medien, die beschreiben, was heute alles möglich ist – zum Beispiel der Begriff „Deep Learning“. – „Das heißt eigentlich nur, dass ich ein neuronales Netz mit vielen Schichten habe, sozusagen eine Art Lang- und Kurzzeitgedächtnis abbilden kann. Man muss KI jedoch größer sehen, als es die meisten heute tun“, so Dagmar Schuller. „Größer im statistisch-mathematischen und auch im kreativen Sinne. Es geht nicht um einen intelligenten Algorithmus – also nicht um klassisches Machine Learning, das KI überhaupt möglich macht. Es geht vielmehr um ein Zusammenspiel unterschiedlicher Einflussfaktoren. Die ermöglichen ein System, das so ähnlich handelt, wie es ein Mensch tun würde.“

Gummistiefel und eigene Gedanken

Das klingt nicht ganz einfach; ich erkläre es mir an einem Beispiel: Wenn sich ein Algorithmus im Internet merkt, dass ich mir einmal eine Shopping-Seite mit Gummistiefeln angesehen habe, und wenn er mir dann monatelang andere Shopping-Seiten mit ähnlichen Gummistiefeln zeigt, so hat das zwar eine gewisse Logik, aber besonders intelligent ist es nicht. Das System wiederholt nur immer wieder, was ich einmal gedacht bzw. gewünscht habe: Gummistiefel.

Plasmakugel mit Blitzen

Wenn ich Frau Schuller richtig verstanden habe, geht es jedoch darum, dass das System „eigene Gedanken“ entwickelt – und zwar immer auf Grundlage dessen, was es von Menschen gelernt hat. – „Es kann zu Ergebnissen gelangen, zu denen ein Mensch so vielleicht nicht gekommen wäre. Und zwar, weil ich so ein System mit einer Fülle von Daten füttern kann, die ein Mensch gar nicht analysieren könnte. Menschen haben hingegen andere perzeptive Möglichkeiten, die schnellere Schlüsse oder andere Optionen eröffnen. Das ist der große Unterschied zwischen Mensch und KI.“

KI im Ohr – entscheidend sind immer die Daten

Das, was heute künstliche Intelligenz genannt wird, ist oft gar keine künstliche Intelligenz, sondern nur eine statistische Methode – sagt Dagmar Schuller: „Bestenfalls werden noch zwei Methoden kombiniert. Man muss also genau nachfragen, was dort geschieht. Mit welcher anderen Methode wird die eigene verglichen, um zu sehen, dass man auch das beste Ergebnis hat? Hier trennt sich die Spreu vom Weizen. Alles ist stark Daten-getrieben. Und nur bestimmte Daten mit einer bestimmten Qualität ermöglichen es dem System, in einer bestimmten Qualität zu erkennen.“

Für eine KI sind Daten wie die Luft zum Atmen. Je mehr und je bessere Daten sie bekommt, umso hochwertiger das Resultat. Und es kommt darauf an, wie die Daten sortiert werden – also systematisch oder unsystematisch. Die KI könnte zum Beispiel lernen: Gurke, Banane, Rhabarber = alle lang, alle essbar. Oder die KI könnte auch noch lernen, dass die einen Obst und die anderen Gemüse sind. Das macht dann die KI-Welt schon viel systematischer.

Illustration zum Beitrag über KI im Ohr auf die-hörgräte.de

PS 1: In diesem Blog werden keine aktuellen Produkte bestimmter Unternehmen vorgestellt; der Blog erhält keinerlei Geld oder andere geldwerte Unterstützung. Dass hier – und in den weiteren Beiträgen dieser Artikel-Serie – ein Unternehmen erwähnt wird, geschieht nur ausnahmsweise und nur, weil es um grundsätzlich neue Entwicklungen geht – also nicht um platte Werbung. – Laut Gartner Report vom August 2018 zum Thema emotionale KI ist audEERING in seinem Bereich nicht nur der Anbieter mit dem breitesten Erfahrungsspektrum und dem höchsten Innovationsfaktor, sondern auch der mit den besten Anwendungsmöglichkeiten.

PS 2: Die Fotos zum Beitrag über KI im Ohr zeigen Blitze in einer Plasmakugel, die mich an Blitze bei einem Neuronen-Gewitter oder auch an „Technik-Blitze“ erinnern.


Vorheriger Beitrag
Ohren abschneiden
Nächster Beitrag
Maschinen lernen hören

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Fill out this field
Fill out this field
Bitte gib eine gültige E-Mail-Adresse ein.
You need to agree with the terms to proceed

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Mit unserem News­letter erhalten Sie regelmäßig Artikel, Geschichten und Neuigkeiten rund um das Hören mit und ohne Technik. Informationen zu den Inhalten, der Proto­kollierung Ihrer Anmeldung, dem Versand über den US-Anbieter MailChimp, der statistischen Aus­wertung sowie Ihren Ab­bestell­­möglichkeiten, erhalten Sie in unserer » Datenschutzerklärung

Neueste Beiträge

Kategorien