Wie künstliche Intelligenz die Spracherkennung revolutioniert
Inhalt
- Zusammenfassung: So verbessert KI Sprachassistenten
- Einfach erklärt: So funktioniert Spracherkennung mit KI
- Wo KI bei Sprachassistenten bereits zum Einsatz kommt
- Sprachsteuerung: Mit Sprache Aktionen ausführen
- Diktieren: Texte sprechen, statt zu tippen
- Sprachübersetzung in Echtzeit
- Stimmenerkennung: Stimmprofile und Voice Match
- Wie gut ist die Spracherkennung mit KI?
- Fazit & Ausblick: KI & Spracherkennung
- Häufige Fragen und Antworten zu KI und Sprachassistenten

stock.adobe.com/brizmaker
Fragst du dich, warum Sprachassistenten wie Siri, Alexa und Google Assistant dich immer besser verstehen? In diesem Beitrag erklären wir, wie künstliche Intelligenz (KI) die Spracherkennung verbessert.
Zusammenfassung: So verbessert KI Sprachassistenten
Wie KI die Spracherkennung in smarten Assistenten verbessert – das Wichtigste im Überblick:
- Moderne Spracherkennung nutzt KI, um gesprochene Sprache zu erkennen und in Text oder Befehle umzuwandeln.
- Sprache wird aufgenommen, in sogenannte Spektrogramme umgewandelt und von neuronalen Netzen analysiert.
- Aktivierung durch „(Hey) Siri“, „Alexa“ oder „Ok/Hey Google“. Beispiele: Wecker stellen, Licht einschalten, Timer setzen.
- Spracherkennung ermöglicht das Diktieren von Texten, praktisch für Nachrichten und längere Texte.
- Google Assistant bietet den Dolmetschermodus für Übersetzungen zwischen über 40 Sprachen, Siri kann ebenfalls Übersetzungen vornehmen.
- Erkennen und Unterscheiden von Sprechern für personalisierte Inhalte.
- KI-Spracherkennung erreicht eine niedrige Wortfehlerrate (WER), vergleichbar mit menschlicher Leistung.
- Fortschritte in der direkten Sprachverarbeitung könnten die Reaktionsgeschwindigkeit von Sprachassistenten verbessern und Nuancen erfassen.
Einfach erklärt: So funktioniert Spracherkennung mit KI
Spracherkennung ist die Fähigkeit eines Computersystems, gesprochene Sprache zu erkennen, zu verarbeiten und in Text oder Befehle umzuwandeln.

stock.adobe.com/Proxima studio
So funktioniert moderne Spracherkennung mit KI:
- Sprache wird mit einem Mikrofon aufgenommen.
- Die Tonaufnahme wird in kurze Abschnitte aufgeteilt, zum Beispiel 30 Sekunden.
- Jeder Audioabschnitt wird in ein Log-Mel-Spektrogramm umgewandelt. Das ist eine grafische Darstellung von Tönen, die Frequenzen so abbildet, wie das menschliche Gehör sie wahrnimmt.
- Das Spektrogramm wird als Matrix von Zahlen kodiert und in ein neuronales Netz eingespeist.
- Das Netz wurde mit einem großen Datenset aus Spektrogrammen und Transkriptionen trainiert. Es findet nun Muster, die zu bekannten Sprachlauten und Wörtern passen. So wandelt es die gesprochene Sprache in Text um.
Dieses kurze Video zeigt dir, wie ein Log-Mel-Spektrogramm aussieht:
Um Ihnen Video mit weiteren Informationen zu Produkten und Dienstleistungen anzeigen zu können, arbeiten wir mit Youtube zusammen. Für das Anzeigen der Inhalte benötigen wir Ihre Zustimmung.
Kathryn Helland
Virtuelle Sprachassistenten wie Google Assistant, Siri und Alexa verarbeiten den erkannten Text weiter, um eine passende Antwort oder Reaktion auf die Spracheingabe zu finden.
Wo KI bei Sprachassistenten bereits zum Einsatz kommt
Bei Sprachassistenten kommt KI immer stärker zum Einsatz. Das fängt mit der Spracherkennung an, aber auch die Absichten der Nutzer können die Systeme immer besser erkennen.
Sprachsteuerung: Mit Sprache Aktionen ausführen
Dein Sprachassistent erkennt, was du sagst. Das bedeutet aber nicht, dass er versteht, was du willst.
Mithilfe von KI werden moderne Sprachassistenten aber auch immer besser darin, deine Absichten zu verstehen. Du kannst ihnen Befehle erteilen, die sie für dich ausführen. Das nennt man Sprachsteuerung.
So nutzt du die Sprachsteuerung:
- Aktivierungswort: Damit dein Sprachassistent auf Befehle hört, musst du ihn zuerst ansprechen. Je nach Modell sagst du entweder „(Hey) Siri“, „Alexa“ oder „Ok/Hey Google“.
- Befehl geben: Sage den gewünschten Befehl klar und deutlich.
- Assistent führt die Aktion aus: Der Assistent interpretiert deinen Befehl und führt die entsprechende Aktion aus.

stock.adobe.com/fizkes
Hier sind einige Beispiele für Sprachbefehle:
Beispiel: Wecker stellen
- Befehl: „(Hey) Siri, stelle einen Wecker für 7 Uhr morgens.“
- Was passiert: Siri stellt einen Wecker für die gewünschte Zeit.
Beispiel: Licht einschalten
- Befehl: „Alexa, schalte das Wohnzimmerlicht ein.“
- Was passiert: Wenn du smarte Glühbirnen hast, schaltet Alexa das Licht im Wohnzimmer ein.
Beispiel: Timer stellen
- Befehl: „Ok/Hey Google, stelle einen Timer für 10 Minuten.“
- Was passiert: Google Assistant startet einen 10-Minuten-Timer.
Diktieren: Texte sprechen, statt zu tippen
Eine der ältesten Anwendungen der Spracherkennung ist das Diktieren. Wenn du schneller sprechen als tippen kannst oder multitasken willst, kannst du deinem Computer, Smartphone oder Sprachassistenten Texte vorsprechen.
Bei Sprachassistenten ist das besonders praktisch für kurze Nachrichten. Wenn du Siri bitten möchtest, deinen Freunden mitzuteilen, dass du bald ankommst, sag einfach „Hey Siri, sende eine Nachricht an [Name]“ und diktiere dann die Nachricht.
Für längere Texte haben Computer und Smartphones oft spezielle Diktierfunktionen.
Sprachübersetzung in Echtzeit
Sprachassistenten nutzen Spracherkennung, um in Echtzeit zwischen zwei verschiedenen Sprachen hin und her zu übersetzen. Sie verwandeln Sprache in Text, übersetzen diesen und geben den übersetzten Text anschließend wieder als Sprache aus.
Google Assistant hat eine praktische Funktion namens „Dolmetschermodus“, mit der du Gespräche in Echtzeit zwischen über 40 Sprachen übersetzen kannst. Um ihn zu aktivieren, sag einfach „Ok/Hey Google, sei mein [Sprache] Dolmetscher“ oder „Ok/Hey Google, aktiviere den Dolmetschermodus“. Nach der Aktivierung sprichst du in deiner Sprache, und Google Assistant übersetzt automatisch in die gewählte Zielsprache, sowohl gesprochen als auch auf dem Bildschirm.
In diesem Video siehst du ein Beispiel für die Google-Dolmetscherfunktion:
Um Ihnen Video mit weiteren Informationen zu Produkten und Dienstleistungen anzeigen zu können, arbeiten wir mit Youtube zusammen. Für das Anzeigen der Inhalte benötigen wir Ihre Zustimmung.
SmartDroidTV
Siri kann ebenfalls Übersetzungen vornehmen. Du sagst einfach „(Hey) Siri, wie sage ich ,Wo ist die Toilette?’ auf Spanisch?“, und Siri spricht die Übersetzung aus und zeigt sie als Text an.
Amazon Alexa hatte eine Live-Übersetzungsfunktion, die jedoch am 31. Oktober 2023 eingestellt wurde.
Stimmenerkennung: Stimmprofile und Voice Match
Stimmenerkennung wird genutzt, um die Identität des Sprechers zu ermitteln. Das bedeutet, dass der Assistent nicht nur die Worte versteht, sondern auch erkennt, wer spricht.

stock.adobe.com/tanaonte
Durch Stimmerkennung kann ein Sprachassistent verschiedene Nutzer unterscheiden und personalisierte Inhalte bereitstellen. Das System kann zum Beispiel jedem Familienmitglied dessen bevorzugtes Musikgenre vorspielen.
Siri (Apple):
- Nutzt Stimmenerkennung bloß zur Sicherheit, damit nur du die „Hey Siri“-Funktion aktivieren kannst.
- Der Nutzer spricht mehrere Sätze ein, um ein Stimmprofil zu erstellen.
- Das Stimmenprofil wird lokal auf dem Gerät verarbeitet und verschlüsselt gespeichert.
Alexa (Amazon):
- Du kannst mehrere Stimmprofile für verschiedene Haushaltsmitglieder einrichten.
- Nutzer legen dafür in der Alexa-App ein Stimmprofil an und sprechen mehrere Sätze vor.
- Ermöglicht personalisierte Funktionen wie individuelle Musikwiedergabe und Einkäufe.
Google Assistant:
- Verwendet die Voice-Match-Technologie zur Stimmerkennung.
- Lässt Nutzer während der Einrichtung ganze Sätze nachsprechen, um die Genauigkeit zu verbessern.
- Kann bis zu sechs verschiedene Stimmen pro Haushalt unterscheiden und personalisierte Ergebnisse liefern.
Wie gut ist die Spracherkennung mit KI?
Technologie zur Spracherkennung wird seit den 1950er-Jahren entwickelt. Am Anfang war sie sehr begrenzt und ungenau. Heute funktioniert sie viel besser. Dank künstlicher Intelligenz können viele Geräte Sprache gut erkennen und darauf reagieren.

stock.adobe.com/rh2010
Die Wortfehlerrate (WER) zeigt, wie gut eine Spracherkennung funktioniert. Sie gibt als Prozentsatz an, wie oft das System ein gesprochenes Wort auslässt, ein Wort hinzufügt oder ein falsches Wort erkennt. Eine niedrige WER bedeutet, dass die Spracherkennung genau ist. Ein Mensch erreicht ungefähr eine WER von 4 bis 6 Prozent.
KI-Spracherkennung im Vergleich zum Menschen:
- Laut einer Studie von Forschern am Karlsruher Institut für Technologie gab es im Jahr 2020 bereits erste KI-Systeme, die eine WER von 5 Prozent erreichten.
- Ein Paper von OpenAI (2022) vergleicht Modelle zur Spracherkennung und führt Systeme auf, die eine WER von nur 1,4 Prozent haben. Diese Modelle funktionieren aber nicht in Echtzeit und lassen sich daher nur begrenzt mit Menschen vergleichen.
- Forscher vom Helmholtz-Zentrum für Informationssicherheit präsentierten im Jahr 2023 das Ergebnis eigener Tests, wonach Transkripte von menschlichen Transkriptionsdiensten weniger Fehler enthielten als jene von KI-basierten Diensten.
Fazit & Ausblick: KI & Spracherkennung
Unsere Geräte erkennen Sprache mittlerweile so genau wie Menschen. Die korrekte Interpretation von Texten bleibt jedoch eine Herausforderung. In beiden Bereichen hat künstliche Intelligenz in den vergangenen Jahren große Fortschritte gemacht.
Derzeit erfordert die Sprachverarbeitung in Sprachassistenten einen Zwischenschritt. Gesprochene Sprache wird zunächst in Text umgewandelt. Erst dann verarbeitet eine separate KI den daraus resultierenden Befehl.
Neue Modelle wie OpenAIs GPT-4o versprechen jedoch, diesen Zwischenschritt vollständig zu eliminieren. Die direkte Sprachverarbeitung wird die Reaktionsgeschwindigkeit von Sprachassistenten steigern. Auch könnten subtile Nuancen in Tonfall und Emotion des Sprechers die Antworten der KI beeinflussen und verfeinern.
Unsere Geräte werden zunehmend personalisiert und benutzerfreundlich. Die Vision vom intelligenten Assistenten litt anfangs an der holprigen Umsetzung – mit KI nimmt sie nun langsam Form an.
Häufige Fragen und Antworten zu KI und Sprachassistenten
Beiträge rund um Sprachassistenten

Google Assistant deaktivieren: So schaltest du ihn auf dem Android-Handy aus
Mehr erfahren über Google Assistant deaktivieren: So schaltest du ihn auf dem Android-Handy aus
Siri, Alexa oder Google Assistant? Der große Smart-Speaker-Vergleich
Mehr erfahren über Siri, Alexa oder Google Assistant? Der große Smart-Speaker-Vergleich