Berlin

Wenn das Handy aufs Wort hört: Trends bei der Spracherkennung

Aus dem Arbeitsalltag vieler Rechtsanwälte und Ärzte sind Spracherkennungssysteme schon seit geraumer Zeit nicht mehr wegzudenken. Aber nicht nur in Kanzleien, Kliniken und Praxen werden Diktate heute digital verarbeitet und mit Hilfe von Software in geschriebenen Text umgewandelt.

Das erste Spracherkennungssystem von IBM beherrschte vor 50 Jahren gerade einmal 16 Worte. Heute kann man mit Spracherkennungsprogrammen nicht nur Texte mit erstaunlich wenig Fehlern diktieren, sondern Smartphones oder Navigationssysteme bedienen.

Christoph Dernbach, dpa

31.08.2011

Aktuelle Programme wie Dragon NaturallySpeaking 11.5 richten sich ausdrücklich auch an Anwender, die nur gelegentlich einen Text verfassen müssen oder schnell einen Eintrag auf Facebook platzieren möchten. Außerdem erobert die Spracherkennung die Smartphones und Tablet Computer.

Langsame aber stetige Entwicklung

Noch vor der Entwicklung der ersten PCs versuchte IBM, Systeme für die maschinelle Erkennung gesprochener Sprache zu entwickeln. Die „IBM Shoebox” aus dem Jahr 1961 erkannte jedoch nur 16 Worte: die Zahlen von Null bis Neun und außerdem die mathematischen Anweisungen „minus”, „plus”, „subtotal”, „total”, „false” und „of”. Damit konnte das System aber immerhin die englischsprachige Rechenaufgabe „Five plus three plus eight plus six plus four minus nine, total” verstehen und die korrekte Antwort „17” ausspucken.

IBM gehörte auch in den 80er und 90er Jahren mit ViaVoice zu den führenden Anbietern von Spracherkennungsprogrammen, fokussierte sich dann aber auf große gewerbliche Anwendungen, wie sie beispielsweise in Call Centern zum Einsatz kommen. Die ViaVoice-Technologie für Privatanwender und kleinere Unternehmen landete bei Nuance, dem Hersteller der Dragon-Programme. Das Thema Spracherkennung auf dem PC oder Mac ist heute unauflösbar mit dem Unternehmen Nuance und seiner Marke Dragon verbunden. Auch Spracherkennungstechnologie des europäischen Elektronikriesen Philips landete dort.

„Kein Profi käme darauf, mit einer anderen Lösung zu diktieren”, sagt Michael Spehr, der als Fachredakteur über Technik-Themen bei der „Frankfurter Allgemeinen Zeitung” berichtet. Neben der Windows-Programmfamilie Dragon NaturallySpeaking bietet Nuance inzwischen eine Lösung für das Macintosh-System von Apple (Dragon Dictate 2.5) an.

Umfangreiche Lösungen für komplexe Workflows

Im Umfeld des Dragon-Anbieters Nuance bieten spezialisierte Integratoren umfangreiche Lösungspakete, die auf einer Schnittstelle zu der Nuance-Technologie aufsetzen. Das sind zum Beispiel Workflows von Diktaten in einer Großklinik oder in der hessischen Justiz.

Die Technologie von Nuance wird auch von etlichen Autoherstellern verwendet. Auf der Technikmesse IFA präsentiert beispielsweise Ford seine Lösungen auf der Basis der Nuance-Schnittstelle. Im Auto geht es darum, das Mobiltelefon ohne unfallträchtige Fummelei zu bedienen oder das Navigationssystem kurz und knapp anzuweisen, dass man nach Hause fahren möchte. „Als Autokäufer muss man aber aufpassen, denn manche Hersteller bieten auch aktuelle Modelle mit einer veralteten Spracherkennung an, die etwa nicht die Zieleingabe beim Navi in einem Rutsch ermöglicht”, sagt Fachmann Spehr.

Bei der Spracherkennung auf dem Handy war nicht Nuance der Vorreiter, sondern Google. Im Februar 2009 präsentierte der Internet-Gigant „Google Search by Voice” für sein Smartphone-System Android. Um eine Suche nicht mühsam auf dem kleinen Gerät tippen zu müssen, wird die Anfrage mit dem Handymikrofon aufgenommen, in Daten verwandelt und dann an die Google-Server gesendet.

„Die Google-Computer filtern dabei wichtige Segmente aus dem Gesagten heraus, analysieren einzelne Wörter und Silben und gleichen das Gesagte mit den wahrscheinlichsten Ausdrücken ab”, erläutert Google-Sprecher Stefan Keuchel. „Diese werden dann im Internet gesucht und die Ergebnisse zurück an das Handy gesendet. Das alles passiert in wenigen Sekunden.”

Google Voice Actions: Versechsfachung der Sprachbefehle

Inzwischen funktioniert die Google-Suche mit gesprochener Sprache nicht nur auf einem Android-Smartphone, sondern auch auf dem iPhone: „Auf seinem Android-Mobiltelefon tippt man einfach auf das kleine Mikrofonsymbol neben dem Google Suchfeld und spricht den Suchbegriff aus. Bei der Google-App für das iPhone genügt es, das Telefon ans Ohr zu halten. Google liefert dann wie gewohnt eine Seite mit Suchergebnissen”, erläutert Keuchel. Eine gesprochene Suchanfrage funktioniert mit Stichworten, kann aber beispielsweise auch für das Umrechnen von Währungen („300 Dollar in Euro) oder Maßeinheiten („2,5 Zoll in Zentimeter”) verwendet werden.

Mit „Google Voice Actions” kann man das Smartphone auch sprachgesteuert bedienen, um beispielsweise SMS-Nachrichten zu verfassen, Anrufe zu tätigen oder Navigationsziele einzugeben. „Mit Voice Actions hat sich das Volumen der Sprachsuchen versechsfacht”, berichtete Google-Forscher Vincent Vanhoucke dem US-Blog Mashable.

Google-Konkurrent Microsoft hat in sein System Windows Phone 7 ebenfalls eine Spracherkennung eingebaut. Die deutsche Version beherrscht aber nur den Aufruf eines Kontaktes oder die Eingabe einer Telefonnummer sowie das Öffnen von Programmen, die auf dem Windows Phone installiert sind. Mit der US-Version von Windows Phone kann man mit seiner Stimme auch eine Suche starten.

Die Spracherkennung im Apple-Smartphonesystem iOS hat bislang ihre Grenzen und kommt nicht an die Google-Sprachsuche oder die Voice-Actions heran. Allerdings wird das neue Apple-Betriebssytem iOS 5, das in diesem Herbst auf den Markt kommt, eine deutlich verbessere Spracherkennung bieten. Apple arbeitet dem Vernehmen nach mit Marktführer Nuance zusammen.

Einen Vorgeschmack auf die systemweite Funktion geben bereits heute die Dragon-Apps im iTunes App Store. Mit Dragon Search kann man mündlich Suchanfragen bei Google, YouTube, Twitter und Wikipedia absetzen. Dragon Dictation funktioniert als mobiles Diktiergerät, das die gesprochenen Sätze in schriftliche Texte umwandelt. Und die App Dragon Remote Microphone verwandelt das iPhone in ein externes Mikrofon für die Dragon-Anwendungen auf dem PC oder Mac.

Während die Dragon-Apps für das iPhone kostenlos sind, bietet Nuance auf der Android-Plattform für knapp vier Euro mit FlexT9 eine Art Schweizer Taschenmesser der Spracherkennung an: Die App ermöglicht unterschiedliche Texteingaben und kombiniert Dragon Dictation mit Fingereingaben wie Tippen, Schreibschrift oder das so genannte Tracen. Beim Tracen gleitet der Nutzer auf dem virtuellen Tastenfeld im Touchscreen-Display mit dem Finger von Buchstabe zu Buchstabe und kann dabei sehr hohe Schreibgeschwindigkeiten auf einem kleinen Display erzielen.