Ein Blick auf die Entwicklung der Spracherkennung – wie eine futuristische Rechenmaschine zur etablierten Software wird

Seit Jahrzehnten sind Technikbegeisterte fasziniert davon, Sprache automatisch in Text zu verwandeln. Es dauerte viele Jahre, bis Spracherkennung zu dem wurde, was sie heute ist – eine etablierte und verbreitete Technologie für eine effizientere Dokumenterstellung.

Technologie erzielt massive Fortschritte

Wer erinnert sich nicht an erste Versuche mit sprachgesteuerter Rufnummernwahl bei Mobiltelefonen. Meist wurden unsere Sprachbefehle nicht verstanden, häufig wurde die falsche Nummer gewählt. Aus verschiedenen Gründen war Spracherkennung während längerer Zeit noch nicht ausgereift. In den letzten Jahren hat die Technologie massive Fortschritte erzielt und ist heute ein etabliertes und weit verbreitetes Instrument für die Prozessoptimierung und Effizienzsteigerung in dokumentationsintensiven Branchen. Insbesondere Arztpraxen, Spitäler und Anwaltskanzleien setzen auf Spracherkennungssoftware, um mehr Zeit für ihre Patienten und Mandanten zur Verfügung zu haben und profitieren von der Spracherkennung.

Die Basis wurde in den Achtzigern gelegt

Nachdem IBM anlässlich der Weltausstellung 1962 eine schuhschachtelgrosse Maschine präsentierte, welche einfache gesprochene Rechenaufgaben lösen konnte, hatte Spracherkennung während vielen Jahren einen schweren Stand bis zur Marktreife. Erst in den achtziger Jahren konnte auf Basis des nach dem russischen Mathematikers Andrej Markov benannten «Hidden Markov Model» die Wahrscheinlichkeit berechnet werden, dass ein bestimmtes Wort auf ein anderes folgt. Dies erlaubte es den Softwareentwicklern, gleich oder ähnlich ausgesprochene Sätze auf Basis des Kontexts zu unterscheiden. So dürfte der Satz «Wir sind ihnen dicht auf den Fersen» mit höherer Wahrscheinlichkeit vorkommen als der Satz «Wir sind ihnen dicht auf den Versen».

Anfangs der neunziger Jahre war schliesslich die erste Spracherkennung für den PC verfügbar. In dieser Zeit konkurrierten die Hersteller IBM, Lernout & Hauspie, Dragon Systems, Philips und Microsoft mit ihren jeweiligen Produkten um die Kunden. Während einer schwierigen Konsolidierungsphase nach der Jahrtausendwende übernahm der Hersteller Scansoft, welcher sich später in Nuance Communications umbenannte, verschiedene kleinere Firmen und Produkte. Zu Nuance gehören mittlerweile auch die Technologien von IBM und Philips (SpeechMagic).

Entwicklung der Spracherkennung
Evolution der Spracherkennung

Eindrückliche Fortschritte

Der eigentliche Durchbruch gelang Spracherkennung in den letzten 10 Jahren, unterstützt durch immer bessere Software, Rechenleistung und Fachvokabulare. Obwohl sich Spracherkennung etabliert hat, verwenden viele Berufsleute die Tastatur um eine E-Mail oder einen Bericht zu verfassen. Insbesondere für medizinische oder juristische Texte ist es hingegen bedeutend effizienter und gesundheitsschonender, den Text direkt per Stimme zu erstellen als zu tippen. Kurze Einarbeitungszeit, rasche Umsetzung und höchste Erkennungsgenauigkeit machen professionell implementierte Spracherkennungslösungen zu hochgradig effizienten Arbeitshilfen.

Heute ist Nuance Communications mit ihren Produkten Dragon Medical, Dragon Professional und Dragon Legal mit Abstand der weltweite Marktführer in diesem überschaubaren Nischenmarkt. «Dragon zeichnet sich im Vergleich zu Konkurrenzprodukten vor allem durch höchste Erkennungsgenauigkeit aus, dies sowohl bei allgemeinsprachlichen wie auch fachbezogenen Texten, so etwa im medizinischen oder juristischen Umfeld», erklärt Reto Heusser, Mitglied der Geschäftsleitung bei Voicepoint. Weiter bietet die Nuance-Technologie vielfältige Integrationsmöglichkeiten in andere Applikationen, einfache Navigationsoptionen für den PC, effiziente Korrekturprozesse und Mehrsprachigkeit. Ausserdem bietet Voicepoint als Schweizer Nuance-Integrator Zusatzmodule und fachspezifische Vokabulare für die Dragon Spracherkennungsplattform an, um von Beginn weg eine Produktivitätssteigerung zu erzielen.

Spracherkennung – heute nicht mehr wegzudenken

Auch in den nächsten Jahren warten verschiedene Neuerungen auf die Anwenderinnen und Anwender. So hat Nuance in ihren neusten Versionen zusätzlich zu den statistischen Modellen eine Lerntechnologie auf Basis von neuronalen Netzen implementiert und die Vokabulare verbessert, was zu einer noch besseren Erkennungsgenauigkeit führt. Zudem präsentiert Voicepoint mit dem Firebox Server, als optimale Ergänzung zur von Voicepoint entwickelten Client-Software Firebox, das passende Modul mit zentralen Enterprise-Funktionen.  Zudem erweitert Voicepoint demnächst die im letzten Jahr erfolgreich eingeführte cloudbasierte, hochverfügbare und sichere Schweizer Spracherkennungsplattform auf Basis der Dragon Technologie von Nuance. «Unsere Plattform ermöglicht Ärztinnen und Ärzten jederzeit und ortsunabhängig auf eine hochverfügbare Spracherkennung zugreifen zu können, unabhängig ihrer IT-Umgebung und ohne eine eigene Installation unterhalten zu müssen», fasst Reto Heusser die wichtigsten Vorteile der Lösung zusammen.

Haben Sie Fragen zu unseren Produkten und Dienstleistungen oder wünschen Sie eine unverbindliche Beratung? Kontaktieren Sie uns – wir sind gerne für Sie da.