Daisy Bell oder wie die Computer das Sprechen lernten

Veröffentlicht am 21.10.2015

Die Idee die menschliche Sprache künstlich zu erzeugen ist nicht neu. Genau genommen ist sie sogar so alt, dass sich im Netz eine Vielzahl von Artikel zu den historischen Hintergründen der Sprachsynthese finden – meist beginnend im Jahr 1003 n. Chr.  mit dem “Sprechenden Kopf” von Gerbert von Aurillac, einer aus Bronze gefertigten Maschine, die angeblich nicht nur “ja” und “nein” sagen konnte, sondern darüber hinaus auch als Orakel diente.

Weit weniger mystisch (aber deshalb nicht weniger legendär) sind die Anfänge der computerbasierten Sprachsynthese in den späten 1950er Jahren bis hin zur Fertigstellung des ersten kompletten Text-to-Speech-Systems im Jahr 1968. Die in diesem Zeitraum entstandenen Aufnahmen sind heute quasi Klassiker der Sprachsynthese, allen voran der Daisy Bell singende IBM 704 aus dem Jahr 1961, der auch als Inspiration für den Bordcomputer HAL in “2001: Space Odessey” gilt.

Daisy, Daisy, Give me your answer do!

Heute abgespielt sorgt Daisy Bell (www.youtube.com/watch?v=PR1Wb8czpYw) vielleicht für Erheiterung, damals war es revolutionär – zwar noch weit entfernt von natürlich wirkender Sprache, aber immerhin schon klar verständlich.

Sprachsynthese war zu diesem Zeitpunkt in erster Linie noch Forschungsobjekt – wenn auch nicht immer staubtrocken: Am Artificial Language Laboratory der Michigan State Universität versuchte Donald Sherman 1974 das erste Mal mittels computergenerierter Sprachsynthese eine Pizza zu bestellen und trotz einiger Startschwierigkeiten wurde diese letztendlich auch geliefert (der frenetische Jubel seiner Kollegen über die erfolgreiche Bestellung könnte dabei auch aus dem Mission Control Center der NASA kommen). Als eines der ersten massentauglichen und kommerziell erfolgreichen Handhelds, bei dem Sprachsynthese zum Einsatz kommt, gilt übrigens “Speak & Spell” ein 1978 herausgebrachtes Lernspielzeug, das Kindern das richtige Buchstabieren beibringen soll.

Aus dem Labor, in die Kinderzimmer und heute allgegenwärtig.

Computerstimmen sind heute allgegenwärtig, allerdings hat sich die Qualität der Synthese mittlerweile so verbessert, dass es mitunter schwer ist, “echte” Sprache von künstlich erzeugter zu unterscheiden. Während in früheren Jahren die Formantsynthese eine der verbreitetsten Methoden zur Erzeugung künstlicher Sprache war, werden heute Synthesemethoden angewendet, die darauf setzten, sprachliche Segmente (z.B. Phoneme, Silben etc.) möglichst geeignet miteinader zu verketten.

Für einen umfangreichen Einblick (mit vielen Hörbeispielen) in die Geschichte der Sprachsynthese – beginnend mit den ersten mechanisch erzeugten Lauten, über elektronische bis hin zu computergenerierter Sprache – empfiehlt sich das BBC Interview mit Lucy Hawking “Klatt’s Last Tapes – History of Speech Synthesis” (www.youtube.com/watch?v=097K1uMIPyQ).