Die Silicon Valley-Suche nach Stephen Hawkings Stimme

Wie ein Silicon Valley-Team dazu beitrug, seinen unverwechselbaren Roboter-Sound wieder aufzubauen

Patti Price, eine Beraterin für Sprachtechnologie, und Eric Dorsey, ein technischer Manager, sind Teil des Teams, das daran gearbeitet hat, Stephen Hawkings vertraute Stimme zu retten, als die 30-jährige Hardware, die sie generiert, zu versagen begann. Foto: Michael Macor, Die Chronik

Von Jason Fagone

Eric Dorsey, ein 62-jähriger Ingenieur in Palo Alto, sah am Dienstagabend fern, als er anfing, Texte zu bekommen, dass Stephen Hawking gestorben war. Er schaltete die Nachrichten ein und sah Clips des berühmten Physikers, der in seiner ikonischen Android-Stimme sprach - die Stimme, die Dorsey als junger Mann so viel Zeit damit verbracht hatte, zu erschaffen und dann, viel später, vor der Zerstörung zu retten.

Dorsey und Hawking hatten sich fast 30 Jahre zuvor kennengelernt. Im März 1988 besuchte Hawking die UC Berkeley während einer dreiwöchigen Vortragsreise.

Mit 46 Jahren war Hawking bereits berühmt für seine Entdeckungen über Quantenphysik und Schwarze Löcher, aber nicht so berühmt wie er sein sollte. Sein Bestseller "Eine kurze Geschichte der Zeit" war eine Woche vor seiner Veröffentlichung, und die Kalifornier waren neugierig auf diesen britischen Professor von der Universität Cambridge, der die Plätze seiner öffentlichen Gespräche packte und sich ihm beim Essen näherte. Hawking fuhr in einem Rollstuhl mit einem Sitz aus kastanienbraunem Schaffell in Gebäude und auf Bühnen, zoomte mit einem Joystick herum und grinste, als er Journalisten und seine Krankenschwestern im Staub liegen ließ.

Patti Price, eine Beraterin für Sprachtechnologie, weist auf die alten und neuen Sprachclips von Stephen Hawking hin, an denen sie in Palo Alto arbeiten. Eric Dorsey und Price sind Teil des Teams, das Stephen Hawkings Stimme retten wollte. Die unverwechselbare Roboterstimme des weltberühmten Physikers, als die 30 Jahre alte Hardware, die sie erzeugte, zu versagen begann. Foto: Michael Macor, Die Chronik

Wenn er sprach, war es die Stimme eines Roboters, eine Stimme, die aus einer grauen Kiste kam, die an der Rückenlehne seines Stuhls befestigt war. Der Sprachsynthesizer, ein kommerzielles Produkt namens CallText 5010, war damals eine Neuheit, die noch nicht Teil seiner Identität war. Er hatte erst drei Jahre zuvor damit begonnen, nachdem die Motoneuron-Krankheit Amyotrophe Lateralsklerose seine Sprechfähigkeit gestohlen hatte. Hawking wählte Textteile auf einem Videobildschirm aus, indem er seine Wange bewegte, und der CallText verwandelte den Text in Sprache. Zu Beginn eines Vortrags scherzte Hawking darüber: "Das einzige Problem", sagte er zu großem Lachen, "ist, dass es mir einen amerikanischen Akzent gibt."

Dorsey war für einen Teil dieser Reise mit Hawking zusammen, um als eine Art Autorität in der Stimme mitzumachen und Journalisten seine Arbeitsweise zu erklären. Er arbeitete bei der Firma Mountain View, die den CallText 5010 herstellte, eine Hardwareplatine mit zwei Computerchips, auf denen kundenspezifische Software ausgeführt wird.

Dorsey war eine optimistische 32-jährige und von Natur aus ruhig, aber getrieben. Er war als Praktikant zu Speech Plus gekommen, angezogen von seiner Mission, den Stimmlosen und Behinderten zu helfen. Jetzt leitete er ein Team von Ingenieuren, und mindestens 20.000 Zeilen seines eigenen Codes befanden sich im CallText, dem Produkt, das dem berühmtesten Wissenschaftler seiner Zeit eine Stimme verlieh.

"Wir nähern uns der Beantwortung der uralten Fragen", sagte Hawking am Ende eines Vortrags. "Warum sind wir hier? Woher kommen wir? Danke, dass du mir zuhörst."

Am Ende seiner Kalifornien-Tour gab der Physiker Dorsey eine signierte Kopie seines neuen Buches, wobei sein Daumenabdruck auf den Innendeckel gedrückt wurde.

Hawking kehrte nach Cambridge zurück, Dorsey zu seinem Leben in Kalifornien.

Es vergingen 26 Jahre, bis sie sich wieder kreuzten.

In technischen Jahren ist das ein Jahrtausend. Das Internet ist passiert. Das Silicon Valley boomte, ging kaputt und boomte erneut. Apple, Amazon, Facebook, Google, Uber.

Währenddessen verließ Dorsey Speech Plus, das bankrott ging und an eine Reihe anderer Unternehmen verkauft wurde. Er heiratete und hatte Kinder. Er schloss sich einem buddhistischen Tempel an. Schließlich verließ er das Gebiet der Sprachtechnologie vollständig und wurde technischer Leiter beim DVR-Hersteller TiVo.

Tech, hatte er gelernt, bewegt sich so schnell. "Es gibt jedes Jahr ein neues iPhone", sagt Dorsey. "Alles wird sehr, sehr schnell im Mülleimer der Geschichte vergraben."

Deshalb war Dorsey überrascht, als 2014 aus heiterem Himmel eine E-Mail von der Universität Cambridge eintraf. Es kam von Hawkings technischem Assistenten Jonathan Wood, der für Hawkings Kommunikationssysteme verantwortlich war.

Wood erklärte etwas so Unwahrscheinliches, dass Dorsey zunächst Schwierigkeiten hatte, es zu verstehen: Hawking verwendete immer noch den Sprachsynthesizer CallText 5010, eine Version, die zuletzt 1986 aktualisiert wurde. In fast 30 Jahren hatte er nie auf neuere Technologien umgestellt. Hawking mochte die Stimme so wie sie war und hatte andere Optionen hartnäckig abgelehnt. Aber jetzt zeigte die Hardware Verschleiß. Wenn es gänzlich scheiterte, würde seine unverwechselbare Stimme für die Ewigkeit verloren gehen.

Wood glaubte, dass die Lösung darin bestand, die verfallende Hardware in neue Software zu replizieren, um einen 30 Jahre alten Sprachsynthesizer irgendwie in einen modernen Laptop zu transplantieren - ohne den Klang der Stimme zu verändern. Er und mehrere Kollegen in Cambridge hatten jahrelang verschiedene Ansätze untersucht. Was hat Dorsey gedacht?

30 Jahre alt? Er dachte. Oh mein Gott.

Es wäre nicht einfach. Möglicherweise müssen sie den alten Quellcode finden. Möglicherweise müssen sie die Originalchips und die Handbücher für diese Chips finden. Sie konnten sie nicht mehr kaufen, die Firmen existieren nicht. Die Lösung des Problems könnte bedeuten, eine archäologische Ausgrabung in einer veralteten Ära der Technologie durchzuführen.

Aber es war für Stephen Hawking.

"Lassen Sie es uns erledigen", sagte Dorsey.

Der Dichter Longfellow schrieb einmal, die menschliche Stimme sei „das Organ der Seele“. Mehr als jeder andere Teil von uns drückt unsere Stimme aus, wer wir sind, und die kleinsten Schwankungen schwingen auf eine Weise, die für Computer schwer zu verstehen ist. Sie sprechen einen Satz und die Intonation steigt oder fällt, je nachdem, ob Sie eine Erklärung abgeben oder eine Frage stellen. Sie tun es ohne nachzudenken, aber ein Computer muss raten.

Heutige synthetisierte Stimmen wie Apples Siri basieren auf aufgezeichneten Bibliotheken mit natürlichem Klang. Sprachschauspieler zeichnen riesige Bibliotheken mit Wörtern und Silben auf, und Software zerlegt sie und setzt sie im laufenden Betrieb zu Sätzen zusammen. Vor 30 Jahren konnten Computer jedoch nur eine „Strichmännchen-Version“ einer menschlichen Stimme produzieren, sagt Patti Price, Spracherkennungsspezialistin und Sprachwissenschaftlerin in Palo Alto.

Damals arbeitete sie als Postdoc im Labor des Massachusetts Institute of Technology von Dennis Klatt, einem großen, dünnen, opernliebenden Wissenschaftler aus Wisconsin. Klatt ist der Pate von Hawkings Stimme. Er sprengte sich mit Röntgenstrahlen in die Kehle, um die Form seiner Sprachbox zu messen, während er bestimmte Geräusche artikulierte, und entwickelte dann ein Softwaremodell für Sprache, das Klatt-Modell, basierend auf seiner eigenen Stimme.

Speech Plus übernahm Klatts Modell, verbesserte es und vermarktete es in verschiedenen Produkten, einschließlich dem CallText 5010. Einer von Dorseys Beiträgen bestand darin, einen Algorithmus zu schreiben, der die Intonation der Stimme, das Auf- und Absteigen von Wörtern und Sätzen kontrollierte. Speech Plus würde Tausende von CallText-Systemen verkaufen, obwohl sich viele Kunden darüber beschwerten, dass die Stimme zu roboterhaft klang.

Aber Hawking hat es gefallen.

Es war zwar ein Roboter, aber er wusste zu schätzen, dass es leicht zu verstehen war: „geräuschresistent“, wie Price erklärt. Die Form seiner Wellenform ähnelte eher einer Reihe von Hochebenen als den steilen Bergklippen menschlicher Stimmen, die stärker abfallen. Der flache Abhang von Hawkings Stimme ließ Lärm in Amphitheatern und Hörsälen durchschneiden. Er begann seine Reden oft mit derselben Zeile: "Kannst du mich hören?" - und das Publikum würde mit einem begeisterten "Ja!"

"Es hat einen Ring, der herausragt", sagt Price.

"Es ist sehr verständlich", sagt Dorsey. "Man kann es lange hören, und es ist nicht irritierend."

Hawkings einzige Beschwerde war, dass es keinen britischen Akzent hatte.

Im Laufe der Jahre, als synthetische Stimmen natürlicher wurden und schnellere Chips und billigen Speicher nutzten, hatte Hawking die Möglichkeit, ein Upgrade durchzuführen. 1996 rüstete ein Unternehmen für Sprachtechnologie in Massachusetts namens Nuance, das die Überreste von Speech Plus erworben hatte, den CallText mit weiterentwickeltem Software-Code auf, der die Stimme voller und schneller klingen ließ, weniger roboterhaft, mit kürzeren Pausen zwischen den Sätzen - für die Ingenieure offensichtliche Verbesserung.

Sie schickten Hawking eine Probe der neuen Stimme und dachten, er würde sich freuen. Er war nicht. Er sagte, die Intonation sei nicht richtig. Er bevorzugte die Stimme von 1986, die durch Dorseys Intonationsalgorithmus moduliert wurde. Hawking würde dabei bleiben.

"Ich behalte es, weil ich keine Stimme gehört habe, die mir besser gefällt", sagte er einmal, "und weil ich mich damit identifiziert habe." Er könnte zu einer weicheren Stimme wechseln, aber dann würde er nicht wie er selbst klingen.

"Für Stephen ist seine Ausrüstung wie ein Teil seines Körpers", sagte Wood, sein technischer Chefassistent. "Um ihn auf eine neue Software oder Hardware zu aktualisieren, muss er einen physischen Teil von sich selbst ändern."

Ab etwa 2009 versuchten Wood und einige andere in Cambridge, Hawkings Stimme von der fehlerhaften CallText-Hardware zu trennen. Zu der Gruppe gehörten Peter Benie, ein Computer-Guru an der Universität; Paweł Wozniak, ein lokaler Ingenieurstudent; und Mark Green, ein erfahrener Elektrotechniker bei Intel, der eine lange Beziehung zu Hawking hatte.

Eine Option, die sie in Betracht zogen, bestand darin, eine moderne synthetische Stimme wie Siri so zu optimieren, dass sie eher wie Hawking klingt. Siri-Systeme sind jedoch auf die enorme Computerleistung von Internet-Clouds angewiesen, und Hawking konnte nicht ständig mit dem Internet verbunden werden. Benie versuchte auch einen ganz anderen Ansatz. Er schrieb einen Software-Emulator für den CallText - im Wesentlichen ein Programm, das einen modernen PC täuschen würde, es sei tatsächlich der alte CallText. Aber die Samples, die es produzierte, klangen für Hawkings Geschmack nicht treu genug.

Als Cambridge sich 2014 an Dorsey wandte, untersuchten sie einen dritten Weg: Den alten CallText-Quellcode, der jetzt Nuance gehört, aufspüren und auf Hawkings Laptop portieren, um die alte Stimme in einen neuen Körper zu übertragen.

War es möglich Dorsey hatte keine Ahnung. Es hing davon ab, ob er den Quellcode finden konnte oder, falls dies nicht der Fall war, Informationen, mit denen er den Quellcode zurückentwickeln konnte.

Er begann, Kollegen per E-Mail zu benachrichtigen, die er seit 30 Jahren nicht mehr gesehen hatte, und fragte, ob noch CallText-Trödel herumliegen: Bretter, Chips, Handbücher. Ein Mann hat in seiner Garage ein echtes CallText-Board gefunden. Andere fanden staubige Schaltpläne.

Es hatte das Gefühl eines wahnsinnigen Streifzuges durch eine frühere Ära der Technologie. Aber überall nutzten die Leute die Chance zu helfen. "Das Ziel ist es, seine Stimme zu retten", sagte Dorsey. "Sobald Sie zu jemandem gehen - 'Ich brauche Sie, um Stephen Hawkings Stimme zu retten' -, wachen sie sofort auf."

Sein engster Mitarbeiter in Palo Alto wurde bald Price, der Sprachtechnologe, der einst bei Klatt, dem Paten von Hawkings Stimme, studiert hatte. Sie war eine Meisterin darin, Audio-Samples zu analysieren, miteinander zu vergleichen und ihre Audio-Fingerabdrücke zu verwenden, um zurückzuentwickeln, wie sie erstellt worden sein müssen.

Dorseys archäologische Suche nach altem Code erwies sich als frustrierend. Niemand bei Nuance konnte den Quellcode aus der 1986er Version von CallText finden. Sie fanden jedoch den Code für die aktualisierte Version der Stimme von 1996 auf einem Sicherungsband in einem Büro in Belgien. Nach einigen Monaten Arbeit haben die Nuance-Ingenieure den Code in Betrieb genommen und eine Reihe von Audio-Samples an Hawkings Team gesendet, um das Programm so anzupassen, dass es der Stimme von 1986 entspricht.

Es hat nicht ganz funktioniert. Zum einen war das Match eng, aber nicht perfekt. Hawking wies auf subtile Unterschiede hin, die andere nur schwer erkennen konnten. "Es ist wie die Stimme Ihrer Mutter zu erkennen", sagte Price. "Wenn Sie sie am Telefon hören, sagen sie zwei Silben und Sie wissen, ob das richtig ist oder nicht."

Das andere Problem war, dass Nuance den Code besaß, nicht Hawking. Der berühmte Physiker war immer darauf bedacht gewesen, den Gebrauch seiner eigenen Stimme zu kontrollieren. Wenn das Team die Verwendung proprietärer Software vermeiden würde, hätte Hawking wahrscheinlich mehr Kontrolle.

Zu diesem Zeitpunkt wechselten sie die Tacks und kehrten zu einer ihrer ursprünglichen Ideen zurück: den CallText in Software zu emulieren, ähnlich wie PCs alte Nintendo-Spiele emulieren können, die nicht mehr verkauft werden.

Der CallText war natürlich ein komplizierteres Tier als ein Nintendo, angetrieben von zwei veralteten und komplex interagierenden Chips, von denen einer von Intel und der andere von NEC hergestellt wurde. Der Bau des Emulators erforderte Heldentaten in Bezug auf Programmierung, Intuition und High-Tech-Chirurgie. Die Chips mussten mit einer Pinzette und einem Schraubendreher von einer CallText-Ersatzplatine entfernt werden. Ein Emulator für den Intel-Chip musste von Benie von Grund auf neu geschrieben werden. Ein separater Emulator für den NEC wurde von einem Open-Source-Nintendo-Emulator namens Higan ausgeliehen.

Dann mussten all diese unterschiedlichen Teile zusammengeklebt werden. Es war ein bisschen wie ein Puzzle in einem dunklen Raum. Ein Chip gab alle 10 Millisekunden ein mysteriöses Paket an den anderen weiter. Warum? Was war darin?

Für eine Weile war es schwierig. Einige der Audio-Samples waren so schlecht, dass niemand es wagte, sie für Hawking zu spielen.

Der Durchbruch gelang kurz vor Weihnachten 2017, als der Emulator endlich anfing, Sounds zu produzieren, die der vertrauten Stimme ähnelten, die sie verfolgt hatten. Es hatte einige kleinere Störungen, aber laut Price war die Stimme eine akustische Übereinstimmung mit der von Hawking, die Wellenformen waren praktisch identisch. Der einzige wahrnehmbare Unterschied war ein Mangel an analogem Buzz. "Es ist wie eine saubere und glänzende, geschrubbte Version seiner Stimme", sagt Price.

Als Benie es zum ersten Mal hörte und aus einem Computer anstelle von Hawkings Sprachbox kam, fand er, dass es amerikanischer klang als Hawkings Stimme. Es war nur eine akustische Illusion. Benie wurde klar, dass er vielleicht, wenn er Hawking sprechen sah, geistig einen Hauch von Britizität hinzugefügt hatte.

In den nächsten Wochen debuggten die Teammitglieder in Cambridge und Palo Alto weiter mit der neuen Stimme, fütterten sie mit Ausschnitten alter Hawking-Reden und Beispieltexten voller zufälliger Kommas und hörten sich die Ergebnisse an.

Am 17. Januar fühlte sich das Team bereit, die neue Stimme für Hawking zu demonstrieren. Wood, Wozniak und Benie gingen zu Hawkings Haus in Cambridge und spielten ihm Samples auf einem Linux-Laptop vor. Zur Erleichterung und zum Glück des Teams gab Hawking seinen Segen. Es klang wie seine Stimme.

Sie mussten die Stimme immer noch auf den PC portieren, also lud Wood vorübergehend eine Version der Stimme auf eine Miniatur-Hardware-Karte, die als Raspberry Pi bekannt ist. Er dachte, Hawking möchte vielleicht die Stimme im Alltag bewerten, und der Pi war der schnellste Weg, ihn zum Laufen zu bringen.

Am 26. Januar nahm Wood den Pi mit zu Hawkings Haus und fragte, ob er es ausprobieren möchte. Hawking hob die Augenbrauen, was "Ja" bedeutete.

Das Team steckte den Pi in eine winzige schwarze Box, befestigte ihn mit Klettverschluss an Hawkings Stuhl und steckte ihn in die Sprachbox. Dann trennten sie den CallText. Zum ersten Mal seit 33 Jahren konnte Hawking ohne sprechen.

Wood wartete gespannt auf Hawkings Reaktion.

"Ich liebe es", sagte Hawking.

Während der nächsten Wochen sprach Hawking in privaten Gesprächen weiter über den Emulator und den Raspberry Pi und unterhielt sich glücklich mit Freunden und Kollegen. Wood sagte: "Es war eine Freude, ihm so etwas geben zu können, an dem so viele Menschen seit so vielen Jahren gearbeitet haben."

Alles, was blieb, der letzte Schritt im Projekt, war, die PC-Version, die immer noch ein bisschen fehlerhaft ist, reibungslos funktionieren zu lassen. Aber nach ein paar weiteren Code-Revisionen war es endlich fehlerfrei.

"Wir hatten so ziemlich alle technischen Hürden genommen", sagte Dorsey. "Jeder hatte das Gefühl, endlich, das ist es, es wird funktionieren, das ist erledigt."

Und dann wurde Hawking im Februar krank.

Laut Wood benutzte Hawking den Emulator bis zu seinen letzten Tagen. Mit der neuen Software auf dem Raspberry Pi konnte er mit seinen Lieben und Betreuern sprechen. Die letzten Worte, die er sprach, während er mit seinem Stuhl verbunden war, was auch immer sie waren, er sprach mit einer Version seiner Stimme, die nur in Code lebt, möglicherweise unsterblichen Bits und Bytes.

Jeder im Projekt verstand, dass Hawking möglicherweise nicht lange genug lebt, um den Emulator optimal zu nutzen. Er war schon einmal krank gewesen, erholte sich aber immer wieder. Im Jahr 2014, als Wood Dorsey zum ersten Mal kontaktierte, war Hawking 72 Jahre alt. Sie entschieden jedoch, dass seine CallText-Boards in sechs Monaten umkippen könnten, während Hawking 80 Jahre alt werden könnte.

Zusammen mit der Traurigkeit über Hawkings Tod kann Dorsey nicht anders, als sich enttäuscht zu fühlen. Er und das Team waren jahrelang Rennen gefahren, um eine komplizierte Sache zu bauen, die wunderbar funktioniert hatte, aber jetzt untätig saß.

Gleichzeitig brachte ihn das Projekt zu seinem jüngeren Ich zurück, dem Mann, der Technik einsetzen wollte, um gute Taten zu vollbringen und Menschen zu helfen. Vor all den Jahren, als er am Intonationsalgorithmus im CallText arbeitete, konnte er sich nicht vorstellen, dass er dazu beitragen würde, ein Genie der Wissenschaft für die Welt und sogar für sich selbst zu definieren.

Die Technik ändert sich schnell. Die meisten Maschinen enden als Staub, und wenn wir sterben, sterben unsere Stimmen mit uns. Hawkings Stimme ist anders. Die ursprünglichen CallText-Boards wurden an sein Anwesen übergeben, um sie nach Familienwunsch zu verwenden. Dies gilt auch für die neue Software, den CallText-Emulator, der bei seiner Erfindung auf zukünftige Plattformen portiert werden kann.

Hawking war bekanntlich ein Atheist, der dem Leben nach dem Tod skeptisch gegenüberstand. "Wir haben dieses eine Leben, um das großartige Design dieses Universums zu schätzen", sagte er einmal, "und dafür bin ich äußerst dankbar." Aber es gibt keinen physischen Grund mehr, warum seine Stimme nicht für immer leben kann.

Jason Fagone ist ein Mitarbeiter der San Francisco Chronicle. E-Mail: jason.fagone@sfchronicle.com Twitter: @jfagone