Das Silicon Valley-Streben, Stephen Hawkings Stimme zu bewahren

Wie ein Silicon Valley-Team dabei half, seinen unverwechselbaren Robotersound wiederherzustellen

Patti Price, ein Sprachtechnologieberater, und Eric Dorsey, ein technischer Leiter, sind Teil des Teams, das daran arbeitete, Stephen Hawkings vertraute Stimme zu retten, als die 30 Jahre alte Hardware, die sie erzeugte, zu versagen begann. Foto: Michael Macor, Die Chronik

Von Jason Fagone

Eric Dorsey, ein 62-jähriger Ingenieur in Palo Alto, sah Dienstagabend fern, als er anfing, Texte zu bekommen, die Stephen Hawking gestorben war. Er schaltete die Nachrichten ein und sah Clips des berühmten Physikers mit seiner ikonischen Android-Stimme sprechen - der Stimme, die Dorsey als junger Mann so viel Zeit damit verbracht hatte, mitzuhelfen, um etwas zu erschaffen und viel später vor der Zerstörung zu retten.

Dorsey und Hawking hatten sich fast 30 Jahre zuvor kennengelernt. Im März 1988 besuchte Hawking UC Berkeley während einer dreiwöchigen Vortragsreise.

Mit 46 Jahren war Hawking bereits berühmt für seine Entdeckungen über Quantenphysik und Schwarze Löcher, aber nicht so berühmt, wie er sein sollte. Sein Bestseller, "Eine kurze Geschichte der Zeit", war eine Woche vor der Veröffentlichung, und die Kalifornier waren neugierig auf diesen britischen Professor von der Universität Cambridge, der die Plätze seiner öffentlichen Vorträge packte und sich zu den Mahlzeiten an ihn wandte. Hawking fuhr im Rollstuhl mit einem Sitz aus braunem Schaffell in Gebäude und auf Bühnen. Er raste mit einem Joystick herum und grinste, als er Journalisten und seine Krankenschwestern im Staub liegen ließ.

Patti Price, eine Sprachtechnologieberaterin, weist auf die alten und neuen Sprachausschnitte von Stephen Hawking hin, an denen sie in Palo Alto arbeiten. Eric Dorsey und Price sind Teil des Teams, das Stephen Hawkings Stimme retten wollte. Die unverwechselbare Roboterstimme des weltberühmten Physikers, als die 30 Jahre alte Hardware, die sie erzeugte, zu versagen begann. Foto: Michael Macor, Die Chronik

Als er sprach, war es die Stimme eines Roboters, eine Stimme, die aus einer grauen Schachtel kam, die an der Stuhllehne befestigt war. Der Sprachsynthesizer, ein kommerzielles Produkt namens CallText 5010, war damals eine Neuheit, die noch nicht Teil seiner Identität war. er hatte erst drei Jahre zuvor damit begonnen, nachdem die Motoneuronenkrankheit amyotrophe Lateralsklerose seine Sprechfähigkeit gestohlen hatte. Markierte Textstellen auf einem Videobildschirm durch Bewegen der Wange verschieben, und der CallText wandelte den Text in Sprache um. Zu Beginn eines Vortrags scherzte Hawking darüber: "Das einzige Problem", sagte er zu großem Lachen, "ist, dass es mir einen amerikanischen Akzent gibt."

Dorsey war für einen Teil dieser Reise mit Hawking zusammen, um als eine Art Autorität in der Stimme mitzumachen und Journalisten ihre Arbeitsweise zu erklären. Er arbeitete bei der Firma Mountain View, die den CallText 5010 herstellte, eine Hardwareplatine mit zwei Computerchips, auf denen benutzerdefinierte Software ausgeführt wird.

Als optimistischer 32-Jähriger war Dorsey von Natur aus ruhig, aber getrieben. Er war als Praktikant zu Speech Plus gekommen, angezogen von seiner Mission, den Stimmlosen und den Behinderten zu helfen. Jetzt leitete er ein Team von Ingenieuren, und mindestens 20.000 Zeilen seines eigenen Codes befanden sich im CallText, dem Produkt, das dem berühmtesten Wissenschaftler seiner Zeit eine Stimme verlieh.

"Wir nähern uns der Beantwortung der uralten Fragen", sagte Hawking am Ende eines Vortrags. "Warum sind wir hier? Woher kommen wir? Danke, dass du mir zuhörst."

Am Ende seiner Kalifornien-Reise überreichte der Physiker Dorsey eine signierte Kopie seines neuen Buches, wobei sein Daumenabdruck auf den inneren Umschlag gedrückt wurde.

Hawking kehrte nach Cambridge zurück, Dorsey in sein Leben in Kalifornien.

26 Jahre vergingen, bis sie sich wieder kreuzten.

In technischen Jahren ist das ein Jahrtausend. Das Internet ist passiert. Silicon Valley boomte, boomte, boomte wieder. Apple, Amazon, Facebook, Google, Uber.

Währenddessen verließ Dorsey Speech Plus, das in Konkurs ging und an eine Reihe anderer Unternehmen verkauft wurde. Er heiratete und hatte Kinder. Er schloss sich einem buddhistischen Tempel an. Schließlich verließ er das Gebiet der Sprachtechnologie und wurde ein führender Ingenieur beim DVR-Hersteller TiVo.

Er hatte gelernt, dass sich die Technik so schnell bewegt. "Jedes Jahr gibt es ein neues iPhone", sagt Dorsey. "Alles wird einfach sehr, sehr schnell in den Mülleimer der Geschichte gesteckt."

Deshalb war Dorsey überrascht, als 2014 aus heiterem Himmel eine E-Mail von der Universität Cambridge eintraf. Es kam von Hawkings technischem Assistenten Jonathan Wood, der für Hawkings Kommunikationssysteme verantwortlich war.

Wood erklärte etwas so Unwahrscheinliches, dass Dorsey zunächst Probleme hatte zu verstehen: Hawking verwendete immer noch den CallText 5010-Sprachsynthesizer, eine Version, die zuletzt 1986 aktualisiert wurde. In fast 30 Jahren war er nie auf eine neuere Technologie umgestiegen. Hawking mochte die Stimme so wie sie war und hatte andere Optionen hartnäckig abgelehnt. Aber jetzt war die Hardware abgenutzt. Wenn es gänzlich versagte, würde seine unverwechselbare Stimme für die Ewigkeit verloren gehen.

Wood glaubte, dass die Lösung darin bestand, die verfallende Hardware in neuer Software zu replizieren und einen 30 Jahre alten Sprachsynthesizer auf irgendeine Weise in einen modernen Laptop zu übertragen, ohne den Klang der Stimme zu verändern. Er und mehrere Kollegen in Cambridge hatten jahrelang unterschiedliche Ansätze untersucht. Was hat Dorsey gedacht?

30 Jahre alt? Er dachte. Ach du lieber Gott.

Es wäre nicht einfach. Möglicherweise müssen sie den alten Quellcode suchen. Möglicherweise müssen sie die Originalchips und die Handbücher für diese Chips finden. Sie konnten sie nicht mehr kaufen, die Firmen existieren nicht. Die Lösung des Problems könnte bedeuten, eine archäologische Ausgrabung in einer veralteten Ära der Technologie vorzunehmen.

Aber es war für Stephen Hawking.

"Lass es uns schaffen", sagte Dorsey.

Der Dichter Longfellow schrieb einmal, dass die menschliche Stimme „das Organ der Seele“ ist. Mehr als jeder andere Teil von uns drückt unsere Stimme aus, wer wir sind, und die kleinsten Schwankungen schwanken in einer Weise, die für Computer schwer zu verstehen ist. Sie sprechen einen Satz und die Intonation steigt oder fällt, je nachdem, ob Sie eine Erklärung abgeben oder eine Frage stellen. Sie tun es ohne nachzudenken, aber ein Computer muss eine Vermutung anstellen.

Die synthetisierten Stimmen von heute, wie die Siri von Apple, basieren auf aufgezeichneten Bibliotheken mit natürlichem Klang. Sprachschauspieler zeichnen riesige Bibliotheken mit Wörtern und Silben auf, und die Software zerlegt sie und setzt sie spontan zu Sätzen zusammen. Vor 30 Jahren konnten Computer jedoch nur eine „Strichmännchen-Version“ einer menschlichen Stimme produzieren, sagt Patti Price, Spracherkennungsspezialistin und Sprachwissenschaftlerin in Palo Alto.

Damals arbeitete sie als Postdoc im Labor des Massachusetts Institute of Technology von Dennis Klatt, einem großen, schlanken, operverliebten Wissenschaftler aus Wisconsin. Klatt ist der Pate von Hawkings Stimme. Er strahlte sich mit Röntgenstrahlen in die Kehle, um die Form seiner Sprachbox zu messen, während er bestimmte Geräusche artikulierte, und entwickelte dann ein Sprachmodell, das Klatt-Modell, das auf seiner eigenen Stimme basierte.

Speech Plus übernahm Klatts Modell, verbesserte es und kommerzialisierte es in verschiedenen Produkten, einschließlich CallText 5010. Einer von Dorseys Beiträgen bestand darin, einen Algorithmus zu schreiben, der die Intonation der Stimme, das Auf- und Absteigen von Wörtern und Sätzen kontrollierte. Speech Plus würde Tausende von CallText-Systemen verkaufen, obwohl sich viele Kunden darüber beschwerten, dass die Stimme zu robotisch klang.

Aber Hawking gefiel es.

Es war zwar ein Roboter, aber er schätzte, dass es leicht zu verstehen war: „Geräuschresistent“, wie Price erklärt. Die Form der Wellenform ähnelte eher einer Reihe von Plateaus als den steilen Klippen menschlicher Stimmen, die stärker abfallen. Die flache Neigung von Hawkings Stimme schnitt durch den Lärm in Amphitheatern und Hörsälen. Er begann seine Reden oft mit der gleichen Zeile - "Kannst du mich hören?" - und das Publikum antwortete mit einem enthusiastischen "Ja!"

"Es hat einen hervorstechenden Ring", sagt Price.

"Es ist sehr verständlich", sagt Dorsey. "Man kann es lange hören und es ist nicht ärgerlich."

Hawkings einzige Beschwerde war, dass es keinen britischen Akzent hatte.

Im Laufe der Jahre, als synthetische Stimmen natürlicher wurden und die Vorteile schnellerer Chips und billigerer Lagerung nutzten, hatte Hawking die Möglichkeit, ein Upgrade durchzuführen. 1996 verbesserte ein Unternehmen für Sprachtechnologie in Massachusetts namens Nuance, das die Überreste von Speech Plus erworben hatte, den CallText mit weiterentwickeltem Software-Code, der die Stimme voller und schneller, weniger robotisch und mit kürzeren Pausen zwischen den Sätzen klingen ließ offensichtliche Verbesserung.

Sie schickten Hawking eine Probe der neuen Stimme und dachten, er würde zufrieden sein. Er war nicht. Er sagte, die Intonation sei nicht richtig. Er bevorzugte die 1986er Stimme, die mit Dorseys Intonationsalgorithmus moduliert wurde. Hawking würde dabei bleiben.

"Ich behalte es, weil ich keine Stimme gehört habe, die mir besser gefällt", sagte er einmal, "und weil ich mich damit identifiziert habe." Er könnte sich in eine weichere Stimme verwandeln, aber dann würde er nicht so klingen wie er.

"Für Stephen ist seine Ausrüstung wie ein Teil seines Körpers", sagte Wood, sein technischer Chef. "Um ihn auf eine neue Software oder Hardware aufzurüsten, muss er einen physischen Teil von sich selbst ändern."

Ab etwa 2009 versuchten Wood und mehrere andere in Cambridge, Hawkings Stimme von der fehlerhaften CallText-Hardware zu trennen. Zu der Gruppe gehörte Peter Benie, ein Computerguru an der Universität; Paweł Wozniak, ein lokaler Ingenieurstudent; und Mark Green, ein erfahrener Elektroingenieur bei Intel, der eine lange Beziehung zu Hawking hatte.

Eine Möglichkeit, die sie in Betracht zogen, bestand darin, eine moderne synthetische Stimme wie Siri so zu verändern, dass sie eher wie Hawking klingt. Systeme vom Typ Siri setzen jedoch auf die enorme Computerleistung von Internet-Clouds, und Hawking konnte nicht ständig an das Internet angebunden werden. Benie versuchte auch einen ganz anderen Ansatz. Er schrieb einen Software-Emulator für den CallText - im Wesentlichen ein Programm, das einen modernen PC täuschen würde, als wäre es der alte CallText. Aber die Samples, die es produzierte, klangen nicht genau genug für Hawkings Geschmack.

Als Cambridge sich 2014 an Dorsey wandte, untersuchten sie eine dritte Möglichkeit: den alten CallText-Quellcode, der jetzt Nuance gehört, aufzuspüren und auf Hawkings Laptop zu portieren, um die alte Stimme in einen neuen Körper zu übertragen.

War es möglich Dorsey hatte keine Ahnung. Es hing davon ab, ob er den Quellcode finden konnte oder, falls dies nicht der Fall war, Informationen, mit denen er den Quellcode rückentwickeln konnte.

Er begann, Kollegen per E-Mail zu kontaktieren, die er seit 30 Jahren nicht mehr gesehen hatte, und fragte, ob noch CallText-Trottel herumliegen: Boards, Chips, Handbücher. Ein Typ hat in seiner Garage ein richtiges CallText-Board gefunden. Andere fanden staubige Schaltpläne.

Es hatte das Gefühl, als würde man durch eine frühere Ära der Technologie kriechen. Aber die Menschen sprangen überall auf die Chance, zu helfen. "Das Ziel ist es, seine Stimme zu retten", sagte Dorsey. "Sobald du zu jemandem gehst, ich brauche dich, um Stephen Hawkings Stimme zu retten, wachen sie sofort auf."

Sein engster Mitarbeiter in Palo Alto wurde bald Price, der Sprachtechnologe, der einmal bei Klatt, dem Paten von Hawkings Stimme, studiert hatte. Sie war eine Meisterin im Analysieren von Audio-Samples, Vergleichen und Verwenden ihrer Audio-Fingerabdrücke, um rückzuentwickeln, wie sie erstellt worden sein müssen.

Dorseys archäologische Suche nach altem Code erwies sich als frustrierend. Niemand bei Nuance konnte den Quellcode der 1986er Version von CallText finden. Sie fanden jedoch den Code für die aktualisierte Sprachversion von 1996 auf einem Sicherungsband in einem Büro in Belgien. Nach ein paar Monaten Arbeit haben die Nuance-Ingenieure den Code zum Laufen gebracht und eine Reihe von Hörproben an Hawkings Team gesendet, um das Programm so anzupassen, dass es der Stimme von 1986 entspricht.

Es hat nicht ganz funktioniert. Zum einen war das Match knapp, aber nicht perfekt. Hawking wies auf subtile Unterschiede hin, die andere nur schwer erkennen konnten. "Es ist wie das Erkennen der Stimme Ihrer Mutter", sagte Price. "Wenn Sie sie am Telefon hören, sagen sie zwei Silben und Sie wissen, ob das richtig ist oder nicht."

Das andere Problem war, dass Nuance den Code besaß und nicht Hawking. Der berühmte Physiker war immer darauf bedacht gewesen, den Gebrauch seiner eigenen Stimme zu kontrollieren. Wenn das Team keine proprietäre Software einsetzt, hat Hawking wahrscheinlich mehr Kontrolle.

Zu diesem Zeitpunkt wechselten sie den Dreh und kehrten zu einer ihrer ursprünglichen Ideen zurück: Den CallText in der Software zu emulieren, ähnlich wie PCs alte Nintendo-Spiele emulieren können, die nicht mehr verkauft werden.

Der CallText war natürlich komplizierter als ein Nintendo, angetrieben von zwei veralteten und komplex zusammenwirkenden Chips, von denen einer von Intel und der andere von NEC hergestellt wurde. Der Aufbau des Emulators erforderte Heldentaten in den Bereichen Programmierung, Intuition und Hightech-Chirurgie. Die Chips mussten mit einer Pinzette und einem Schraubendreher von einem Ersatz-CallText-Board entfernt werden. Ein Emulator für den Intel-Chip musste von Benie von Grund auf neu geschrieben werden. Für den NEC wurde ein separater Emulator von einem Open-Source-Nintendo-Emulator namens Higan ausgeliehen.

Dann mussten all diese unterschiedlichen Teile zusammengeklebt werden. Es war ein bisschen wie ein Puzzle in einem dunklen Raum. Ein Chip gab alle 10 Millisekunden ein mysteriöses Paket an den anderen weiter. Warum? Was war darin?

Für eine Weile war es schwierig. Einige der Audio-Samples waren so schlecht, dass niemand es wagte, sie für Hawking abzuspielen.

Der Durchbruch gelang kurz vor Weihnachten 2017, als der Emulator endlich anfing, Sounds zu produzieren, die der vertrauten Stimme ähnelten, die sie gejagt hatten. Es hatte einige kleinere Störungen, aber laut Price war die Stimme eine akustische Übereinstimmung mit Hawkings, die Wellenformen waren praktisch identisch. Der einzige wahrnehmbare Unterschied war das Fehlen von analogem Summen. "Es ist wie eine saubere und glänzende, aufgeraute Version seiner Stimme", sagt Price.

Als Benie es zum ersten Mal aus einem Computer anstelle von Hawkings Sprachbox hörte, fand er, dass es amerikanischer klang als Hawkings Stimme. Es war nur eine akustische Illusion. Benie wurde klar, dass er vielleicht immer, wenn er Hawking hatte sprechen sehen, im Geiste einen Hauch von Britizität hinzugefügt hatte.

In den nächsten Wochen debuggten die Teammitglieder in Cambridge und Palo Alto die neue Stimme weiter und fütterten sie mit Ausschnitten aus alten Hawking-Reden und Mustertexten voller Zufallskommas. Dabei hörten sie sich die Ergebnisse an.

Am 17. Januar fühlte sich das Team bereit, die neue Stimme für Hawking zu demonstrieren. Wood, Wozniak und Benie gingen zu Hawkings Haus in Cambridge und spielten ihm Samples auf einem Linux-Laptop vor. Zur Erleichterung und zum Glück des Teams gab Hawking seinen Segen. Es klang wie seine Stimme.

Sie mussten die Stimme noch auf den PC portieren, und so lud Wood vorübergehend eine Version der Stimme auf eine Miniatur-Hardware-Platine, die als Raspberry Pi bekannt ist. Er dachte, Hawking möchte die Stimme im Alltag bewerten, und der Pi war der schnellste Weg, um ihn zum Laufen zu bringen.

Am 26. Januar nahm Wood den Pi mit zu Hawkings Haus und fragte, ob er es ausprobieren möchte. Hawking hob die Augenbrauen, was "Ja" bedeutete.

Das Team legte den Pi in eine winzige schwarze Schachtel, befestigte ihn mit Klettband an Hawkings Stuhl und steckte ihn in die Sprachbox. Dann trennten sie den CallText. Zum ersten Mal seit 33 Jahren konnte Hawking ohne ihn sprechen.

Wood beobachtete gespannt Hawkings Reaktion.

"Ich liebe es", sagte Hawking.

In den nächsten Wochen sprach Hawking in privaten Gesprächen weiter über den Emulator und den Raspberry Pi und unterhielt sich glücklich mit Freunden und Kollegen. Wood sagte: "Es war ein Vergnügen, ihm so etwas geben zu können, an dem so viele Menschen so viele Jahre gearbeitet haben."

Alles was übrig blieb, war der letzte Schritt im Projekt, die PC-Version, die immer noch ein bisschen fehlerhaft ist, reibungslos funktionieren zu lassen. Aber nach ein paar weiteren Coderevisionen war es endlich fehlerfrei.

"Wir hatten fast alle technischen Hürden genommen", sagte Dorsey. "Alle haben das Gefühl, endlich ist es soweit, es wird funktionieren, das ist geschafft."

Und dann wurde Hawking im Februar krank.

Laut Wood benutzte Hawking den Emulator bis zu seinen letzten Tagen. Mit der neuen Software auf dem Raspberry Pi konnte er mit seinen Lieben und Betreuern sprechen. Die letzten Worte, die er sprach, während er auf seinem Stuhl saß, was immer sie auch waren, er sprach mit einer Version seiner Stimme, die nur in Code lebt, möglicherweise in unsterblichen Bits und Bytes.

Jeder, der an dem Projekt beteiligt war, wusste, dass Hawking möglicherweise nicht lange genug lebt, um den Emulator optimal zu nutzen. Er war schon einmal krank gewesen, aber erholte sich immer wieder. 2014, als Wood Dorsey zum ersten Mal kontaktierte, war Hawking 72 Jahre alt. Sie entschieden jedoch, dass seine CallText-Boards in sechs Monaten umkippen könnten, während Hawking möglicherweise 80 Jahre alt werden könnte.

Zusammen mit der Trauer über Hawkings Tod kann Dorsey nicht umhin, sich enttäuscht zu fühlen. Er und das Team waren jahrelang Rennen gefahren, um ein kompliziertes Ding zu bauen, das wunderbar funktioniert hatte, jetzt aber untätig saß.

Gleichzeitig brachte ihn das Projekt zu seinem jüngeren Ich zurück, dem Typen, der Technik einsetzen wollte, um gute Taten zu vollbringen und Menschen zu helfen. Vor all den Jahren, als er an dem Intonationsalgorithmus im CallText arbeitete, konnte er sich nicht vorstellen, dass er der Welt und sogar sich selbst helfen würde, ein Genie der Wissenschaft zu definieren.

Die Technik ändert sich schnell. Die meisten Maschinen enden als Staub, und wenn wir sterben, sterben unsere Stimmen mit uns. Hawkings Stimme ist anders. Die originalen CallText-Tafeln sind auf seinen Nachlass übergegangen, um sie wie von seiner Familie gewünscht zu verwenden. Ebenso wie die neue Software, der CallText-Emulator, der bei seiner Erfindung auf zukünftige Plattformen portiert werden kann.

Hawking war bekanntlich ein Atheist, der dem Leben nach dem Tod skeptisch gegenüberstand. "Wir haben dieses eine Leben, um das großartige Design dieses Universums zu schätzen", sagte er einmal, "und dafür bin ich äußerst dankbar." Aber es gibt keinen physischen Grund mehr, warum seine Stimme nicht für immer leben kann.

Jason Fagone ist ein Mitarbeiter von San Francisco Chronicle. E-Mail: jason.fagone@sfchronicle.com Twitter: @jfagone