Moderne Astrophysik an der Spitze der Datenwissenschaft

Von Mason MacDougall

Einführung

Wenn Menschen an Astronomie denken, denken sie normalerweise an Sterne und Planeten - Galaxien und Schwarze Löcher - die weite Weite des Weltraums. Sie stellen sich alte Philosophen vor, die durch Handteleskope in den Himmel starren und die Bewegungen der Himmelsobjekte aufzeichnen, die am Nachthimmel sichtbar sind. Mondphasen, Sternbilder und etwas über Keplers Gesetze sind aus kurzen Stunden Astronomie in ihren naturwissenschaftlichen Klassenzimmern in der Mittelschule nicht mehr wegzudenken.

Obwohl das, was den meisten Menschen einfällt, wenn sie das Wort „Astronomie“ hören, nicht unbedingt falsch ist, ist es doch etwas veraltet. In den 1920er Jahren berechnete Edwin Hubble die Entfernung zu Andromeda mit Stift und Papier, während er auf die Fotoplatten des Berges starrte. Wilson 100-Zoll-Teleskop (das größte der Welt bis 1949). Dies war der erste endgültige Beweis dafür, dass die Milchstraße nicht die einzige Galaxie im Universum war. Heute ist Hubble als Namensgeber des weltraumgestützten Teleskops bekannt, das die klarsten optischen Bilder des Weltraums vor dem 21. Jahrhundert aufgenommen hat (Abbildung 1).

Abbildung 1. Optisches Tiefenfeldbild des Hubble-Teleskops. Bildnachweis: NASA; ESA; G. Illingworth, D. Magee und P. Oesch, Universität von Kalifornien, Santa Cruz; R. Bouwens, Universität Leiden; und das HUDF09 Team.

In weniger als 100 Jahren hat das Gebiet der Astronomie Fortschritte gemacht - sowohl philosophisch als auch technologisch. Das 20. Jahrhundert führte uns von der Unkenntnis der Existenz anderer Galaxien zur Jagd nach Erde 2.0 unter einer ständig wachsenden Liste von extrasolaren Planeten. Dementsprechend gingen wir von Stift-Papier- und Fotoplattenbildern zu Supercomputern und Petabytes digitaler Daten über. Um mit der enormen Datenmenge Schritt zu halten, die von der heutigen großen Anzahl von Teleskopen erfasst wird, werden komplexe Modelle, Datenbank-Frameworks und Verarbeitungs-Pipelines weiterentwickelt und erweitert.

In jüngster Zeit haben bedeutende Errungenschaften der Astrophysik den Weg in die Massenmedien gefunden, wie die Entdeckung von Trappist-1 auf der Suche nach außerirdischem Leben, die Detektion von Gravitationswellen und die Abbildung eines supermassiven Schwarzen Lochs in der Galaxie M87. Die Öffentlichkeit sieht leicht verdauliche Grafiken, stark verarbeitete Bilder und phantasievolle künstlerische Konzepte, ohne ein vollständiges Verständnis für den Zeit- und Arbeitsaufwand zu erlangen, der mit der Erstellung solcher Ergebnisse verbunden ist. Obwohl die massiven, hochentwickelten Teleskope normalerweise im Mittelpunkt stehen, wenn es darum geht, zu erklären, wie astrophysikalische Entdeckungen gemacht werden, ist dies nur ein Teil der Geschichte. Der Rest der Geschichte liegt in der Datenanalyse und -verarbeitung, die eine Teleskopmessung durchführt und diese zu einer bestätigten Entdeckung macht, über die in einem Papier geschrieben werden soll.

Schwarzes Loch In M87

Vor ungefähr einem Monat, im April 2019, wurde im The Astrophysical Journal von The Event Horizon Telescope (EHT) Collaboration ein Artikel über die Abbildung des supermassiven Schwarzen Lochs im Zentrum der Galaxie M87 veröffentlicht. Das bahnbrechende Papier mit dem Titel First M87 Event Horizon Telescope Results. IV. Die Darstellung des zentralen supermassiven Schwarzen Lochs hat sich verdientermaßen in der Öffentlichkeit durchgesetzt, und eine bestimmte Figur hat ihren Weg in Nachrichten- und Medienartikel auf der ganzen Welt gefunden. Dieses in Abbildung 2 gezeigte Bild ist das Ergebnis jahrelanger Arbeit von Hunderten von Wissenschaftlern auf der ganzen Welt. Trotz der unglaublichen Leistung von Physik, Ingenieurwesen und Computer gaben viele Kritiker an, dass dieses Bild „verschwommen“ und „unbefriedigend“ ist. "Und" überwältigend. "

Abbildung 2. Das Event Horizon Telescope-Netzwerk hat das erste Bild eines Schwarzen Lochs im Zentrum der Galaxie M87 erhalten. Bildnachweis: EHT Collaboration.

Um dieses Bild in die richtige Perspektive zu rücken: Die Galaxie M87 ist ungefähr 53,5 Millionen Lichtjahre von der Erde entfernt. Das bedeutet, dass Licht (das schnellste Ding im Universum) ungefähr 53,5 Millionen Jahre braucht, um von M87 zur Erde zu gelangen. 53,5 Millionen Lichtjahre entsprechen 314 Billionen Meilen oder 506 Billionen Kilometer. Wenn Sie das Bild noch nicht sehen, ist es wirklich weit weg.

Noch schwieriger ist es, das Schwarze Loch im Zentrum dieser Galaxie abzubilden. Wir müssen nicht nur herausfinden, wo sich das Schwarze Loch befindet und wie wir es durch all das Gas, den Staub und das Licht sehen können, das unsere Sicht verdeckt, sondern auch seine relativ geringe Größe in der Weite des Nachthimmels auflösen. Dies entspricht in etwa dem Versuch, einen einzelnen 11-Punkt-Buchstaben auf einem Blatt Papier zu lesen, das sich von hier auf der Erde auf der Mondoberfläche befindet.

Um solch eine unmögliche Aufgabe zu erfüllen, wurde das Event Horizon Teleskop entwickelt, um den gesamten Planeten Erde in ein massives Teleskop zu verwandeln. Dies wurde durch eine Technik erreicht, die als Interferometrie mit sehr langer Basislinie bekannt ist und Beobachtungen von Radioteleskopen auf der ganzen Welt zusammenfügt, um kombinierte Bilder mit extrem hoher Auflösung zu erzeugen, wodurch ein „Teleskop“ entsteht, dessen effektive Apertur der Durchmesser der Erde ist. Wie man sich vorstellen kann, erfordert dies einen unverständlichen technischen und rechnerischen Aufwand, um insbesondere im globalen Maßstab zu perfektionieren.

Was die meisten Menschen nicht sehen oder verstehen, ist, dass dieses Bild aus einer wissenschaftlichen Arbeit stammt, die die vierte in einer Serie von 6 ist, in der jeder Aspekt der Instrumentierung, Beobachtungen und Berechnungen detailliert beschrieben wird. In Papier III. Datenverarbeitung und -kalibrierung Das EHT-Team veranschaulicht den Prozess, bei dem die Petabyte der Rohdaten, die durch erste Beobachtungen gewonnen wurden, in nachvollziehbare wissenschaftliche Daten umgewandelt werden.

Die Speicherung dieser Rohdaten wird in Abschnitt 3 von Artikel III erläutert. Dort heißt es: „Durch den Empfänger und die Backend-Elektronik an jedem Teleskop wird das Himmelsignal in das Basisband gemischt, digitalisiert und direkt auf der Festplatte aufgezeichnet, was Petabyte ergibt Von hier aus wurde ein großes Team von Astronomen und Informatikern beauftragt, Pipelines und Tools zu entwerfen, um fehlerhafte Datenpunkte zu entfernen, Fehler zu reduzieren und Rauschen durch statistische Modellierung herauszufiltern, bevor überhaupt echte astronomische Signale identifiziert werden unter Haufen von unbrauchbaren Daten. Wie langweilig dieser Prozess von den Rohdaten bis zum Ergebnis ist, zeigt ein Beispiel aus meiner eigenen astrophysikalischen Forschung.

Modellierung von Bahnparametern für Exoplanetensysteme mit der MCMC-Technik

Derzeit arbeite ich auf dem Gebiet der beobachtenden exoplanetaren Astrophysik. Im Wesentlichen suche ich nach Erde 2.0 und versuche gleichzeitig, die große Vielfalt der existierenden Planeten zu verstehen. Mein Projekt wird von Dr. Erik Petigura geleitet, der seine Post-Doc-Arbeit bei Caltech beendet, bevor er diesen Sommer zu einer Assistenzprofessur an der UCLA wechselt.

Um unsere Arbeit auszuführen, untersuche ich Daten von Exoplanetenbeobachtungen der Raumfahrzeuge Kepler und TESS, um die Eigenschaften von Planetenkandidaten herauszufinden. Die Herausforderung in diesem Bereich besteht darin, dass Exoplaneten aufgrund ihrer geringen Emission (im Vergleich zu ihren Wirtssternen) und ihrer relativ winzigen Größe normalerweise nicht direkt beobachtet werden können. Zum Beispiel können wir Pluto in unserem eigenen Sonnensystem von hier auf der Erde aus kaum sehen, so dass es verständlicherweise schwierig ist, Planeten in anderen Sonnensystemen in Lichtjahren Entfernung zu sehen.

Da Sterne mit modernen Teleskopen viel leichter erkennbar sind, untersuchen wir, wie ein Planet um einen bestimmten Stern beobachtbare Änderungen der wahrgenommenen Eigenschaften des Sterns hervorruft. Eine solche Eigenschaft, auf die wir uns konzentrieren, ist die Helligkeit eines Sterns und wie sich diese Helligkeit mit der Zeit ändert, wenn ein Planet direkt zwischen einem Stern und der Erde vorbeizieht (Abbildung 3). Diese Art des Auftretens ist als "Transit" bekannt und Beobachtungen von Transits haben bis heute mehrere tausend mögliche Exoplaneten hervorgebracht - was zu einer Menge Daten führt! Was können wir also mit diesen Daten tun?

Abbildung 3. Vereinfachtes Diagramm, das den Exoplaneten-Transit vor dem Wirtsstern und dessen Auswirkung auf die scheinbare Helligkeit des Sterns über die Zeit zeigt. Bildnachweis: NASA.

Transitdaten bestehen hauptsächlich aus einer Transit-Lichtkurve, die die Helligkeit eines Sterns über die Zeit anzeigt. Diese Daten müssen jedoch stark reduziert und bereinigt werden, bevor Wissenschaft betrieben werden kann. Hier kommt die Datenwissenschaft ins Spiel, um den Tag zu retten, indem sie die rohen Beobachtungsdaten aufnimmt und die im Rauschen verborgenen Signale findet. In meinem Projekt wurden die verwendeten Lichtkurven mit dem Kepler-Weltraumteleskop gemessen und aus den Rohdatenarchiven von MAST (Mikulski-Archiv für Weltraumteleskope) extrahiert. Diese sehen ungefähr so ​​aus wie in Abbildung 4, bevor eine Analyse oder Reduktion durchgeführt wurde, aber dies entspricht nicht einmal der idealen flachen Linie mit einem Einbruch wie in Abbildung 3.

Abbildung 4. Beispiel einer Rohlichtkurve für den Exoplaneten Kepler 1656b mit hohem Rauschen und hoher Variabilität vor der Reduktion. Bildnachweis: Kepler Space Telescope; MAST; M. MacDougall; E. Petigura; Brady et al. 2018.

Bevor wir versuchen, wissenschaftliche Messungen aus dieser Lichtkurve zu extrahieren, werden die Daten normalisiert und fehlerhafte Datenpunkte ausgeblendet, die nicht reale, Null- oder unendliche Helligkeitswerte aufgezeichnet haben. Wir zerstören dann unsere Daten, indem wir mit einem Savitzky-Golay-Filter den niederfrequenten Hintergrundrausch-Trend beseitigen, der die starken Flussschwankungen verursacht. Mit diesem Filter reduzieren wir unsere Daten erfolgreich durch Faltung über aufeinanderfolgende Teilmengen benachbarter Punkte in unserem Datensatz, um diese Punkte mit einem Polynom niedrigen Grades über eine lineare Anpassung der kleinsten Quadrate anzupassen.

Der letzte Schritt im Reduktionsprozess besteht darin, signifikante Ausreißer zu entfernen, die die statistischen Modellierungsergebnisse erheblich verzerren könnten. Dies geschieht sowohl durch einen Sigma-Cutoff von 6 s als auch durch manuelles Abschneiden von Regionen mit hoher Varianz von Post-Reduction-Daten. Die Pipeline, die ich erstellt habe, um die Rohdaten erfolgreich zu verarbeiten, hat ungefähr einen Monat gedauert, bis sie fertiggestellt ist, und selbst dann habe ich ihren Erfolg nur mit einer Exoplaneten-Lichtkurve überprüft. Am Ende haben wir eine abgeflachte, normalisierte, höhere Signal-Rausch-Lichtkurve mit klar definierten Transiten, die periodisch auftreten (Abbildung 5).

Abbildung 5. Beispiel einer reduzierten Lichtkurve für Kepler 1656b mit normalisiertem Fluss und periodischem Dimmen. Bildnachweis: M. MacDougall; E. Petigura; Brady et al. 2018.

Aus den in dieser Lichtkurve enthaltenen Daten kann die am besten eingeschränkte Eigenschaft des Planeten abgeleitet werden, indem der Radius des Planeten geschätzt wird, basierend darauf, wie viel Sternenlicht während des Transits blockiert wird. Wir können auch die Umlaufzeit eines Transitplaneten bestimmen, indem wir den zeitlichen Abstand der Transite feststellen. Um sicherzustellen, dass alle potenziellen Transite tatsächlich verwandte Ereignisse sind, die zu einem festgelegten Umlaufzeitraum auftreten, müssen wir unsere Daten um den Transitmittelpunkt phasenweise falten und prüfen, ob alle übereinander gestapelten Transitkandidaten dieselbe Form und Tiefe haben (Abbildung 6). .

Figure 6. Beispiel der phasengefalteten Lichtkurve für Kepler 1656b - Zeitraum von 31.578659 Tagen. Bildnachweis: M. MacDougall; E. Petigura; Brady et al. 2018.

Sobald eine Periode und ein Radius geschätzt wurden, können wir eine Vielzahl anderer Umlaufbahnparameter approximieren, einschließlich der Neigung, der Halb-Hauptachse (Abstand zwischen Planet und Stern) und der Exzentrizität (wie kreisförmig oder länglich die Umlaufbahn ist). Es gibt jedoch keine einfache Gleichung, in die wir Werte einfügen und plötzlich alles über das Planetensystem wissen können. Obwohl die Physik der Orbitaldynamik gut bekannt ist, sind viele der betrachteten Parameter voneinander entartet, sodass eine Vielzahl von Kombinationen ähnliche Ergebnisse liefern können.

Um die Parameterwerte zu ermitteln, die ein Modell ergeben, das am besten zu unseren Daten passt, müssen wir ein statistisches Modellierungsprogramm einrichten, um die Anpassung zu optimieren. Die in diesem Prozess verwendete Modellierungssoftware ist ein Python-Paket namens BATMAN (Bad-Ass Transit Model Calculation - dies ist der tatsächliche Name), das verschiedene Orbitalparameter berücksichtigt und auf der Grundlage der Eingaben ein idealisiertes Lichtkurvenmodell erstellt.

Wenn wir die optimalen Parameter erraten, können wir ein begleitendes Modell erstellen und es mit den tatsächlichen Daten vergleichen, um die Anpassung zu bewerten. Diese Beurteilung erfolgt auf der Grundlage von Chi-Quadrat-Tests, um das Korrelationsniveau zwischen jedem beobachteten Datenpunkt und jedem modellierten Datenpunkt zu bestimmen. Je besser die Anpassung ist, desto niedriger ist der Chi-Quadrat-Gesamtwert für ein Modell, das aus einem bestimmten Satz erratener Parameter abgeleitet wurde.

Abbildung 7. Beispiel für den Versuch, ein BATMAN-Modell an die phasengefaltete Lichtkurve von Kepler 1656b anzupassen. Bildnachweis: M. MacDougall; E. Petigura; Brady et al. 2018.

Der Haken dabei ist, dass der schnellste Weg, das am besten passende Modell zu finden, darin besteht, bereits eine ziemlich gute Vorstellung von den besten Parameterschätzungen zu haben. Dieses Problem wird noch verschlimmert durch die Tatsache, dass die Trittfrequenzdaten des Kepler-Weltraumteleskops nur alle 30 Minuten gemessen werden. Für einen Transit, der über einen Zeitraum von etwa 3 Stunden stattfindet, stehen also höchstens 6 Datenpunkte pro Transit zur Verfügung. Bei einer derart niedrigen Auflösung ist es schwierig, die Form des Transits genau zu bestimmen - einschließlich Tiefe, Abflachung, Steilheit und Symmetrie, die alle verwendet werden, um die Umlaufbahnparameter abzuleiten.

Es ist viel einfacher, eine grobe Schätzung zu erhalten, indem die phasengefaltete Lichtkurve wie in Abbildung 7 dargestellt modelliert wird. Letztendlich müssen wir uns jedoch auf die statistische Modellierung verlassen, um die gesamte ungefaltete Lichtkurve zu jedem Zeitstempel in den Originaldaten richtig modellieren zu können . Glücklicherweise wurde dieses spezielle System bereits von Brady et al. 2018, wo der Planet unter anderen genauen Schätzungen eine Exzentrizität von ungefähr 0,84 aufwies. Wir nehmen diese Informationen (Planetenradius, Entfernung vom Wirtsstern, Periode, Neigung, Exzentrizität, Position entlang einer Umlaufbahn und Zeitpunkt des ersten Transits) als Ausgangsbedingung für ein Optimierungswerkzeug, das als Markov Chain Monte Carlo (MCMC) bekannt ist.

Ein MCMC ist so konzipiert, dass er eine Reihe von erratenen Parameterwerten als Eingabe verwendet, ein Modell aus diesen Werten erstellt und Chi-Quadrat-Tests verwendet, um das Modell mit den Daten zu vergleichen. Sobald dieser Vorgang abgeschlossen ist, erstellt das Programm einen neuen Satz erratener Parameter, die gegenüber dem ursprünglichen Satz leicht gestört sind. Anhand des Chi-Quadrat-Werts der letzten Anpassung wird dann gewogen, ob es sinnvoll ist, den vorgeschlagenen Schritt zu diesem neuen Parametersatz zu machen oder dort zu bleiben, wo er ist. Wir führen dies für 106 Schritte gleichzeitig aus, wobei sich jeder Schritt langsam der optimalen Passform nähert. Wir würden im Idealfall eine Gaußsche Verteilung der Endparameter unserer Wanderer erhalten, aber bisher konnten wir diese Konvergenz leider nicht erreichen. Dies ist wahrscheinlich auf schlecht eingeschränkte vorherige Annahmen, schlechte anfängliche Vermutungen oder zu wenige Schritte zurückzuführen, die wir noch untersuchen. Nichtsdestotrotz haben wir immer noch ziemlich genaue Schätzungen aller Umlaufbahnparameter in diesem System, mit denen wir die Lichtkurvendaten auf ein beträchtliches Maß an Genauigkeit modellieren können (Abbildung 8).

Abbildung 8. Beispiel für ein BATMAN-Modell mit Best-Fit-Darstellung, wobei die reduzierte Lichtkurve von Kepler 1656b eine starke Übereinstimmung zeigt. Bildnachweis: M. MacDougall; E. Petigura; Brady et al. 2018.

Obwohl unsere Optimierungsmethode noch nicht abgeschlossen ist, haben wir erhebliche Fortschritte bei der Erreichung unseres Ziels erzielt, mithilfe von BATMAN automatisch das am besten passende Lichtkurvenmodell für ein bestimmtes Planetensystem zu ermitteln. Wir werden weiter daran arbeiten, unser MCMC in Betrieb zu nehmen und dabei auch andere statistische Techniken zu untersuchen, mit denen sich besser einschätzen lässt, wie gut eine Anpassung ist. Wir sind bestrebt, unser Programm an einer größeren Stichprobe von Kepler-Planetenkandidaten mit zuvor geschätzten Bahnparametern zu testen, um unsere Fähigkeit zu verbessern, diese bereits gut untersuchten Lichtkurven richtig zu modellieren. Sobald unsere Technik eine konstant hohe Genauigkeit bewiesen hat, werden wir damit beginnen, neue TESS-Kandidaten zu modellieren, um die Umlaufbahnmerkmale der beobachteten Planetenpopulation besser zu verstehen. Mit diesem Wissen können wir möglicherweise neue Erkenntnisse über die Bewohnbarkeit ferner Welten und die Wahrscheinlichkeit gewinnen, Leben jenseits der Erde zu finden.