KI für die Raummetabolomik I: Die Datensätze des Lebens

Bildquelle

Hier bei Neuromation starten wir eine aufregende - und ziemlich raffinierte! - gemeinsames Projekt mit der Spatial Metabolomics Group von Dr. Theodore Alexandrov vom European Molecular Biology Laboratory. In dieser Miniserie werde ich erläutern, wie wir die neuesten Erkenntnisse im Bereich Deep Learning nutzen und neue Modelle für die Verarbeitung bildgebender Massenspektrometriedaten erfinden und Stoffwechselprofile einzelner Zellen extrahieren, um die molekularen Trajektorien zu analysieren, denen Zellen mit unterschiedlichen Phänotypen folgen …

Warte, ich habe dich schon dreimal verloren. Lass mich von vorne anfangen.

Omics: die Datensätze, die Sie machen

Bildquelle

Das obige Bild zeigt das zentrale Dogma der Molekularbiologie, den Schlüsseleinblick der Biologie des 20. Jahrhunderts in die Funktionsweise des Lebens auf der Erde. Es zeigt, wie genetische Informationen von der DNA zu den Proteinen fließen, die tatsächlich in den Zellen arbeiten:

  • DNA speichert genetische Informationen und kann diese replizieren.
  • Bei dem als Transkription bekannten Prozess kopiert die DNA Teile ihres genetischen Codes in die Messenger-RNA (m-RNA), ebenfalls eine Nukleinsäure.
  • und schließlich ist die Übersetzung der Vorgang, Proteine ​​herzustellen, den genetischen Code für sie aus RNA-Strings zu "lesen" und die Blaupause in die Praxis umzusetzen.

Ich habe ein sehr vereinfachtes Bild gezeichnet, aber dies ist wirklich der zentrale und wichtigste Informationsfluss des Lebens. Das zentrale Dogma, das erstmals von Francis Crick im Jahr 1958 formuliert wurde, besagt, dass genetische Informationen nur von Nukleinsäuren (DNA und RNA) zu Proteinen fließen und niemals zurückkehren - Ihre Proteine ​​können nicht zurückgehen und Ihre DNA oder RNA oder sogar andere Proteine ​​modifizieren. Sie werden nur von den Nukleinsäuren kontrolliert.

Jeder weiß, dass der genetische Code, der in der DNA enthalten ist, sehr wichtig ist. Etwas weniger bekannt ist, dass jeder Schritt entlang des zentralen Dogma-Weges (ein Weg ist im Grunde eine Folge gemeinsamer Reaktionen, die Moleküle ineinander transformieren, z. B. DNA -> RNA -> Protein ist ein Weg, und ein sehr wichtiger! ) entspricht einem eigenen „Datensatz“, einer eigenen Charakterisierung eines Organismus, von denen jeder auf seine Weise wichtig und interessant ist.

Ihr in Ihrer DNA kodierter Satz von Genen wird als Genom bezeichnet. Dies ist der Hauptdatensatz, Ihre primäre Blaupause. Das Genom ist das Zeug, das sagt, wie Sie am abstraktesten arbeiten. Wie Sie wahrscheinlich wissen, ist das Genom eine sehr lange Folge von "Buchstaben" A, C, G und T, die für die vier Nukleotide stehen. Das Humangenomprojekt hat im Jahr 2000 erfolgreich einen Entwurf des Humangenoms und im Jahr 2003 ein vollständiges Humangenom sequenziert (Buchstabe für Buchstabe ausgelesen), alle drei Milliarden Buchstaben. Seitdem haben sich die Sequenzierungsmethoden stark verbessert. Darüber hinaus sind natürlich alle menschlichen Genome sehr ähnlich. Wenn Sie eines haben, ist es viel einfacher, die anderen zu finden. Ihr Genom bestimmt, für welche Krankheiten Sie anfällig sind, und definiert viele Ihrer charakteristischen Merkmale.

Das Studium des menschlichen Genoms ist noch lange nicht abgeschlossen, aber es ist nur der erste Teil der Geschichte. Wie wir oben gesehen haben, muss der genetische Code aus der DNA in die RNA ausgelesen werden. Dies ist als Transkription bekannt, ein komplizierter Vorgang, der für unsere Diskussion im Moment völlig irrelevant ist: Der Punkt ist, dass Teile des Genoms wörtlich in RNA kopiert werden (formal ändert sich T in U, ein anderes Nukleotid, aber es ist immer noch das genaue gleiche Information):

Bildquelle

Die Zellen unterscheiden hier, in welche Teile des Genoms transkribiert werden.

Der Satz von RNA-Sequenzen (sowohl kodierende RNA, die später zur Herstellung von Proteinen verwendet wird, als auch nicht kodierende RNA, dh der Rest davon) in einer Zelle wird als Transkriptom bezeichnet. Das Transkriptom liefert viel spezifischere Informationen zu einzelnen Zellen und Geweben: Beispielsweise hat eine Zelle in Ihrer Leber genau dasselbe Genom wie ein Neuron in Ihrem Gehirn - aber sehr unterschiedliche Transkriptome! Durch die Untersuchung des Transkriptoms können Biologen die „Auflösung erhöhen“ und sehen, welche Gene in verschiedenen Geweben wie exprimiert werden. Beispielsweise werden in der modernen personalisierten Medizin Transkriptome zur Diagnose von Krebs untersucht.

Aber es geht immer noch um den genetischen Code. Der dritte Datensatz ist noch detaillierter: Es ist das Proteom, das aus allen Proteinen besteht, die in einer Zelle produziert werden. Dies wird als Translation bezeichnet. Dabei dient die RNA als Matrize, wobei drei Buchstaben für jedes Protein kodieren:

Bildquelle

Dies kommt dem eigentlichen Ziel schon viel näher: Die Proteine, die eine Zelle macht, bestimmen ihre Wechselwirkungen mit anderen Zellen, und das Proteom sagt viel darüber aus, was die Zelle tut, welche Funktion sie im Organismus hat und welche Auswirkungen sie auf andere Zellen hat Zellen und so weiter. Und das Proteom ist anders als das Genom formbar: Viele Medikamente wirken genau, indem sie die Translation bestimmter Proteine ​​unterdrücken oder beschleunigen. Beispielsweise bekämpfen Antibiotika normalerweise Bakterien, indem sie ihre RNA angreifen, die Proteinsynthese vollständig unterdrücken und so die Zelle töten.

Genomik, Transkriptomik und Proteomik sind Teilgebiete der Molekularbiologie, die das Genom, Transkriptom und Proteom untersuchen. Sie werden zusammen als die „Omics“ bezeichnet. Das zentrale Dogma ist seit langem bekannt, aber erst in jüngster Zeit haben Biologen neue Werkzeuge entwickelt, die uns tatsächlich einen Blick auf das Transkriptom und das Proteom werfen lassen.

Und dies hat zu der Big-Data- „Omics-Revolution“ in der Molekularbiologie geführt: Mit diesen Tools können wir anstatt zu theoretisieren, jetzt tatsächlich in Ihr Proteom schauen und herausfinden, was in Ihren Zellen passiert - und Ihnen vielleicht persönlich helfen, nicht nur eine zu entwickeln Droge, die auf die meisten Menschen wirken sollte, aber irgendwie für Sie versagt.

Metabolomics: jenseits des Dogmas

Bildquelle

Molekularbiologen begannen, im Kontext von Genomik, Transkriptomik und Proteomik von der „Revolution der Omics“ zu sprechen, aber das zentrale Dogma ist immer noch nicht das Gesamtbild. Die Translation von Proteinen ist nur der Anfang der Prozesse, die in einer Zelle ablaufen. Danach interagieren diese Proteine ​​tatsächlich miteinander und mit anderen Molekülen in der Zelle. Diese Reaktionen umfassen den Stoffwechsel der Zelle und letztendlich ist es genau der Stoffwechsel, an dem wir interessiert sind und den wir möglicherweise beheben möchten.

Die moderne Biologie ist stark an Prozessen interessiert, die über das zentrale Dogma hinausgehen und die sogenannten kleinen Moleküle umfassen: Enzyme, Lipide, Glykose, ATP und so weiter. Diese kleinen Moleküle werden entweder in den Zellen synthetisiert - in diesem Fall werden sie Metaboliten genannt, dh Produkte des Zellstoffwechsels - oder kommen aus dem Jenseits. Beispielsweise sind Vitamine typische kleine Moleküle, die Zellen benötigen, aber nicht selbst synthetisieren können, und Medikamente sind exogene kleine Moleküle, die wir entwickeln, um den Stoffwechsel einer Zelle zu beeinflussen.

Diese Synthesevorgänge werden von Proteinen gesteuert und folgen den sogenannten Stoffwechselwegen, Reaktionsketten mit einer gemeinsamen biologischen Funktion. Das zentrale Dogma ist ein sehr wichtiger Weg, aber in Wirklichkeit gibt es Tausende. Ein kürzlich entwickeltes Modell des menschlichen Stoffwechsels listet 5324 Metaboliten, 7785 Reaktionen und 1675 assoziierte Gene auf, und dies ist definitiv nicht die letzte Version - moderne Schätzungen gehen von bis zu 19000 Metaboliten aus, sodass die Stoffwechselwege noch nicht vollständig kartiert sind.

Das Stoffwechselprofil eines Organismus wird nicht vollständig durch sein Genom, Transkriptom oder sogar Proteom bestimmt: Das Metabolom (Satz von Metaboliten) bildet sich insbesondere unter dem Einfluss der Umgebung, die z. B. Vitamine liefert. Die Metabolomik, die die Zusammensetzung und Wechselwirkung zwischen Metaboliten in lebenden Organismen untersucht, liegt an der Schnittstelle von Biologie, analytischer Chemie und Bioinformatik mit zunehmenden Anwendungen in der Medizin (und dies ist nicht die letzte der Omics, aber die Metabolomik wird für uns jetzt ausreichen). .

Wenn wir das Metabolom kennen, können wir verschiedene Krankheiten besser charakterisieren und diagnostizieren: Sie müssen alle Spuren im Metabolom hinterlassen, denn wenn sich der Metabolismus nicht verändert hat, warum gibt es überhaupt ein Problem? Durch die Untersuchung der Stoffwechselprofile von Zellen können Biologen herausfinden neue biomarker für diagnose und therapie, finden neue ziele für die medikamente. Metabolomics ist die Grundlage für eine wirklich personalisierte Medizin.

Der ultimative Datensatz

Bildquelle

Bisher habe ich im Wesentlichen die jüngsten Fortschritte in der Molekularbiologie und Medizin erklärt. Aber was haben wir in diesem Projekt vor? Wir sind keine Biologen, wir sind Datenwissenschaftler, KI-Forscher; Was ist unsere Rolle dabei?

Nun, das Metabolom ist im Grunde genommen ein riesiger Datensatz: Jede Zelle hat ihr eigenes Stoffwechselprofil (eine Reihe von Molekülen, die in der Zelle auftreten). Unterschiede in den Stoffwechselprofilen bestimmen unterschiedliche Zellpopulationen, wie sich die Stoffwechselprofile im Laufe der Zeit ändern, und so weiter. Darüber hinaus entstehen in der räumlichen Metabolomik, mit der wir zusammenarbeiten wollen, spezielle Bilder: Ergebnisse der bildgebenden Massenspektrometrie, die mit sehr hoher Auflösung angewendet werden. Dies bedarf wiederum einiger Erklärungen.

Die Massenspektrometrie ist ein Werkzeug, mit dem wir die Massen von allem, was in einer Probe enthalten ist, herausfinden können. Abgesehen von seltenen Kollisionen entspricht dies im Wesentlichen dem Herausfinden, welche spezifischen Moleküle in der Probe vorkommen. Wenn Sie beispielsweise einen Diamanten in das Massenspektrometer einsetzen, werden Sie wahrscheinlich nicht nur ein einziges Kohlenstoffatom, sondern sowohl 12C- als auch 13C-Isotope sehen, deren Zusammensetzung viel über die Eigenschaften des Diamanten aussagt.

Bildgebende Massenspektrometrie ist im Grunde ein Bild, in dem jedes Pixel ein Spektrum ist. Sie nehmen einen Abschnitt eines Gewebes, legen ihn in ein Massenspektrometer und erhalten einen dreidimensionalen „Datenwürfel“: Jedes Pixel enthält eine Liste von Molekülen (Metaboliten), die sich in diesem Teil des Gewebes befinden. Dieser Vorgang ist im obigen Bild dargestellt. Ich würde hier einige Bilder zeigen, aber das wäre irreführend: Der Punkt ist, dass es sich nicht um ein einzelnes Bild handelt, sondern um viele parallele Bilder, eines für jeden Metaboliten. So etwas (Foto von hier):

Das Bestreben, bessere bildgebende Massenspektrometriewerkzeuge herzustellen, zielt hauptsächlich darauf ab, die Auflösung zu erhöhen, d. H. Die Pixel zu verkleinern und die Empfindlichkeit zu erhöhen, d. H. Kleinere Mengen von Metaboliten zu detektieren. Inzwischen hat die bildgebende Massenspektrometrie einen langen Weg zurückgelegt: Die Auflösung ist so hoch, dass einzelne Pixel in diesem Bild einzelnen Zellen zugeordnet werden können! Diese hochauflösende Massenspektrometrie, die als Einzelzell-Massenspektrometrie bezeichnet wird, öffnet die Tür für die Metabolomik: Sie können jetzt das Stoffwechselprofil vieler Zellen auf einmal abrufen, einschließlich ihrer räumlichen Lage im Gewebe .

Dies ist der ultimative Datensatz des Lebens, der detaillierteste Bericht über aktuelles Gewebe, der derzeit existiert. Im Projekt planen wir, diesen endgültigen Datensatz zu untersuchen. In der nächsten Folge dieser Miniserie werden wir sehen, wie.

Sergey Nikolenko
Forschungsvorstand Neuromation