KI für die räumliche Metabolomik I: Die Datensätze des Lebens

Bildquelle

Hier bei Neuromation starten wir eine aufregende - und ziemlich raffinierte! - Gemeinschaftsprojekt mit der Spatial Metabolomics-Gruppe von Dr. Theodore Alexandrov vom European Molecular Biology Laboratory. In dieser Miniserie von Beiträgen werde ich erklären, wie wir die neuesten Errungenschaften des Deep Learning nutzen und neue Modelle erfinden wollen, um bildgebende Massenspektrometriedaten zu verarbeiten. Dabei werden Stoffwechselprofile einzelner Zellen extrahiert, um die molekularen Trajektorien zu analysieren, denen Zellen mit unterschiedlichen Phänotypen folgen …

Warten Sie, ich habe Sie sicherlich schon dreimal verloren. Lass mich von vorne anfangen.

Omics: die Datensätze, die Sie machen

Bildquelle

Das obige Bild zeigt das zentrale Dogma der Molekularbiologie, den wichtigsten Einblick in die Biologie des 20. Jahrhunderts in die Funktionsweise des Lebens auf der Erde. Es zeigt, wie genetische Informationen von der DNA zu den Proteinen fließen, die tatsächlich die Arbeit in den Zellen erledigen:

  • DNA speichert genetische Informationen und kann diese replizieren.
  • Bei dem als Transkription bekannten Prozess kopiert DNA Teile seines genetischen Codes in Messenger-RNA (m-RNA), ebenfalls eine Nukleinsäure.
  • und schließlich ist die Übersetzung der Prozess der Herstellung von Proteinen, des „Lesens“ des genetischen Codes für sie aus RNA-Strings und der praktischen Umsetzung der Blaupause.

Ich habe ein sehr vereinfachtes Bild gemalt, aber dies ist wirklich der zentrale, wichtigste Informationsfluss des Lebens. Das zentrale Dogma, das erstmals 1958 von Francis Crick aufgestellt wurde, besagt, dass genetische Informationen nur von Nukleinsäuren (DNA und RNA) zu Proteinen und niemals zurück fließen - Ihre Proteine ​​können nicht zurückgehen und Ihre DNA oder RNA modifizieren oder sogar andere Proteine ​​modifizieren. Sie werden nur von den Nukleinsäuren gesteuert.

Jeder weiß, dass der in der DNA enthaltene genetische Code sehr wichtig ist. Etwas weniger bekannt ist, dass jeder Schritt entlang des zentralen Dogma-Weges (ein Weg ist im Grunde eine Folge gemeinsamer Reaktionen, die Moleküle ineinander umwandeln, zum Beispiel DNA -> RNA -> Protein ist ein Weg und ein sehr wichtiger! ) entspricht einem eigenen „Datensatz“, einer eigenen Charakterisierung eines Organismus, von denen jeder auf seine Weise wichtig und interessant ist.

Ihr Satz von Genen, der in Ihrer DNA kodiert ist, wird als Genom bezeichnet. Dies ist der Hauptdatensatz, Ihre primäre Blaupause. Das Genom sagt aus, wie Sie am abstraktesten arbeiten. Wie Sie wahrscheinlich wissen, besteht das Genom aus einer sehr langen Folge von „Buchstaben“ A, C, G und T, die für die vier Nukleotide stehen. Keine Sorge, wir werden nicht zu sehr ins Detail gehen. Das Humangenomprojekt sequenzierte erfolgreich einen Entwurf des menschlichen Genoms im Jahr 2000 und ein vollständiges menschliches Genom im Jahr 2003, alle drei Milliarden Buchstaben. Seitdem haben sich die Sequenzierungsmethoden stark verbessert. Darüber hinaus sind natürlich alle menschlichen Genome sehr ähnlich. Wenn Sie also eines haben, ist es viel einfacher, die anderen zu bekommen. Ihr Genom bestimmt, für welche Krankheiten Sie anfällig sind, und definiert viele Ihrer charakteristischen Merkmale.

Das Studium des menschlichen Genoms ist noch lange nicht abgeschlossen, aber es ist nur der erste Teil der Geschichte. Wie wir oben gesehen haben, muss der genetische Code aus der DNA in die RNA ausgelesen werden. Dies ist als Transkription bekannt, ein komplizierter Prozess, der für unsere derzeitige Diskussion völlig irrelevant ist: Der Punkt ist, dass Teile des Genoms wörtlich in RNA kopiert werden (formal gesehen ändert sich T zu U, einem anderen Nukleotid, aber es ist immer noch genau gleiche Information):

Bildquelle

Die Zellen unterscheiden hier, in welchen Teilen des Genoms transkribiert werden.

Der Satz von RNA-Sequenzen (sowohl kodierende RNA, die später zur Herstellung von Proteinen verwendet wird, als auch nicht kodierende RNA, dh der Rest davon) in einer Zelle wird als Transkriptom bezeichnet. Das Transkriptom liefert viel spezifischere Informationen über einzelne Zellen und Gewebe: Zum Beispiel hat eine Zelle in Ihrer Leber genau das gleiche Genom wie ein Neuron in Ihrem Gehirn - aber sehr unterschiedliche Transkriptome! Durch die Untersuchung des Transkriptoms können Biologen die Auflösung erhöhen und sehen, welche Gene in verschiedenen Geweben wie exprimiert werden. Beispielsweise untersucht die moderne personalisierte Medizin Transkriptome, um Krebs zu diagnostizieren.

Aber es geht immer noch um den genetischen Code. Der dritte Datensatz ist noch detaillierter: Es ist das Proteom, das aus allen Proteinen besteht, die in einer Zelle produziert werden. Dies wird als Translation bezeichnet, wobei RNA als Vorlage dient und drei Buchstaben für jedes Protein kodieren:

Bildquelle

Dies kommt dem eigentlichen Ziel bereits viel näher: Die Proteine, die eine Zelle herstellt, bestimmen ihre Wechselwirkungen mit anderen Zellen, und das Proteom sagt viel darüber aus, was die Zelle tut, welche Funktion sie im Organismus hat und welche Auswirkungen sie auf andere hat Zellen und so weiter. Und das Proteom ist im Gegensatz zum Genom formbar: Viele Medikamente wirken genau, indem sie die Translation spezifischer Proteine ​​unterdrücken oder beschleunigen. Beispielsweise bekämpfen Antibiotika normalerweise Bakterien, indem sie ihre RNA angreifen, die Proteinsynthese vollständig unterdrücken und so die Zelle abtöten.

Genomik, Transkriptomik und Proteomik sind Teilbereiche der Molekularbiologie, die das Genom, Transkriptom und Proteom untersuchen. Sie werden zusammen als "Omics" bezeichnet. Das zentrale Dogma ist seit langem bekannt, aber erst kürzlich haben Biologen neue Werkzeuge entwickelt, mit denen wir einen Blick in das Transkriptom und das Proteom werfen können.

Und dies hat zu der Big-Data- „Omics-Revolution“ in der Molekularbiologie geführt: Mit diesen Tools können wir jetzt, anstatt zu theoretisieren, tatsächlich in Ihr Proteom schauen und herausfinden, was in Ihren Zellen passiert - und Ihnen vielleicht persönlich helfen, nicht nur eine entwickeln Medikament, das bei den meisten Menschen wirken sollte, aber irgendwie für Sie versagt.

Metabolomics: jenseits des Dogmas

Bildquelle

Molekularbiologen sprachen im Kontext von Genomik, Transkriptomik und Proteomik von der „Omics-Revolution“, aber das zentrale Dogma ist immer noch nicht das vollständige Bild. Die Translation von Proteinen ist nur der Anfang der Prozesse, die in einer Zelle ablaufen. Danach interagieren diese Proteine ​​tatsächlich miteinander und mit anderen Molekülen in der Zelle. Diese Reaktionen umfassen den Stoffwechsel der Zelle, und letztendlich ist es genau der Stoffwechsel, an dem wir interessiert sind und den wir möglicherweise reparieren möchten.

Die moderne Biologie ist stark an Prozessen interessiert, die über das zentrale Dogma hinausgehen und die sogenannten kleinen Moleküle einbeziehen: Enzyme, Lipide, Glykose, ATP und so weiter. Diese kleinen Moleküle werden entweder innerhalb der Zellen synthetisiert - in diesem Fall werden sie Metaboliten genannt, dh Produkte des Zellstoffwechsels - oder kommen von jenseits. Zum Beispiel sind Vitamine typische kleine Moleküle, die Zellen benötigen, aber nicht selbst synthetisieren können, und Medikamente sind exogene kleine Moleküle, die wir entwickeln, um den Stoffwechsel einer Zelle zu basteln.

Diese Synthesevorgänge werden durch Proteine ​​gesteuert und folgen den sogenannten Stoffwechselwegen, Reaktionsketten mit einer gemeinsamen biologischen Funktion. Das zentrale Dogma ist ein sehr wichtiger Weg, aber in Wirklichkeit gibt es Tausende. Ein kürzlich entwickeltes Modell des menschlichen Stoffwechsels listet 5324 Metaboliten, 7785 Reaktionen und 1675 assoziierte Gene auf, und dies ist definitiv nicht die letzte Version - moderne Schätzungen erreichen bis zu 19000 Metaboliten, sodass noch nicht alle Wege kartiert wurden.

Das Stoffwechselprofil eines Organismus wird nicht vollständig durch sein Genom, Transkriptom oder sogar Proteom bestimmt: Das Metabolom (Satz von Metaboliten) bildet sich insbesondere unter dem Einfluss der Umgebung, die z. B. Vitamine liefert. Die Metabolomik, die die Zusammensetzung und Wechselwirkung zwischen Metaboliten in lebenden Organismen untersucht, liegt an der Schnittstelle von Biologie, analytischer Chemie und Bioinformatik mit wachsenden Anwendungen in der Medizin (und das ist nicht das letzte der Omics, aber die Metabolomik wird uns jetzt ausreichen). .

Wenn wir das Metabolom kennen, können wir verschiedene Krankheiten besser charakterisieren und diagnostizieren: Sie müssen alle Spuren im Metabolom hinterlassen, denn wenn sich der Metabolismus nicht geändert hat, warum gibt es überhaupt ein Problem? Durch die Untersuchung der Stoffwechselprofile von Zellen können Biologen feststellen Neue Biomarker für Diagnose und Therapie finden neue Ziele für die Medikamente. Die Metabolomik ist die Grundlage für eine wirklich personalisierte Medizin.

Der ultimative Datensatz

Bildquelle

Bisher habe ich die jüngsten Fortschritte in der Molekularbiologie und Medizin im Wesentlichen erklärt. Aber was planen wir in diesem Projekt zu tun? Wir sind keine Biologen, wir sind Datenwissenschaftler, KI-Forscher; Was ist unser Anteil daran?

Nun, das Metabolom ist im Grunde ein riesiger Datensatz: Jede Zelle hat ihr eigenes Stoffwechselprofil (eine Reihe von Molekülen, die in der Zelle vorkommen). Unterschiede in den Stoffwechselprofilen bestimmen unterschiedliche Zellpopulationen, wie sich Stoffwechselprofile im Laufe der Zeit ändern, entspricht den Mustern der Zellentwicklung und so weiter und so fort. Darüber hinaus gibt es in der räumlichen Metabolomik, an der wir zusammenarbeiten möchten, spezielle Bilder: Ergebnisse der bildgebenden Massenspektrometrie mit sehr hoher Auflösung. Dies bedarf wiederum einiger Erklärungen.

Massenspektrometrie ist ein Werkzeug, mit dem wir die Massen von allem, was in einer Probe enthalten ist, herausfinden können. Abgesehen von seltenen Kollisionen entspricht dies im Wesentlichen dem Herausfinden, welche spezifischen Moleküle in der Probe vorkommen. Wenn Sie beispielsweise einen Diamanten in das Massenspektrometer einsetzen, sehen Sie… nein, nicht nur ein einzelnes Kohlenstoffatom, Sie werden wahrscheinlich sowohl 12C- als auch 13C-Isotope sehen, und ihre Zusammensetzung sagt viel über die Eigenschaften des Diamanten aus.

Die bildgebende Massenspektrometrie ist im Grunde ein Bild, bei dem jedes Pixel ein Spektrum ist. Sie nehmen einen Teil eines Gewebes, legen ihn in ein Massenspektrometer und erhalten einen dreidimensionalen „Datenwürfel“: Jedes Pixel enthält eine Liste von Molekülen (Metaboliten), die sich in diesem Teil des Gewebes befinden. Dieser Vorgang ist im obigen Bild dargestellt. Ich würde hier einige Bilder zeigen, aber es wäre irreführend: Der Punkt ist, dass es kein einzelnes Bild ist, sondern viele parallele Bilder, eines für jeden Metaboliten. So etwas (Foto von hier):

Das Bestreben, bessere bildgebende Massenspektrometrie-Werkzeuge herzustellen, zielt hauptsächlich darauf ab, die Auflösung zu erhöhen, dh die Pixel zu verkleinern und die Empfindlichkeit zu erhöhen, dh kleinere Mengen an Metaboliten zu erkennen. Die bildgebende Massenspektrometrie hat inzwischen einen langen Weg zurückgelegt: Die Auflösung ist so hoch, dass einzelne Pixel in diesem Bild auf einzelne Zellen abgebildet werden können! Diese hochauflösende Massenspektrometrie, die als Einzelzell-Massenspektrometrie bekannt wird, öffnet die Tür für die Metabolomik: Sie können jetzt das Stoffwechselprofil vieler Zellen gleichzeitig mit ihrer räumlichen Position im Gewebe abrufen .

Dies ist der ultimative Datensatz des Lebens, der ausführlichste Bericht über die tatsächlichen Gewebe, die derzeit existieren. Im Projekt planen wir, diesen ultimativen Datensatz zu untersuchen. In der nächsten Folge dieser Miniserie werden wir sehen, wie.

Sergey Nikolenko Forschungsleiter, Neuromation