Programmierung des Genoms mit CRISPR

Wie Wissenschaftler Genome mit Hilfe von Computern bearbeiten

CRISPR (ausgesprochen „knuspriger“) ist Teil eines bakteriellen Immunsystems, das entwickelt wurde, um eindringende virale DNA zu „erinnern“ und zu entfernen.

Sein Name ist die Abkürzung für "Clustered Regularly Interspaced Short Palindromic Repeats". Trotz seines Akronyms und seiner komplexen biologischen Herkunft ist seine technische Anwendung unkompliziert. Um loszulegen, müssen Sie nur ein Protein verstehen - Cas9.

Cas9 sucht nach einer bestimmten DNA-Sequenz und schneidet sie, indem beide Stränge des DNA-Moleküls gebrochen werden. Dieses Protein ist für Forscher nützlich, weil sie es so programmieren können, dass es auf jede DNA-Sequenz abzielt. Ein sgRNA-Molekül ("Single Guide" -RNA) bestimmt die Sequenz, an die Cas9 bindet. RNA ist ein DNA-ähnliches biologisches Molekül, das an Proteine ​​und DNA binden kann.

sgRNAs sind kurze Sequenzen mit einer konstanten Region und einer variablen Region. Die konstante Region bindet die sgRNA an das Cas9-Protein. Die variable Region bewirkt, dass Cas9 an die DNA-Sequenz bindet, die es ergänzt (siehe Abbildung unten).

Das Cas9-Protein, das an die DNA gebunden ist, wenn sich die PAM-Sequenz auf dem vorderen (oberen) Strang befindet. Die fette Sequenz ist die Zielsequenz, die grüne Sequenz ist die sgRNA und die drei blauen Zeichen sind die PAM. Die Dreiecke zeigen, wo Cas9 die DNA schneidet.

Die Herstellung von sgRNA ist billig und schnell. Auf diese Weise können Forscher schnell ein Cas9-Experiment erstellen, bei dem jede DNA-Sequenz geschnitten wird. Naja, eigentlich keine Sequenz. Es gibt eine kleine Einschränkung: Die Zielsequenz muss von der richtigen PAM (Protospacer-Nachbarmotiv) flankiert werden - einer kurzen DNA-Sequenz.

Streptococcus pyogenes ist eine infektiöse Bakterienart. In der Version von Cas9 ist das PAM-Motiv "NGG", wobei N ein beliebiges Nukleotid ist (die "Buchstaben", aus denen die DNA besteht).

Glücklicherweise kommt das Motiv 'NGG' ungefähr alle 42 Basenpaare im menschlichen Genom vor. Dies bedeutet, dass Forscher in nahezu jeder interessierenden Sequenz einen Zielort finden können.

Abhängig vom Versuchsaufbau können diese Schnitte in der DNA entweder eine zufällige Änderung oder eine genaue Änderung der DNA-Sequenz verursachen (dazu später mehr).

Bevor Sie mit dem Schreiben dieses Programms beginnen, empfehle ich, das folgende Cas9-Diagramm zu studieren.

Das Cas9-Protein ist an eine DNA-Sequenz gebunden, wenn sich die PAM-Sequenz auf dem umgekehrten (unteren) Strang befindet.

Beachten Sie, dass DNA und RNA eine Richtwirkung haben, die auf ihrer chemischen Struktur basiert. Ein Ende des Moleküls wird als 5'-Ende ("Fünf-Primzahl") und das andere als 3'-Ende ("Drei-Primzahl") bezeichnet. Dies ist wichtig, da die Sequenzen 5` - AGG - 3` nicht mit 3` - AGG - 5` identisch sind.

Konventionell wird angenommen, dass DNA- und RNA-Sequenzen 5 "bis 3" geschrieben sind, sofern nicht anders markiert. In 5'-3'-Richtung gelesene Sequenzen werden als Vorwärtssequenzen bezeichnet. In die andere Richtung gelesene Sequenzen (3` - 5`) werden als "umgekehrte" Sequenzen bezeichnet. Dies ist eine willkürliche Konvention.

Das obige Diagramm zeigt ein Beispiel für die Bindung von Cas9, wenn sich die PAM auf dem umgekehrten (unteren) Strang befindet.

Ihr erstes CRISPR-Programm

Das Szenario

Ein Wissenschaftler hat eine interessierende DNA-Sequenz und möchte eine Liste aller in der Sequenz enthaltenen CRISPR-Ziele. Das Finden jedes Ziels von Hand ist mühsam und fehleranfällig.

Der Wissenschaftler möchte ein einfaches Programm, in das er eine DNA-Sequenz eingeben und alle möglichen Cas9-Zielstellen zurückgeben kann. Der Wissenschaftler möchte auch die Schnittposition und die PAM-Sequenz für jede Zielstelle.

BEISPIELEINGABE (aus Abbildung 1): 'CCACGGTTTCTGTAGCCCCATACTTTGGATG'
BEISPIELAUSGABE: [{'cut_pos': 6, 'pam_seq': 'TGG', 'target_seq': 'GTATGGGGCTACAGAAACCG', 'strang': 'reverse'}, {'cut_pos': 22, 'pam_seq': 'TGG' , 'target_seq': 'GTTTCTGTAGCCCCATACTT', 'strand': 'forward'}]

Wie finden wir zuerst CRISPR-Ziele in der Sequenz? Denken Sie daran, dass das Cas9-Protein überall dort binden kann, wo es ein NGG-Motiv gibt.

Der erste Schritt besteht darin, die Sequenz zu durchlaufen und nach Übereinstimmungen zu suchen. Wenn das Programm eine 'NGG'-Übereinstimmung findet, möchten wir drei Positionen vom Beginn der PAM-Stelle abziehen, da Cas9 dort die DNA schneidet.

Dann wollen wir die zwanzig Basenpaare vor der PAM als Zielsequenz aufzeichnen. Hört sich gut an?

Nun, der oben beschriebene Algorithmus würde tatsächlich ungefähr die Hälfte aller CRISPR-Stellen übersehen - weil DNA doppelsträngig ist. Dies bedeutet, wenn ein 'CCN' die Sequenz auf dem Vorwärtsstrang ist, dann ist 'NGG' die Sequenz auf dem Rückwärtsstrang.

Das Programm muss auch nach 'CCN' suchen, wobei eine ähnliche Logik für den umgekehrten Strang verwendet wird.

Beispielprogramm

Nicht alle CRISPR-Ziele sind gleich

Als CRISPR zum ersten Mal auf dem Vormarsch war, haben Forscher häufig eine Sequenz auf ihrem Computer aufgerufen und Ziele von Hand ausgewählt. Das Design der optimalen sgRNA ist jetzt viel komplexer geworden. Im Folgenden finden Sie kurze Einführungen in diese Komplexität.

Off-Targets

Die Forscher stellten bald fest, dass Cas9 manchmal an Orten bindet und schneidet, die nicht genau mit der Zielsequenz übereinstimmen. Diese Kürzungen außerhalb des Ziels würden zu unbeabsichtigten Änderungen im Experiment eines Forschers führen (oder möglicherweise zum Genom eines Patienten im Falle einer Therapie!).

Um einen guten Leitfaden zu entwerfen, muss ein Programm das gesamte Genom (das sind ungefähr 3 Milliarden Nukleotide für den Menschen) untersuchen, um einen Off-Target-Score zu berechnen. Forscher haben kürzlich auch das Cas9-Protein so konstruiert, dass es weniger Aktivität außerhalb des Ziels aufweist.

Schlagen

Wenn Cas9 bindet, erzeugt es einen Schnitt, indem es einen Doppelstrangbruch zum DNA-Molekül macht. Meistens kann eine Zelle diesen Bruch über einen biochemischen Weg reparieren (als nicht homologe Endverbindung oder NHEJ bezeichnet).

Dieser Weg ist nicht immer perfekt, und manchmal führt der Reparaturprozess beim Schneiden von Cas9 zu einer kleinen Insertion oder Deletion in der DNA-Sequenz. In einer Protein-kodierenden Region der DNA verursachen diese kleinen Insertionen und Deletionen eine Frameshift-Mutation, die häufig die Funktion des Proteins stört.

Forscher werden häufig ein Gen ausschalten, um herauszufinden, wie ein Protein eine bestimmte Zellfunktion oder einen bestimmten Phänotyp beeinflusst. Das Erstellen einer Knockout-Bearbeitung fügt dem sgRNA-Design zusätzliche Einschränkungen hinzu, da der Leitfaden nun in der codierenden Region des Gens landen muss.

Bearbeitung

Anstatt ein Gen auszuschalten, möchte ein Wissenschaftler oft eine Präzisionsbearbeitung vornehmen. Dies ist besonders nützlich, wenn Sie versuchen, eine Krankheit zu korrigieren, die eine Mutation verursacht. Der beste Weg, dies zu tun, wird noch erforscht. Bei den meisten Methoden wird ein zusätzliches DNA-Spenderstück hinzugefügt.

Zielerzielung

Einige sgRNA-Sequenzen bewirken, dass Cas9 besser schneidet als andere. Forscher haben die Schneidleistung über Tausende von Cas9-Zielen hinweg verglichen, um Vorhersagemodelle für die Schnitteffizienz einer sgRNA zu erstellen.

Microsoft unterstützt sogar ein Open-Source-Repository für die maschinell lernbasierte prädiktive Modellierung der Effizienz von CRISPR / Cas9-Leitfäden.

Andere CRISPR-Cas-Systeme

Forscher haben CRISPR-Cas-Systeme in anderen Bakterien entdeckt. Diese anderen Systeme haben unterschiedliche PAMs.

Schlussbemerkungen

Hoffe du hast etwas Neues gelernt! Wenn Sie mehr über die Biologie, medizinische Anwendungen, kommerzielle Anwendungen oder ethischen Implikationen der CRISPR-Cas-Genomtechnik erfahren möchten, empfehle ich, A Crack in Creation von Jennifer Doudna und Samuel Sternberg zu lesen. Jennifer Doudna ist eine der ursprünglichen Entdeckungen der Grundlagen von CRISPR.

Über den Autor

Ich war zuvor ein Bachelor-Forscher im Gersbach Lab der Duke University und bin derzeit Software-Ingenieur an einem Synthego.