Programmierung des Genoms mit CRISPR

Wie Wissenschaftler mithilfe von Computern Genome bearbeiten

CRISPR (ausgesprochen „knuspriger“) ist Teil eines bakteriellen Immunsystems, das entwickelt wurde, um sich an eindringende virale DNA zu erinnern und diese zu entfernen.

Sein Name ist die Abkürzung für "Clustered Regularly Interspaced Short Palindromic Repeats". Aber trotz seiner akronymischen und komplexen biologischen Herkunft ist seine technische Anwendung unkompliziert. Zu Beginn müssen Sie nur ein Protein verstehen - Cas9.

Cas9 sucht nach einer bestimmten DNA-Sequenz und schneidet sie, indem beide Stränge des DNA-Moleküls gebrochen werden. Dieses Protein ist für Forscher nützlich, da sie es so programmieren können, dass es auf jede DNA-Sequenz abzielt. Ein sgRNA-Molekül (Single-Guide-RNA) bestimmt die Sequenz, an die Cas9 bindet. RNA ist ein der DNA ähnliches biologisches Molekül, das an Proteine ​​und DNA binden kann.

sgRNAs sind kurze Sequenzen mit einer konstanten Region und einer variablen Region. Die konstante Region bindet die sgRNA an das Cas9-Protein. Die variable Region bewirkt, dass Cas9 an die dazu passende DNA-Sequenz bindet (siehe nachfolgendes Diagramm).

Das Cas9-Protein ist an die DNA gebunden, wenn sich die PAM-Sequenz am vorderen (oberen) Strang befindet. Die fette Sequenz ist die Zielsequenz, die grüne Sequenz ist die sgRNA und die drei blauen Zeichen sind die PAM. Die Dreiecke zeigen, wo Cas9 die DNA schneidet.

SgRNA herzustellen ist billig und schnell. Auf diese Weise können Forscher schnell ein Cas9-Experiment aufbauen, das eine beliebige DNA-Sequenz schneidet. Naja, eigentlich keine Sequenz. Es gibt eine kleine Einschränkung: Die Zielsequenz muss von der richtigen PAM (Protospacer-Nachbarmotiv) flankiert werden - einer kurzen DNA-Sequenz.

Streptococcus pyogenes ist eine infektiöse Bakterienart. In der von Cas9 produzierten Version ist das PAM-Motiv "NGG", wobei N ein beliebiges Nukleotid ist (die "Buchstaben", aus denen die DNA besteht).

Glücklicherweise kommt das Motiv "NGG" etwa alle 42 Basenpaare im menschlichen Genom vor. Das bedeutet, dass Forscher in der Nähe nahezu jeder interessierenden Sequenz einen Zielort finden können.

Abhängig vom Versuchsaufbau können diese Schnitte in der DNA entweder eine zufällige Änderung oder eine genaue Änderung der DNA-Sequenz verursachen (dazu später mehr).

Bevor ich mit dem Schreiben dieses Programms beginne, empfehle ich, das folgende Cas9-Diagramm zu studieren.

Das Cas9-Protein ist an eine DNA-Sequenz gebunden, wenn sich die PAM-Sequenz auf dem umgekehrten (unteren) Strang befindet.

Es ist zu beachten, dass DNA und RNA eine Richtwirkung haben, die auf ihrer chemischen Struktur basiert. Ein Ende des Moleküls wird als 5'-Ende („Five-Prime“ -Ende) und das andere als 3'-Ende („Three-Prime“ -Ende) bezeichnet. Dies ist wichtig, da die Sequenzen 5 '- AGG - 3' nicht mit 3 '- AGG - 5' identisch sind.

Üblicherweise wird angenommen, dass DNA- und RNA-Sequenzen 5 bis 3 geschrieben sind, sofern nichts anderes angegeben ist. Sequenzen, die in der 5'-3'-Richtung gelesen werden, werden als "Vorwärts" -Sequenzen bezeichnet. In die andere Richtung gelesene Sequenzen (3 '- 5') werden als "umgekehrte" Sequenzen bezeichnet. Dies ist eine willkürliche Konvention.

Das obige Diagramm zeigt ein Beispiel für die Bindung von Cas9, wenn sich die PAM auf dem umgekehrten (unteren) Strang befindet.

Ihr erstes CRISPR-Programm

Das Szenario

Ein Wissenschaftler hat eine DNA-Sequenz von Interesse und möchte eine Liste aller in der Sequenz enthaltenen CRISPR-Ziele. Jedes Ziel von Hand zu finden ist mühsam und fehleranfällig.

Der Wissenschaftler wünscht sich ein einfaches Programm, mit dem er eine DNA-Sequenz eingeben und alle möglichen Cas9-Zielstellen zurückerhalten kann. Der Wissenschaftler möchte auch die Schnittposition und die PAM-Sequenz für jede Zielstelle.

BEISPIELEINGABE (aus 1): 'CCACGGTTTCTGTAGCCCCATACTTTGGATG'
BEISPIELAUSGABE: [{
    "cut_pos": 6,
    'pam_seq': 'TGG',
    'target_seq': 'GTATGGGGCTACAGAAACCG',
    'strand': 'reverse'
  }, {
    "cut_pos": 22,
    'pam_seq': 'TGG',
    'target_seq': 'GTTTCTGTAGCCCCATACTT',
    'strand': 'forward'
  }
]

Erstens, wie finden wir CRISPR-Ziele in der Sequenz? Denken Sie daran, dass das Cas9-Protein überall dort binden kann, wo sich ein NGG-Motiv befindet.

Der erste Schritt besteht darin, die Sequenz nach Übereinstimmungen zu durchsuchen. Wenn das Programm eine NGG-Übereinstimmung findet, möchten wir drei Positionen vom Start der PAM-Site abziehen, da Cas9 dort die DNA schneidet.

Dann wollen wir die zwanzig Basenpaare vor der PAM als Zielsequenz aufzeichnen. Hört sich gut an?

Nun, der oben beschriebene Algorithmus würde tatsächlich etwa die Hälfte aller CRISPR-Stellen übersehen - weil die DNA doppelsträngig ist. Dies bedeutet, wenn ein "CCN" die Sequenz auf dem Vorwärtsstrang ist, dann ist "NGG" die Sequenz auf dem Rückwärtsstrang.

Das Programm muss auch nach "CCN" suchen, wobei eine ähnliche Logik für den Rückwärtsstrang verwendet wird.

Beispielprogramm

Nicht alle CRISPR-Ziele sind gleich

Wenn sich CRISPR zum ersten Mal durchsetzte, zogen die Forscher häufig eine Sequenz auf ihren Computer und wählten die Ziele von Hand aus. Das Entwerfen der optimalen sgRNA ist jetzt viel komplexer geworden. Nachfolgend finden Sie eine kurze Einführung in diese Komplexität.

Off-Targets

Die Forscher erkannten bald, dass Cas9 manchmal an Orten bindet und schneidet, die nicht genau zur Zielsequenz passen. Diese nicht zielgerichteten Schnitte würden zu unbeabsichtigten Änderungen im Experiment eines Forschers führen (oder möglicherweise im Fall einer Therapie zum Genom eines Patienten!).

Um einen guten Leitfaden zu entwerfen, muss ein Programm das gesamte Genom (das für den Menschen ungefähr 3 Milliarden Nukleotide beträgt) untersuchen, um einen Off-Target-Score zu berechnen. Forscher haben das Cas9-Protein kürzlich so entwickelt, dass es eine geringere Aktivität außerhalb des Ziels aufweist.

Schlagen

Wenn Cas9 bindet, wird ein Schnitt erzeugt, indem ein Doppelstrang zum DNA-Molekül gebrochen wird. Die meiste Zeit kann eine Zelle diesen Bruch über einen biochemischen Weg reparieren (der als nicht homologe Endverbindung oder NHEJ bezeichnet wird).

Dieser Weg ist nicht immer perfekt, und manchmal führt der Reparaturprozess beim Schneiden von Cas9 eine kleine Insertion oder Deletion in der DNA-Sequenz durch. In einer Protein-kodierenden DNA-Region verursachen diese kleinen Insertionen und Deletionen eine Frameshift-Mutation, die häufig die Funktion des Proteins stört.

Forscher werden oft ein Gen ausschalten, um herauszufinden, wie ein Protein eine bestimmte Zellfunktion oder einen bestimmten Phänotyp beeinflusst. Durch das Erstellen eines Knockout-Editors werden dem sgRNA-Design zusätzliche Einschränkungen auferlegt, da der Guide nun in der codierenden Region des Gens landen muss.

Bearbeitung

Anstatt ein Gen auszuschalten, gibt es viele Fälle, in denen ein Wissenschaftler eine Präzisionsbearbeitung durchführen möchte. Dies ist besonders nützlich, wenn Sie versuchen, eine Krankheit zu korrigieren, die eine Mutation verursacht. Der beste Weg, dies zu tun, wird noch erforscht. Die meisten Methoden umfassen das Hinzufügen eines zusätzlichen Donor-DNA-Stücks.

On-Target-Score

Einige sgRNA-Sequenzen bewirken, dass Cas9 besser schneidet als andere. Forscher haben die Schnitteffizienz von Tausenden von Cas9-Targets verglichen, um prädiktive Modelle für die Schnitteffizienz einer sgRNA zu erstellen.

Microsoft unterstützt sogar ein Open-Source-Repository für die auf maschinellem Lernen basierende prädiktive Modellierung der Effizienz von CRISPR / Cas9-Leitfäden.

Andere CRISPR-Cas Systeme

Forscher haben CRISPR-Cas-Systeme in anderen Bakterien entdeckt. Diese anderen Systeme haben unterschiedliche PAMs.

Schlussnoten

Hoffe du hast etwas Neues gelernt! Wenn Sie mehr über die Biologie, die medizinischen Anwendungen, die kommerziellen Anwendungen oder die ethischen Implikationen der CRISPR-Cas-Genomtechnik erfahren möchten, dann empfehle ich, A Crack in Creation von Jennifer Doudna und Samuel Sternberg zu lesen. Jennifer Doudna ist eine der Originalentdeckungen von CRISPR.

Über den Autor

Zuvor war ich Bachelor-Forscher im Gersbach Lab der Duke University und bin derzeit Software-Ingenieur bei einem Synthego.