Ensemble-Clustering - neue Wahl für die nahe native Proteinstruktur

Das als "Mondlandungsplan" im Bereich der Biowissenschaften (Human Genome Project) bekannte Sequenzierungsprojekt wurde im Wesentlichen 2005 abgeschlossen. Diese Arbeit bot den Menschen die Grundlage, um die Geheimnisse der Organismen zu verstehen, gleichzeitig aber auch Es wurde festgestellt, dass biologische Funktionen nicht vollständig aus der Perspektive von Gensequenzen erklärt werden können, die die Tür zur "Post-Genom-Ära" öffneten.

Als Produkt der Genexpression stützen sich viele Studien in der modernen Biologie auf die räumliche Struktur von Proteinen, sind jedoch auf die Geschwindigkeit und die Kosten experimenteller Methoden zur Bestimmung der Proteinstruktur beschränkt. Der Algorithmus für die Vorhersage der Proteinstruktur ist der bevorzugte Ansatz. Bislang wurden viele Algorithmen zur Vorhersage von Proteinstrukturen vorgeschlagen, aber es ist immer noch eine offene Frage, wie aus einer großen Anzahl von Kandidatenstrukturen die nächstliegende natürliche Zustandsstruktur ausgewählt werden kann.

Der von Zhang Yang et al. Vorgeschlagene I-TASSER-Proteinstrukturvorhersage-Algorithmus zählt zu den besten in mehreren Sitzungen des ASPS-Wettbewerbs. Es verwendet einen dynamischen Schwellenwert-basierten Clustering-Algorithmus SPICKER. Eine kürzlich im Journal of Quantitative Biology veröffentlichte Studie schlägt eine neue Clustering-Methode vor - das Ensemble-Clustering.

Bei der Proteinvorhersage wird in der Regel eine heuristische Methode verwendet, um den gesamten Konstellationsraum mit einiger Sicherheit als Einschränkung zu durchsuchen, z. Diese Einschränkungen sind jedoch nicht ausreichend zuverlässig, schwer genau oder empirisch zu berechnen und erzeugen somit eine große Anzahl von Kandidatenstrukturen. Die Experimente von Shortle et al. Demonstration der Gültigkeit von Clustering, das dem natürlichen Zustand näher liegt als andere Kandidatenstrukturen.

Herkömmliche Clusterer versuchen, eine genauere Partition zu finden, und verwenden dann das zentrale Modell oder das Durchschnittsmodell des optimalen Clusters als Endergebnis. Die Durchschnittsmodellstrategie wird in SPICKER verwendet, obwohl das Durchschnittsmodell den Durchschnittsfehler der Ergebnisse reduzieren kann, neigt es zu unregelmäßigen Strukturen. Die Verwendung von gierigen Strategien kann auch zu weit entfernten Ergebnissen führen, die weiter von den besten Clustern entfernt sind. Dies kann einer der Gründe für ihre schlechte Leistung in schlecht vorhersagbaren Datensätzen sein.

In dieser Studie schlägt der Autor eine Methode vor, die auf einem integrierten Clustering basiert, um sich direkt auf die Auswahl potenzieller repräsentativer Strukturen in Kandidatenstrukturen durch horizontales Auswählen verschiedener Clustering zu konzentrieren. Darüber hinaus definiert der Längsschnitt dieser repräsentativen Strukturen unter Berücksichtigung der Größe und Dichte der repräsentativen Cluster den Konfidenzwert, und die repräsentative Struktur mit dem höchsten Wert ist das Endergebnis.

Verglichen mit der SPICKER-Methode zeigen die vorläufigen experimentellen Ergebnisse, dass die in den folgenden Fällen vorgeschlagene integrierte Clustering-Methode zu einem besseren Ergebnismodell führen kann und dass es keinen signifikanten Unterschied zur optimalen Struktur in der Kandidatenstruktur gibt.