PyPEF - Ein integriertes Framework für datengetriebenes Protein Engineering

27.07.2021
  Niklas Siedhoff und Alexander Illig Urheberrecht: © Bio VI Niklas (l.) und Alexander (r.)

Gratulation an Niklas Siedhoff und Alexander Illig zu ihrer neuen Veröffentlichung!

In Niklas und Alexanders neuer Publikation wird ein neu entwickeltes Software-Framework, "PyPEF" (Pythonic Protein Engineering Framework), beschrieben, das zur Unterstützung von Protein-Evolutions-Kampagnen durch Screening von Varianten in silico eingesetzt werden kann. Protein-Engineering ist von entscheidender Bedeutung, um die gewünschte Funktion von Proteinen außerhalb ihrer in vivo-Bedingungen zu verbessern, aber die erschöpfende Identifizierung von potenziell vorteilhaften Substitutionspositionen und die Kombination mehrerer identifizierter Positionen schränkt die Effizienz des Protein-Engineerings weiterhin ein. Neben etablierten zufälligen oder semi-rationalen Protein-Engineering-Ansätzen können prädiktive in silico-Methoden den experimentellen Screening-Aufwand für das Identifizieren verbesserter Varianten minimieren.

Aus diesem Grund wurde PyPEF als Selektionswerkzeug entwickelt, um experimentell identifizierte Substitutionen zu rekombinieren oder Varianten aus dem unbekannten Sequenzraum zu identifizieren. Das Framework wurde in Python 3 geschrieben und umfasst fünf Hauptschritte, darunter Dateneingabe, Kodierung, Parameterabstimmung, Modellvalidierung sowie optionales Training auf allen Daten (siehe Abbildung). Hierbei demonstrierte PyPEF die Fähigkeit, Modelle dank einer parallelisierten Modellvalidierungsroutine effizient zu trainieren und die vordefinierten, rekombinanten oder zufällig abgetasteten Sequenzraumtrajektorien mit einem systemabhängigen Durchsatz von etwa einer Million Varianten im Zeitrahmen von mehreren Minuten auf einem PC zu durchmustern. Darüber hinaus zeigte PyPEF hohe Genauigkeiten für vier öffentliche Protein-Engineering-Datensätze, wobei das Lernen auf niedrigeren Substitutionsvarianten die Vorhersage von Modellleistungen auf höheren Substitutionsvarianten ermöglichte. Hierdurch konnte die Durchführung eines datengesteuerten, gerichteten Evolutionsansatzes imitiert werden. Damit bewies PyPEF die Fähigkeit, Protein-Evolutions-Kampagnen effizient zu unterstützen und vorteilhafte Varianten in silico zu identifizieren und maßzuschneidern.

Diese Arbeit wurde in der Abteilung Computational Biology durchgeführt und wurde durch Rechenressourcen unterstützt, die von JARA-HPC der RWTH Aachen University gewährt wurden (Projekt JARA0169). Diese Arbeit wurde aus Mitteln des Bundesministeriums für Bildung und Forschung (BMBF) gefördert (FKZ: 01DJ20014).

PyPEF wurde in Python 3 geschrieben und für die Nutzung mittels Kommandozeile konzipiert. Der Quellcode wird in GitHub gewartet und ist unter der Lizenz CC BY-NC-SA 4.0 frei verfügbar unter https://github.com/Protein-Engineering-Framework/PyPEF.

Um mehr zu erfahren, rufen Sie bitte die vollständige Arbeit unter Publikationen und Patente auf.

Niklas E. Siedhoff, Alexander-Maurice Illig, Ulrich Schwaneberg und Mehdi D. Davari, PyPEF - An Integrated Framework for Data-Driven Protein Engineering J. Chem. Inf. Model. 2021, 61, 7, 3463-3476. https://doi.org/10.1021/acs.jcim.1c00099

  Workflow von PyPEF. Urheberrecht: © Bio VI/JCIM

Abbildung Software-Workflow von PyPEF. Alle Eingabedaten (grau; Sequenzen und entsprechende Fitness) werden in Lern- (orange) und Validierungsdaten (blau) aufgeteilt. Für den Prozess des Modelltrainings und der Parameterabstimmung werden die Lerndaten um „one“ (leave-one-out cross-validation, LOOCV) oder „one-fold“ (k-fold CV; hellorange) reduziert.