Im Jahr 2014 erschien im Fachjournal „Science“ ein Artikel über den Stammbaum der Vögel, in dem Algorithmen und Supercomputer eine wichtige Rolle für die evolutionsbiologische Forschung für alle Arten von Lebewesen zukam. Ein Jahrzehnt und einen gewaltigen Sprung in der Entwicklung von digitalen Werkzeugen später haben Forschende, die damals die Computeranalysen koordinierten, eine weitere Studie über die Komplexität der Evolution der Vögel mitverfasst, die jetzt in „Nature“ erschienen ist.
Phylogenetische Beziehungen sind der Schlüssel zum Verständnis der Evolution der Arten. In der Regel werden diese Verwandtschaftsbeziehungen durch den Vergleich von Ähnlichkeiten in der DNA oder anatomischen Merkmalen ermittelt. Ein internationales Forscherteam des „Bird 10,000 Genomes Project“ (B10K) hat nun die Genome von 363 Vogelarten mit Hilfe der Regionen zwischen ihren Genen und einer Fülle von Berechnungsmethoden analysiert. Das Ergebnis ist ein von der Datenbasis her gut gesicherter Stammbaum, der allerdings auch ein erstaunliches Maß an Unstimmigkeiten aufweist. Für diese Ergebnisse sind große Datenmengen erforderlich, um Diskrepanzen zu beseitigen, die durch die Vielfalt der untersuchten Arten, die verwendete phylogenetische Methode und die Auswahl der Genomregionen verursacht werden können. Einige der wichtigsten Werkzeuge für die Verarbeitung dieser Daten wurden vom Team der Computational Molecular Evolution Gruppe (CME) am Heidelberger Institut für Theoretische Studien (HITS) entwickelt, gemeinsam mit Forschenden der Biodiversity Computing Group (BCG) am Institute of Computer Science (ICS) der Foundation for Research and Technology Hellas (FORTH), Heraklion, Griechenland, die beide unter der Leitung von Alexandros Stamatakis stehen.
Evolutionsbiologische Forschung ermöglichen
„Anhand der neuen Berechnungsmethoden konnten wir über 150.000 lokale Phylogenien über das gesamte Genom hinweg rekonstruieren, von denen jede ein kleines Fenster in die Evolutionsgeschichte der Vögel öffnet“, sagt Josefin Stiller (University of Kopenhagen, Dänemark), eine der Hauptautorinnen der Studie und ehemalige Besucherin der CME-Gruppe am HITS. „Unsere Hauptaufgabe besteht darin, die Forschung in der Evolutionsbiologie durch Software, Algorithmen und Modellentwicklung zu ermöglichen“, sagt CME-Gruppenleiter Alexandros Stamatakis, der auch einen von der EU geförderten „ERA Chair“ bei FORTH innehat.
„Die Software ParGenes zum Beispiel, die für den Artikel von zentraler Bedeutung ist, kann die Berechnung einer riesigen Anzahl phylogenetischer Bäume auf verschiedenen Eingabedatensätzen aus unterschiedlichen Genomregionen auf einem großen Computer-Cluster effizient planen. Dies ist klassische Grundlageninformatik, da sie sich auf die effiziente Planung von Aufgaben konzentriert.“ ParGenes basiert auf RAxML-NG, dem Flaggschiff-Software-Tool der CME-Gruppe zur phylogenetischen Analyse, und auf Modeltest-NG, einem Werkzeug zur Auswahl des am besten geeigneten statistischen Evolutionsmodells für einen bestimmten Datensatz. Das „NG“ in den beiden Namen steht für „Next Generation“ und bezeichnet eine Reihe bestehender Tools, hauptsächlich der eigenen, welche seit 2014 komplett überarbeitet und neu geschrieben wurden, um sie besser wartbar, vielseitiger und skalierbarer zu machen. Besonders RAxML-NG ist sehr flexibel: Es kann nahtlos vom Laptop bis zum Supercomputer skalieren. Für die neue Studie wurde es als eigenständiges Tool verwendet, um einen Baum aus dem Datensatz mit den gesamten Genomen auf einem Supercomputer zu berechnen.
Vorhersagen mit “Pythia”: Maschinelles Lernen hilft bei der Stammbaum-Analyse
„Relativ spät wurde in die Studie noch die „Pythia“-Schwierigkeitsvorhersage eingearbeitet, die von Julia Haag, einer Doktorandin meiner Gruppe, entwickelt wurde. Anhand eines Eingabedatensatzes wird mit Techniken des maschinellen Lernens vorhergesagt, wie schwierig eine phylogenetische Schlussfolgerung aus diesem Datensatz sein wird, das heißt, wie viel Signal für einen einzelnen Baum in den Daten vorhanden ist“, sagt Stamatakis. „Da sich unser „Nature“-Paper stark auf die Bewertung des phylogenetischen und evolutionären Signals in verschiedenen Genomregionen des Vogelgenoms konzentriert, war dies eine sehr nützliche Ergänzung der Studie, da wir jetzt auch phylogenetische Schwierigkeitsscores für unterschiedliche Genomregionen liefern können.“
Ein vielseitiges und flexibles Werkzeug für Forschende
Die Werkzeuge der CME-Gruppe, die in dieser Arbeit verwendet werden, sind alle Open Source und werden extrem häufig zitiert. Insbesondere das RAxML-NG-Tool ermöglicht regelmäßig Forschung in verschiedenen Disziplinen der Biowissenschaften. Während der Pandemie wurde RAxML-NG zum Beispiel verwendet, um zu analysieren, wie sich die verschiedenen Virusstämme entwickelt haben. „Im Rahmen unserer Arbeit in Heidelberg und Heraklion stellen wir unseren Kollegen ein grundlegendes Instrumentarium zur Verfügung, das sie in die Lage versetzt, ihre Wissenschaft zu betreiben“, sagt Alexandros Stamatakis. „Ich persönlich empfinde das als sehr befriedigend.“
Publikation:
Stiller J et al: Complexity of avian evolution revealed by family-level genomes. Nature (advance online publication), 1 April 2024, DOI: 10.1038/s41586-024-07323-1 https://www.nature.com/articles/s41586-024-07323-1
Wissenschaftlicher Kontakt:
Prof. Dr. Alexandros Stamatakis
Gruppenleiter CME, HITS, und BCG, FORTH.
Medienkontakt:
Dr. Peter Saueressig
Head of Communications, HITS
Über das HITS
Das HITS (Heidelberger Institut für Theoretische Studien) wurde 2010 von dem Physiker und SAP-Mitbegründer Klaus Tschira (1940-2015) und der Klaus Tschira Stiftung als privates, gemeinnütziges Forschungsinstitut gegründet. Es betreibt Grundlagenforschung in den Naturwissenschaften, der Mathematik und der Informatik. Zu den Hauptforschungsrichtungen zählen komplexe Simulationen auf verschiedenen Skalen, Datenwissenschaft und -analyse sowie die Entwicklung rechnergestützter Tools für die Forschung. Die Anwendungsfelder reichen von der Molekularbiologie bis zur Astrophysik. Ein wesentliches Merkmal des Instituts ist die Interdisziplinarität, die in zahlreichen gruppen- und disziplinübergreifenden Projekten umgesetzt wird. Die Grundfinanzierung des HITS wird von der Klaus Tschira Stiftung bereitgestellt.