Die digitale Infrastruktur „Serratus“ ermöglicht Forschenden, öffentliche Sequenzdatenbanken effektiv nach biologischen Viren zu durchsuchen. Bislang konnten damit über 130.000 neue RNA-Viren identifiziert werden – von Corona-Viren über Verwandte des Hepatitis-D-Virus bis zu Bakteriophagen. Das internationale Team hinter dem Projekt, an dem auch Forschende des Heidelberger Instituts für Theoretische Studien und des Max-Planck-Instituts für Biologie beteiligt sind, berichtet über die Ergebnisse im Fachjournal „Nature.“
Die Vielfalt der Viren auf unserem Planeten ist sprichwörtlich unfassbar, denn die Wissenschaft kennt bislang nur einen Bruchteil der existierenden Viren. Welch verheerende Folgen neu auftretende Viruserkrankungen für die Menschheit haben, hat die derzeitige SARS-CoV2-Pandemie gezeigt. Daher ist es wichtig, die Diversität der global vorkommenden Viren mit Mitteln der Informatik zu katalogisieren und für die Wissenschaft nutzbar zu machen.
Zufallsfunde im Regenwald
Öffentliche Sequenzdatenbanken sind zu einem riesigen Speicher für genetische Daten geworden, den Forschende aus aller Welt befüllen. Diese Daten stammen von biologischen Forschungsgruppen, die Sequenzdaten erzeugen, sei es zur Untersuchung des Bodenmikrobioms des Amazonas-Regenwaldes oder zur Erforschung der Ausbreitung von Krankheiten wie dem SARS-CoV-2-Virus. In der Regel werden bei solchen Studien genetische Sequenzdaten nicht nur von dem Organismus gewonnen, der untersucht werden sollte, sondern auch von anderen Organismen, deren DNA zufällig in der Probe enthalten ist. Solche zufälligen Daten können für andere Forschende besonders interessant sein, da diese Daten nicht im Mittelpunkt der ursprünglichen Studie stehen und daher in der Regel ignoriert werden. Sie sind aber dennoch in den öffentlichen Datenbanken hinterlegt.
Eine Infrastruktur für effiziente Suche
Diesen verborgenen Schatz zu heben bedeutet, dass die Forschenden in ungeheuer großen und verteilten Datenmengen suchen müssten. Denn in den frei zugänglichen öffentlichen Datenbanken liegen Sequenzdaten in der Größenordnung von Petabytes (d.h. Millionen von Gigabytes). Die Forschenden im internationalen Serratus-Projekt haben hierfür eine Cloud-basierte Infrastruktur entwickelt. Serratus ist eine open source Cloud-Computing-Infrastruktur, die den Sequenzabgleich im Petabyte-Maßstab ermöglicht.
„Unsere Infrastruktur ermöglicht eine effiziente Suche im Sequence Read Archive, einem der beliebtesten öffentlichen Sequenzspeicher“, erläutert Pierre Barbera, der als Mitglied der Computational Molecular Evolution Gruppe am Heidelberger Institut für Theoretische Studien (HITS) Ko-Autor der Studie war. Er erstellte Software zur Berechnung und Analyse der phylogenetischen Stammbäume aller untersuchten Spezies. Am Projekt beteiligt sind auch Forschende am Max-Planck-Institut für Biologie in Tübingen. Sie brachten ihre Biocomputing-Software „DIAMOND“ in das Projekt ein, die wie eine Internet-Suchmaschine in wenigen Stunden Übereinstimmungen von Proteinbausteinen sequenzierter Lebewesen auflistet. Bis vor kurzem war für solche Berechnungen selbst mit Hochleistungsrechnern und dem bisherigen Goldstandard BLAST noch ein Zeitraum von Monaten notwendig. Die erweiterte Version „DIAMOND v2“ wird in Zusammenarbeit mit der Max Planck Computing and Data Facility in Garching entwickelt.
Zahl der neu entdeckten Viren verzehnfacht
Mit den entwickelten Werkzeugen konnten die Forscher über 130.000 neue RNA-Viren identifizieren, was eine Verzehnfachung der bekannten Virenspezies bedeutet. Darunter befanden sich bisher unbekannte Mitglieder der Coronavirus-Familie, die eng mit dem SARS-CoV-2-Virus verwandt sind, sowie neuartige Viren, die mit dem Hepatitis-D-Virus verwandt sind, und neuartige Bakteriophagen, d. h. Viren, die speziell gegen Bakterien gerichtet sind.
Neben den beiden deutschen Teams waren Forschende vom Institut Pasteur (Paris, Frankreich), der Universität St. Petersburg (Russland), der Universität Valencia, der University of British Columbia (Kanada) und der UC Berkeley (USA) an der Studie beteiligt. Erstautor ist der Bioinformatiker Artem Babaian (University of Cambridge, Großbritannien).
Die Ergebnisse wurden jetzt im Fachjournal „Nature“ veröffentlicht. Die Daten aus dem Projekt sind öffentlich zugänglich und finden sich auch auf der Website www.serratus.io, so dass Forschende jederzeit darauf zugreifen und sie weiter untersuchen können.
Edgar, R.C., Taylor, J., Lin, V. et al. Petabase-scale sequence alignment catalyses viral discovery. Nature, 26 January 2022.
DOI: 10.1038/s41586-021-04332-2 / https://www.nature.com/articles/s41586-021-04332-2
Wissenschaftlicher Kontakt:
Dr. Pierre Barbera
Heidelberger Institut für Theoretische Studien (HITS)
pierre.barbera@h-its.org
Medienkontakt:
Dr. Peter Saueressig
Head of Communications
Heidelberger Institut für Theoretische Studien (HITS)
Phone: +49-6221-533-245
peter.saueressig@h-its.org
Über das HITS
Das Heidelberger Institut für Theoretische Studien (HITS) wurde 2010 von dem Physiker und SAP-Mitgründer Klaus Tschira (1940-2015) und der Klaus Tschira Stiftung als private, gemeinnützige Forschungseinrichtung ins Leben gerufen. Das HITS betreibt Grundlagenforschung in den Naturwissenschaften, der Mathematik und der Informatik. Dabei werden große, komplexe Datenmengen verarbeitet, strukturiert und analysiert und computergestützte Methoden und Software entwickelt. Die Forschungsfelder reichen von der Molekularbiologie bis zur Astrophysik. Die HITS Stiftung, eine Tochter der Klaus Tschira Stiftung, stellt die Grundfinanzierung der HITS gGmbH auf Dauer sicher. Die Mittel dafür erhält sie von der Klaus Tschira Stiftung. Gesellschafter des HITS sind neben der HITS Stiftung die Universität Heidelberg und das Karlsruher Institut für Technologie (KIT). Das HITS arbeitet außerdem mit weiteren Universitäten und Forschungsinstituten sowie mit industriellen Partnern zusammen. Die wichtigsten externen Mittelgeber sind das Bundesministerium für Bildung und Forschung (BMBF), die Deutsche Forschungsgemeinschaft (DFG) und die Europäische Union.