Künstlerische Darstellung von Viren
Feydzhet Shabanov – stock.adobe.com
Feydzhet Shabanov – stock.adobe.com
Computeranalyse

Mutationen folgen „sprachlichen“ Regeln

Mutationen können Viren ansteckender oder gefährlicher machen. Könnte man solche Veränderungen im Erbgut vorhersagen, wäre man einen Schritt voraus. Eine Methode aus der Spracherkennung soll nun dabei helfen. Denn der genetische Bauplan gehorcht laut Forschern bestimmten Regeln – diese „Grammatik“ müsse erhalten bleiben, auch wenn sich einzelne Teile ändern.

Viren mutieren immer. D.h., es kommt laufend zu kleinen Veränderungen im Erbgut. Bei manchen passiert das relativ häufig, etwa bei Influenza-Viren; andere mutieren eher langsam, wie auch Sars-CoV-2. Viele Mutationen sind völlig harmlos, einzelne können Viren aber einen entscheidenden Vorteil verschaffen, etwa indem sie dadurch infektiöser werden – wie das allem Anschein nach bei der aus Großbritannien stammende CoV-Variante B.1.1.7 passiert ist: Eine Mutation im sogenannten Spike-Protein sorgt dafür, dass das Virus leichter in die Zellen des Wirtes gelangen kann. Aus jetziger Sicht ist das Virus „nur“ ansteckender, nicht gefährlicher. Aber auch das wäre theoretisch möglich. Und viele Viren können dem Immunsystem und seinen Antikörpern durch ihre Wandlungsfähigkeit wiederholt entkommen. Das gilt unter anderem für Grippeviren oder HIV. Daran scheitert auch die Entwicklung einer dauerhaften Impfung.

Mutationen vorhersagen

Mutationen folgen zwar keinem bestimmten Plan, sondern passieren durch kleine Abschreibfehler, wenn Viren in Zellen eindringen. Aber womöglich gibt es doch eine gewisse Systematik hinter den Veränderungen. Das legt eine soeben im Fachblatt „Science“ veröffentlichte Arbeit nahe.

In dieser präsentieren Forscherinnen und Forscher des Massachusetts Institute of Technology ein neues Computermodell, das abschätzen soll, welche Stellen im Erbgut eher mutieren müssten, damit ein Virus dem Immunsystem entkommt. Umgekehrt lassen sich aber auch jene Abschnitte aufspüren, die sich seltener ändern und daher ein guter Angriffspunkt für neue Impfstoffe sein könnten, heißt es in einer Aussendung zur Studie.

Analogie zur Sprache

Die zugrundeliegende Idee klingt etwas ungewöhnlich. Und sie zeigt, wie ähnlich völlig unterschiedliche Bereiche bzw. deren natürlichen Gesetzmäßigkeiten sein können. Wenn ein Virus sich so verändert, dass es zwar infektiös bleibt – also sich weiterhin vermehren kann -, aber für das Immunsystem eines Menschen nicht mehr erkennbar ist, sei das ähnlich wie ein Satz, der grammatikalisch korrekt bleibt, auch wenn sich ein Wort und damit seine Bedeutung ändert, so die Grundannahme.

Basierend auf dieser Analogie verwendete das Team um Bonnie Berger kurzerhand ein Computermodell aus der natürliche Sprachverarbeitung. Zuerst wird ein solches Programm mit ganz vielen Daten gefüttert, mit Sätzen und Texten. So lernt es, bestimmte sprachliche Muster und Regelmäßigkeiten zu erkennen, etwa mit welcher Häufigkeit manche Wörter gemeinsam auftauchen. Das Modell kann z.B. vorhersagen, welche Wörter verwendet werden können, um folgenden Satz zu vervollständigen: „Sabina aß Eier zum…“ Korrekt wäre in dem Fall z.B. „Frühstück“. Allgemein ausgedrückt erkennt es, mit welcher Wahrscheinlichkeit bestimmte sprachliche Elemente in einem bestimmten Kontext auftauchen.

Maschinelles Lernen

Statt mit Sätzen fütterten die Forscher ein solches selbstlernendes Sprachverarbeitungssystem nun mit genetischen Sequenzen von Viren – damit es jene Mutationen findet, bei denen zwar einzelne neue Eigenschaften auftauchen, die biologischen Gesetzmäßigkeiten der Proteinstrukturen aber erhalten bleiben. Für dieses Training brauche man lediglich die genetischen Informationen, das mache das Verfahren besonders unkompliziert, so die Autoren, und es reicht schon eine recht kleine Datenmenge. Im Rahmen der Studie waren es 60.000 HIV-Sequenzen, 45.000 Influenza-Sequenzen und 4.000 CoV-Sequenzen.

Wie Erstautor Brian Hie in der Aussendung betont, sind diese Programme enorm leistungsstark: „Allein aus der Anordnung erschließen sie sich Funktionen.“ Ohne zusätzliche Vorgaben lerne das Modell aus den Daten selbstständig einiges über Struktur und Verteilung der Aminosäuren.

Nach dem Training verwendete das Team das Programm, um die Wahrscheinlichkeit für Mutationen bei ein paar Proteinen vorherzusagen: dem Spike-Protein von Sars-CoV-2, dem Influenza A-Protein Hämagglutinin und dem Protein Gp120 (HIV). Alle drei befinden sich auf der Oberfläche ihrer Viren, binden an Wirtszellen und Antikörper – und sind daher auch Angriffspunkte für Behandlungen.

Wo Mutationen wahrscheinlich sind

Die ungewöhnliche Methode hat erstaunlich treffsicher funktioniert. Unter anderem habe sie bei Hämagglutinin einen Abschnitt identifiziert, wo Mutationen höchst unwahrscheinlich sind, schreiben die Forscher. Das passe gut zu Studien, wonach Antikörper, die auf diesen Bereich abzielen, einen beinahe universellen Schutz vor Grippeviren bieten; die allermeisten Infizierten bzw. Geimpften entwickeln übrigens keine derartigen Abwehrkräfte.

Beim Protein der HI-Viren fand das Programm einen Bereich mit sehr hoher Wahrscheinlichkeit für aus Virensicht nützliche Mutationen – auch das decke sich mit früheren Erkenntnissen. Beim Spike-Protein wurde unter anderem eine Sequenz entdeckt, wo Mutationen nicht sehr wahrscheinlich sind – dort könnten laut den Studienautoren Impfungen oder Behandlungen gegen Covid-19 ansetzen. Man fand aber auch zwei sehr „mutierfreudige“ Bereiche. Mit der Methode untersucht das Team nun auch die neuen CoV-Varianten, etwa um jene Abschnitte im Erbgut zu finden, in denen Mutationen die Wirksamkeit der neuen Impfstoffe schwächen könnten.