Germany
May 8, 2024
Elucidating the relationship between the sequences of non-coding regulatory elements and their target genes is key to understanding gene regulation and its variation between plant species and ecotypes. Now, an international research team led by IPK Leibniz Institute and with the participation of Forschungszentrum Jülich developed deep learning models that link gene sequence data with mRNA copy number for several plant species and predicted the regulatory effect of gene sequence variation. The results were published in the journal “Nature Communications”.
Genome sequencing technology provides thousands of new plant genomes annually. In agriculture, researchers merge this genomic information with observational data (measuring various plant traits) to identify correlations between genetic variants and crop traits like seed count, resistance to fungal infections, fruit color, or flavor. However, the grasp of how genetic variation influences gene activity at the molecular level is quite limited. This gap in knowledge hinders the breeding of "smart crops" with enhanced quality and reduced negative environmental impact achieved by combination of specific gene variants of known function.
Researchers from the IPK Leibniz Institute and Forschungszentrum Jülich (FZ) have made a significant breakthrough to tackle this challenge. Led by Dr. Jedrzej Jakub Szymanski, the international research team trained interpretable deep learning models, a subset of AI algorithms, on a vast dataset of genomic information from various plant species. “These models not only were able to accurately predict gene activity from sequences but also pinpoint which sequence parts contribute to these predictions”, explains the head of IPK’s research group “Network Analysis and Modelling”. The AI technology which the researchers applied is akin to that used in computer vision, which involves recognizing facial features in images and inferring emotions.
In contrast to previous approaches based on statistical enrichment, here the researchers combined identification of sequence features with determination of the mRNA copy number in the frame of a mathematical model that has been trained accounting for biological information on gene model structure and sequence homology, thus gene evolution.
"We were truly amazed by the effectiveness. Within a few days of training, we rediscovered many known regulatory sequences and found that about 50% of the features identified were entirely new. These models excellently generalized across plant species they were not trained on, making them valuable for analyzing newly sequenced genomes”, says Dr. Jedrzej Jakub Szymanski. “And we specifically demonstrated their application in diverse tomato cultivars with long-read sequencing data. We pinpointed specific regulatory sequence variations that explained observed differences in gene activity and, consequently, variations in shape, color, and robustness. This is a remarkable improvement over classically used statistical associations of single nucleotide polymorphisms.”
The team has openly shared their models and provided a web interface for their use. "Interestingly, much effort went into degrading our model's performance. To avoid overly optimistic results due to AI finding shortcuts required from me a deep dive into gene regulation biology to eliminate any potential bias, reduce data leakage and overfitting”, says Fritz Forbang Peleke, the lead machine learning researcher and first author of the study, which was published in the journal “Nature Communications”.
Dr. Simon Zumkeller, a co-author and evolutionary biologist from FZ Jülich, remarked, “With the presented analyses we can investigate and compare gene regulation in plants and infer its evolution. For practical applications, the method provides a new foundation, too. We are approaching the routine identification of gene regulatory elements in known and newly sequenced plant genomes, in various tissues, and under different environmental conditions."
Original publication:
Peleke et al. (2024): Deep learning the cis-regulatory code for gene expression in selected model plants. Nature Communications. DOI: 10.1038/s41467-024-47744-0
KI entschlüsselt neuen Genregulationscode in Pflanzen
Die Aufklärung der Beziehung zwischen Sequenzen von regulatorischen Elementen und ihren Zielgenen ist der Schlüssel für das Verständnis der Genregulation und ihrer Variation zwischen Pflanzenarten und Ökotypen. Ein Forschungsteam unter Führung des IPK Leibniz-Instituts und mit Beteiligung des Forschungszentrums Jülich hat jetzt „Deep-Learning“-Modelle entwickelt, die Gensequenzdaten mit der mRNA-Kopienzahl für mehrere Pflanzenarten verknüpfen und die regulatorische Wirkung von Gensequenzvariationen vorhersagen. Die Ergebnisse wurden in der Zeitschrift "Nature Communications" veröffentlicht.
Mit der Sequenzierungstechnologie ist es heute möglich, jährlich Tausende neue Pflanzengenome zu entschlüsseln. Forscherinnen und Forscher verbinden diese genomischen Informationen mit Daten zu verschiedenen Pflanzenmerkmalen. Ziel ist es, Korrelationen zwischen genetischen Varianten und Pflanzenmerkmalen wie der Anzahl der Samen, der Resistenz gegen Pilzbefall, der Fruchtfarbe oder dem Geschmack zu ermitteln. Bisher fehlt allerdings das umfassende Verständnis dafür, wie genetische Variation die Genaktivität auf molekularer Ebene beeinflusst. Dies schränkt die Möglichkeiten ein, „intelligente Nutzpflanzen“ mit verbesserter Qualität und geringeren negativen Auswirkungen auf die Umwelt zu züchten.
Forschern des IPK Leibniz-Instituts und des Forschungszentrums Jülich (FZ) ist jetzt ein Durchbruch bei der Bewältigung dieser Herausforderung gelungen. Unter der Leitung von Dr. Jedrzej Jakub Szymanski trainierte das internationale Forscherteam interpretierbare „Deep-Learning“-Modelle, eine Untergruppe von KI-Algorithmen, auf einem riesigen Datensatz mit genomischen Informationen aus verschiedenen Pflanzenarten. „Diese Modelle waren nicht nur in der Lage, die Genaktivität anhand von Sequenzen genau vorherzusagen, sondern auch festzustellen, welche Sequenzteile diese Vorhersagen ermöglichen“, erklärt der Leiter der IPK-Arbeitsgruppe „Netzwerkanalyse und Modellierung“. Die von den Forschern angewandte KI-Technologie ist vergleichbar mit derjenigen, die im Bereich des Computersehens eingesetzt wird, wo es darum geht, Gesichtszüge in Bildern zu erkennen und auf Emotionen zu schließen.
Im Gegensatz zu früheren Ansätzen, die auf statistischer Anreicherung beruhen, entwickelten die Forscher hier ein mathematisches Modell, das anhand von genomischen Sequenzmerkmalen die mRNA-Kopienzahl voraussagen kann. Das Modell berücksichtigt die Struktur des Genmodells und die Sequenzhomologie, also die Genevolution.
„Wir waren wirklich erstaunt über die Effektivität. Innerhalb weniger Tage Training haben wir viele bekannte regulatorische Sequenzen wiederentdeckt und festgestellt, dass etwa 50 Prozent der identifizierten Sequenzmerkmale völlig neu waren. Die Modelle ließen sich sogar hervorragend auf Pflanzenarten anwenden, für die sie nicht trainiert wurden. Das macht sie für die Analyse neu sequenzierter Genome so wertvoll“, sagt Dr. Jedrzej Jakub Szymanski.
„Wir haben speziell ihre Anwendung für verschiedene Tomatensorten mit sogenannten ‚Long-Read-Sequenzdaten‘ getestet. Dabei konnten wir spezifische regulatorische Sequenzvariationen identifizieren, die die beobachteten Unterschiede in der Genaktivität und folglich auch der Form, Farbe und Robustheit der Pflanzen erklären. Und dies ist eine bemerkenswerte Verbesserung gegenüber den klassischen statistischen Assoziationen von Einzelnukleotid-Polymorphismen, bei denen es nur um einzelne DNA-Basen geht.“
Das Team hat seine Modelle öffentlich zugänglich gemacht und eine Webschnittstelle für die Nutzung bereitgestellt. „Um zu optimistische Ergebnisse zu vermeiden, die darauf zurückzuführen sind, dass die KI Abkürzungen findet, mussten wir tief in die Biologie der Genregulation eintauchen, um mögliche Verzerrungen zu beseitigen und Datenverluste und Überanpassungen zu reduzieren“, erläutert Fritz Forbang Peleke, leitender Forscher für maschinelles Lernen und Erstautor der Studie, die in der Zeitschrift „Nature Communications“ veröffentlicht wurde.
Dr. Simon Zumkeller, Mitautor und Evolutionsbiologe am FZ Jülich, sagt: „Die von uns vorgestellten Analyseansätze bieten Möglichkeiten, die Genregulation in Pflanzen besser und sogar auf evolutionärer Ebene zu untersuchen. Auch für die praktische Anwendung gibt es mit der von uns beschriebenen Methode eine neue Basis. Mit ihr nähern wir uns der routinemäßigen Identifizierung regulatorischer Genelemente in bekannten und neu sequenzierten Genomen, in verschiedenen Geweben und unter verschiedenen Umweltbedingungen.“
Originalpublikation
Peleke et al. (2024): Deep learning the cis-regulatory code for gene expression in selected model plants. Nature Communications. DOI: 10.1038/s41467-024-47744-0