Analyses bioinformatiques
Introduction
Les innovations technologiques de ces dernières années ont permis de mettre au point des nouvelles générations de séquenceurs (Next-Generation Sequencing) capables de déchiffrer l'ADN de toutes origines (génomes complets ou partiels, ADN environnemental, etc.) tout en réduisant le temps mais aussi les coûts du séquençage.
Ces avancées rendent possible la transition vers une biologie numérique où bon nombre de questions trouvent une réponse via l'étude de l'ADN.
Désormais, le challenge réside dans la manipulation et l'analyse de très grandes quantités de données générées par les séquenceurs, appelées reads (pour mini-séquences), qui nécessitent des moyens de calculs très importants.
Après le séquencage, c'est donc les analyses bioinformatiques, c'est-à-dire l'étude in silico de l'ADN qui devient une étape incontournable.
Illustrations
Afin d'illustrer ces analyses bioinformatiques, prenons deux exemples : l'assemblage et l'annotation de génomes.
L'assemblage des reads (par chevauchement) a pour objectif de constituer les séquences les plus longues possibles (contigs et scaffolds) jusqu'à la reconstitution de la séquence initiale. L'assemblage peut être facilité si le génome d'une espèce proche a déjà été assemblé, on parle alors de mapping de génomes. Si aucun génome de référence n'existe, l'assemblage est dit "de novo". Les reads assemblés en contigs (séquences sans trou) sont orientés et ordonnés pour constituer des scaffolds. Les étapes de finition consistent à boucher tous les trous entre les scaffolds pour obtenir la séquence complète du chromosome.
L'annotation a pour finalité d'attribuer des fonctions aux séquences et nécessite la réalisation de nombreuses analyses comme :
- La prédiction de gènes : à partir des séquences assemblées, des algorithmes vont chercher à identifier les différentes régions spécifiques qui composent les gènes afin de créer une banque de gènes putatifs. La position de ces gènes sur les séquences est aussi déterminée.
- La recherche d'homologie : trouver des gènes homologues aux gènes putatifs est indispensable pour aider à identifier leur fonction ou bien leur espèce d'appartenance. La méthode communément utilisée est l'alignement des séquences. Des séquences similaires aux séquences putatives sont recherchées dans les banques de références.
- La prédiction par phylogénie : c'est une méthode qui permet de comparer l'évolution moléculaire des séquences dans le temps aux sein de différents taxons.
Allez plus loin
Au-delà de ces deux exemples, les analyses bioinformatiques que l'on peut réaliser sur DATARMOR sont nombreuses et couvrent plus de 25 thématiques différentes.
Les utilisateurs, selon leur degré de connaissance des outils de bioinformatique, peuvent mener leurs travaux via deux approches : un portail web Galaxy, d'une part, et la ligne de commande, d'autre part pour les traitements plus complexes.