Choisir les caractères

.

.

Auteur: Frédéric Legendre (Maitre de Conférences, MNHN)
.

.

Nous proposons une comparaison entre un exemple de méthode utilisée par un scientifique dans son laboratoire du Muséum et une méthode pouvant être utilisée en classe.

AU LABO :
on choisit des caractères informatifs
EN CLASSE :
on choisit des caractères informatifs

.

.


AU LABO : on choisit des caractères informatifs

Le chercheur définit les limites de l’échantillonnage idéal nécessaire pour répondre à la problématique : quels sont les caractères qu’il faut utiliser pour maximiser les chances de pouvoir répondre efficacement à la question posée ?

Pour cela, il se réfère à la littérature pour identifier les caractères déjà utilisés par d’autres équipes de recherche sur notre groupe d’intérêt (les termites) mais aussi les caractères utilisés pour d’autres insectes. Cela permet de juger, d’évaluer l’utilité potentielle de travailler sur de nouveaux gènes par exemple.
.

Systematic biology Molecular Phylogenetics and Evolution Nature Evolution Cladistics
Petit panel de journaux scientifiques traitant, entre autres, d’études phylogénétiques
(de gauche à droite) : Systematic Biology, Molecular Phylogenetics and Evolution, Nature, Evolution et Cladistics.
.

Choix théorique des caractères

Comme pour le choix des taxons à utiliser, les études réalisées par d’autres collègues vont aider à identifier les caractères qu’il serait souhaitable d’intégrer dans la matrice. Dans le cas présent, seuls des caractères moléculaires ont été retenus mais un raisonnement similaire s’appliquerait à d’autres types de caractères (morphologiques, comportementaux, etc.).

Certains gènes sont connus pour évoluer relativement lentement chez les hexapodes alors que d’autres évoluent plus vite. En effet, la fréquence d’apparition des mutations varie en fonction des gènes. Les premiers (dits à « évolution lente ») seraient donc majoritairement informatifs pour des évènements anciens (les nœuds profonds de l’arbre), alors que les seconds (dits à « évolution rapide ») seraient essentiellement informatifs pour les évènements relativement récents (les nœuds apicaux de l’arbre). En outre, en choisissant différents types de gènes (gènes mitochondriaux, gènes nucléaires, gènes codants et non-codants), on sélectionne des portions nucléotidiques soumises à différentes pressions de sélection, avec des propriétés différentes, et on limite ainsi les risques d’obtenir un échantillon de caractères biaisé.

Pour cette étude, ont été retenus :

  • 3 gènes mitochondriaux codants (cytochrome b et sous-unités I et II de la cytochrome oxydase),
  • 2 gènes mitochondriaux non codants (petite et grande sous-unités ribosomiques, 12S et 16S)
  • 2 gènes nucléaires non codants (petite et grande sous-unités ribosomiques, 18S et 28S).

.

Obtention des caractères moléculaires

Pour obtenir des séquences nucléotidiques, il faut dans un premier temps extraire l’ADN contenu dans les noyaux cellulaires des tissus des spécimens. Différents protocoles existent suivant le matériel utilisé. En règle générale, seule une portion des individus (patte, thorax…) est utilisée pour extraire l’ADN. Dans notre cas, l’ADN a été extrait à partir du thorax d’un individu.

Soldat termite

Soldat d’une espèce de termite non identifiée de Guyane française (individu stérile) © S.Mouge - MNHN

.

Le reste de l’individu est conservé comme échantillon de référence (avec les autres spécimens provenant de la même colonie), ce qui permet d’associer un extrait d’ADN à un spécimen concret (et donc de vérifier a posteriori l'identification du spécimen) et également de pouvoir procéder ultérieurement à d’autres extractions en cas de difficultés lors de la première tentative.

Lorsque l’ADN est extrait, on réalise des PCR (Polymerase Chain Reaction) qui permettent d’amplifier des portions précises (les gènes que l’on souhaite séquencer) de l’ADN, c’est à dire d’en faire de multiples copies qui seront séquencées par la suite.

Les techniques de séquençage se sont diversifiées ces dernières années (techniques dites NGS pour Next-Generation Sequencing) mais la technique de Sanger (1977) reste une méthode fréquemment utilisée. C’est cette technique qui a été utilisée pour cette étude.

http://www.snv.jussieu.fr/vie/dossiers/sequencage/sequence.htm

thermocycleur


Pour l’intégralité du protocole, des mesures de précaution (port de gants, utilisation de matériel stérile, etc.) sont suivies afin de limiter le risque de contamination qui amènerait à séquencer l’ADN d’organismes autres que celui des termites (à commencer par notre propre ADN !).

Les séquences sont obtenues sous forme de fichiers informatiques dans un format spécifique. Pour chaque séquence, on dispose de 2 fichiers complémentaires puisque le gène visé est séquencé dans les deux sens.

Sequencher 1
Combinaison des deux fichiers de séquençage pour un même gène. La partie pleine en vert correspond à la région où les deux fichiers se chevauchent.


Ces couples de séquences sont alors associés puis on visualise la qualité des séquences. Pour cela, les chromatogrammes sont d’une grande utilité. Une séquence de bonne qualité présentera des chromatogrammes formés de pics non chevauchants et clairement définis.
Lorsque la qualité est trop faible, les séquences ne sont pas conservées.
.

Sequencher 2
Portions de séquences d’ADN de très bonne qualité (copie d’écran d’un chromatogramme) :
les pics sont clairement définis et les deux séquences donnent des résultats parfaitement congruents.

Sequencher 3
Portion de séquence de qualité médiocre (copie d’écran d’un chromatogramme) :
Les pics se chevauchent et ne sont pas clairement définis.



Les séquences de bonne qualité sont comparées à d’autres séquences stockées dans des banques de données en ligne. Couramment, on parle de « blaster une séquence », c’est à dire de la comparer aux autres séquences présentes dans la base de données. Cela permet de savoir si la séquence correspond bien, a priori, à une séquence de termites. Car en effet, il est parfois possible de constater que des séquences de très bonne qualité correspondent en fait à de l’ADN humain ou de champignon ! L’étape de Blast nous le révèle et la séquence est alors jetée.

Blast1
_Blast2
Page web obtenue lorsqu’on réalise un Blast à partir de : http://www.ncbi.nlm.nih.gov/
Des barres de couleur rouge indiquent que des séquences de composition similaire à la séquence blastée ont été trouvées dans la banque de données. Le bas de cette page web nous permet de visualiser à quels organismes appartiennent ces séquences similaires. Les premiers noms de la liste (c'est-à-dire les espèces pour lesquelles la similarité est maximale) sont des noms d’espèces de termites.
flèche ici, notre séquence correspond donc bien à une séquence de termites.

.
Enfin, les séquences sont éditées (ou nettoyées). Même pour une séquence de bonne qualité, il existe toujours quelques bases pour lesquelles il peut y avoir ambiguité sur la détermination. En regardant les chromatogrammes, il est possible ou non de résoudre ces ambiguités.
.

Sequencher 4
Edition des séquences: une ambigüité a été identifiée entre les deux séquences complémentaires. La différence de qualité entre les 2 chromatogrammes nous permet de résoudre cette ambigüité : il n’y a que 3 T (pour base azotée Thymine) consécutifs dans cette portion de séquence et non 4 comme le chromatogramme du bas pouvait le laisser penser.
.

Obtention des caractères morphologiques

Même s’ils ne servent pas dans le cadre précis de cette étude, les caractères morphologiques méritent d’être considérés en phylogénie comme tout caractère héritable.

Avant de se lancer dans une analyse morphologique, on se réfère une fois encore aux études précédemment réalisées afin d’identifier les caractères déjà utilisés en phylogénie, d’évaluer la qualité de leur définition et donc de décider s’ils seront retenus ou non pour l’étude en question.
Ensuite, on cherche à définir de nouveaux caractères. Pour cela, plusieurs spécimens par espèce sont observés afin d’évaluer la variabilité intraspécifique propre à chaque caractère. De plus, l’ensemble des espèces est observé avant de définir d’éventuels caractères afin d’identifier les régions homologues entre espèces et de se rendre compte de la diversité des états pour d’éventuels caractères. Au final, on cherche à identifier le potentiel informatif de ces caractères.

.

Etude de caractères morphologiques ou comment faire des hypothèses d’homologie ?.

Pour identifier des régions homologues et proposer des hypothèses d'homologie, on a recours à des critères d'homologie.

Les deux critères les plus couramment utilisés sont les critères de position et de caractère particulier.

  • le critère de position fait référence à la position topographique du caractère, à ses relations avec les parties voisines.
  • le critère de caractère particulier fait référence à l'identité propre du caractère, ses spécificités (Est-ce une dent ? Si oui, quelle est sa composition ? Est-ce une soie ? Si oui, quel type de soie : soie aux fonctions tactiles, olfactives...?)

.

scans morpho 1 ............  scans morpho 2

9. Mandibules d’ouvrier de Schedorhinotermes (genre de termite appartenant à la famille des Rhinotermitidae) ;

10. Mandibules d’ouvrier d’Ophiotermes (genre de termite appartenant à la famille des Termitidae) : a = dent apicale, l1-4 = 1ère, 2nde, 3ème et 4ème dents marginales de la mandibule gauche. D’après Donovan et al., 2000.

6. Tête d’ouvrier de Porotermes (genre de termite appartenant à la famille des Termopsidae) ;
7. tête d’ouvrier d’Amalotermes (genre de termite appartenant à la famille des Termitidae) : fo = fontanelle, oc = ocelle, ce = œil composé ;
8. Pattes d’ouvriers de termites. D’après Donovan et al., 2000.

.
Lorsque des caractères sont identifiés, se pose alors la question de la définition du type de caractère. Ces états peuvent être relativement faciles à distinguer les uns des autres (caractères dits discrets) comme des formes, des couleurs bien tranchées. Dans certains cas (caractères dits continus), la définition des états de caractères est plus délicate car les limites entre les différents états de caractères ne sont pas nettes ou se chevauchent. Alors, soit on a recourt à une technique dite de discrétisation des caractères, soit on analyse ces caractères avec des méthodes capables de prendre en compte des caractères continus.

.

emission phéromones
Posture d’émission de phéromones sexuels chez un termite adulte

.
Ici, seuls les caractères moléculaires et morphologiques ont été mentionnés. D’autres types de caractères peuvent cependant être intégrés dans les études phylogénétiques dans la mesure où ces caractères sont héritables et que des hypothèses d’homologie relativement précises peuvent être formulées. C’est le cas par exemple de caractères comportementaux que nous cherchons à étudier au sein de l’équipe Évolution Fonctionnelle et Systématique de l'ISYEB (« Institut Systématique, Evolution, Biodiversité »).



EN CLASSE : on choisit des caractères informatifs

.
Par rapport au groupe de spécimens choisis (chauve-souris, un homme et un pigeon), une liste plus ou moins importante de caractères peut émerger chez nos élèves :
.

Caractères Etat n°0 Etat n°1
Sacs aériens sous forme de vessie natatoire sous forme de poumons alvéolés fonctionnels
Appendices pairs sous forme de nageoires rayonnées sous forme de membres marcheurs
Constitution de la mandibule plusieurs os un seul os, le dentaire
Glandes mammaires absence présence
Ailes absence présence
Dents présence absence
Colonne vertébrale présence absence

.
Pour des besoins pédagogiques, il peut être intéressant de laisser émerger une telle liste mais l’enseignant peut aussi décider de l’imposer, pour gagner du temps.
.
Quels caractères sont informatifs pour notre exemple ?

On constate que les caractères 1, 2 et 7 ne servent à rien puisque chauve-souris, homme et pigeon possèdent tous les 3 ces caractères sous le même état. On dit que ces caractères ne sont pas informatifs au regard de la question posée.

Parmi les caractères 3, 4, 5 et 6, il n'en reste qu'un qui pourra servir à établir un regroupement : le caractère 6. En effet, il semble discriminant puisqu’il constitue une ressemblance entre l’homme et la chauve souris, qui tous deux possèdent des dents. Mais sachant que la présence de dents est déjà observée dans l’extra-groupe, on en déduit qu’il s’agit ici d’un état primitif partagé et l’absence de dents un état dérivé. On se souvient de la règle de Hennig qui consiste à ne pas établir de groupes sur la base de caractères primitifs partagés mais seulement sur la base d’un état dérivé partagé. L’état dérivé étant l’absence de dents, le caractère 6 ne fait donc que regrouper le pigeon avec lui-même.

En fait, du point de vue algorithmique, un caractère informatif est celui qui présente au moins deux états (ce qui n’est pas le cas pour le 7), chacun étant représenté au moins deux fois (ce qui n’est pas le cas des caractères 1, 2, 6).

DONC les seuls caractères 3, 4 et 5 sont informatifs.

flèche Le choix des caractères peut s’avérer être non judicieux a posteriori et cela ne nuit en rien à notre démarche pédagogique. Les chercheurs, quant à eux, limitent autant que possible l’utilisation de caractères non informatifs qui leur feraient perdre du temps inutilement.
.

.........

ATTENTION AUX CONFUSIONS

.

En terminale S, des logiciels (comme Anagène) permettent de comparer des séquences moléculaires mais il ne s’agit pas de phylogénie moléculaire. Une opinion courante est que les phylogénies moléculaires sont obligatoirement construites à partir de matrices de distances. Tout arbre "moléculaire" serait donc un phénogramme. Ceci est inexact. Les séquences de n'importe quel gène, alignées entre espèces, peuvent se comparer selon 3 grandes familles de méthodes :

  • les méthodes de parcimonie informatisés classiques (tout comme les matrices de caractères anatomiques)
  • les méthodes de distances (passant par l'étape intermédiaire de calcul d'une matrice de distance ; chaque couple de taxons donnant lieu à une distance génétique)
  • les méthodes probabilistes

De ces 3 grandes familles de méthodes, seules les méthodes de parcimonie et les méthodes probabilistes permettent de localiser les changements des caractères le long des branches de l'arbre. Elles seules donnent donc les clés de l'homologie des caractères. Les méthodes de distance fournissent un arbre qui traduit des degrés de similitude globale. Si la similitude (la ressemblance globale entre séquences) s'accumule proportionnellement à l'apparentement, alors un arbre de distances peut refléter une phylogénie. Dans le cas contraire, l'arbre de distances ne sera pas superposable à l'arbre de parcimonie.

.........





Modifié le: dimanche 20 mai 2018, 14:05