Les intéines : des introns protéiques

Plan du cours

Contenu du cours

Transparents

Polycopié

Bibliographie

J'ai créé ce cours, destiné à des étudiants de licence de biologie cellulaire et physiologie de l'Université de Picardie-Jules Verne d'Amiens, au sein du module de biologie moléculaire, en février 2002. Il n'a pas été remis à jour depuis.

Plan du cours  :
  I- Découverte
 II- Définition d’une intéine
III- Structure des intéines
IV- Mécanismes d’épissage
1- Mécanisme "classique"
2- Mécanisme alternatif
3- Trans-épissage
V- "Homing" : mobilité génique
1- Mécanisme
2- Les endonucléases de "homing"
VI- Applications technologiques et thérapeutiques
1- Les intéines : des outils pour la recherche
2- Un espoir thérapeutique
VII- Intéines, introns catalytiques et évolution
1- Les protéines Hedgehog
2- Processus évolutif

Contenu du cours  :
Transparent 1 : Plan du cours
I - Découverte
1 - La découverte des intéines (1990) : le gène TFP1 de Saccharomyces cerevisiae
Transparent 2.1 : le gène TFP1 de Saccharomyces cerevisiae
le gène TFP1 de la levure Saccharomyces cerevisiae code la sous-unité catalytique de l'ATPase vacuolaire
la protéine a une taille de 69 kDa
or, la région codante présente dans l'ADN et l'ARNm de TFP1 correspond à une taille protéique de 119 kDa
comparaison avec le gène de l'ATPase vacuolaire d'autres organismes
=> la région codante de TFP1 de S. cerevisiae est interrompue par 454 codons de séquence sans aucun rapport
la délétion de ces codons non-apparentés permet l'obtention d'une protéine de 69 kDa fonctionnelle
il ne s'agit pas d'un épissage de l'ARNm
l'expression du gène TFP1 dans une bactérie aboutit à l'obtention  d'une protéine de 119 kDa non-fonctionnelle
en fait, la protéine traduite comprend une séquence intercalaire (de 50 kDa), qui est épissée peu de temps après la traduction, de façon à produire une protéine de 69 kDa fonctionnelle

2 - Le gène pol de Pyrococcus
Transparent 2.2 : le gène pol de Pyrococcus
Pyrococcus est une bactérie thermophile extrême (elle vit à une température supérieure à 95°C)
dans le gène codant son ADN polymérase, découverte d'une séquence supplémentaire au niveau de la région codante, similaire à celle du gène TFP1 de S. cerevisiae
cette séquence a été appelée intéine pour "internal protein" (protéine interne)
les séquences codantes du gène ont été nommées N-extéine et C-extéine ("external protein")
une expérience a été réalisée afin de comprendre comment est épissée l'intéine :
constuction d'une protéine de fusion :
   une protéine N-terminale - l'intéine de Pyrococcus - une protéine C-terminale
cette protéine de fusion a été synthétisée dans la bactérie Escherichia coli (croissance à 37°C), puis purifiée
=> isolement de la protéine précurseur non épissée (car la température n'était pas adéquate)
in vitro, à une température élevée, sans ajout d'autre protéine ni de co-facteur, la protéine de fusion est épissée
=> auto-épissage de l'intéine (l'intéine est capable de s'épisser elle-même des extéines)
pendant la réaction de clivage, observation d'un intermédiaire branché, pourvu de deux extrémités N-terminales (celle de la N-extéine et celle de l'intéine)
ce mécanisme rappelle l'épissage des introns catalytiques de groupe I :
- auto-épissage (toute l'information nécessaire à l'épissage est contenue dans l'intron)
- intermédiaire de branchement (lasso)

II - Définition d'une intéine
Transparent 3 : définition des intéines

1 - Définition
intéine = segment interne d'une protéine, retiré post-traductionnellement par un processus d'épissage, suivi de la ligation des deux fragments externes (les extéines) par une véritable liaison peptidique

Transparent 4 : l'épissage protéique s'effectue post-traductionnellement

l'intéine correspond à un intron protéique

Transparent 5 : comparaison de l'épissage des protéines et des ARN

le mécanisme d'excision de l'intéine, suivi de la ligation des extéines, est nommé épissage protéique
la ligation des extéines différencie l'épissage protéique de l'auto-protéolyse effectuée par certaines protéines

les intéines possèdent des motifs de séquence particuliers, qui les distinguent de simples variations de séquence entre deux allèles ou entre deux protéines homologues d'organismes différents

quatre critères permettent de définir une intéine :
- insertion en phase, dans la région codante d'un gène, dont un gène homologue est dépourvu
- la taille de la protéine mature est similaire à celle des homologues dépourvus d'intéine, mais inférieure à la taille prédite d'après la région codante du gène
- présence de blocs conservés de séquence
- présence de résidus conservés au niveau des jonctions d'épissage
2 - Distribution
à ce jour, 130 intéines ont été identifiées d'après ces critères
mais, il en existe seulement 12 pour lesquelles l'auto-catalyse de l'épissage a été démontrée
(mis à part une exception, lorsque l'on a recherché à démontrer l'auto-épissage, cela s'est avéré exact)

des intéines ont été identifiées dans presque tous les règnes de la vie :
- archaebactéries
- eubactéries
- eucaryotes inférieurs (algues, levure), dans le noyau et les organites
- virus d'eucaryotes supérieurs
- bactériophages
il n'y a que chez les eucaryotes supérieurs qu'aucune intéine n'a été identifiée

les intéines sont généralement localisées dans des gènes essentiels à la vie de l'organisme
principalement, dans des gènes codant des protéines du métabolisme de l'ADN
(ADN polymérase, hélicase, gyrase, recombinase, ribonucléotide réductase)
parfois, dans des gènes codant des protéines du métabolisme énergétique

le plus souvent, il n'y a qu'une seule intéine par protéine
chez les Archaebactéries, on connait des gènes possédant deux, voire trois, intéines

dans la protéine hôte, l'intéine est située au niveau de régions importantes pour l'activité de la protéine : site actif, poche de fixation du substrat, poche de fixation du co-facteur

III - Structure des intéines
1 - Deux groupes d'intéines : intéines et mini-intéines
Transparent 6.1 : intéines et mini-intéines

une intéine est composée de trois domaines :
- une région d'épissage N-terminale (100 résidus)
- le domaine endonucléase (intéine) ou un espaceur (mini-intéine)
- une région d'épissage C-terminale (< 50 résidus)
l'endonucléase permet la mobilité génique de l'intéine (voir chapitre V), mais ne participe pas au mécanisme d'épissage protéique

les deux régions d'épissage forment un domaine fonctionnel unique, au niveau de la structure tri-dimensionnelle de l'intéine

intéine : 75 % des intéines
            présence d'un domaine endonucléase
            300-600 résidus

mini-intéine : 25 % des intéines
                    absence du domaine endonucléase
                    130-200 résidus

2 - Les motifs conservés des intéines
Transparent 6.1 : intéines et mini-intéines

les intéines présentent plusieurs motifs de séquence conservés :
- motifs A et B     dans la région d'épissage N-terminale
- motifs F et G     dans la région d'épissage C-terminale
- motifs N2 et N4 (nettement moins conservés) dans la région d'épissage N-terminale
- motifs C, D, E et H des endonucléases (dans le cas des intéines à endonucléases)

3 - Les résidus conservés des intéines
Transparent 6.2 : motifs conservés

les séquences des jonctions d'épissage des intéines sont similaires entre-elles

convention de numérotation :
intéine        de 1 à x        de N-ter vers C-ter
N-extéine    de -1 à -x    en s'éloignant de l'intéine (C-ter vers N-ter)
C-extéine    de +1 à +x    en s'éloignant de l'intéine (N-ter vers C-ter)
le premier résidu de l'intéine est presque toujours une cystéine (parfois, une sérine ou une alanine)
les deux derniers résidus de l'intéine sont généralement histidine-asparagine (parfois, histidine-glutamine)
le premier résidu de la C-extéine (résidu +1) est une cystéine, une sérine ou une thréonine

à l'intérieur de l'intéine, quelques autres résidus sont également conservés
exemple : une histidine et une thréonine dans le motif B

cf : représentation en logos de séquences
elle est réalisée à partir d'alignements multiples
la taille de la lettre correspond à la fréquence d'apparition du résidu
elle permet de clairement distinguer les positions ayant des résidus conservés

4 - Les régions nécessaires à la catalyse de l'épissage
excepté le résidu +1 de la C-extéine, toutes les régions nécessaires à la catalyse sont détenues par l'intéine

les résidus conservés sont ceux participant à la catalyse

les régions minimales de l'intéine pour l'auto-épissage sont :
- les 100 premiers résidus N-terminaux environ (de l'extrémité N-terminale au bloc B)
- moins de 50 résidus C-terminaux (les blocs F et G)
- le résidu +1 de la C-extéine
les domaines supplémentaires éventuels des régions d'épissage ont deux rôles possibles :
- servir d'espaceurs, afin que l'intéine puisse se replier et adopter une structure correcte
(flexibilité pour mettre en contact les différentes zones participant à la catalyse)
- servir de signature, pour que la ligation se fasse avec le bon partenaire
(surtout dans le cas du trans-épissage)

IV - Mécanismes d'épissage
1 - Mécanisme "classique"
il ne s'agit pas du clivage des deux liaisons peptidiques reliant l'intéine aux extéines, puis de la création d'une nouvelle liaison peptidique, mais d'un réarrangement séquentiel des liaisons chimiques sans perte de liaison peptidique

l'épissage protéique s'effectue en quatre étapes
les trois premières étapes sont catalysées par l'intéine, tandis que la dernière s'effectue spontanément

* résidus impliqués
Transparent 6.2 : motifs conservés
les principaux résidus impliqués dans la catalyse sont  des résidus nucléophiles
cf : nucléophile = ion ou molécule chargé négativement, et donc susceptible de donner une paire d'électrons à un autre atome
ici, il s'agit des résidus cystéine, sérine et thréonine-asparagine
les résidus C, S et T possèdent un groupement thiol (SH) ou hydroxyle (OH), permettant une attaque nucléophile
=> les trois premières étapes sont des attaques par des résidus nucléophiles

l'asparagine (ou la glutamine) est un résidu ayant une forte propension au réarrangement spontané
=> la dernière étape est un réarrangement spontané

des résidus capables de former des liaisons hydrogène assistent les réactions effectuées par les nucléophiles

Transparent 7.1 : mécanisme classique

* première étape : transformation de la liaison peptidique N-terminale en ester
- la jonction d'épissage N-terminale est activée par un réarrangement acyl N-O de la sérine N-terminale (ou N-S dans le cas d'une cystéine N-terminale)
- la N-extéine est de ce fait déplacée vers la chaîne latérale de la sérine
- une liaison ester se forme entre entre la N-extéine et l'intéine

cette première étape permet donc la formation de l'intermédiaire linéaire ester (ou thio-ester dans le cas de la cystéine)
il s'agit d'une attaque nucléophile de la liaison peptidique par la chaîne latérale du premier résidu de l'intéine

cette réaction est assistée par des résidus des blocs B et G


* deuxième étape : trans-estérification
la trans-estérification est le changement de l'ester en un autre ester

- la liaison ester (ou thio-ester) amont est attaquée par le groupement hydroxyle (ou thiol) du résidu +1 de l'extéine avale (S, T ou C)
- cette attaque conduit au clivage de la liaison ester de la jonction d'épissage N-terminale
- la N-extéine est transférée vers la chaîne latérale du résidu +1 de la C-extéine

cette seconde étape permet la formation de l'intermédiaire branché
la molécule a donc deux extrémités N-terminales, celle de l'intéine et celle de la N-extéine

l'intéine et la N-extéine sont toutes deux liées au résidu +1 de la C-extéine par :
- une liaison peptidique entre l'intéine et la C-extéine
- une liaison ester (ou thio-ester) entre la N-extéine et la C-extéine


* troisième étape : cyclisation de l'asparagine
- l'asparagine située à l'extrémité C-terminale de l'intéine se cyclise
=> formation d'un cycle succinimide
- ceci entraîne la clivage de la jonction d'épissage C-terminale
=> - libération de l'intéine
     - la N-extéine et la C-extéine sont toujours liées par une liaison ester

cette réaction est assistée par l'avant-dernière histidine de l'intéine



* quatrième étape : transition O-N
- la liaison ester (ou thio-ester) entre les deux extéines se réarrange spontanément en liaison peptidique
c'est une transition O-N (ou O-S)
- au niveau de l'intéine épissée, le cycle succinimide C-terminal se réarrange spontanément en asparagine ou isoasparagine

* cas de la présence d'une glutamine C-terminale
Transparent 7.2 : formation d'un cycle succinimide (Asn) ou glutarimide (Gln), par déamidation
certaines intéines ont une glutamine (Q) C-terminale à la place de l'asparagine
comme l'asparagine, la glutamine est capable de se cycliser par déamidation, pour former un cycle glutarimide
le mécanisme d'épissage est donc le même

2 - Mécanisme alternatif
certaines intéines ont une alanine en position N-terminale (Ala1), au lieu d'une sérine ou thréonine
elles ne peuvent donc pas effectuer la première réaction de l'épissage protéique (réarrangement acyl N-O ou N-S)

cependant, elles sont capables de s'épisser par un mécanisme alternatif


Transparent 7.3
: le mécanisme alternatif des intéines à Ala 1 N-terminale
* mécanisme alternatif des intéines à Ala1
le nucléophile +1 de la C-extéine (cystéine, sérine ou thréonine) attaque la liaison peptidique de la jonction d'épissage N-terminale
=> formation de l'intermédiaire branché

cf : dans le mécanisme classique, c'est dans la seconde étape que le résidu +1 attaque la liaison ester de la jonction d'épissage N-teminale
=> dans le mécanisme alternatif, ces deux étapes sont réalisées en une seule

le reste du mécanisme est identique


* pourquoi est-ce-que toutes les intéines n'utilisent-elles pas ce mécanisme, qui semble plus simple ?
la première étape du mécanisme classique (formation de l'intermédiaire ester) doit être nécessaire pour induire un changement conformationnel permettant l'attaque nucléophile par le résidu +1 de la C-extéine
(ce résidu est trop éloigné pour attaquer directement la liaison peptidique)

dans les intéines à Ala1, le résidu +1 est déjà en position pour attaquer la jonction d'épissage N-ter
(des différences de séquence de l'intéine lui permettent d'adopter une conformation adéquate)

 3 - Trans-épissage
Transparent 7.4 : le trans-épissage des intéines

* le mécanisme de trans-épissage des intéines est similaire à celui des introns
les deux fragments de l'intéine sont codés dans des régions séparées du génôme
la transcription et la traduction de chaque fragment sont séparées
après la traduction, les deux fragments de l'intéine s'associent et se replient
l'épissage protéique a alors lieu par un mécanisme classique
=> protéine hôte + intéine
* actuellement, une seule intéine épissée en trans a été identifiée
par contre, de nombreuses intéines épissant en trans ont été construites pour des applications technologiques ou thérapeutiques


V - "Homing" : mobilité génique
Le homing, ou mobilité génique, est le transfert d'une intéine d'un allèle à un allèle homologue dépourvu de l'intéine (même gène hôte).
C'est un mécanisme particulier de transposition.
Le phénomène et le mécanisme de mobilté génique des intéines sont similaires à ceux se produisant pour certains introns catalytiques.


1 - Mécanisme

    Transparent 8.1 : la mobilté génique

* Un gène dépourvu d'une intéine se retrouve dans la même cellule qu'un gène homologue dépourvu d'intéine.
circonstances : - méïose
                            - infection virale, bactérienne ou par un bactériophage
                      - conjugaison bactérienne
                      - transformation
                      - ...
   
* Il y a transcription et traduction du gène portant l'intéine, puis épissage protéique.
=> libération de la protéine hôte et de l'intéine

* La majorité des intéines possèdent un domaine endonucléase.
L'endonucléase ne participe pas à l'épissage protéique, mais est responsable du homing.

* L'endonucléase reconnait l'ADN- cible (même position dans le gène homologue que dans le gène hôte).
Elle effectue alors un clivage double-brin de l'ADN au niveau, ou à proximité, du site d'insertion de l'intéine.

* Cette cassure double-brin induit l'intervention d'un système de réparation des cassures de l'ADN par recombinaison homologue.
La seule copie du gène restant pour servir de matrice pour la réparation est le gène comprenant l'intéine.
=> réparation du gène clivé en utilisant le gène porteur de l'intéine comme matrice
=> duplication de l'intéine, qui est ainsi intégrée dans un nouveau gène

* une intéine ne peut être intégrée qu'à une position dépourvue de l'intéine
car la présence de l'intéine interrompt la séquence reconnue par l'endonucléase
(=> plus de reconnaissance)

* l'intéine est donc un élément génétique mobile
elle tire partie des mécanismes de réparation de l'ADN de l'hôte pour se propager
elle est de ce fait un élément parasite
elle est capable de s'auto-épisser, et n'est donc pas néfaste pour l'organisme-hôte


2 - Les endonucléases de "homing"
 Transparent 8.2 : les endonucléases de "homing"
* Les endonucléases responsables du homing sont communes aux intéines et aux introns catalytiques mobiles.

* Comme les enzymes de restriction, elles reconnaissent spécifiquement une séquence de l'ADN et y effectuent des clivages double-brin.
mais : - les sites de reconnaissance de l'ADN sont de grande taille (12-40 pb)
=> très grande spécificité (le site de reconnaissance n'est présent qu'une ou deux fois dans un génome, de sorte que cela ne perturbe pas le génome de l'organisme hôte)
        - les sites sont asymétriques
        - il existe une tolérance vis-à-vis d'un changement de base
=> cela leur permet de s'intégrer dans un gène homologue d'un autre organisme, malgré l'existence de petites différences de séquence

* Les régions d'épissage de l'intéine n'interviennent pas dans la mobilité
tout comme le domaine endonucléase n'intervient  pas dans l'épissage

* En plus du domaine endonucléase, certaines intéines ont un domaine supplémentaire de liaison à l'ADN.
=> affinité plus grande pour l'ADN

* 4 familles d'endonucléases :
    elles sont communes aux introns catalytiques et aux intéines
    elles sont définies selon des motifs de séquence conservés
    il s'agit des endonucléases LAGLIDADG, HNH, GIY-YIG et His-Cys
    pour l'instant, seules des endonucléases LAGLIDADG et HNH ont été identifiées dans des     intéines

    les quatre familles d'endonucléases existent chez les introns catalytiques
    la majorité des endonucléases des intéines sont de la famille LAGLIDADG
  • les endonucléases LAGLIDADG
Transparent 8.3 : les endonucléases LAGLIDADG (1)
Transparent 8.4 : les endonucléases LAGLIDADG (2)

elles sont également appelées endonucléases DOD, pour dodécapeptide, car elles contiennent une séquence de 12 résidus conservés, dont le motif LAGLIDADG
les endonucléases des intéines ont toujours deux motifs LAGLIDADG, distants de 80-150 résidus, de sorte que cette enzyme, qui est active sous forme de monomère, adopte une structure pseudo-dimérique
    domaine I : extrémités N et C terminales de l'intéine
                     19 feuillets beta et 2 hélices alpha
    domaine II : 2 motifs abbabba
                      symétrique
4 motifs conservés : C, D, E et H
C et E correspondent aux motifs LAGLIDADG
les deux domaines LAGLIDADG  interagissent pour former le site actif de l'endonucléase
ces domaines assurent également la fixation d'un ion Mg2+, qui est le co-facteur de la réaction de clivage de l'ADN
les endonucléases LAGLIDADG se fixent spécifiquement à une séquence d'une trentaine de nucléotides de l'ADN
les régions d'épissage participeraient légèrement à la fixation de l'ADN (contacts non-spécifiques de faible affinité)
une des caractéristiques des endonucléases LAGLIDADG est que leur fixation induit une forte torsion de la double-hélice d'ADN (de 60° à 90°), qui facilite le clivage
cette liaison permet d'une part d'accommoder l'ADN à la forme de la protéine (d'où un meilleur contact), et d'autre part de positionner les liaisons nucléotidiques qui seront clivées au niveau du site actif de l'endonucléase
le clivage de l'ADN s'effectue au niveau du site d'insertion de l'intéine

  • les endonucléases HNH
motif Histidine-Asparagine-Histidine (H-N-H)
elles comportent une séquence conservée d'une trentaine de résidus, dont le motif HNH
elles forment ainsi un domaine en doigts de zinc, permettant la liaison à l'ADN
(comme les facteurs de transcription à doigts de zinc)

  • les endonucléases GIY-YIG
ce sont des protéines de petite taille
elles comportent un motif :
        Glycine-Isoleucine-Tyrosine-(10-11 résidus)-Tyrosine-Isoleucine-Glycine

        G-I-Y-(X)10-11-Y-I-G
elles reconnaissent une séquence de l'ADN de grande taille (> 30 pb)
le site de clivage de l'ADN est éloigné du site d'insertion de l'intéine

  • les endonucléases His-Cys
elles sont caractérisées par une série d'histidines et cystéines, comprise dans une région centrale d'environ 100 acides aminés

* Comme les endonucléases de homing sont présentes à l'intérieur d'une autre protéine (ce sont des protéines intercalaires), l'intéine, il y a des contraintes au niveau de la longueur de leur région codante (qui doit être de petite taille), ce qui limite leur stucture tridimensionnelle.


VI - Applications technologiques et thérapeutiques






Transparents  :
 1 - Plan
 2 - Découverte des intéines
2.1 - Le gène TFP1 de Saccharomyces cerevisiae
2.2 - Le gène pol de Pyrococcus
 3 - Définition des intéines
 4 - L'épissage protéique s'effectue post-traductionnellement
 5 - Comparaison de l'épissage des protéines et des ARN
 6 - La structure des intéines
6.1 - Intéines et mini-intéines
6.2 - Motifs conservés
 7 - Les mécanismes d'épissage
7.1 - Le mécanisme classique
7.2 - La formation d'un cycle succinimide (Asn) ou glutarimide (Gln), par déamidation
7.3 - Le mécanisme alternatif des intéines à Ala 1 N-terminale
7.4 - Le trans-épissage des intéines
 8 - Le "homing" : mobilité génique
8.1 - La mobilité génique
8.2 - Les endonucléases de "homing"
8.3 - Les endonucléases LAGLIDADG (1)
8.4 - Les endonucléases LAGLIDADG (2)
  9 - Les intéines : des outils pour la recherche
10 - Les intéines comme outils de biochimie et de biologie moléculaire
10.1 - La ligation protéique par trans-épissage
10.2 - La purification de protéines par étiquette d'affinité auto-clivable
10.3 - Criblage et visualisation d'interactions protéiques in vivo
11 - Applications thérapeutiques
11.1 - La thérapie mitochondriale (1)
11.2 - La thérapie mitochondriale (2)
12 - Les protéines Hedgehog
12.1 - Les protéines Hedgehog (Hh)
12.2 - Le mécanisme d'auto-protéolyse d'Hedgehog
12.3 - Le module HINT : l'ancêtre commun de Hedgehog et des intéines
13 - Processus évolutif
14 - Distribution des intéines parmi les génomes complètement séquencés
15 - Distributions phylogénétique et génique des intéines et introns

Polycopié  :


Bibliographie :
  • InBase : le site dédié aux intéines de New England Biolabs
  • un fichier compressé (18,9 Mo), à télécharger, comprenant 42 articles scientifiques (de 1995 à 2002) sur les intéines




accueil


accueil  



Vous êtes le ème visiteur de mon site web !

mise à jour le 27 août 2004