Bienvenue sur EveryBodyWiki ! Créez un compte ou connectez vous pour participer, améliorer ou créer un article, une biographie (la vôtre ?), une page entreprise...


Enfilage

De EverybodyWiki Bios & Wiki

Demander une suppression de contenu


Demander une suppression de contenu Une protéine est une structure très fine transversalement mais très longue. Cette structure est le plus souvent repliée sur elle-même pour occuper un espace minimum. L'enveloppe définie par cette structure n'est pas régulière, les interactions des divers champs font que certaines portions de la molécules seront cachées alors que d'autres resteront disponibles pour interagir avec d'autres molécules. cette forme lui confère des propriétés biologiques additionelles. Modéliser une protéine, consiste donc en grande partie à essayer de retrouver cette forme 3D. Un élément déterminant de la forme consiste dans ses coudes, c'est à dire les endoits où la molécule se replie dans une autre direction.

Si on veut inventer une nouvelle protéine, on va sans doute d'abord la définir à partir de ses acides aminés, cependant cela ne suffit pas, son activité biologique est largement définie par sa forme qui est aussi importante que sa composition biochimique. Mais comment connaître sa forme s'il s'agit d'une protéine qui n'existe pas dans la nature? On peut pensr que cette protéine aura une forme similaire à celle qu'aura une protéine dont la compostion en acide aminés serait proche.c'est ce que l'on appelle la modélisation de structure par homologie. Cependant il y a des cas de figures où les variations de directions sont rapides et où la méthode de modélsation par homologie donne de mauvais résultats: Les coudes. Il faut donc repérer ces coudes dans des protéines existantes pour pouvoir les prédires dans des protéines nouvellement inventées. Cette méthode peut aussi servir à prédire une forme de la sructure uniquement à partir de la prédiction des coudes. On va alors assembler chaque segment issue de la prédiction à ses voisins. Ils sont donc placés en enfilade les uns par rapport aux autres.

L'enfilage ou insertion de protéine, également connue sous le nom de reconnaissance de coudes de repliement, est un procédé de modélisation utilisé pour modéliser par analogie, les protéines qui ont les mêmes repliements que des protéines de structures connues, mais qui n'ont pas de protéines homologues de structure connue. Il diffère de la méthode de modélisation de structure par homologie car il est utilisé pour les protéines qui n'ont pas la structure de leurs protéines homologues déposées dans la banque de données protéiques (PDB), alors que la modélisation par homologie est justement utilisée pour les protéines qui ont des protéines homologues déposées dans PDB, et dont on connaît la structure.

La prédiction est faite en « alignant ou en enfilant » chaque acide aminé dans la séquence cible à une position dans une structure servant de gabarit et en évaluant à quel degré le gabarit ainsi « décoré » devient similaire à la séquence cible. Cette opération est répétée sur différents gabarits et finalement on choisit le gabarit qui permet de générer une structure la plus proche possible de celle de la séquence cible. L'enfilage des protéines est basé sur deux observations fondamentales: le nombre de coudes de repliement différents dans la nature est assez faible (environ 1300), et 90 % des nouvelles structures soumises à PDB au cours des trois dernières années présentent des coudes de repliement structurels semblables à ceux déjà contenus dans PDB.

Classification structurale des protéines[modifier]

La base de données de la classification structurale des protéines (SCOP) fournit une description détaillée et complète des relations structurelles et évolutives de la structure connue. Les protéines sont classées de manière à refléter à la fois la structure et l'évolution. De nombreux niveaux existent dans la hiérarchie, mais les principaux niveaux sont la famille, la superfamille et le pli, comme décrit ci-dessous.

Famille (relation évolutive évidente)[modifier]

Les protéines regroupées en familles sont clairement liées par l'évolution. En général, cela signifie que les similitudes de résidus par paires entre les protéines sont de 30 % et plus. Cependant, dans certains cas, des fonctions et des structures similaires fournissent des preuves définitives de la descendance commune en l'absence d'identité de séquence élevée. Par exemple, de nombreuses globines forment une famille bien que certains membres aient des identités de séquence de seulement 15 %.

Superfamille (origine évolutionnaire commune probable)[modifier]

Les protéines qui ont une faible identité de séquence, mais dont les caractéristiques structurelles et fonctionnelles suggèrent qu'une origine évolutive commune est probable, sont placées ensemble dans des superfamilles. Par exemple, l'actine, le domaine ATPase de la protéine de choc thermique et l'hexakinase forment ensemble une superfamille.

Pli (ressemblance structurelle majeure)[modifier]

Les protéines sont définies comme ayant un pli (coude) commun si elles ont les mêmes structures secondaires majeures dans le même arrangement et avec les mêmes connexions topologiques. Différentes protéines avec le même pli ont souvent des éléments périphériques de structure secondaire et des régions de coude qui diffèrent en taille et en conformation. Dans certains cas, ces régions périphériques différentes peuvent couvrir la moitié de la structure. Les protéines placées dans la même catégorie de coudes de repliement peuvent ne pas avoir une origine évolutive commune: les similitudes structurelles pourraient provenir uniquement de la physique et de la chimie des protéines favorisant certains arrangements d'emballage et la topologie de chaîne.

Méthode[modifier]

Un paradigme général d'insertion de protéine se compose des quatre étapes suivantes :

  • La construction d'une base de données de modèles de structure: Il faut sélectionner des structures de protéines à partir des bases de données de structures de protéines. On va utiliser ces structures de protéines comme modèles structuraux. Cela implique généralement de sélectionner des structures de protéines dans des bases de données telles que PDB, FSSP, SCOP ou CATH, après avoir éliminé les protéines qui présentent des similitudes de séquence élevées car cela introduirait un biais dans la modélisation.
  • La conception de la fonction de notation: Il faut concevoir une fonction de notation qui va mesurer l'adéquation entre les séquences cibles et les modèles qui sont générés en « décorant » les gabarits, en fonction de la connaissance des relations connues entre les structures et les séquences. Une bonne fonction de notation doit contenir le potentiel de mutation, le potentiel de conditionnement physique de l'environnement, le potentiel d’appairage, les compatibilités de structure secondaire et les pénalités d'écart. La qualité de la fonction d'énergie est étroitement liée à la précision de prédiction, en particulier la précision d'alignement.
  • Alignement de l'alignement: Il faut aligner la séquence cible avec chacun des modèles de structure en optimisant le résultat fournit par la fonction de notation. Cette étape est l'une des tâches principales de tous les programmes de prédiction de structure basés sur l’insertion de protéine qui tiennent compte du potentiel de contact par appairage. Sinon, un algorithme de programmation dynamique suffit.
  • Prédiction d'insertion de protéine: Il faut sélectionner l'alignement des insertions de protéine qui est statistiquement le plus probable. Ensuite, il faut construire un modèle de structure pour la cible en plaçant les atomes d’armature de la séquence cible à leurs positions d’armature alignées pour le modèle de structure sélectionné.

Comparaison avec la modélisation par homologie[modifier]

La modélisation par homologie et insertion des protéines sont des méthodes à base de modèles et il n'y a pas de limite rigoureuse entre elles en termes de techniques de prédiction. Mais les structures protéiques de leurs cibles sont différentes. La modélisation par homologie ne sera possible que pour les cibles qui ont des protéines homologues de structure connue, tandis que l’insertion de protéines n’est possible que pour les cibles avec seulement l'homologie de coudes de repliement trouvé. En d'autres termes, la modélisation par homologie est destinée à des cibles «plus faciles» et l’insertion des protéines est destinée à des cibles «plus difficiles».

La modélisation par homologie traite le modèle dans un alignement en tant que séquence, et seule l'homologie de séquence est utilisée pour la prédiction. L'enfilage de protéines traite le gabarit dans un alignement en tant que structure, et les informations de séquence et de structure extraites de l'alignement sont utilisées pour la prédiction. Lorsqu'il n'y a pas d'homologie significative trouvée, l'enfilage de protéine peut faire une prédiction basée sur l'information de structure. Cela explique également pourquoi l'insertion de protéine peut être plus efficace que la modélisation homologie dans de nombreux cas.

En pratique, lorsque l'identité de séquence dans un alignement de séquences de séquences est faible (c'est-à-dire <25 %), la modélisation par homologie peut ne pas produire une prédiction significative. Dans ce cas, s'il existe une homologie lointaine pour la cible, l'enfilage de la protéine peut générer une bonne prédiction[Quoi ?].

D’autres informations à propos de l’insertion de protéines[modifier]

Les méthodes de reconnaissance des coudes de repliement peuvent être largement divisées en deux types: ceux qui dérivent un profil 1-D pour chaque structure dans la bibliothèque de coudes de repliement et alignent la séquence cible sur ces profils, et ceux qui considèrent la structure 3-D complète du modèle de protéine. Un exemple simple d'une représentation de profil serait de prendre chaque acide aminé dans la structure et de l'étiqueter simplement selon qu'il est enterré dans le noyau de la protéine ou exposé à la surface. Des profils plus élaborés peuvent prendre en compte la structure secondaire locale (par exemple si l'acide aminé fait partie d'une hélice alpha) ou même des informations évolutives (comment conserver l'acide aminé). Dans la représentation tridimensionnelle, la structure est modélisée sous la forme d'un ensemble de distances interatomiques, c'est-à-dire que les distances sont calculées entre une partie ou la totalité des paires d'atomes dans la structure. Il s'agit d'une description beaucoup plus riche et beaucoup plus souple de la structure, mais beaucoup plus difficile à utiliser pour calculer un alignement. L'approche fondée sur le profil de reconnaissance de pli a été décrite pour la première fois par Bowie, Lüthy et Eisenberg en 1991.[1] Le terme «enfilage» a d'abord été inventé par Jones, Taylor et Thornton en 1992 [2], et il était initialement fait référence spécifiquement à l'utilisation d'une structure 3-D complète représentation atomique du modèle de protéine dans la reconnaissance de pli. Aujourd'hui, les termes insertion et fold recognition sont fréquemment (quoique quelque peu incorrectement) utilisés de façon interchangeable.

Les méthodes de reconnaissance des coudes de repliement sont largement utilisées et efficaces car on pense qu'il existe un nombre strictement limité de coudes de repliement protéiques différents dans la nature, principalement en raison de l'évolution, mais aussi en raison des contraintes imposées par la physique et la chimie fondamentales des chaînes polypeptidiques. Il existe donc une bonne chance (actuellement de 70 à 80 %) qu'une protéine qui a un pli semblable à la protéine cible a déjà été étudiée par cristallographie aux rayons X ou spectroscopie par résonance magnétique nucléaire (RMN) et peut être trouvée dans la PDB. Actuellement, il y a près de 1300 coudes de repliement protéiques différents connus, mais de nouveaux coudes de repliement sont encore découverts chaque année en raison en grande partie des projets de génomique structurelle en cours.

De nombreux algorithmes différents ont été proposés pour trouver l'insertion correcte d'une séquence sur une structure, bien que beaucoup utilisent la programmation dynamique sous ur l'enfilage 3-D complet, le problème de l'identification du meilleur alignement est très difficile (c'est un NP-dur problème pour certains modèles de enfilage). [La citation nécessaire] Les chercheurs ont fait l'utilisation de nombreuses méthodes combinatoires d'optimisation telles que les champs aléatoires conditionnels, le recuit simulé, la ramification et la programmation linéaire et non linéaire, ou encore la recherche de solutions heuristiques. Il est intéressant de comparer les méthodes d'insertion aux méthodes qui tentent d'aligner deux structures de protéines (alignement structurel des protéines), et plusieurs des algorithmes utilisés spécifiquement pour une de ces approches ont été appliqués aux deux problèmes.

Logiciel d'insertion de protéines[modifier]

  • HHpred est un serveur de threading très répandu qui exécute HHsearch, un logiciel largement utilisé pour la détection d'homologie à distance, basé sur une comparaison par paire de modèles de Markov cachés.
  • RAPTOR (logiciel) est un logiciel de filetage de protéines basé sur la programmation par nombres entiers. Il a été remplacé par un nouveau programme de threading de protéines, RaptorX / logiciel de modélisation et d'analyse de protéines, qui utilise des modèles graphiques probabilistes et une inférence statistique pour les threads de protéines à matrice unique et multi-matrice.[3],[4],[5],[6] RaptorX surpasse de manière significative RAPTOR et est particulièrement doué pour l’alignement de protéines avec un profil de séquence clairsemé. Le serveur RaptorX est gratuit pour le public.

Phyre est un serveur de threading populaire associant HHsearch à une modélisation ab initio et à modèles multiples.

  • MUSTER est un algorithme de threading standard basé sur la programmation dynamique et l'alignement de profil de séquence. Il combine également plusieurs ressources structurelles pour faciliter l'alignement du profil de séquence[7].
  • SPARKS X est une correspondance probabiliste séquence-structure structurelle entre les propriétés structurelles prédictives unidimensionnelles de la requête et les propriétés natives correspondantes des modèles[8].

BioShell est un algorithme de threading utilisant un algorithme de programmation dynamique optimisé de profil à profil combiné à une structure secondaire prédite[9].

Références[modifier]

  1. (en) J. Bowie, R Luthy et D Eisenberg, « A method to identify protein sequences that fold into a known three-dimensional structure », Science, vol. 253, no 5016,‎ , p. 164–170 (ISSN 0036-8075 et 1095-9203, DOI 10.1126/science.1853201, lire en ligne, consulté le 9 juin 2019)
  2. (en) D. T. Jones, W. R. Taylort et J. M. Thornton, « A new approach to protein fold recognition », Nature, vol. 358, no 6381,‎ , p. 86–89 (ISSN 0028-0836 et 1476-4687, DOI 10.1038/358086a0, lire en ligne, consulté le 9 juin 2019)
  3. (en) Jian Peng et Jinbo Xu, « Raptorx: Exploiting structure information for protein alignment by statistical inference », Proteins: Structure, Function, and Bioinformatics, vol. 79, no S10,‎ , p. 161–171 (DOI 10.1002/prot.23175, lire en ligne, consulté le 9 juin 2019)
  4. (en) J. Peng et J. Xu, « Low-homology protein threading », Bioinformatics, vol. 26, no 12,‎ , i294–i300 (ISSN 1367-4803 et 1460-2059, PMID 20529920, PMCID PMC2881377, DOI 10.1093/bioinformatics/btq192, lire en ligne, consulté le 9 juin 2019)
  5. (en) Jian Peng et Jinbo Xu, « A multiple-template approach to protein threading », Proteins: Structure, Function, and Bioinformatics, vol. 79, no 6,‎ , p. 1930–1939 (DOI 10.1002/prot.23016, lire en ligne, consulté le 9 juin 2019)
  6. (en) Jianzhu Ma, Jian Peng, Sheng Wang et Jinbo Xu, « A conditional neural fields model for protein threading », Bioinformatics, vol. 28, no 12,‎ , i59–i66 (ISSN 1460-2059 et 1367-4803, PMID 22689779, PMCID PMC3371845, DOI 10.1093/bioinformatics/bts213, lire en ligne, consulté le 9 juin 2019)
  7. (en) Sitao Wu et Yang Zhang, « MUSTER: Improving protein sequence profile-profile alignments by using multiple sources of structure information », Proteins: Structure, Function, and Bioinformatics, vol. 72, no 2,‎ , p. 547–556 (DOI 10.1002/prot.21945, lire en ligne, consulté le 9 juin 2019)
  8. (en) Y. Yang, E. Faraggi, H. Zhao et Y. Zhou, « Improving protein fold recognition and template-based modeling by employing probabilistic-based matching between predicted one-dimensional structural properties of query and corresponding native properties of templates », Bioinformatics, vol. 27, no 15,‎ , p. 2076–2082 (ISSN 1367-4803 et 1460-2059, PMID 21666270, PMCID PMC3137224, DOI 10.1093/bioinformatics/btr350, lire en ligne, consulté le 9 juin 2019)
  9. (en) D. Gront, M. Blaszczyk, P. Wojciechowski et A. Kolinski, « BioShell Threader: protein homology detection based on sequence profiles and secondary structure profiles », Nucleic Acids Research, vol. 40, no W1,‎ , W257–W262 (ISSN 0305-1048 et 1362-4962, PMID 22693216, PMCID PMC3394251, DOI 10.1093/nar/gks555, lire en ligne, consulté le 9 juin 2019)

D'autres lectures[modifier]

  • (en) AV Finkelstein et BA Reva, « A search for the most stable folds of protein chains », Nature, vol. 351, no 6326,‎ , p. 497–9 (PMID 2046752, DOI 10.1038/351497a0)
  • (en) Lathrop RH, « The protein insertion problem with sequence amino acid interaction preferences is NP-complete », Protein Eng, vol. 7, no 9,‎ , p. 1059–1068 (PMID 7831276, DOI 10.1093/protein/7.9.1059)
  • (en) D. T. Jones et C. Hadley, Bioinformatics: Sequence, structure and databanks, Heidelberg, Springer-Verlag, , 1–13 p., « insertion methods for protein structure prediction »
  • (en) J. Xu, M. Li, D. Kim et Y. Xu, « RAPTOR: Optimal Protein insertion by Linear Programming, the inaugural issue », J Bioinform Comput Biol, vol. 1, no 1,‎ , p. 95–117 (PMID 15290783, DOI 10.1142/S0219720003000186)
  • (en) J. Xu, M. Li, G. Lin, D. Kim et Y. Xu, « Protein insertion by linear programming », Pac Symp Biocomput,‎ , p. 264–275 (PMID 12603034)

Erreur Lua dans Module:Catégorisation_badges à la ligne 170 : attempt to index field 'wikibase' (a nil value).Erreur Lua dans Module:Suivi_des_biographies à la ligne 189 : attempt to index field 'wikibase' (a nil value).


Autres articles du thème Biologie cellulaire et moléculaire biologie cellulaire et moléculaire : Bessa Vugo, Maximilien Rouer, Abionyx Pharma, Abraham Kupfer, Fondation Monsanto, Réseaux d’interaction protéine, RNase T1


Cet Article wiki "Enfilage" est issu de Wikipedia. La liste de ses auteurs peut être visible dans ses historiques et/ou la page Edithistory:Enfilage.


Les cookies nous aident à fournir nos services. En utilisant nos services, vous acceptez notre utilisation des cookies.