2) Stratégie d'étude structurale de PRODH
humaine par RMN
La RMN est une méthode de choix pour étudier une
protéine en solution et caractériser son interaction avec ses
partenaires biologiques. Cependant, c'est une technique qui possède une
limitation majeure : la masse moléculaire de la biomolécule
étudiée. Bien que le record de détermination de
structure tridimensionnelle ait été enregistré sur
un monomère de 48 kDa (Williams et al., 2005), la taille limite
actuelle pour une étude de routine se situe aux alentours
de 20 kDa, soit environ 180 résidus. Dans le
cas de la protéine PRODH humaine, dont le poids
moléculaire est de 70 kDa pour 600 résidus, il n'est donc pas
concevable d'envisager une étude structurale par RMN. Toutefois,
les protéines de masse moléculaire élevée
sont généralement composées de plusieurs domaines de
repliement autonome qui sont plus ou moins indépendants les uns des
autres. L'organisation de la structure tertiaire des protéines de grande
taille en domaines structuraux offre ainsi la possibilité de
caractériser la structure de
ces macromolécules domaine par domaine. Toute la
difficulté de cette approche repose sur l'identification de ces domaines
de repliement autonome. La stratégie communément utilisée
consiste à recourir à des outils bio-informatiques afin de
prédire leur délimitation.
2.1) Analyse bio-informatique préliminaire
Nous avons réalisé dans un premier temps un
alignement de 9 séquences de PRODH
connues d'origine eucaryote et procaryote avec le logiciel
clustalw (Figure 1.7).
Human
1-MALRRALPALRPCIPRFVQLSTAPASR----------EQPAAGPAAVPGGGSA-----------------------TAVR
Drosophila
MALLRSLSAQRTAISLVYGRNSSKSSNSVAVAACRSFHQRGNGSTSIAGEGAASESTRGVNGARFLHSGDRPLQASTLVQ
CAEEL
------------------------------------------------------------------------------MK
Arabidopsis
-------------------------------------------------------------------------------M
Oryza
-------------------------------------------------------------------------------M
POMBE
--------------------------------------------------------------------------------
Emericella
--------------------------------------------------------------------------------
Cerevisiae
--------------------------------------------------------------------------------
PutA
------MGTTTMGVKLDDATRERIKSAATRIDRTPHWLIKQAIFSYLEQLENS------------------------DTL
Human
48-PPVP------------------------------AVDFGNAQEAYRSRRTWELARSLLVLRLCAWPALLARHEQLLY-VS
Drosophila
PEVVSSETVKRSMKQESSQEKNPSPAGSPQRDPLDVSFNDPIAAFKSKTTGELIRAYLVYMICSSENLVEHNMTLMK-WS
CAEEL
IPVA-------------------------------LVLTIIIEFFQSKSNTELVRALVVLRLCGIQTLVNQNQIILN-TM
Arabidopsis
ATRLL------------------------------R-TNFIRRSYRLPAFSPVGPPTVTASTAVVPEILSFGQQAPEPPL
Oryza
AIASR------------------------------I-QKRVLASFAAAAAAKLPEAAVAAAGGAAEAVEEVASSVQE---
POMBE
-----------------------------------------MRAFRLAS-GVLRNRKVILGIGAGSLITAGNIKIRN---
Emericella
--------------------------------------------MKAATPRPSVRALSSGRSYRTARFVSRTSNARSSLA
Cerevisiae
-----------------------------------------MIASKSSLLVTKSRIPSLCFPLIKRSYVSKTPTHSN---
PutA
PELPALLSG-----------------------AANESDEAPTPAEEPHQPFLDFAEQILPQSVSRAAITAAYRRPETEAV
Human
97-RKLLGQRLFNKLMKMTFYGHFVAGEDQESIQPLLRHYRAFGVSAILDYGVEEDLSPEEAEHKEMES----------CTSA
Drosophila
KNVLGQRLFTLLMKATFYGHFVAGEDQIKIIPTLERLRSFGVKPILDYSVEEDITQEEAEKREVESS---------VSSA
CAEEL
RRVLGKNLFKKTLKNTFFGHFVAGETEEEVRHVVEKLRNYGVKSILDYSVEADITSQEATDKTVKGTSVATVKPAAMTPV
Arabidopsis
HHPKPTEQSHDGLDLSDQARLFSSIPTSDLLRSTAVLHAAPIGPMVDLGTWVMSSKLMDASVTRGMV-----LGLVKSTF
Oryza
---QVQAQGAQVLEFGDTERLFAGERSTSLVRTLAVLQALSVGPLVDVATAALRSPAVAGSAA-G-------RAAARATA
POMBE
---DSK--FDAFFAKGFPDELQHR-SLFSVLRSAFVYEICSRAWLVKLSLGAMSLCDVFHLSFLYN-------PFCRYTF
Emericella
ADTNSLLQQAPPSPKKQLASPLAKLPLSSVLRSLLILSVSSSSILLKPCIYTLSALAHPKTALLDVAKNPLLNLLVKHTI
Cerevisiae
--TAANLMVETPAANANGNSVMAPPNSINFLQTLPKKELFQLGFIGIATLNSFFLNTIIKLFPYIP------IPVIKFFV
PutA
SMLLEQARLPQPVAEQAHKLAYQLADKLRNQKNASGRAGMVQGLLQEFSLSSQEGVALMCLAEALLR--IPDKATRDALI
:
Human
167-AERDGSGTNKRDKQYQAHRAFGD-RRNGVISARTYFYANEAKCDSHMETFLRCIEAS-GRVSDD-GFIAIKLTALGRPQF
Drosophila
GDKKEEGSMP---QYHVDKSFAD-RRYKVSSARTYFYLNEATCERNMEIFIKCLEAVSGATFGT-GITAIKLTALGRPQL
CAEEL
VDAKTLETTR--ERYTVHEEFGD-RRQGVSSARTYFYEGEEQCDKNRDIFKDSINAVASATKNE-GFVAVKITALGRPQL
Arabidopsis
YDHFCAGEDADAAAERVRSVYEATGLKGMLVYGVEHADDAVSCDDNMQQFIRTIEAAKSLPTSHFSSVVVKITAICPISL
Oryza
YQHFCAGETAEEAAAAVRRLWRG-GMGGILDYGIEDAEDGPACDRNAAGFLAAIDVAAALPPGS-ASVCIKITALCPVAL
POMBE
YKHFCGGETPQAVMATMDTLQAAGITSCLNYSREVDLDGDMDVNKIASQGVVPPQVPVPSEKNQKVLRQIADKAFESNMH
Emericella
YKQFNAGENKLEVQRSINAIKELGYRGVLLGYAREVLVGESKTD----------------PRDEQASRQEIQTWLDGTLQ
Cerevisiae
SSLYCGGENFKEVIECGKRLQKRGISNMMLSLTIENSEGTKSLSS------TPVDQIVKETISS--VHNILLPNIIGQLE
PutA
RDKISNGNWQSHIGRSPSLFVNAATWGLLFTGKLVSTHNEASLSRSLNRIIGKSGEPLIRKGVDMAMRLMGEQFVTGETI
. : . . .
Human
244-LLQFSEVLAKWRCFFHQMAVEQGQAGLAAMDTKLEVAVLQESVAKLGIASR-AEIEDWFTAETLGVSGTMDLLDWSSLID
Drosophila
LLQLSEVIMRTRKYMEDMVGGQG----NVLTHHKTIKDLEKYYATLGDNK---DVKEFLNNVTSDKEGILHLFPWSGIVD
CAEEL
LLKLSEAIVQTQNFFKALTGGMS-----LQEGRLTSQEFYKRLGELGVKTDTESVKKFFDEVDFDSDGIVDLHGWNHILD
Arabidopsis
LKRVSDLLR--------------------WEYKSPNFKLSWKLKSFPVFS------------------------------
Oryza
LEKASDLLR--------------------WQQKHPATKLPWKVHGFPVLC------------------------------
POMBE
IIDMATYKP--------------------GTVCAVKLTPFINPLVLQRYN--------------------------SILN
Emericella
TVDMAQEGD---------------------------FVALK----FTGMG------------------------------
Cerevisiae
SKPINDIAP--------------------G-YIALKPSALVDNPHEVLYN------------------------------
PutA
AEALANARKLEEKGFRYSYDMLGEAALTAADAQAYMVSYQQAIHAIGKAS--------------------------NGRG
Human
323-SRTKLSKHLVVPNAQTGQLEPLLSRFTEEEELQMTRMLQRMDVLAKKATEMGVRLMV---DAEQTYFQP-AISRLTLEMQ
Drosophila
EDSQLSDTFRVPDPQTGQMRRLISQIPPKEEEMFRNMIRRLNTIVKAAADLDVRIMV---DAEQTYFQP-AISRITLEMM
CAEEL
DHVKLGQLFQVLNIKTGSLEPLIQNLSNEEEQEFRNMVRRTLDVAEYAIEKGVRIMV---DAEQTYLQP-AISKITIEMM
Arabidopsis
----ESSPLYHTNSEP-------EPLTAEEERELEAAHGRIQEICRKCQESNVPLLI---DAEDTILQP-AIDYMAYSSA
Oryza
----VSSPLYLTAAEP-------PALEAEEERELEMAHGRLLAIGERCAEYDIPLLV---DAEYATVQP-AIDYFTFAGA
POMBE
QYPVESACNYLEHLKS-------PELSTYEVSELKKFWEYADKLCQFAKEKQIPLFI---DAEQTYFQD-CMHAVTVDLM
Emericella
----IQALEYLQNQAP-------P---------SPFMDEAIKQVCDLAISRNVRLLV---DAEEQAVQP-GIEEWATMYQ
Cerevisiae
----FSNPAYKAQRDQ---------LIENCSKITKEIFELNQSLLKKYPERKAPFMVSTIDAEKYDLQENGVYELQRILF
PutA
IYEGPGISIKLSALHP-------RYSRAQYDRVMEELYPRLKSLTLLARQYDIGINI---DAEEADRLEISLDLLEKLCF
: . : : *** :
Human
399-RKFNVE---KPLIFNTYQCYLKDAYDNVTLDVELARREGWCFGAKLVRGAYLAQE-------RARAAEIGYEDPINPTYE
Drosophila
RKYNKD---KAIVFNTYQCYLRETFREVNTDLEQAKRQNFYFGAKLVRGAYMDQE-------RDRAKSLGYPDPVNPTFE
CAEEL
KKYNKG---RGNIFNTYQAYLKGTLQNMEADMQVARREGWHFGAKLVRGAYMEQE-------RARAKAIGYEDPINDNFE
Arabidopsis
IMFNADKD-RPIVYNTIQAYLRDAGERLHLAVQNAEKENVPMGFKLVRGAYMSSE-------ASLADSVGCKSPVHDTIQ
Oryza
LAFNGG-G-RPIVHGTVQAYLRDARDRLEAMARAAQGERVCLALKLVRGAYLARE-------ARLAASLGVPSPVHRSIQ
POMBE
RKYNKE---VAIVHNTYQLYLKKSRKIMDDHIKKCVAEGWLMGAKLVRGAYLNSEPRFLIHDTKAETDKDFDSAVEAIIA
Emericella
KYCNSRTPGRAIFYNTYQAYLCSTPATLARHLEISRKEGYTLGVKLVRGAYLKTEPRHLIWAKKEQTDECYDGIVEALLT
Cerevisiae
QKFNPTSSKLISCVGTWQLYLRDSGDHILHELKLAQENGYKLGLKLVRGAYIHSE------KNRNQIIFGDKTGTDENYD
PutA
EPELAG---WNGIGFVIQAYQKRCPLVIDYLIDLATRSRRRLMIRLVKGAYWDSEIKR----AQMDGLEGYPVYTRKVYT
. * * : . . : :**:*** *
Human
469-ATNAMYHRCLDYVLEELKHN-------AKAKVMVASHNEDTVRFALRRMEELG-LHPADHR-VYFGQLLGMCDQISFPLG
Drosophila
ATTDMYHRTLSECLRRIKLMKDCDDDARKIGIMVASHNEDTVRFAIQQMKEIG-ISPEDKV-ICFGQLLGMCDYITFPLG
CAEEL
ATSKMYESCLTRIADEVHRR-----GKTNVSVMVASHNEDTVRFALNLMKEKC-ISPSERV-MCMAQLYGMCDQVSFSLG
Arabidopsis
DTHSCYNDCMTFLMEKASNGS-------GFGVVLATHNADSGRLASRKASDLG-IDKQNGK-IEFAQLYGMSDALSFGLK
Oryza
DTHDCYNGCAAFLLDRVRRG--------AAAVTLATHNVESGQLAAARALELG-IGGGGDRGLQFAQLMGMADGLSLGLR
POMBE
AAAKFAPGDPASASDPIASRK------GKWGIMVASHNKKTMFESVNLAETKK-VDFTKTS-FYLAQLLGMADDITYALA
Emericella
RRYNHMLKPASAEHTTELPP---------VSVIVATHNRDSVRKAHALRLEQASRGEKSDVELTYAQLQGMADEISCELL
Cerevisiae
RIITQVVNDLIINGEDSYFG----------HLVVASHNYQSQMLVTNLLKSTQDNSYAKSN-IVLGQLLGMADNVTYDLI
PutA
DVSYLACAKKLLAVPNLIYP------------QFATHNAHTLAAIYQLAGQNY-----YPGQYEFQCLHGMGEPLYEQVT
.*:** .: * **.: : :
Human
540--------------QAGYPVYKYVPYGPVMEVLPYLSRRALENSSLMKGT--HRERQLLWLELLRRLRTGNLFHRPA----
Drosophila
-------------QAGYSAYKYIPYGPVEEVLPYLSRRAQENKGVLKKI--KKEKRLLLSEIRRRLMRGQLFYKPKGNYV
CAEEL
-------------QAGFSVYKYLPYGPVEEVLPYLSRRALENGSVLKKA--NKERDLLWKELKRRISSGEFKARSSSSS-
Arabidopsis
-------------RAGFNVSKYMPFGPVATAIPYLLRRAYENRGMMATG--AHDRQLMRMELKRRLIAGIA---------
Oryza
-------------NAGFQVSKYLPYGPVEQIIPYLIRRAEENRGLLSSS--SFDRQLLR---------------------
POMBE
Y-------SQRNQQPNFCIVKYVSCGPISEVLPYLVRRARENIDALDRC--KEERAYYRQALRRRIF-------------
Emericella
QGFQTAGPENTKVAESPNVYKLLTWGSVKECMGFLLRRAVENTEAVGRT--KQSQEAMFSELRRRARRAFGLRY------
Cerevisiae
TN-----------HGAKNIIKYVPWGPPLETKDYLLRRLQENGDAVR----SDNGWPLIKAIAKSIPKRVGL--------
PutA
G-------KVADGKLNRPCRIYAPVGTHETLLAYLVRRLLENGANTSFVNRIADTSLPLDELVADPVTAVEKLAQQEGQT
. *. :* ** ** .
Figure 1.7 : Alignement de 9
séquences de proline déshydrogénase
réalisé avec l'aide du logiciel clustalw. Les
séquences alignées sont relatives aux espèces
eucaryotes, humaine (Human, 600 résidus), Drosophila Melanogaster
(Drosophila, 669 résidus), Caenorhabditis elegans (CAEEL, 564
résidus), Arabidopsis thaliana (Arabidopsis, 499 résidus), Oryza
sativa (Oryza, 475 résidus), Schizosaccharomyces pombe (POMBE,
492 résidus), Emericella nidulans (Emericella, 478
résidus), Saccharomyces cerevisiae (Cerevisiae, 476 résidus), et
à l'espèce procaryote PutA (607 résidus N-terminaux).
Les résidus sont colorés en rouge lorsqu'ils sont
conservés (sigle *), en vert lorsqu'il sont fortement similaires (sigle
:), et en bleu lorsqu'ils sont faiblement similaires (sigle .). La
numérotation est relative à la séquence humaine.
D'une manière générale, la proline
déshydrogénase est une protéine très peu
conservée
de la bactérie jusqu'à l'homme (3 %
d'identité, et 4 % de similarité). Comme le montre la
Figure 1.7, les 9 séquences ne s'alignent que dans la
moitié C-terminale de PRODH humaine
qui s'étend des résidus 340 à 600.
Dans cette région, les pourcentages d'identité et de
similarité atteignent respectivement 8 % et 10 %. Sur la base de cet
alignement, il apparaît donc que la fonction proline oxydase,
commune à toutes ces protéines, est assurée par un
domaine catalytique situé entre les résidus 340 et 600 dans la
séquence humaine.
Nous avons soumis la séquence de PRODH humaine
aux logiciels SMART (Simple Modular Architecture Research Tool)
(Schultz et al., 1998) et Pfam (Finn et al., 2006) qui
permettent de détecter des domaines de repliement connu. Aucune
prédiction n'a été proposée avec un degré de
confiance suffisant par ces 2 programmes, ce qui était attendu dans la
région
C-terminale dans la mesure où il n'existait aucune
structure connue de proline oxydase lorsque nous avons abordé
cette étude. Une étude de prédiction de structure
secondaire a
également été réalisée et
suggère une structuration de la protéine PRODH humaine en
hélice á
et feuillet â. Devant le peu d'informations
apportées par ces logiciels, il nous est apparu
déraisonnable d'envisager de sélectionner des
domaines à partir d'un alignement de séquence
et d'une prédiction de structure secondaire.
C'est pourquoi, nous avons opté pour une stratégie
différente qui consiste à isoler des domaines
structurés, et dont la taille soit compatible avec une analyse
par RMN, par protéolyse ménagée à partir de
la protéine PRODH humaine sauvage.
|