ENm008 Alfa Globina

CARACTERITZACIÓ DE LES PROTEÏNES PREDITES

Segons les validacions pels spliced ESTs ens vam quedar amb un total de vint-i-dos gens codificants per seqüències aminoacídiques candidates de ser proteïnes funcionals. Vam enumerar les proteïnes del 1 al 22 i són les corresponents als següents gens:

PROTEÏNA GEN PREDICCIÓ
1 gen 2 FGENESH
2 gen 3 GENEID
3 gen 2 GENEID
4 gen 4 GENSCAN
5 gen 7 GENSCAN
6 gen 8 FGENESH
7 gen 9 GENSCAN
8 gen 10 GENSCAN
9 gen 11 GENSCAN
10 gen 13 GENSCAN
11 gen 14 GENSCAN
12 gen 15 GENSCAN
13 gen 18 GENSCAN
14 gen 19 GENSCAN
15 gen 19 GENEID
16 gen 20 GENEID
17 gen 21 GENEID
18 gen 21 GENSCAN
19 gen 23 GENSCAN
20 gen 25 FGENESH
21 gen 26 FGENESH
22 gen 28 FGENESH

Swissprot

Vam copiar les seqüències proteiques codificades per cadascun d'aquests gens en un mateix fitxer en format fasta. Seguidament alinear cadascuna d'elles contra la base de dades swissprot del Blastp del servidor NCBI, per fer cerca d'homologies (seleccionem la opció Choose database: swissprot, la resta per defecte). Les homologies poden ser bé estructurals, bé funcionals o ambdues.

Proteïna 1.

El millor alineament d'aquesta proteïna és amb el precursor del receptor d'interleucina 9 (IL-9R). El percentatge d'identitat és del 54%, el percentatge de gaps és un 22% i l'E-value és de 7e-61. El Blastp no ens informa de cap domini putatiu.

Blast proteïna 1

Proteïna 2.

Amb aquesta proteïna no trobem cap alineament important, de fet el millor de tots és amb una proteïna de rata. Això ens fa dubtar de la validesa de la predicció d'aquest gen. En el millor alineament amb proteïna humana té un e-value de 1.8 i només un 33% d'identitat; no és massa indicatiu.

Blast proteïna 2

Proteïna 3.

L'alineament d'aquesta proteïna és molt bo: d'un 99% d'identitat amb la DNA-directed RNA polimerasa III. Té un E-value d'1e-64 que és indicatiu que l'alineament no és a l'atzar i corrobora la validació del gen. A més a més s'observen un parell de dominis putatius: RPOL9 i ZnF_C2C2.

Blast proteïna 3 Dominis putatius

Proteïna 4.

Dels 925 aminoàcids que té la proteïna 4 trobem un alineament de 303 aminoàcids amb la Rhomboid-related protein 2 (RRP2) amb un només 29% d'identitat. Tot i que sorprèn que l'E-value sigui tan baix (3e-06) pensem que no es tracta d'un alineament massa bo i no confirma la validesa de la predicció del gen. En el segon enllaç observem la localització del domini putatiu Rhomboid, per on s'alineen les dues proteïnes.

Blast proteïna 4 Domini putatiu Rhomboid

Proteïna 5.

Trobem un alineament de 569 aminoàcids de la proteïna CGTHBA amb els 746 que té la proteïna 5. Li correspon un 86% d'identitat, un 13% de gaps i un E-value molt bo e-139. Segons que sembla ha estat una correcta validació de la predicció del gen.

També trobem un domini putatiu, que abarca gairebé tota la llargada de la proteïna 5. Es tracta del domini UPF0171.

Blast proteïna 5 Domini putatiu UPF0171

Proteïna 6.

La proteïna 6 correspon a la Hemoglobin zeta chain (HBAZ) humana, fet que queda pal.lès perquè s'alinea la totalitat de la longitud de la seqüència amb un 100% d'identitat. A més a més l'E-value és boníssim: 2e-76.

El domini putatiu, com era d'esperar, és el domini Globina.

Blast proteïna 6 Domini putatiu Globina

Proteïna 7.

La proteïna 7, de 129 aminoàcids s'alinea de nou amb la Hemoglobin zeta chain (HBAZ) humana de 142 aminoàcids. Aquest alineament és molt bo, té una identitat de 99% i un E-value de 9e-69. Podríem apuntar que és el resultat d'una duplicació gènica. També trobem el domini putatiu Globina.

Blast proteïna 7 Domini putatiu Globina

Proteïna 8.

El millor alineament que trobem amb la proteïna 8 de 141 aminoàcids és amb 141 aminoàcids de la proteïna Hemoglobin alpha-D chain del vertebrat Geochelone carbonaria on també té una funció de transport d'oxigen en eritròcits. Aquest alineament té un E-value de 5e-40 i un 54% d'identitat.

El millor alineament amb una proteïna humana és amb l'HBAZ, però només amb un 47% d'identitat.

El domini putatiu trobat torna a ser el de la Globina, podria tractar-se també d'una duplicació gènica, però més degenerada.

Blast proteïna 8 Domini putatiu Globina

Proteïna 9.

Els resultats del Blasp swissprot per la proteïna 9 són del tot interessants. Té 280 aminoàcids; la primera meitat dels quals s'alineen amb una proteïna Hemoglobin alpha chain, i la segona amb una altra proteïna Hemoglobin alpha chain. Hi ha un gap de 6 aminoàcids enmig, que porta a pensar que es tracta de dos gens diferents enlloc d'un. Cal repassar la validació dels gens per spliced ESTs de la regió 6 que és la que inclou el gen que codifica per aquesta proteïna. (Tornar a veure regió6.png)

En el fitxer regió6.png observàvem que tots els spliced ESTs validaven una estructura exònica lligada i és per això que vam triar la validació de la predicció d'un un gen Ășnic. D'altra banda amb aquests resultats concloem que hauríem d'haver donat per bona la predicció dels dos gens per separat. Llavors sortiria un 100% d'identitat amb les dues proteïnes alineades, deduïble dels resultats comentats.Aquests dos gens podrien ser l'un duplicació de l'altre.

És curiós que hi ha una total homologia d'aquestes dues proteïnes en tres espècies diferents: Pan troglodytes, Pan paniscus i Homo sapiens. Aquestes tres homologies reafirmen que les globines tenen una funció homòloga en mamífers.

Ambdós alineaments amb la proteïna 9 tenen un 100% d'identitat i uns E-values molt bons: 3e-77 i 9e-72 respectivament.

L'output del domini putatiu recolza la hipòtesi que es tracta de dos gens separats, l'un derivat de l'altre.

Blast proteïna 9 Dominis putatius Globina

Proteïna 10.

La proteïna 10 té 371 aminoàcids, que s'alineen amb la proteïna Putative RNA-binding protein Luc7-like 1 (SR+89) (Putative SR protein LUC7B1) de la mateixa llargada. L'alineament té un 69% d'identitat i un E-value destacable: e-136.

Aquest alineament no reflecteix que sigui aquesta proteïna, sinó que comparteixen el domini LUC-7.

Blast proteïna 10 Domini putatiu LUC-7

Proteïna 11.

D'aquest alineament deduïm que la validació per spliced ESTs de la predicció dels gens no és del tot fiable. No trobem alineaments amb proteïnes humanes. Els pocs alineaments que trobem són d'una llargada mínima, una identitat baixa i un E-value més gran que zero.

Blast proteïna 11

Proteïna 12.

La proteïna 12 s'alinea amb un 96% d'identitat amb la Regulator of G-protein signaling 11 (RGS11): 435 aminoàcids de la query amb 467 d'aquesta. L'E-value és indicatiu que l'alineament no és a l'atzar (0.0), i hi ha un 2% de gaps. Per tant, la validació de la predicció dels gens sembla real.

Al llarg d'aquesta proteïna trobem tres dominis conservats: DEP, GGL i RGS.

Blast proteïna 12 Dominis putatius

Proteïna 13.

Sembla que la validació de la predicció de gens no és prou vàlida per la regió que inclou la proteïna 13. Els spliced ESTs denotaven qu e es tractava d'un mateix gen però dels alineaments del Blastp swissprot surten homologies amb vàries proteïnes diferents. Això indica que els ESTs corresponen a ESTs de proteïnes que tenen dominis comuns.

Això es confirma amb els dominis putatius: són tres i no suporten gran part de la proteïna 13.

Blast proteïna 13 Dominis putatius

Proteïna 14

Aquesta proteïna de 767 aminoàcids s'alinea amb la Transmembrane protein 8 precursor (M83) humana de 771 aminoàcids amb un E-value de 0.0 i un 91% d'identitat. Aquests resultats reforcen la validació per spliced ESTs de la predicció del gen.

Blast proteïna 14

Proteïna 15.

La proteïna 15, de 770 aminoàcids s'alinea amb l'Axin 1 (hAxin) humana de 862. La identitat és d'un 88% amb un E-value de 0.0, aquestesdades recolzen la validació per spliced ESTs.

Trobem dos dominis putatius: DAX i RGS.

Blast proteïna 15 Dominis putatius

Proteïna 16.

La proteïna 16 de 235 aminoàcids s'alinea amb la 39S ribosomal protein L28 humana de 287 aminoàcids amb un 86% d'identitat i un 8% de gaps. L'E-value és molt bo: e-135.

Enmig de la proteïna trobem un domini putatiu RpmB.

Blast proteïna 16 Domini putatiu RpmB

Proteïna 17.

Aquesta proteïna de 759 aminoàcids, igual que la 14 s'alinea amb la Transmembrane protein 8 precursor (M83 protein) humana, de 771 aminoàcids. L'E-value és de 0.0 i la identitat d'un 89%.

El fet que trobem de nou la mateixa proteïna és degut a que en validar els gens de la (Tornar a veure regió11.png) no podíem triar entre les prediccions del GENEID i del GENSCAN i vam optar per estudiar les cinc proteïnes d'aquesta regió. La seqüència més probable de ser el gen real és la que codifica per la proteïna 14, basant-nos en que el percentatge d'identitat és més alt i hi ha més proporció d'aminoàcids alineats.

Blast proteïna 17

Proteïna 18.

Aquesta proteïna es troba en la regió 13 de l'estudi fet amb els spliced ESTs en la qual no trobàvem cap predicció prou validada. Pot ser que amb els resultats del Blastp es recolzi alguna de les validacions de gens.

En els primers 169 aminoàcids d'aquesta proteïna trobem un alineament amb la nucleoside diphosphate kinase humana que té una llargada total de 187 aminoàcids. El percentatge d'identitat és d'un 95%, i l'E-value és de 5e-87. L'alineament és prou bo, però com que no és massa llarg no sembla que es tracti de la mateixa proteïna. La regió que s'alineen coincideix amb el domini putatiu NDK.

Cap al centre de la proteïna 18 trobem un alineament de 270 aminoàcids amb la proteïna de llevat Sporulation protein SPS19.

Hi ha 124 aminoàcids de l'extrem C-terminal de la nostra proteïna que s'alineen amb la Rab11 family-interacting protein 3 (Rab11-FIP3) humana de 756 aminoàcids. La identitat és del 99% i l'E-value és bo: 5e-68. Com en la proteïna anterior, el fet que s'alineïn tants pocs aminoàcids respecte el total fa que no validem la predicció.

Blast proteïna 18 Dominis putatius



Proteïna 19.

L'extrem N-terminal de la proteïna 19 s'alinea de nou amb 33 aminoàcids de la proteïna Rab11 family-interacting protein 3 (Rab11-FIP3).Presenta un 96% d'identitat i un E-value de 8e-13. A continuació hi ha un gap d'uns 200 aminoàcids i cap a la part més C-terminal tornem a trobar un alineament amb la proteïna Rab11 amb un E-value de 4e-67 i un 56% d'identitat. Tot i el gap, com que les dues parts s'alineen amb la mateixa proteïna donem per vàlida la predicció del gen.

Blast proteïna 19



Proteïna 20.

Els resultats són molt similars als de la proteïna 18, amb l'excepció que no hi ha alineament amb la proteïna Rab11-FIP3. Amb la proteïna nucleoside diphosphate kinase, s'alineen 139 aminoàcids, amb un E-value de 3e-75 i un 100% d'identitat. Amb la proteïna de llevat s'alinea 285 aminoàcids de 295 amb un E-value de 4e-38.

Tornem a trobar els mateixos dominis putatius que en la proteïna 18, i amb la mateixa localització.

Blast proteïna 20 Dominis putatius



Proteïna 21.

La proteïna 21, de 228 aminoàcids s'alinea amb la Rab11-FIP3 humana per 133 aminoàcids. Hi ha un 93% d'identitat i un E-value 3e-68.

Blast proteïna 21



Proteïna 22.

La proteïna 22 s'alinea amb 267 aminoàcids de la Rab11-FIP3 humana. El percentatge d'identitat és d'un 68% i l'E-value de 1e-65. No hi ha cap domini putatiu.

Blast proteïna 22



Conclusions de la regió 13:

Aquesta regió inclou les proteïnes 18 a 22. Des d'un principi havíem dubtat de la validesa dels gens d'aquesta regió. Els resultats del Blastp per aquestes proteïnes no han estat massa aclaridors, no podem recolzar amb fermesa cap predicció. Queda clar, però, que a la regió hi ha gens com per exemple el codificant per una proteïna semblant a la Rab11-FIP3, si no la mateixa. De totes maneres podria ser que elgen no s'estigués expressant però com que té regions similars a altres proteïnes que sí que s'expressen, sí alineïn els ESTs. Per tal d'assegurar la presència de gens expressats en la regió, caldrien més estudis.







enrere >>> endavant