Identificació de proteïnes

Sel M

La seqüència utilitzada per a la realització del treball en la proteïna SelM ha estat la humana. Aquesta decisió es va prendre per diferents motius. En primer lloc, no hi havia espècies properes als protists en les quals s'hagués trobat SelM. I en segon lloc perquè les úniques SelM disponibles a la base de dades de SelenoDB eren de Mus musculus i Homo sapiens. Com que aquestes dues espècies són força properes filogenèticament entre elles en comparació a la relació d'ambdues amb els protistes, vàrem considerar que la tria d'una o de l'altra no era significativament rellevant. De totes maneres, per corroborar aquest fet, vem fer l'alineament d'amdues seqüències i a més es va aplicar tot el protocol a diverses espècies de l'any 2010; com que els resultats obtinguts eren pràcticament iguals, es va decidir utilitzar la proteïna humana, excepte per l'organisme A.anophagefferens, que hem utilitzat la de ratolí.

Pel que fa a la resta del procés, s'ha seguit al peu de la lletra el protocol consensuat pel grup.

En primer lloc, es va realitzar l'aplicació del programa tblastn. Es poden veure els hits significatius, que tenen un e-value inferior a 1·10-3 i altres en les taules de resultats: 2008, 2009, 2010. En aquests pas, un dels problemes amb els quals ens hauríem pogut trobar és que el llindar pel qual considerem hits significatius o no significatius, sigui massa estricte tot i que segons el que hem llegit és un valor adequat. Tot i això, cal tenir en compte cada variable individualment, ja que en el cas de SelM estem comparant genomes que es troben filogenèticament molt allunyats, i els resultats podrien estar influits per aquest fet. Pot ser per a estudis futurs podríem tenir en compte aquest fet i provar de reduir el valor llindar a 10^-2 i veure'n els resultats.

Un cop determinats els candidats a selenoproteïnes, vam extreure la regió del genoma que conté el hit per poder fer una predicció d'exons mitjançant el programa exonerate. Per extreure aquesta regió que conté el nostre gen, calia tenir en compte la mida aproximada d'aquest gen per eliminar una possible font d'errors, ja que si agaféssim un tros massa curt podríem excloure l'inici o el final de la seqüència, així com part dels elements SECIS. Per veure el nombre de nucleòtids aproximats vem introduir la proteïna humana en el programa BLAT, i el resultat va ser que el gen de SelM humà té 2533pb. Com a conseqüència, hem extret una regió de 5000nucleòtids per un costat i un altre, és a dir, uns 10000 nucleòtids en total. D'aquesta manera, tot i que el procés sigui una mica més lent, ens assegurem que no hi haurà cap problema en aquest sentit. En el cas de les regions corresponents als genomes de T.pseudonana però, Exonerate no ens va donar cap resultat, de la mateixa manera que amb E.huxleyi per la qual cosa vam fer l'anàlisi amb GeneWise.

Després d'haver realitzat la predicció d'exons, vam passar el cDNA obtingut a una seqüència aminoacídica amb els 6 marcs de lectura possibles mitjançant FASTA translate i vam fer l'aliniament global de la seqüència query amb la nostra predicció mitjançant el programa T-COFFEE, on la "U" de la seqüència query (susbsituïda prèviament per nosaltres per "X" en el fitxer FASTA) havia d'estar, idealment, alineada amb un codó STOP. En el nostre cas es compleix aquest requisit en tres casos, de manera que es pot afirmar amb força seguretat que es tracta de tres selenoproteïnes. De totes maneres, en aquesta situació, les proteïnes predites no comencen per un codó d'inici Metionina, tot i que això no vol dir que el codó no hi sigui, sinó que pot haver estat exclòs de la seqüència predita perquè es troba en una regió molt modificada, i llavors, no s'hauria tingut en compte en l'alineament del t_coffee.
No hem trobat cap homòleg en Cisteïna de la SelM en les espècies protists.

De totes maneres, per corroborar que es tractava efectivament de selenoproteïnes, vam fer una cerca d'elements SECIS, característics d'aquest tipus de proteïnes amb el programa SECISearch.

Un cop obtinguts els resultats vàrem decidir afegir un pas que no havíem tingut en compte en el protocol inicial. El que vàrem fer va ser fer una cerca BLAST a l'NCBI de la nostra predicció, per veure si trobàvem un hit corresponent a la seqüència llavor d'on havíem partit.

Pel que fa les noves espècies estudiades aquest any 2010, en T.pseudonana hem trobat un element SECIS amb una energia d'estructura força alta (-11,8). A més a més, els resultats de l'anàlisi de la proteïna predita en el genoma humà per BLAST dóna efectivament, la proteïna SelM d'humà . Així doncs, aquesta proteïna ha passat tots els filtres que nosaltres havíem establert, compleix tots els requisits, i per tant, totes les dades apunten a que es tracta efectivament d'una selenoproteïna nova.

Pel que fa les espècies estudiades l'any 2009:
En E.huxleyi no hem trobat cap element SECIS en la regió extreta, tot i que vam modificar el seu tamany per evitar errors. Cal dir però, que les seqüències coincideixen amb les estudiades l'any anterior, però no tenen el mateix e-value per als hits. Això ja pot voler dir, que des d'aquell moment, el programa ha estat modificat perquè entrant les mateixes dades, dóna resultats diferents. De totes maneres, per les mateixes seqüències l'any anterior ja no havien trobat aquests elements SECIS.Tot i això amb els resultats obtinguts sembla força probable que aquesta proteïna trobada es tracti efectivament d'una selenoproteïna.

En A.anophagefferens hem predit dos elements SECIS que es van trobar en el treball de l'any anterior, però no ha estat possible trobar-les amb el Secisearch, sinó de manera manual, buscant la seqüència dels elements que havien trobat els altres dins la nostra regió extreta. Com hem comentat en l'apartat de resultats, això és probablement degut a que, segons ens han comentat els autors del treball esmentat, el programa que es va utilitzar per la cerca de SECIS va ser parcialment modificat per un dels tutors per millorar-lo.

A més a més, els resultats del BLASTP de la proteïna predita contra el genoma humà, mostren que el millor hit correspon amb la seqüència llavor original: SelM d'humà .
Així doncs, sembla que efectivament aquesta proteïna d'Anophagefferens seria una selenoproteïna.

Com també hem comentat en les altres discussions, aquest estudi no és prou complet. Tal i com s'ha anat fent al llarg dels anys, cal ampliar la cerca per poder trobar explicacions lògiques als resultats obtinguts.
Un dels fets més sorprenents és la poca quantitat de protists que tenen SelM. Semblaria que nomeś tres espècies tenen aquesta proteïna, i dues d'elles, A. anophagefferens i T. psedonana estan estretament relacionades, però E. huxleyi no. Per tant, caldria comprovar que efectivament no hi ha hagut cap error en el porcessament de les dades de E. huxleyi i buscar SelM en altres protists relacionats amb aquesta espècie.

Finalment, aquí també hem fet un alineament múltiple amb les selenoproteïnes trobades mitjançant T-Coffee per a observar els dominis conservats. L'alineament resultant pot observar-se aquí.

Selenoproteïnes

Sel M

Discussió