Discussió

El procediment seguit per analitzar la presència de selenoproteïnes als genomes ha estat, en primer lloc, fer un tBLASTn del genoma d’interès contra les vàries proteïnes de cada família concreta de selenoproteïnes (queries). Així, obtenim varis hits, dels quals escollim els més significatius, és a dir, els que tinguin un e-value superior a 0,001. Cal recordar que l’e-value simbolitza la probabilitat d’obtenir aquest alineament únicament per atzar, tenint en compte la grandària de la base de dades. Els millors hits seran els que utilitzarem per realitzar l’exonerate, el qual ens predirà els exons i introns del gen. A part de l’exonerate, també realitzem genewise, que ens dóna informació sobre quines regions són codificants i quines no, i a més, ens dóna ja directament la seqüència traduïda, escollint automàticament la pauta de lectura més probable. L’exonerate és més exigent, i a partir de la seqüència que ens proporciona podem obtenir, mitjançant el programa fastatranslate, els 6 ORFs possibles de lectura, fet que disminueix la possibilitat d’error. Per això, en els casos en que hem obtingut resultats amb els dos programes, els compararem, però prioritzarem els d’exonerate. A partir del resultat de l’exonerate, agafarem la seqüència que contingui un asterisc, ja que aquest simbolitza un codó stop, susceptible a ser la selenoproteïna. Un cop tenim la seqüència proteica seleccionada farem TCoffee, el qual ens alinea la nostra proteïna predita amb el query original. A més, a mode de comprovació, buscarem la proteïna predita a la base de dades NCBI, fent un BLASTp per tal d’assegurar-nos que ens surten resultats de proteïnes homòlogues en altres espècies.

Tot i que en la majoria de casos, els contigs són els mateixos per tots els alineaments (per cada query disponible), hem volgut realitzar tot el procediment amb tots ells, per confirmar al màxim la presència o absència de la selenoproteïna en cada genoma. Cal destacar que un cop identifiquem que la U o la C (en els casos en que la query és una homòloga) s’alinea amb un codó stop, hem considerat que hi ha selenoproteïna en aquell genoma i que per tant, també hi ha d’haver les proteïnes de la maquinària necessàries per la incorporació de la selenocisteïna.


Família Leishmania major Selenoproteïna 1 (Lmsel1)

 

Només teníem una query d’aquesta selenoproteïna, procedent de l’espècie Leishmania major. Després de fer el tBLASTn contra els 13 genomes de protistes hem vist que no hi havia cap hit significatiu (tots eren més grans que 1e-3) contra cap dels genomes. D’això se’n dedueix que els hits que ens ha donat el tBLASTn es poden haver donat per atzar i no perquè hi hagi una bona homologia. A fi de buscar altres possibles queries, hem fet un BLASTP amb el query de Lmsel1 contra tota la base de dades del NCBI, i no hem trobat cap altra proteïna. Degut a això podem dir que cap dels 13 protistes que hem estudiat contenen alguna selenoproteïna de la família Lmsel1. Per corroborar una mica més els nostres resultats, hem observat que al 2010, tampoc es va trobar Lmsel1 en els protistes: T. pseudonana, T. parva,T. cruzi, T. annulata, P. sojae, P. ramorum, M. brevicollis, G. intestinalis, E. terrapinae, E. histolytica i B. bovis.


Família Selenoproteïna 4 (Sel 4)

 

Hem utilitzat com a query la selenoproteïna 4 procedent de plasmodium falciparum. Amb aquesta query hem fet un tBLASTn contra els 13 genomes de protistes a estudiar. Els resultats han estat semblants als de Lmsel1, no hem trobat cap hit significatiu. Per tant podem deduir que molt probablement, després de no obtenir cap bon hit amb el tblastn, en els nostres genomes no hi ha cap selenoproteïna de la família Sel 4. A més a més, en els 11 genomes estudiats al 2010, Sel 4 només es troba en espècies del gènere Plasmodium, però no en altres protists.


Família Selelonproteïna T (SelT)

 

Per tal d’estudiar la presència de la família de selenoproteïnes Sel T en els genomes d’interès hem utilitzat els següents querys: Homo sapiens , Mus musculus, Drosophila melanogaster , Caenorhabditis elegans 3B, Caenorhabditis elegans 4B i Anopheles gambiae . Cal destacar que els quatre últims no són selenoproteïnes, sinó homòlegs amb cisteïna. A més, observem que la regió flanquejant la C o la U del query està molt conservada en totes les espècies diferint només en algun aminoàcid.

Genoma de Phaeodactylum tricornutum

El tBLASTn del genoma de P.tricornitumcontra els diferents queries selenoproteïna Sel T ens ha donat resultats positius amb tots els querys utilitzats, de manera que hem obtingut hits significatius A més, tots els querys alineen en el mateix contig.

Tot i axí, hem fet exonerate amb cada un dels querys, dels quals obtenim resultat en Homo sapiens, Mus musculus i C.elegans 4B. En fer genewise, en canvi, hem obtingut resultats en tots els querys, inclosos els que no ens havien donat cap resultat amb exonerate, fet que es justifica si tenim en compte que genewise és menys exigent. Posteriorment hem fet el TCoffee i hem obtingut alineament de la U o la C (en el cas dels homòlegs amb cisteïna) de la query amb un codó stop.

Així doncs, podem afirmar que hi ha selenoproteïna en aquest genoma. Cal destacar, però, que tot i semblar haver trobat moltes selenoproteïnes (una amb cada query), en realitat només n’hem identificat una ja que estem analitzant cada vegada el mateixa regió del genoma (el mateix contig).

És important destacar el cas de C.elegans 3B , ja que després de no obtenir resultats amb exonerate, vam fer genewise i vam veure que una part de la proteïna predita inicialment havia estat tallada, degut a que el programa havia interpretat com a codó stop un TGA que en realitat és una selenocisteina. Llavors, vam afegir el fragment que faltava a la seqüència proporcionada pel genewise, i en fer TCoffee vam obtenir un molt bon alineament amb la nostra query, que vam confirmar, com en cada cas, fent un BLASTp de la proteïna obtinguda i observant homòlogues en diferents espècies.


Genoma de Saprolegnia parasitica

El tBLASTn del genoma S.parasitica contra els diferents queries selenoproteïna Sel T ens ha donat bons hits en els casos de Mus musculus, Homo sapiens, C.elegans 3B i 4B. Per tant,en aquest moment, els querys de Anopheles i Drosophila queden ja descartats. D’altra banda, amb els hits seleccionats vam procedir amb l’exonerate i genewise; amb exonerate hem obtingut resultats només en C.elegans mentre que amb genewise n’hem obtingut per tots els queries. En el cas dels C.elegans 3b i 4b observem la cisteïna (es tracta d’un query homòleg) alineada amb un stop, fet que confirma que es tracta de la selenoproteïna. Això ho vam confirmar en obtenir un bon alineament al TCoffee i realitzant el BLASTp de la proteïna obtinguda per comprovar que realment ens surten selenoproteïnes de la mateixa família en vàries espècies. En Mus musculus i Homo sapiens, en canvi, vam observar que la U de la query es trobava fora de l’alineament, és a dir, d’on començava el hit. Per tant, vam haver d’ampliar la seqüència de DNA, la qual no estava inclosa en el tBLASTn i per això el que vam fer és agafar el DNA que codifica per la proteïna predita donada pel genewise i obtenir la seva cadena complementària ja que el hit del genewise era la cadena reversa. Seguidament vam buscar aquest DNA en el document de fastasubseq (regió genòmica) i vam ampliar la seqüència extreta, amb la que repetim el TCoffee. Un cop fet això, veiem que la U de la query alinea amb un gap molt extens, de manera que descartem que sigui la selenoproteïna; per tant aquests queries no ens són útils.

Així doncs, en aquest genoma hem identificat una selenocisteïna, ja que els contigs dels alineaments de C.elegans 3b i 4b són els mateixos, és a dir, que es tracta de la mateixa regió genòmica.


Genoma de Ectocarpus siliculosus

El tBLASTn del genoma d’E.siliculosus contra els diferents queries de la selenoproteïna SelT hem obtingut hits representatius per Homo sapiens, Mus musculus, C.elegans i Drosophila, en canvi no n’hem obtingut cap per Anopheles. Per tant, hem descartat el query d’Anopheles i hem procedit amb els altres per fer exonerate i genewise. En l’exonerate, hem obtingut resultats només per C.elegans 4b, mentre que pels altres queries hem hagut de seguir amb els resultats de genewise.

En el cas d’Homo sapiens, ens hem trobat amb la mateixa situació que amb el genoma de S.parasitica, ja que la U es troba fora de l’alineament, per tant hem hagut d’ampliar la regió genòmica del hit.

Analitzant l'exonerate i el genewise, hem observat que la C o U de la query s’alinea amb un codó stop, de manera que es confirma la presència de la selenoproteïna de la família Sel T. En fer TCoffee obtenim bons alineaments en tots els casos i en fer el BLASTp també trobem proteïnes de la família en espècies diferents. Per tant, tenint en compte que els contigs obtinguts pel tBLASTn és el mateix per cada query, hem confirmat la presència d’aquesta selenoproteïna al genoma.


Genoma de Cryptosporidium muris

El tBLASTn del genoma de C.muris contra els diferents queries de la selenoproteïna Sel T, ens ha donat bons hits només per Drosophila i C.elegans 3b . En fer exonerate, no hem obtingut resultats en cap dels dos, però sí en genewise, de manera que hem seguit amb els resultats obtinguts en genewise.
Aquesta vegada ens hem trobat amb el problema que la C es trobava fora de l’alineament en els dos queries per tant hem hagut d’ampliar la regió del DNA en cada cas. Amb C.elegants 3b hem tingut la sort de poder aconseguir la seqüència de DNA que ens faltava la a partir de l’alineament del tBLASTn (sense l’opció -m9). Amb Drosophila, en canvi, hem hagut de realitzar el mateix procés que en Mus musculus i Homo sapiens en el genoma de S.parasitica.

Posteriorment, un cop aconseguida la seqüència adequada, hem fet el t-coffee pels dos queries i hem obtingut bons alineaments en els dos casos, on hem comprovat que la C de la query s’alinea amb una altra C, és a dir, que es tracta d’una proteïna homòloga amb cisteïna; hem identificat una única proteïna ja que els dos queries alineen en la mateixa regió el genoma (mateix contig).


Genoma de Cryptosporidium parvum

El tBLASTn del genoma de C.parvum amb els diferents queries de Sel T, ens ha donat bons hits en tots els queries excepte Anopheles, el qual ja descartem. En fer l’exonerate amb la resta de queries no hem obtingut resultats en cap d’ells; per tant, seguim amb els resultats obtinguts a partir del genewise.
En el cas de C.elegans 3b també ens hem trobat que la C estava fora de l’alineament, i per tant hem ampliat la regió de DNA per tal de que el hit inclogués la C d’interès.

Seguidament hem fet el TCoffee i hem obtingut bons alineaments en tots els casos, observant en tots ells que la C o la U de la query s’alinea amb una C, demostrant que es tracta d’una proteïna homòloga amb cisteïna. Per confirmar-ho, hem obtingut selenoproteïnes de la mateixa família en fer el BLASTp amb la proteïna predita. Per tant, confirmem que es tracta d’una proteïna homòloga amb cisteïna (la mateixa en tots els queries ja que el contig no varia en cap cas).


Genoma de Thecamonas trahens

El tBLASTn del genoma de T.trahens amb els diferents queries de SelT ens ha donat bons resultats en tots els casos, de manera que hem procedit a fer exonerate amb tots ells. Tot i aixi, només hem obtingut resultats d’exonerate amb Mus musculus, Drosophila i C.elegans 3b i 4b; en els quals observem que la C o la U (en el cas del query Mus musculus) s’alineen amb un codó stop (TGA), fet que ens suggereix que probablement es tracta d’una selenoproteïna. Igualment, però, hem realitzat genewise per tots els queries i seguidament TCoffee, que ens ha confirmat l’alineament de la C o la U de la query amb un codó stop.
Cal destacar que analitzant els resultats del genewise amb el query d’Anopheles, ens vam trobar, de nou, que la C alineada amb el codó stop estava fora de l’alineament, llavors vam allargar la seqüència de DNA del hit a partir de l’alineament del tBLASTn. Així, finalment vam poder trobar en tots els TCoffees l’evidència de l’alineament de la C o U d’interès amb un codó stop, confirmant que és una selenoproteïna. Aquesta vegada, també es tracta de la mateixa selenoproteïna en tots els queries, ja que el contig per l’alineament de cada query és el mateix en tots els casos.

Alineament Múltiple

Finalment hem volgut fer un alineament múltiple entre els diferents selenoproteïnes i homòlegs en cisteïna predits, per tal de poder observar si la regió on hi ha la U o la C és una regió altament conservada. L’alineament en qüestió el podeu visualitzar aquí.

Tal i com es pot observar, hi ha una alta conservació a la regió que implica la selenocisteïna o la cisteïna en el cas dels homòlegs fet que mostra la seva rellevància funcional.



Elements SECIS

 

La cerca d'elements SECIS amb el programa SECISearch ens permet fer més robustes les nostres conclusions, ja que el fet de trobar un element SECIS en una regió de DNA fortifica la predicció de la presència d'una selenoproteïna en aquell fragment nucleotídic. I viceversa, si estem analitzant una selenoproteïna homòloga en cisteïna, esperarem no trobar element SECIS (excepte que sigui un remanent ancestral, que encara no ha estat eliminat per l'evolució). D'acord amb això passem a comentar els nostres resultats en funció de les espècies de protistes a analitzar:

(NOTA: només analitzarem els genomes en els quals hem trobat selenoproteïnes.)

Hem seguit el mateix procediment amb totes les espècies de protistes. A fi de trobar elements secis hem analitzat totes les regions de DNA que contenien possibles selenoproteïnes, obtingudes amb tots els queries de SelT (SelT Celegans3b, SelT Hsapiens etc.). En altres paraules, hem analitzat tots els fitxers fasta obtinguts després de fer anar el programa fastasubseq, i que sospitem que contenen selenoproteïnes. Hem utilizat 4 patrons: strict, default, loose canònic i loose no canònic, dels quals loose no canònic és el menys exigent (més possibilitats d'obtenir fals positiu).

Genoma de Phaeodactylum tricornutum

A fi de trobar elements secis hem analitzat tots els queries de SelT (SelT Celegans3b, SelT Hsapiens etc.) amb el genoma de P. tricornutum. En aquest protista hem trobat selenoproteïna T, i per tant, també s'espera trobar elements SECIS.

Utilitzant el filtre més estricte (strict) no s'ha trobat cap hit. No obstant, si que se n'ha trobat un amb el filtre default ATGA amb un COVE score de 3,97. Utilizant el filtre loose també obtenim el mateix resultat. Fent el mateix amb un filtre loose no canònic, obtenim el mateix resultat (COVE score 3,97) més 3 hits més de COVE score 0. Això és normal, ja que el filtre loose no canònic engloba els resultats del filtre loose més altres possibles hits encara menys robustos, i per tant, més facilment produits degut a l'atzar.

Per a tots els querys del Sel T hem obtingut el mateix resultat.

Genoma de Saprolegnia parasitica

Amb els queries de M. musculus i H. sapiens, no hem trobat cap element SECIS, ni tampoc amb el filtre loose no cannonic. Això encaixa amb els nostres resultats perquè tampoc hem trobat cap selenoproteïna utilitzant aquests dos queries.

Amb els queries de C. elegans si que hem trobat element SECIS amb un COVE score de 34,84, i també hem trobat selenoproteïna T. El filtre utilitzat ha estat el default ATGA, ja que amb el filtre strict tampoc hem trobat res.

Aquest valor de COVE score de 34,84 el considerem molt bo, i és el millor que hem pogut trobar.

Aquests resultats suggereixen que els queries de C. elegans han alineat (al tBLASTn) amb una part del genoma de S. parasiticadiferent de la part del genoma que ha alineat amb els queries de H. sapiens. Ho hem comprovat i efectivament és així.

Genoma de Ectocarpus siliculosus

Amb tots els queries i utilitzant el filtre default ATGA hem obtingut hits amb un COVE score de 16,59.

 

Genoma de Thecamonas trahens

Només hem trobat hits utilitzant l'ultim filtre, el loose no cannònic. El valor de COVE score ha estat de 3,97. S'ha de dir que no és un valor molt fiable, ja que és un valor numèric baix i obtingut amb l'ultim filtre, però, degut a que sabem que en aquest organisme hi ha selenoproteïna, podem acceptar com a bo aquest element SECIS. Un valor, amb un filtre loose no canònic, de 3,97, en un organisme que no tingués cap selenoproteïna potser no seria gaire significatiu, però en el nostre cas, la presència de selenoproteïna en el nostre genoma reforça la robustesa d'aquesta predicció d'element SECIS.

Genomes de Cryptosporidium muris i Cryptosporidium parvum

En aquests dos organismes no hem trobat cap element SECIS. Aquest resultat és coherent ja que son dues espècies que han canviat la selenoproteïna T per un homòleg en cisteïna.

 

Proteïnes de la maquinària

Hem analitzat la presència de les proteïnes només en els genomes en els quals hem trobat selenoproteïnes o homòlogues amb cisteïna. Tot i així, degut a que tenim automatitzat el programa tBLASTn, aquest l’hem realitzat per tots els genomes.

eEFSec

En els casos de P. tricornutum, S.parasitica, E.siliculosus i T. trahens hem obtingut bons hits, dels quals hem escollit els millors per seguir amb Exonerate i Genewise, on hem obtingut bons resultats en tots els casos. Després hem fet TCoffee, en el qual hem obtingut molt bons alineaments en els quatre quatre genomes (scores tots superiors a 92). A més, al final hem confirmat els resultats fent un BLASTp de la proteïna predita per observar si trobàvem la mateixa proteïna en altres espècies, fet que ens ha permès confirmar la presència de eEFSec en aquest quatre genomes. Els queries de eEFSec utilitzats per fer aquesta cerca ha estat el d’Homo sapiens.
Pel que fa als genomes de C.parvum i C.muris, en els quals hem identificat prèviament proteïnes homòlogues amb cisteïna,  també hem obtingut bons alineaments amb el tBLASTn, i hem seguit utilitzant el millor hit (3e -17). Hem obtingut bons resultats amb exonerate, genewise i un bon alineament amb TCoffee (score 98). En fer el BLASTp, però, no hem trobat eEFSec en altres espècies, però sí proteïnes de la seva mateixa família. Així doncs, podem deduir que aquesta proteïna no es troba en aquest genoma, i que el que els resultats obtinguts amb TCoffee, si tenim en compte que a més es tracta d’un fragment curt de proteïna, fan referència segurament a un domini compartit de eEFSec amb altres proteïnes d’aquesta família, però no a la mateixa eEFSec.  Aquest raonament té sentit si considerem que en aquests dos genomes hem identificat homòlegs en cisteïna i per tant afirmem que aquests organismes no han conservat eEFSec. El queries de eEFSec utilitzats en aquests dos casos han estat el de Drosophila per a C.parvum i el d’Homo sapiens per C.muris.

SPS2

Per a la proteïna SPS 2 hem obtingut bons hits en el tBLASTn amb tots els genomes excepte E.siliculosus, C.muris, C. parvum i A. taiwanensis. Hem continuat el procés, doncs, amb els  genomes de P.tricornutum, S.parasitica i T.trahens, en els quals anteriorment hi hem trobat selenoproteïnes. Pel que fa a l’exonerate, no hem obtingut resultats en cap dels tres genomes, però si que hem obtingut bons resultats posteriorment amb el genewise. Tot i així, en arribar al TCoffee, hem obtingut bons scores en els casos de T.trahens i S.parasitica, però ens hem trobat amb un alineament molt dolent amb el genoma de P.tricornutum (score 52), per tant ja hem descartat el fet que aquest genoma contingui SPS2. A més, això és lògic si tenim en compte que el genewise ens donava una seqüència molt curta. En S.parasitica i  T.trahens, en canvi, hem obtingut alineaments bons (scores de 94 i 91 respectivament), per tant hem deduit que és molt probable que continguin la proteïna. Per confirmar-ho, hem fet el BLASTp i efectivament, hem observat la query original en vàries espècies. Així doncs, SPS2 es troba present en S.parasitica i T.trahens. El query de SPS2 utilitzat ha estat el de Drosophila en tots els casos.

SecS

Amb la proteïna SecS hem obtingut bons hits amb el tBLASTn per a tots els genomes, excepte per C.muris i C.parvum, els dos genomes que contenen homòlegs amb cisteïna. Així doncs, hem escollit els millors hits de P.tricornutum, S.parasitica, E.siliculosus i T.trahens, amb els quals hem realitzat exonerate i genewise. Tant un programa com l'altre ens han mostrat resultats positius, i en el TCoffee també hem vist bons alineaments (scores de 96-97). Seguidament hem fet el BLASTp amb cada una de les proteïnes predites per a cada genoma i efectivament, hem observat la mateixa SecS en varis genomes d'altres espècies, fet que ens ha permès confirmar que els organismes P.tricornutum, S.parasitica i E.siliculosus tenen aquesta proteïna de la maquinària al seu genoma. Els queries de SecS utilitzats han estat Mus musculus en els casos de l'anàlisi en P.tricornutum, S.parasitica i E.siliculosus, i el query de E.siliculosus per l'estudi del genoma de T.trahens.

PSTK

Pel que fa a la proteïna PSTK, hem obtingut bons hits al tBLASTn contra els genomes de P. tricornutum i S. parasitica. Per la a la resta de protists, no hem trobat alineaments significatius. Dels protists que ens han donat positiu pel tBLASTn, hem agafat el millor hit, i utilitzant exonerate, i genewise per corroborar els resultats, hem arribat fins al TCoffee, on hem pogut apreciar un bon alineament en els 2 genomes (scores de 89).Com sempre, l'últim pas ha estat fer un BLASTp, utilitzant com a queries les nostres hipotètiques PSTK's, contra la base de dades del NCBI. En ambdós casos hem vist que la nostra proteïna predita ha alineat amb altres PSTK's d'altres organismes.Per tant, confirmem la presència de PSTK en aquests dos genomes. El query utilitzat en aquest cas ha estat el de Mus musculus.