Materials i Mètodes












1. Obtenció del genoma de Leishmania braziliensis

L´hem extret del /disc8/ que ens ha proporcionat el professorat. Tot i que també hi ha altres bases de dades d´internet com NCBI i GeneDB on el podríem haver trobat.

2. Obtenció de les seqüéncies de les selenoproteïnes

Hem buscat totes les selenoproteïnes d´una sèrie d´espècies: Homo sapiens, Mus musculus, Drosophila melanogaster, Trypanosoma brucei i Leishmania major. Hem escollit específicament Trypanosoma, Drosophila i L. major perquè són les més properes a la nostra espècie i, H. sapiens i M. musculus perquè són les més interessants pel treball. Les seqüències d´aquestes selenoproteïnes les hem obtingudes de les següents bases de dades: SelenoDB, GeneDB i NCBI.


3. Blast

Hem començat doncs, fent un BLAST amb totes les selenoproteïnes trobades contra el nostre genoma de L. braziliensis. Més concretament, hem utilitzat el tBLASTn, que compara una seqüència de proteïnes contra una seqüència de nucleòtids. Per poder analitzar els resultats, considerem que un bon alineament serà aquell que tingui un E-value menor que 10e-4;.

Tenint en compte aquest fet, seleccionem només aquelles selenoproteïnes que corresponguin a aquest E-value i les analitzem més a fons. Cal dir que hi ha algunes selenoproteïnes que tenen un bon E-value en més d´una espècie (és normal que en humà i en ratolí les seqüències s´assemblin). En aquests casos, hem triat la d´E-value més baix.

Per realitzar aquest procés, hem utilitzat les comandes de la terminal:

4. Seqüència genòmica de la regió d´interès

Per obtenir la seqüència genòmica de cada regió d´interès, cal realitzar els següents passos:

Ara ja tenim la regió del genoma que ens interessa i podem seguir treballant per trobar les coordenades dels exons i la proteïna predita.

5. Predicció d´exons i proteïna

Per fer aquest pas hem utilitzat tant el programa EXONERATE com el GENEWISE. Hem utilitzat el Genewise com a primera opció.

El que ens interessa, tant en l´EXONERATE com en el GENEWISE, és la seqüència de cDNA, així que la guardem com un arxiu de text per poder buscar-hi els diferents ORFs. Així doncs, fem un fastatranslate i ho traduïm a proteïna. En aquesta comanda, seq.cDNA és la seqüència de cDNA extreta i proteina.fa és l´output del fastatranslate.

$ fastatranslate seq.cDNA > proteina.fa

En l´output tenim els 6 ORFs possibles. Per escollir quin és el millor i per tant, quin és la nostra proteïna predita, fem un BLASTp de l´arxiu on hi ha els 6 ORFs (proteina.fa) contra la seqüència de la selenoproteïna d´interès. Passos a seguir:

Observant els resultats d´aquesta última comanda, veiem com un dels ORFs és el que té un hit més elevat. Així, aquest serà la nostra proteïna predita.

6. T-coffee

Un cop predita la nostra proteïna hem utilitzat el programa Tcoffee per tal de fer un alineament múltiple de seqüències ortòlogues a la proteïna trobada . Per fer aquests alineaments el programa et compara primer les seqüències per parelles produint una sèrie d´alineament globals i locals que acaben finalment combinant-se en un alineament múltiple. L´alineament múltiple obtingut ens permet observar si en diferents espècies hi ha conservaciò de la seqüèncie predita.

7. Interpro

Finalment hem buscat en la base de dades Interpro, dominis funcionals de les proteïnes predites.

Aquesta base de dades conté famílies de proteïnes, dominis, regions, i repeticions on les característiques trobades en proteïnes conegudes poden ser aplicades a seqüències de proteïnes noves.

clicka para volver



Bioinformàtica 2009