Resum
   Introducció
   Materials i mètodes
   Resultats
   Conclusions

   Bibliografia
   Agraïments

   Principal

MATERIALS I MÈTODES

L'objectiu d'aquest treball és trobar la distribució en el domini eucariota de 3 selenoproteïnes humanes. Per aconseguir-ho, caldrà realitzar els següents passos:

  1. Tria de seqüències
  2. Cerca de seqüències d'altres organismes, potencialment homòlogues: TBLASTN
  3. Programa per filtar les seqüències d'interès
  4. Traducció de les seqüències nucleotídiques: Transeq
  5. Alineament múltiple de les üències: ClustalW
  6. Cerca d'elements SECIS: SECISearch

1. Tria de seqüències

Mitjançant la base de dades del NCBI, vam buscar les selenoproteïnes humanes descobertes i seqüenciades fins al moment. De totes elles, ens centrarem en les que el seu identificador començava per NP, ja que això indica que no són prediccions, i que han estat supervisades acuradament. D'aquestes, en vam seleccionar 3 aleatòriment: la SelX, la SelW i la SelI.

Tot seguit, vam comprovar que aquestes no tinguessin la selenocisteïna molt al final de la seqüència i vam substituir les U per una * ja que les matrius de substitució de blast no reconeixen la U com a aminoàcid.

Es pot accedir a la seqüència d'aquestes proteïnes mitjançant els següents links (taula 1):

Selenoproteïna X NP_057416
Selenoproteïna W NP_003000
Selenoproteïna I NP_277040
Taula 1

2. Cerca de seqüències d'altres organismes, potencialment homòlogues: TBLASTN

El BLAST (Basic Local Alignment Search Tool) és un algorisme que permet comparar dos seqüències biològiques o una seqüència contra una base de dades de seqüències. Tal com diu el seu nom, es tracta d'una eina que realitza alineaments locals, no globals. El BLAST inclou diferents programes. D'entre ells, hem utlitzat el TBLASTN, ja que compara una seqüència proteica amb una base de dades de seqüències nucleotídiques traduïdes en les 6 possibles pautes de lectura (tenint en compte les dues cadenes del DNA).

Hem utilitzat el TBLASTN amb les nostres 3 seqüències contra dues bases de dades: EST (NCBI) i EGO (Eukaryotic Gene Orthologs). Els paràmetres que hem modificat al realitzar el TBLASTN són:

- l'e-value (expectation value): el seu valor ens mostra la probabilitat de trobar aquell alineament per atzar. Per defecte, el programa ens mostra un e-value de 10, però nosaltres l'hem utilitzat de 1, per minimitzar l'acció de l'atzar. No l'hem escollit de 0.1 per poder obtenir resultats d'alineaments de la seqüència de la selenoproteïna humana amb espècies no molt properes filogenèticament.

- la matriu de substitució d'aminoàcids: és una matriu de 20 x 20 en la qual per cada parell d'aminoàcids hi ha assignat un "log-odd score" basat amb les les freqüències observades de correspondències dels 2 aminoàcids en alineaments de proteïnes relacioandes. Les identitats contenen les puntuacions més positives. Freqüentment, les substitucions observades també tenen puntuacions positives i les substitucions rarament observades tenen puntuacions negatives.

Hem utilitzat la BLOSUM62 (construïda a partir de seqüències que tenen un 62% de similaritat entre elles), perquè s'ha comprovat empíricament que és la que proporciona millors resultats quan les espècies són moderadament distants.

- emmascaraments: hem eliminat l'emmascarament de les regions de les seqüències de baixa complexitat per evitar perdre alineaments on la U formava part d'aquestes regions.

- nombre d'alineaments i descripcions mostrades: 500

Els resultats del TBLASTN per a cadascuna de les selenoproteïnes és el següent (taula 2):

EGO
EST
Selenoproteïna X
Selenoproteïna X
Selenoproteïna W
Selenoproteïna W
Selenoproteïna I
Selenoproteïna I
Taula 2

3. Programa per filtar les seqüències d'interès

Un cop tenim els resultats de TBLASTN de cadascuna de les 3 selenorproteïnes humanes contra les dues bases de dades (EST i EGO), utilitzem el programa que hem dissenyat amb Perl. Aquest ens mostrarà únicament aquelles seqüències (ara amb un e-value menor a 0,1) que contenen una selenocisteïna (U) a la seqüència query i una selenocisteïna (U), cisteïna (C) o stop codon (*) a la seqüència subject. Així identificarem altres organismes eucariotes que tenen proteïnes potencialment homòlogues a les selenoproteïnes humanes escollides. Aquestes proteïnes potencialment homòlogues tant poden contenir una C com una U a la seqüència. També hem demanat al programa que ens mostri els alineaments de les U de les selenoproteïnes humanes amb * perquè moltes bases de dades encara no inclouen la U com a aminoàcid, i l'interpreten com a stop codon.

Els resultats obtinguts en executar el nostre programa amb els aliniaments de les tres selenoproteïnes humanes contra les dues bases de dades han estat els següents (taula 3):

EGO
EST
Selenoproteïna X
Selenoproteïna X
Selenoproteïna W
Selenoproteïna W
Selenoproteïna I
Selenoproteïna I
Taula 3

4. Traducció de les seqüències nucleotídiques: Transeq

Després de seleccionar les seqüències subject d'interès (amb els respectius frames) amb el nostre programa, hem buscat les seves seqüències nucleotídiques completes a les respectives bases de dades (EST i EGO) mitjançant els seus identificadors.

Posteriorment, hem traduït aquestes seqüències (amb el frame correcte) a proteïna amb el Transeq, un programa que tradueix seqüències nucleotídiques a la seqüència nucleotídica corresponent, traduint en qualsevol de les 6 pautes de lectura possibles.

Les seqüències proteiques obtingudes per cada selenoproteïna (Sel X, SelW i Sel I) i per cada base de dades són les següents (taula 4):

EGO
EST
Selenoproteïna X
Selenoproteïna X
Selenoproteïna W
Selenoproteïna W
Selenoproteïna I
Selenoproteïna I
Taula 4

Per obtenir les seqüències proteiques de la taula anterior, hem utilitzat les següents comandes del Unix, però degut a que el format dels fitxers amb les seqüències provinents de la base de dades EGO i EST són diferents, ha calgut utilitzar comandes diferents per assolir el mateix objectiu (veurem l'exemple de la SelX, tot i que s'ha realitzat amb totes 3):

- per aconseguir un fitxer amb únicament les línies identificadores de les seqüències nucleotídiques dels subjects a partir del fitxer obtingut un cop executat el programa:

       - per l'EST: perl -ne 'next unless />/; /\|([^\|]+)\|/; print "$1\n"'prog_X_est.out >                            identificadors_X_est
       - per l'EGO: perl -ne 'next unless />/; />(.*?)xx.*(..)\Z/; print "$1\n"' prog_X_ego.out >                            identificadors_X_ego

- a partir dels identificadors obtenim les seqüències nucleotídiques senceres de les proteïnes a les respectives bases de dades. Les tindrem en format fasta (fitxers_est.fa i fitxers_ego.fa).

- per crear fitxers fasta (un per cada seqüència):

       - per l'EST: for n in $(perl -ne 'next unless />/; /\|([^\|]+)\|/; print "$1\n"' prog_X_est.out); do                             FastaToTbl fitxers_X_est.fa | grep $n | TblToFasta > fasta/$n_X_est.fa; done
       - per l'EGO: for n in $(perl -ne 'next unless />/; />(.*?)xx/; print "$1\n"' prog_X_ego.out); do                              FastaToTbl fitxers_X_ego.fa | grep $n | TblToFasta > fasta/$n_X_ego.fa; done

- per traduir cada seqüència en la seva pauta correcta utilitzarem el programa Transeq, executant-lo des del Unix, mitjançant les següents comandes:

       - per l'EST: perl -ne 'next unless />/; /\|([^\|]+)\|.*(..)\Z/; $nom=$1;$p = $2; if($p =~ /\+(.)/){$p =                            $1} system("transeq -frame $p fasta/$nom*_X_est.fa -outseq $nom._X_est.prot");                            print "$nom fet\n";' prog_X_est.out
       - per l'EGO: perl -ne 'next unless />/; />(.*?)xxxx(..)/; $nom=$1;$p = $2; if($p =~ /\+(.)/){$p =                             $1} system("transeq -frame $p fasta/$nom*_X_ego.fa -outseq                             $nom._X_ego.prot"); print "$nom fet\n";' prog_X_ego.out

- per guardar totes aquestes seqüències proteiques d'una mateixa selenoproteïna en un fitxer utilitzem la comanda següent (que també elimina les seqüències en format fasta individuals):

       - per l'EST: cat *X_est.prot > ../X_est.prot; rm *X_est.prot
       - per l'EST: cat *X_ego.prot > ../X_ego.prot; rm *X_ego.prot

5. Alineament múltiple de les seqüències: ClustalW

El ClustalW és un programa que realitza alineaments múltiples de seqüències nucleotídiques o proteiques. El seu algorisme calcula la puntuació de tots els alineaments possibles entre les seqüències seleccionades i mostra el de més puntuació. Permet observar identitats, similaritats i diferències d'aquest alineament, i permet predir possibles relacions evolutives entre els organismes alineats.

Nosaltres, hem utilitzat el ClusatlW per alinear les seqüències proteiques de les dues bases de dades obtingudes a partir del programa Transeq, per cadascuna de les 3 selenoproteïnes.

Hem alineat totes les seqüències, de cada selenoproteïna obtingudes amb la base de dades EGO. Seguidament hem eliminat d'aquest alineament totes les seqüències que clarament no alineaven (les seqüències d'espècies vegetals) i hem tornat a realitzar l'alineament múltiple amb la resta de seqüències. L'eliminació d'aquestes seqüències ha permès obtenir un millor alineament (taula 5).

També hem alineat totes les seqüències obtingudes amb la base de dades EST, per cada selenoproteïna. Cal dir que en aquest cas teníem una quantitat de seqüències més gran i moltes d'aquestes eren d'espècies repetides. Per tal de tenir a l'alineament només una seqüència de cada espècie, hem escollit la seqüència de cada espècie que tenia un valor d'e-value menor en l'alineament que vam realitzar amb el TBLASTN, i hem tornat a fer l'alineament múltiple amb el Clustalw. Seguidament, per tal d'obtenir un millor alineament (taula 5), hem eliminat aquelles seqüències que clarament no alineaven a la zona del voltant de l'aminoàcid selenocisteïna.

EGO
EST
Selenoproteïna X
Selenoproteïna X
Selenoproteïna W
Selenoproteïna W
Selenoproteïna I
Selenoproteïna I
Taula 5

Seguidament, hem ajuntat les seqüències proteiques de les dues bases de dades, que en alguns casos contenen informació complentària i hem obtingut un nou alineament múltiple per cada selenoproteïna molt més informatiu (taula 6).

Alineament múltiple per SelX
Alineament múltiple per SelW
Alineament múltiple per SelI
Taula 6

Tot i això, després d'analitzar aquest alineament, vam veure que hi havia seqüències d'algunes espècies repetides (una de la base de dades EGO i l'altre de l'EST). Per tal de quedar-nos només amb una, vam veure quina d'elles alineava millor a la regió del voltant de la selenocisteïna. Cal dir que en tots els casos, les seqüències que alineaven millor eren les de la base de dades EGO.

Tot seguit, vam eliminar els extrems 3' i 5' UTR de totes les seqüències, fixant-nos amb la metionina d'inici de la traducció i el primer codó stop que es trobava després de la selenocisteïna, de les tres selenoproteïnes humanes i hem tornat a fer l'alineament múltiple, per cadascuna d'elles. També hem eliminat alguna seqüència que hem vist en aquest punt que no alineava massa bé. És aquest, doncs, l'alineament que hem utilitzat per obtenir els resultats del projecte (taula 7):

   Alineaments múltiples finals   
Selenoproteïna X
Selenoproteïna W
Selenoproteïna I
Taula 7

6. Cerca d'elements SECIS: SECISearch

L'estructura SECIS, localitzada a la regió 3' en els mRNAs de les espècies del domini eucariota i archea, és l'estructura secundària/terciària de RNA que dirigeix la recodificació del codó TGA.

El programa SECISearch 2.19 identifica elements SECIS candidats en seqüències nucleotídiques, basant-se en la seqüència primària i un criteri d'avaluació de l'energia termodinàmica. El programa mostra com a resultat (quan s'ha trobat element SECIS) la imatge de l'element SECIS predit, la seva seqüència i la seva puntuació.

Així doncs, a partir de les seqüències nucleotídiques de les espècies en què hem realitzat els alineaments múltiples anteriors per cada selenoproteïna, vam buscar amb el programa SECISearch 2.19 si aquestes contenien o no elements SECIS a la regió 3'UTR dels gens (taula 10 i 12, apartat resultats).