Materials i Mètodes

L'objectiu d'aquest treball és identificar i anotar totes les selenoproteïnes en el genoma de Leptonychotes weddellii. Per tal d'aconseguir-ho, busquem selenoproteïnes i proteïnes de la maquinària de síntesi de selenoproteïnes conegudes d'humà (Homo Sapiens) i de morsa (Odobenus rosmarus) en el genoma de la foca de Weddell, fent servir un mètode basat en l'homologia dels gens per alineaments de seqüències. Odobenus rosmarus s'ha escollit per proximitat filogenética amb el nostre organisme.

Mètodes

Obtenció del genoma

El genoma de Leptonychotes weddellii es pot extreure de la pàgina web de l'Ensembl. No obstant, en ésser un fitxer tan gran, els professors de l'assignatura abans de començar el treball ens han facilitat el genoma, format per diferents scaffolds, el qual es podia accedir des del directori:

/cursos/BI/genomes/project_2014/Leptonychotes_weddellii/genome.fa


Obtenció de queries

Per tal d'obtenir la seqüència dels gens de les selenoproteïnes conegudes d'humà i de les proteïnes de la maquinària de les selenoproteïnes hem fet servir la base de dades SelenoDB, que conté gens de selenoproteïnes, proteïnes de la maquinària i altres molècules relacionades.


Les selenoproteïnes del genoma de la morsa les hem buscat a la base de dades de l'NCBI.
Una vegada obtinguda la seqüència d'aminoàcids de cada proteïna, aquesta s'ha emmagatzemat en un fitxer anomenat "nomproteïna.fa" (per exemple: DI1.fa).

Realització del tBLASTn

El BLAST (Basic Local Alignment Search Tool) és un programa informàtic el qual alinea seqüències de DNA, RNA o proteïnes de tipus local. Aquest programa utilitza un algorisme per tal de comparar una seqüència problema (query) contra una gran quantitat de seqüències que es troben en una base de dades. En el nostre cas, hem utilitzat un tipus de BLAST anomenat tBLASTn, on la query és la seqüència d'aminoàcids de la selenoproteïna que coneixem en el genoma humà i la comparem contra una seqüència de nucleòtids traduïda en tots els possibles marcs de lectura (el genoma problema Leptonychotes weddellii).

Per tal d'executar aquest programa, necessitem extreure el software necessari. Així doncs, primerament hem d'utilitzar les següents comandes:

$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/


A continuació, ja podrem executar el programa a partir de la comanda:

$ blastall -p tblastn -i query.fa -d /cursos/NI/genomes/project_2014/Leptonychotes_weddellii/genome.fa -o blast_nomproteïna


El fitxer "query.fa" és on es troba la nostra seqüència de selenoproteïna coneguda, "genome.fa" és l'arxiu que conté el genoma del nostre organisme i "blast_nomproteïna" serà el fitxer en el qual s'emmagatzemarà la informació del BLAST.

Un cop s'ha fet el BLAST, apareixeran els millors alineaments possibles entre la nostra query i el genoma de Leptonychotes weddellii (hits) amb un E-value i un valor d'Score. Escollirem el hit que tingui els millors E-value i Score i anotarem la regió on es troba el hit.


Fastaindex

Per tal de fer els següents passos, és necessari utilitzar el fastaindex per tal d'ordenar el genoma pels seus fragments (scaffolds). A través de la següent comanda s'obtindrà l'arxiu genome.index (hiperlink):


$ fastaindex /cursos/BI/genomes/ project_2014/Leptonychotes_weddellii/genome.fa genome.index


Selecció del Scaffold i la regió del hit

Un cop seleccionat el millor hit, volem seleccionar l'Scaffold on es troba el hit per no haver de treballar amb tot el genoma i treballar amb més eficiència. Indiquem on es troba el genoma, l'arxiu amb els scaffolds separats (genome.index) i el nom de l'Scaffold entre cometes. Utilitzarem, doncs, el programa fastafetch:


$ fastafetch /cursos/BI/genomes/project_2014/Leptonychotes_weddellii/genome.fa genome.index "identificador Scaffold" target="_blank" > scaffold_nomquery.fa


Selecció de la regió on es troba el hit : fastasubseq

Amb el programa fastasubseq acotarem la regió de l'Scaffold on es troba el hit. A partir de la posició de la seqüència, obtinguda a través del BLAST, augmentarem la llargada del nostre hit 100.000 nucleòtids downstream i 100.000 upstream per tal d'assegurar-nos que la nostra selenoproteïna es troba en aquesta regió.


$ fastasubseq scaffold_nomquery.fa start length > regio_query.fa


Indiquem, doncs, l'Scaffold on es troba el nostre hit, on començarà el nostre hit ("start") i la llargada total de nucleòtids ("length"). Anomenarem "regio_query.fa" al fitxer de sortida.


Anotació: Exonerate

L'Exonerate ens predirà els elements funcionals continguts a la seqüència genòmica a partir de l'alineament entre la nostra query i el genoma de Leptonychotes weddellii. és important canviar en el fitxer de la nostra query les "U" per "X", ja que sinó ens donarà error.

Per tal que aquest programa funcioni hem d'introduir primer aquesta comanda:

export PATH=/cursos/BI/soft/exonerate/i386/bin:$PATH

En aquest punt ja es pot executar l'Exonerate:

$ exonerate -m p2g --showtargetgff -q query.fa -t regio_query.fa > exonerate_query.gff

Un cop vistos els diferents elements funcionals, tornarem a executar l'Exonerate amb "egrep" per tal de seleccionar només els exons.

$ exonerate -m p2g --showtargetgff -q query.fa -t regio_query.fa > exonerate_query.gff | egrep -w exon > exonerate_exon_query.gff

Seguidament, el que volem és crear un arxiu fasta amb la seqüència de cDNA. Per tal d'aconseguir això, utilitzarem un programa Perl anomenat fastaseqfromGFF.pl.

$ fastaseqfromGFF.pl regio_query.fa exonerate_exon_query.gff > query.cdna

Un cop obtingut l'arxiu fasta amb el cDNA, el que volem és traduir-lo en els sis possibles marcs de lectura.. Utilitzarem fastatranslate:

$ fastatranslate cDNA.fa > query_lectures.fa

També s'afegeix "-F 1" per tal que el programa ens doni la proteïna traduïda amb la millor pauta de lectura:

$ fastatranslate cDNA.fa > query_aa.fa


Alineament global amb T-coffee

Finalment, amb el programa T-coffee farem un alineament global entre la proteïna resultant (query_aa.fa) i la seqüència d'aminoàcids de la selenoproteïna coneguda en el genoma humà (query). Utilitzarem la comanda següent:

$ t_coffee query.fa query_aa.fa


Cerca d'elements SECIS

Una vegada s'ha acabat el procés, s'ha realitzat la cerca d'elements SECIS a través del programa SECISearch3. Es carrega tot l'Scaffold on es troba la proteïna al programa de SECISearch3. El programa ens dona diversos elements SECIS possibles i es seleccionen l'adequat. L'element ha de estar en la mateixa cadena que la proteïna, ha de tenir un score superior a 15 i ha d'estar en la posició 3'-UTR de la proteïna, a no més de 10000 nucleòtids de distància d'aquesta.


Programes

Automatització

Per poder augmentar l'eficiència i la rapidesa de l'analisi de les dades obtingudes, es va automatitzar el procés. Els programes que es van usar són:

  • automatic.sh: Aquest programa executa totes les comandes que es realitzen manualment (exonerate, tblastn, tcoffee...) per tal de trobar les selenoproteïnes al nostre genoma.
  • evalue.pl: Aquest programa analitza els outputs donats pel tblastn i ens selecciona el hit amb l'e-value més baix.
  • cambiarU.pl: Aquest programa substitueix les "U" de les selenoproteïnes seleccionades al selenoDB per "X".