Scleropages formosus

MATERIALS I MÈTODES



Per tal d’assolir l’objectiu d’anotar totes les selenoproteïnes presents en el genoma de l'espècie Scleropages formosus s’ha desenvolupat un programa informàtic que permet l’automatització del procès de cerca i alineament de seqüències.

En els següents apartats es descriurà de forma detallada els programes utilitzats així com les comandes emprades per tal de facilitar la seva comprensió.

Les diferents seccions del programa dissenyat en llenguatge Perl es poden descarregar des del següent programari: Tractament proteïnes Zebrafish , Anàlisi mitjançant Blast, Processament dels resultats del Blast, Alineament de seqüències protèiques.

Obra de K. Haring

_______________________



Obtenció del material genòmic

El genoma de l'espècie Scleropages formosus ha estat facilitat pels professors de l'assignatura de bioinformàtica de la UPF a través del següent directori:

/cursos/BI/genomes/2015/Scleropages_formosus/genome.fa

Per poder utilitzar el programa disenyat pel nostre grup per l’estudi de selenoproteïnes és imprescindible l'exportació d’altres programes mitjançant les següents comandes:


$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH             # pel NCBI Blast
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/                     # pel NCBI Blast 
$ export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH        # per l'exonerate
$ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg    # pel GeneWise
$ export PATH=/cursos/BI/bin:$PATH                           # pel GeneWise, el t_coffee i el fastaseqfromGFF.pl.

Obra de K. Haring

_______________________



Obtenció de les selenoproteïnes de referència

Per poder obtenir les selenoproteïes de l’espècie en estudi és necessària la comparació amb el selenoproteoma d’una espècie de referència o query que sigui, per una banda, filogenèticament proper i, per l’altra, que ja hagi estat anotat en alguna base de dades.

En el cas del Scleropages formosus la query escollida ha estat la de l’espècie Danio rerio més conegut com a Zebrafish. Tot i així, en moments puntuals, s’ha hagut de realitzar la cerca i alineament de selenoproteïnes a través del selenoproteoma humà, ja que les selenoprotïnes humanes estan millor anotades i, als ser tots dos vertebrats comparteixen característiques.Les bases de dades utilitzades per a l’obtenció d’aquests selenoproteomes són SelenoDB i UniProt.

És important destacar que, per realitzar un correcte alineament de les seqüències, les selenocisteïnes, identificades amb el símbol d’U, van ser substituïdes des de l’inici per una X, que simbolitza la presència de qualsevol aminoàcid. Aquest procès es va dur a de manera automatitzada.

Obra de K. Haring

_______________________



Cerca de similaritat:

Per tal de trobar la similaritat entre la seqüència proteica de la query amb la seqüència nucleotídica del Scleropages formosus s’ha utilitzat el programa informàtic tBLASTn. S’ha determinat que existeix similaritat quan el E-value dels hits és inferior a 0,001.

La comanda utilitzada al programa que correspon a la cerca de similaritat és la següent:


$ blastall -p tblastn -i ./zf_prot/$fitxer -d /cursos/BI/genomes/2015/Scleropages_formosus/genome.fa -e 1e-4 -m8 > ./blast/sf$numprot.blast.fa 

Obra de K. Haring

_______________________



Extracció de la regió genòmica d’interès:

Per tal de facilitar la manipulació i interpretació de les dades és de gran utilitat disminuir la mida del material amb el que es treballa.

Primerament es requereix obtenir el genoma en diferents regions o scaffolds. Això es pot aconseguir a través del programa Fastaindex. En aquest cas el genoma ordenat en diferents regions va ser proporcionat pels professors de l'assignatura i es pot trobar en el següent directori:

/cursos/BI/genomes/2015/Scleropages_formosus/genome.fa/genome.index

Un cop es obtingut el genoma indexat es pot treballar amb les seqüències d’interés, que corresponen a aquelles que potencialment contenen gens que codifiquen per selenoproteïnes. Tenint en compte els hits amb valors estadísticament significatius al tBLASTn es poden extreure les seqüències sobre les que treballar a través del programa Fastafetch que es troba al programa disenyat amb la següent comanda:


fastafetch $genome $index $v[1] > /home/Uxxxxx/fasta_fetch/sf$numprot$v[1].fetch.fa
# Uxxxxx correspon al Path utilitzat

Posteriorment, per assegurar que en la seqüència escollida s’inclouen els gens d’interès és necessari expandir les seqüències upstream i downstream dels hits seleccionats. Això s’aconsegueix a través del programan Fastasubseq, en el que s’ha d’indicar el punt d’inici i la longitud de la seqüència que es vol extreure.

El punt d'inici per a la seqüència a extreure es va establir 50.000 nucleòtids upstream del valor més petit de la columna start del tBLASTn, sempre que la longitud de la regió ho permetés. En cas d’una llargada nucleotídica upstream més curta, el primer nucleòtid era considerat el punt d'inici mentre que la longitud de la seqüència es va determinar en 100.000 nucleòtids. La comanda utilitzada al programa és la següent:


$ fastasubseq /home/Uxxxxx/fasta_fetch/sf$numprot$v[1].fetch.fa $min $distancia > /home/Uxxxxx/fasta_subseq/sf$numprot$v[1].subseq.fa 

Obra de K. Haring

_______________________



Predicció d'exons:

Per tal d’obtenir les seqüències exòniques responsables de la codificació de les selenoproteïnes es va utilitzar de manera predominant el programa Exonerate. Aquest permet l’extracció única dels exons de la resta d’informació continguda en les regions que s’obtenen a partir del Fastasubseq. La comanda del programa utilitzada és la següent:


$ exonerate -m p2g --showtargetgff -q  /home/Uxxxxx/prots_senseu/zf$numprot.prot -t /home/Uxxxxx/fasta_subseq/sf$numprot$v[1].subseq.fa | egrep -w exon > /home/Uxxxxx/exonerate/sf$numprot$v[1].exonerate.gff

En determinades ocasions, la visualització de les seqüències no és prou acurada, pel que es pot utilitzar un programa amb la mateixa funció que l’Exonerate anomenat GeneWise. La comanda utilitzada en el programa per aquesta alternativa és la següent:


genewise -pep -pretty -cdna -gff /home/Uxxxxx/prots_senseu/zf$numprot.prot /home/Uxxxxx/fasta_subseq/sf$numprot$v[1].subseq.fa > /home/Uxxxxx/genewise/sf$numprot$v[1].genewise

Posterioment, per obtenir la seqüència de cDNA que ha generat el programa Exonerate en format .gff s'ha utilitzat el programa FastaseqfromGFF. La comanda necessària és:


$ fastaseqfromGFF.pl /home/Uxxxxx/fasta_subseq/sf$numprot$v[1].subseq.fa /home/Uxxxxx/exonerate/sf$numprot$v[1].exonerate.gff > /home/Uxxxxx/exonerate_gff/sf$numprot$v[1].exonerate.cds 

Finalment, amb la següent comanda, s'aconsegueix obtenir la seqüència proteica del genoma d'interès a partir del seu cDNA a través del programa Fastatranslate.


$ fastatranslate -f /home/Uxxxxx/exonerate_gff/sf$numprot$v[1].exonerate.cds -F 1 > /home/Uxxxxx/translate/sf$numprot$v[1].prot

Obra de K. Haring

_______________________



Alineament de seqüències:

Per tal d’obtenir l’alineament entre la recent seqüència proteica obtinguda del Scleropages formosus i la seqüència query s’utilitza el programa T-coffee.

És important tenir en compte que per tal d’aconseguir un bon alineament és necessari que els símbols U siguis substituïts per X, com en els passos inicials.

La comanda del programa T-coffe és la següent:


$ t_coffee /home/Uxxxxx/prots_senseu/zf$numprot.prot /home/Uxxxxx/translate_U/$fitxer > /home/Uxxxxx/koffee/$fitxer.koff

Obra de K. Haring

_______________________



Obtenció d’elements SECIS:

L’aparició d’elements SECIS en la seqüència poden ajudar a predir la presència de selenoproteïnes. Tot i així existeixen moltes ocasions en que la presècia d’aquestes no va acompanyada amb la d’elements SECIS

El programa SEBLASTIAN permet predir els elements SECIS que hi haurà en les seqüències d’estudi. Aquest programa ha estat utilitzat en el pas final en el desenvolupament d’aquest projecte.

Primerament es van introduir al SEBLASTIAN totes les protïnes obtingudes amb la opció de predicció de protrïnes. En els casos en què s'indicava que no existia cap proteïna però si hi havia presència d'elements SECIS, es van tornar a introduïr les seqüències d'aquestes proteïnes al programa indicant l'opció d'obtenció d'elements SECIS.

Obra de K. Haring