CHELONIA MYDAS

MATERIALS I MÈTODES

L'objectiu del nostre treball és identificar totes les selenoproteïnes de la tortuga Chelonia mydas i anotar on es localitzen en el genoma. El procediment es divideix en diferents apartats on s'utilitzen diferents programes.

Obtenció del genoma problema

El genoma de Chelonia mydas es va obtenir d'una base dades creada pels professors de l'assignatura. El genoma es troba al següent directori:

/cursos/BI/genomes/project_2014/Chelonia_mydas/genome.fa

Aquest directori conté el genoma però s'ha d'indexar, és a dir, cal separar el genoma en segments i ordenar-lo en scaffolds. La següent comanda indexa el genoma i el guarda amb el nom de genome.index:

$ fastaindex /cursos/BI/genomes/project_2014/Chelonia_mydas/genome.fa genome.index

Obtenció de les querys

Per tal de poder trobar les selenoproteïnes, en primer lloc es van buscar totes aquelles anotades en espècies de referència i es van enfrontar contra tot el genoma de Chelonia mydas. Es van seleccionar com organismes model Anolis carolinensis i Pelodiscus sinensis i es va fer la recerca a la base de dades SelenoDB. D'allà s'han pogut obtenir les seqüències proteiques de les selenoproteïnes per tal d'utilitzar-les com a querys.

BLAST

El Basic Local Alignment Search Tool (BLAST) és una eina que ens permet comparar seqüències biològiques, com ara aminoàcids o DNA. Es tracta d'un algoritme que troba similituds entre dues seqüències, realitzant de forma heurística alineaments locals entre les seqüències donades. S'ha de tenir en compte que el fet d'utilitzar un algoritme heurístic pot comportar la pèrdua de hits reals que no presenten una similitud molt elevada.

Dels diferents tipus de BLAST, es va usar el tblastn, el qual permet comparar una query amb una seqüència de nucleòtids o una base de dades de nucleòtids (genome.index). El resultat del tblastn donarà els alineaments possibles de la query i el genoma. Amb cada alineament apareixerà un hit amb la seva E-value i el seu score. Quan més gran sigui l'score i més petit l'E-value, hi haurà menys possibilitats de que l'alineament s'hagi donat per atzar. Per tal d'usar aquest programa, s'ha d'extreure el software necessari mitjançant dues ordres al shell:

$ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/

Cal remarcar que es van descartar els hits (high-scoring segment pairs -HSPs-) amb un E-value major a 10-5. En cas de tenir múltiples hits amb bons E-values, es va triar el que tenia el millor E-value, i es va comprovar si els altres hits podien pertànyer a alguna de les altres proteïnes analitzades.

Per executar la cerca amb tBLASTn d'una query contra una base de dades es va utilitzar la comanda següent:


$ blastall -p tblastn -i query.fa -d /cursos/BI/genomes/project_2014/Chelonia_mydas/genome.fa -o fitxerdesortida

On -p és el tipus de blast (tBLASTn), -i és el fitxer on es troba la query, -d és el fitxer que conté el genoma (genoma.fa) i -o es el nom que se li dóna al fitxer on guardem la informació del blast (fitxersortida). Una vegada obtingut aquest fitxer, s'escullen els hits amb la millor E-value i amb el millor score.



Selecció de l'Scaffold

Quan es selecciona el hit, s'escull l'Scaffold on es troba l'alineament i s'emmagatzema a un nou fitxer, mitjançant el programa fastafetch i la comanda següent:

$ fastafetch /cursos/BI/genomes/project_2014/Chelonia_mydas/genome.fa genome.index "identificador" > scaffold.fa

A la comanda s'indica la ubicació del nostre genoma, el fitxer on es troba el genoma indexat i l'scaffold escollit entre cometes (identificardor). El seleccionat es guarda al fitxer scaffold.fa.

Selecció del hit

Dins de l'scaffold que se selecciona, es delimita la ubicació per tal d'obtenir una regió més acotada que envolti el gen que es busca. D'aquesta manera s'obté una seqüència més curta, amb la qual serà més fàcil treballar. S'agafen les posicions del hit obtingut al BLAST i s'expandeixen els marges de manera que s'asseguri la presència del gen upstream i downstream. La mida de l'expansió que es va realitzar va ser diferent en cada cas, depenent de la longitud i de les propietats de la query. El programa usat per acotar la regió és el fastasubseq:


$ fastasubseq scaffold.fa start length > genomic.fa

A la comanda del programa fastasubseq s'introdueix l'scaffold seleccionat (scaffold.fa), la posició per on volem que comenci la nostra regió (start) i la longitud que tindrà la regió (length). La regió seleccionada es guardarà en un fitxer anomenat genomic.fa.



Predicció d'exons

Els softwares Exonerate i Genwise proporcionen un alineament i una descripció detallada del gen, indicant les regions de splicing, exons i introns, entre altres.

Exonerate

El programa Exonerate alinea la query amb la regió genòmica i prediu els elements funcionals continguts en la seqüència genòmica. Aquest programa no reconeix la lletra U, de manera que que s'ha de canviar la U que apareix en la seqüència de la query per una X, ja que d'altra banda, el resultat d'executar el programa ens donarà error. Per utilitzar l'Exonerate s'han de extreure uns programes determinats:

$ export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH

Per executar-ho s'introdueix la següent comanda:

$ exonerate -m p2g --showtargetgff -q query.fa -t genomic.fa | egrep -w exon > exonerate.gff

On -m p2g indica el model d'alineament, protein to genome, és a dir, la query contra el genoma. --showtargetgff emmagatzema el resultat en format GFF al fitxer de sortida, -q indica on es troba el fitxer amb la query, -t indica la subseqüència obtinguda anteriorment amb el programa fastasubseq. Per tal de seleccionar nomès els exons s'utilitza la comanda egrep. Aquesta comanda selecciona les línies on aparegui el patró introduït dins -w. En aquest cas el patró serà l'exó. Finalment com a fitxer de sortida tindrem l'exonerate.gff que contindrà les regions exòniques en format gff.

FastaseqfromGFF

El programa fastaseqfromGFF.pl extraurà la seqüència exònica en format fasta. Primer haurem de exportar el programa:


$ export PATH=/cursos/BI/bin:$PATH

I després executar-lo:


$ fastaseqfromGFF.pl genomic.fa exonerate.gff > CDNA.fa

On genomic.fa és la subseqüència extreta anteriorment, exonerate.gff és l'arxiu en format gff contenint només els exons i CDNA.fa és el fitxer de sortida que contindrà, en format fasta, la seqüència del cDNA.



Fastatranslate

A continuació amb el programa fastatranslate fem la traducció del cDNA a proteïna. Per tant, passarem de tenir una seqüència de nucleòtids a tenir una de aminoàcids.


$ fastatranslate CDNA.fa > protpredita.fa

L'arxiu de sortida (protpredita.fa) conté tots els marcs de lectura possibles per la seqüència en format multifasta. L'arxiu conté sis seqüències fasta, que corresponen a les sis pautes de lectura possibles (tres forward i tres reverse) de les quals s'ha de seleccionar el marc de lectura que correspongui. Per això es pot afegir l'ordre -F seguit pel nombre de nucleòtids pel que volem que comenci la lectura. Per exemple:


$ fastatranslate query.cdna -F 1 > protpredita.fa

En aquest cas la lectura començarà des del primer nucleòtid.

Genewise

El programa Genewise permet fer una altra predicció de l'anotació del gen. Es tracta d'un programa alternatiu a l'exonerate, que fa un alineament més precís per predir la seqüència exònica des d'una seqüència nucleotídica. Per poder executa-lo cal introduir primer al Shell les comandes següents:

$ export PATH=/cursos/BI/bin:$PATH
$ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg

La comanda per executar el programa és el següent:

$ genewise -pep -pretty -cdna -gff -both query.fa genomic.fa > sortida.gff

On -pep fa que el fitxer de sortida mostri la seqüència peptídica predita,-pretty diu que mostri l'alineament, -cdna que mostri la seqüència genòmica alineada,-gff que mostri la informació en format gff, -both per tal que realitzi la predicció en els dos sentits de lectura (forward i reverse), query.fa és la ubicació de la nostra query, genomic.fa és la subseqüència seleccionada del genoma i sortida.gff és el fitxer de sortida.

T-coffee

Finalment, per tal d'alinear la seqüència proteica obtinguda a partir de la regió genòmica seleccionada amb la query inicial, s'ha de fer servir el programa t_coffee mitjançant la comanda següent:


$ t_coffee query.fa protpredita.fa > alineament.fa

Com a resultat (alineament.fa) s'obté l'alineament, i es pot veure si els residus d'aminoàcids de la proteïna inicial i la predita es corresponen mitjançant la observació de las diferències i les similituds de les dues seqüències.



Predicció dels SECIS

La cerca dels elements SECIS s'ha dut a terme a través de la web SECISearch3. Per tal de dur-la a terme, cal tenir en compte la direcció del gen (forward o reverse) a l'hora d'utilitzar-la. Preferentment, s'han cercat els SECIS amb l'opció strict, però si no donava resultats, s'ha canviat per l'opció default o, si tot i així no s'obtenien resultats, per l'opció loose. En cas d'obtenir més d'un possible element SECIS, s'ha triat aquell més proper al final de l'últim exó.

Predicció del tRNA de la Selenocisteïna

Per tal de poder predir aquest tRNA s'ha buscat la seqüència exacta que codifica per aquest a la base de dades tRNAdb. Un cop trobada, s'ha alineat aquesta query amb el genoma de de la tortuga Chelonia mydas usant la comanda de BLAST blastn.

$ blastall -p blastn -i tRNASec.query.fa -d /cursos/BI/genomes/project_2014/Chelonia_mydas/genome.fa -o fitxerdesortida