Materials i Mètodes

A continuació us explicarem, pas per pas, el procediment que hem fet servir per a cercar si els nostres organismes contenien o no les selenoproteïnes SelH i EhSEP2. Val a dir que aquest procediment es pot usar per a buscar si un organisme concret conté qualsevol proteïna que ens interessi, per tant també hem fet servir aquests pasos per a analitzar si els catorze organismes assignats contenien la maquinària necessària per a poder sintetitzar selenoproteïnes.

Obtenció de les querys

Per tal de determinar la presència de les nostres famílies de selenoproteïnes en els protists, hem de disposar de la seqüència d’aquesta proteïna en un altre organisme, a la que anomenarem query. En el cas de l’EhSEP2, la query utilitzada és la d’Emiliania huxleyi, i ha estat proporcionada pels professors de l’assignatura. En el cas de SelH, el que hem fet ha estat agafar les seqüències codificants per aquesta proteïna en diversos organismes per a fer-les servir com a querys. Hem agafat els organismes següents: Homo sapiens, Mus musculus, Drosophila melanogaster (SelH1, SelH2 i SelH3), Trypanosoma cruzi, Monosiga brevicollis, Phaeodactylum tricornutum, Anopheles gambiae i Aureococcus anophagefferens. Aquestes querys han estat trobades en la base de dades SelenoDB i en treballs d’anys anteriors.

Obtenció del material genètic

Els genomes dels diferents protists que hem analitzat els teníem en diverses carpetes proporcionades pels professors de l’assignatura. La carpeta de cada un dels organismes estava dins el directori:

/cursos/BI/genomes/protists/2012

I dins de cada una de les carpetes, anomenades amb el nom de l’organisme en concret, teníem el document amb el genoma, anomenat genome.fa.

BLAST

El programa BLAST és un algorisme heurístic que compara seqüències biològiques per tal de fer alineaments locals. Amb aquest programa, doncs, podem trobar la regió a on es troba la seqüència d’un determinat gen dins d’un genoma. Amb aquesta finalitat, hem utilitzat el tBLASTn, que permet comparar una proteïna amb una base de dades de nucleòtids, traduint aquesta base de dades en les seves 6 possibles traduccions. Primer de tot hem de posar l'ordre per executar el programa:

$ export PATH=$PATH:/disc8/bin/ncbiblast/bi

I després hem d'introduir la comanda blastall en la nostra terminal:

$ blastall –p tblastn –i query.fa –d genome.fa –o tblastn_genome_query.fa

–p indica el tipus de BLAST utilitzat.

-i indica la query.

-d indica el genoma.

–o indica el fitxer de sortida que volem crear.

Extracció de la regió genòmica

Un cop hem fet el BLAST, hem d'escollir els alineaments que ens interessen. Després hem de localitzar la regió genòmica on es troben els alineaments, això ho farem amb una sèrie de programes dins del software anomenat exonerate. Per començar, hem d'introduir el següent ordre per executar el programa exonerate:

$ export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH

Aleshores, procedim a fer el fastaindex, el qual ens ordena i indexa els cromosomes dels genomes dels organismes:

$ fastaindex genome.fa N.organisme.index

Un cop tenim els cromosomes (o scaffolds) ordenats, hem d'extreure el qual té la regió d'interès amb el fastafetch:

$ fastafetch genome.fa N.organisme.index 'identificador del contig' > fastafetch_selenoproteïna.organisme.fa

Per últim, un cop tenim la regió d'interès, l'hem d'acotar encara més per a poder treballar amb més facilitat. Això ho farem amb el programa fastasubseq:

$ fastasubseq fastafetch_selenoproteïna.organisme.fa inici longitud > fastasubseq_selenoproteïna.organisme.fa

En aquesta ordre, hem de posar el lloc d'inici i la longitud de la regió que ens interessa; agafarem també les regions upstream i downstream del gen, per assegurar-nos que no ho tallem.

Anotació del genoma: Exonerate i GeneWise

Una vegada hem extret la regió genòmica on hi ha el hit que volem comprovar caldrà executar programes com Exonerate o GeneWise, que analitzaran les seqüències i ens permetran anotar-les, és a dir, descriure'n l'estructura, predint exons, introns o llocs d'splicing.

Exonerate:

Aquest programa ens proporcionarà un alineament més precís que el BLAST, això és així pel fet que alinea els resultats de fastafetch i fastasubseq amb la query. Així, Exonerate ens permet predir si al nostre hit hi trobem exons o no, per tant, sabrem si aquest té regions codificants, i si pot donar lloc a una proteïna. A més, després d'executar aquest programa obtindrem una seqüència de cDNA que guardarem en format gff.

Per tal d'executar el programa cal introduir les següents comandes:

$ export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH

$ exonerate -m p2g --showtargetgff--exhaustive yes -q query.fa -t fastasubseq_selenoproteïna.organisme.fa

-m p2g ens indica el model de l'alineament, en aquest cas una proteïna envers un genoma.

--showtargetgff serveix per indicar que el resultat haurà de sortir en format gff.

--exhaustive yes ens proporciona resultats més acurats.

-q fa referència a la ubicació de la query.

-t indica la seqüència a comparar.

En aquest punt és fonamental que haguem canviat la U de la query per una X, ja que si no ho fem el programa no s'executarà correctament. Com comentàvem al començament, ens interessa obtenir el cDNA, per tant, tan sols ens interessaran els exons, així aplicarem la següent comanda, que ens permetrà seleccionar-los:

$ exonerate -m p2g --showtargetgff --exhaustive yes -q query.fa -t fastasubseq_queryselenoproteïna.organisme.fa | egrep -w exon > alineament_selenoproteïna_N.organisme.exonerate.gff

Estem afegint egrep -w exon, que ens permetrà seleccionar únicament els exons i extreure'ls en un fitxer amb format gff. Fet això ens cal obtenir el cDNA, per fer-ho primer caldrà executar el segünt programa:

$ export PATH=/cursos/BI/bin:$PATH

Tot seguit donarem l'ordre:

$ fastaseqfromGFF.pl fastasubseq_selenoproteïna.organisme.fa alineament_nomselenoproteïna_N.organisme.exonerate.gff > cDNA_N.organisme.fa

Cal esmentar que en mirar l'alineament que ens fa Exonerate entre la nostra query i la regió obtinguda amb el fastasubseq ja ens podem fer una idea de què tenim al davant. En cas que la nostra X es trobi alineada amb un asterisc, seria indicatiu d'haver trobat una selenoproteïna, en canvi si ens l'alinea amb una C, haurem trobat un homòleg en cisteïna.

GeneWise:

Una opció alternativa a Exonerate, seria usar GeneWise, tot i que també es poden fer servir ambdós de forma paral·lela per obtenir resultats més acurats.

Per a executar el programa cal introduir al terminal les comandes:

$ export PATH=/cursos/BI/bin:$PATH

$ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg

Hem vist que amb Exonerate no calia parar atenció a si tenim una cadena en sentit forward o bé si és reverse, en canvi amb GeneWise és fonamental tenir-ho en compte, ja que haurem d'usar comandes diferents:

Si és forward:

$ genewise -pep -pretty -cdna -gff query_selenoproteïna.fa fastasubseq_selenoproteïna_N.organisme.fa > genewise_selenopreteïna.organisme.fa

Si és reverse:

$ genewise -pep -pretty -cdna -gff -trev query_selenoproteïna.fa fastasubseq_selenoproteïna.organisme.fa > genewise_selenoproteïna.organisme.fa


Hem vist que amb Exonerate calia un pas per tal d'obtenir el cDNA, amb GeneWise no és necessari, ja que ens proporcionarà directament el resultat com a seqüència de cDNA.

Traducció de proteïnes

Una vegada hem obtingut les seqüències de cDNA ens interessa traduir-les a proteïna, per tal d'obtenir la seqüència peptídica de la nostra suposada proteïna. Per fer-ho usarem la comanda fastatranslate, que ens tradueix a proteïna tenint en compte els 6 possibles marcs oberts de lectura:

$ fastatranslate cDNA_N.organisme.fa > proteïna_selenoproteïna_N.organisme.fa

Tcoffee

Després d'aplicar tots els pasos anteriors, caldrà realitzar un alineament global entre la seqüència problema i la nostra query i ho farem gràcies al programa T-coffee. Per fer això usarem la proteïna obtinguda al punt anterior sense asteriscs a la seva seqüència.

T-coffee ens permet fer alineaments múltiples, per tant alinearem la seqüència aminoacídica obtinguda al pas anterior amb la de la query (en el cas de EhSEP2) o amb les diverses querys de cada organisme (en el cas de SelH).

Cal introduir la comanda següent:

$ t_coffee query.fa proteïna_selenoproteïna_N.organisme.fa > tcoffee_selenoproteïna_N.organisme.fa

Aquesta comanda retorna tres fitxers amb diferents extensions (.aln, .fa i .html).

BLAST recíproc

Una vegada tenim els resultats procedirem a la realització d'un BLASTp per comprovar que la proteïna que hem obtingut conté els dominis corresponents a SelH o EhSEP2. El BLASTp es fa amb la seqüència de la suposada selenoproteïna contra la base de dades NCBI, d'aquesta manera podrem trobar selenoproteïnes de la mateixa família a altres espècies, és a dir, homòlegs, i quedar-nos amb les de millor E-value.

A més, fer aquest BLASTp ens pot servir com a una comprovació que la proteïna predita està relacionada amb la query utilitzada, ja que si és així entre els resultats del BLASTp hi trobarem proteïnes de la mateixa família que la query.

Per fer el BLASTp usarem les comandes següents:

$export PATH=/cursos/BI/bin/netblast/bin:$PATH

$blastcl3 -p blastp -i -d nr

De tota manera, nosaltres ho vam fer anant a la web de NCBI i introduint directament la proteïna a la casella corresponent per a fer el BLASTp contra un conjunt de seqüències de proteïna no redundants.

Elements SeCIS

La busca d'aquests elements a la regió 3' de les selenoproteïnes predites s'ha fet a partir del programa SECISearch. En aquest, s'hi ha d'introduir la seqüència obtinguda amb la comanda fastasubseq, en la qual hi localitza possibles elements SeCIS i en determina l'estructura tridimensional. La cerca s'ha realitzat usant els criteris més restrictius, de manera que hi ha la possibilitat d'obtenir falsos negatius.

Automatització del procés

Els resultats es poden obtenir de manera manual seguint el procediment explicat anteriorment, però degut al gran volum de dades que s'han de generar, nosaltres hem usat un programa que automatitza el procés. Programa

Alineaments Múltiples

Els alineaments múltiples s'han realitzat amb el programa ClustalW d'EMBL-EBI, amb les opcions definides per defecte. Un cop obtinguts, amb Jalview s'ha afegit la coloració, la qual està basada en el percentatge d'identitat. Els arbres filogenètics també han estat elaborats amb Jalview segons la distància mitjana calculada amb BLOSUM62.

Torna a dalt