Materials i mètodes

  1. Obtenció del genoma de Gadus Morhua
  2. Obtenció de les seqüències de Selenoproteïnes d'una espècie propera
  3. tBLASTn
  4. Extracció de la regió genòmica dels hits seleccionats
  5. Exonerate i Genewise
  6. tCOFFE
  7. SECISearch
  8. Automatització
  9. Maquinària

1.Obtenció del genoma de Gadus Morhua

La recerca del genoma de Gadus morhua s'ha realitzat a partir de la base de dades de la NCBI. Aquest genoma també ens ha estat facilitat pels professors de l'assignatura accedint a /cursos/BI/genomes/project_2013/Gadus_morhua.

2.Obtenció de les seqüències de Selenoproteïnes d'una espècie propera

La major part de la recerca s'ha realitzat a partir de les seqüències de famílies de Selenoproteïnes de l'organimse Danio rerio. Però algunes de les famílies de selenoproteïnes presents en alguns peixos no es troben en la base de dades per a aquest organisme, de manera que aquestes seqüències han estat obtingudes d'altres organismes: Salmo salar, Takifugu rubripes, Onchorhynchus mykiss i Xenopus laevis. Les bases de dades emprades han estat NCBI, SelenoDB i Ensembl. La base de dades utilitzada principalement ha estat NCBI, mentre que a SelenoDB només disposàvem de la seqüència de la Sel15 dels peixos, concretament de Tetraodon nigroviridis.

3.tBLASTn

En primer lloc, l'obtenció de Selenoproteïnes per l'organisme Gadus morhua l'hem executat de forma manual. El BLAST (Basic Local Alignment Search Tool), és un programa informàtic que busca regions de semblança entre diferents seqüències. Existeixen diferents tipus de BLAST, en el nostre treball hem fet servir tBLASTn. Aquest és un programa que produeix alineaments locals de seqüéncies. Ens permet comparar concretament una seqüència proteica (query), és a dir, les seqüències de les diferenst selenoproteïnes en el nostre cas, amb una base de dades de nucelòtids, el genoma del nostre organisme. A més de donar els alineaments de les seqüències, també calcula la significança estadística dels resultats, donant l'E-value de cada alineament. Aquest valor ens indica el nombre d'alineaments amb aquest score, com més petit és aquest valor més significatiu és l'alineament que en resulta. De manera que hem aplicat tBLASTn per a cercar cadascuna de les possibles selenoproteïnes al genoma de Gadus morhua.

Per tal de poder utilitzar el programa cal extreure el software necessari, escrivint les següents comandes al terminal:

  • $ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH
  • $ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/

A continuació cal crear un arxiu FASTA amb la seqüéncia proteica, on canviarem la U se la Selenocisteïna per una X:

  • $ emacs query.fa

Seguidament, per executar el tBLASTn s'ha d'escriure al terminal la comanda:

  • $ blastall -p tblastn -i query.fa -d genome.fa -o proteinavsgenoma_blast.fa -m8 -e0.0001 (-F F)
      On:
    • -p indica el tipus de blast.
    • -i indica la ubicació de la query.
    • -d indica la ubicació de la base de dades, en aquest cas el genoma.
    • -o indica la ubicació i el nom del fitxer on s'emmagatzemarà el resultat del blast.
    • -m8 s'utilitza per tal que apareguin els resultats en una taula amb les característiques de cadascun dels hits (posició inicial de la query,e-value, ...)
    • -e0.0001 indica l'e-value mínim que volem extreure del nostre blast.
A genome.fa caldrà que sempre li escrivim la localització en l'ordinador per trobar el genoma del nostre organisme.

Selecció de hits: Un cop s'ha realitzat el tBLASTn, seleccionem els hits més significatius. El criteri emprat per a escollir els hits ha estat aquells que es tractaven d'un scaffold o contig continu i tenia un e-value menor.

4.Extracció de la regió genòmica dels hits seleccionats

A continuació, cal extreure la regió genòmica on s'indicava en l'alineament amb el tBLASTn que es podria trobar la selenoproteïna. Primer de tot, indexem el genoma fent servir la següent comanda:

  • $ fastaindex genome.fa gm.index
On a genome.fa caldrà tornar a escriure la localització a l'ordinador del genoma del nostre organisme, mentre gm.index serà el fitxer de sortida amb el genoma indexat.
A partir de la indexació del genoma podrem dur a terme l'extracció de les regions d'interès a partir de la seqüència:
  • $ fastafetch genome.fa gm.index nomregio > nomregio.fa
On nomregio es refereix al nom del contig o scaffold que hem seleccionat per extreure i nomregio.fa el fitxer que volem crear per emmagatzetmar la regió obtinguda pel programa fastafetch.
Quan ja s'ha extret el contig s'utilitza el programa fastasubseq per extreure de manera més precisa el fragment que probablement contingui la selenoproteïna. La comanda és la següent:
  • $ fastasubseq nomregio.fa start length > genomic.fa
La comanda requereix la posició d'inici de la seqüéncia a extreure o start i el nombre de nucleòtids que volem extreure a partir de la posició start (lenght). En el nostre cas, utilitzarem una llargada de 20.000 nucleòtids. Per últim, es genera el fitxer de sortida genomic.fa.

5.Exonerate i Genewise

Exonerate i Genewise són dos programes per a la predicció de gens. Ambdós presenten algoritmes diferents de manera que les anotacions poden presentar algunes diferències.

Exonerate:

Aquest ens permet obtenir un alineament acurat i predir l'estructura exònica de la seqüència problema. Ens permet assegurar que el nostre hit es troba dins l'exó, i que, per tant, codifica per una proteïna. El que es dur a terme exactament és l'alineament del fragment de DNA que hem extret amb fastasubseq amb la seqüència de DNA de la proteïna inicial. Fem servir la següent comanda:

  • $ exonerate -m p2g --showtargetgff -q query.fa -t genomic.fa > exonerate.gff
      On:
    • -m indica el tipus d'alinealment (p2g indica proteïna contra genoma).
    • -showtargetgff indica que mostri el resultat en format gff.
    • -q indica la ubicació de la query.
    • -t indica la regió del genoma amb el gen d'interès, el resultat del fastasubseq.
D'aquí obtenim l'arxiu exonerate.gff, que és el fitxer de sortida i tindrem una representació de l'alineament entre la query i la regió extreta amb el fastasubseq.
Seguidament, utilitzem la següent comanda per obtenir un fitxer amb format .gff perquè ens informi si la regió està inclosa en un exó:
  • $ egrep -w exon exonerate.gff > cdna.gff
On egrep -w selecciona les files del fitxer exonerate.gff que contenen la paraula exon. D'aquesta manera, en el fitxer cdna.gff només hi trobarem les seqüéncies dels exons.
Per extreure la seqüència que s'ha alineat a l'exonerate ho fem amb format FASTA. Per obtenir el cdna en format FASTA cal executar fastaseqfromGFF.pl:
  • $ fastaseqfromGFF.pl genomic.fa cdna.gff > cdna.fa
A continuación, a partir de fastatranslate traduirem el cDNA obtingut de la proteïna amb la comanda:
  • $ fastatranslate -F 1 cdna.fa > translate.fa
Afegim -F 1 per tal que agafi la primera pauta de lectura forward. De totes hem de comprobar que aquesta sigui la pauta real.

Genewise:

Paralel.lament a Exonerate realitzem l'anàlisi per Genewise. És un programa que es fa servir amb la mateixa finalitat i l'emprem per contrarrestar la informació obtinguda i comparar els resultats. Abans d'executar-lo, cal escriure les següents comandes:

  • $ export PATH=/cursos/BI/bin:$PATH
  • $ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg
Per tal de fer-lo servir executem la següent comanda:
  • $ genewise -pep -pretty -cdna -gff -both query.fa genomic.fa > GW.fa

6.tCOFFEE

Emprem el programa tCOFFEE per tal de fer l'alineament de la nostra seqüència amb la seqüència de la proteïna predita anteriorment. Podrem veure si els residus d'aminoàcids de la porteïna inicial i la posteriorment predita són correspostes. L'executem amb la següent comanda:

  • $ t_coffee query.fa translate.fa > tcoffee.fa
Aquest el realitzarem tant pels resultats obtinguts amb Exonerate com pels de Genewise, cosa que ens permetrà comparar els resultats.

7.SECISearch

La recerca dels elements SECIS ens permetrà confirmar que el codó UGA es corespon a una selenocisteïna i no a una senyal de finalització. Per tant, serà una manera de confirmar la seqüència de les Selenoproteïnes trobades.
Aquesta cerca l'hem efectuat a través de la pàgina del software SECISearch, en el qual introduirem la regió del genoma on es trobava contingut el hit resultant del fastasubseq.
La fiabilitat de les seqüències SECIS predites es troba expressada amb un valor energètic, que en principi ha de ser superior a 15. Però no en totes les seqüències ha estat possible obtenir resultats a partir d'aquest valor, així que en aquests casos hem ampliat aquest llindar, tots els altres aspectes importants.
És important tenir en compte que hauran d'estar en posició 3' respecte del gen de la proteïna predita i considerar una distància d'aquest d'unes 3000bp. Per tant, haurem de descartar aquells SECIS que no compleixin aquestes caracterïstiques.

8.Automatització

La major part del treball la vam fer manualment sense cap mena d'automatització. Gràcies a això, ens vam adonar que la part en la que havíem d'invertir més temps era a l'hora d'escriure les comandes (malgrat tenir-ho molt per la mà). Aleshores vam decidir crear un programa amb bash on totes les comandes que havíem aplicat s'executarien de manera semiautomàtica. D'aquesta manera només calia interpretar els resultats sense necessitat d'anar modificant les comandes una per una per a cada proteïna que fèiem.
El funcionament del programa és molt simple, ja aquest aplica totes aquelles comandes que l'usuari decideix sobre una mateixa proteïna query. És a dir, fa els passos en ordre des del blast fins als SECIs proteïna per proteïna. El propi usuari decideix a l'inici de l'execució del programa quina proteïna vol estudiar.
Un altre aspecte que vam veure va ser que, si un arxiu ja existia, el programa executava igualment la comanda per a crear el que en principi era un mateix arxiu, així que vam crear el programa de manera que en cas de que un arxiu ja existís no hagués d'executar la comanda de nou (que en casos com el blast por arribar a suposar l'estalvi d'uns minuts).
Finalment, hem emprat el programa per a la cerca de proteïnes de maquinària i hem comprovat que funcionava correctament.

Per a veure l'script clica aquí.

9.Maquinària

La presència dels gens que codifiquen per a les estructures de maquinària per a la síntesi de proteïnes en el genoma del nostre organisme dóna més evidència de que aquest presenti selenoproteïnes. Tal com s'ha comentat hem fet servir el programa creat per a la recerca de les estructures de maquinària. Hem analitzat eEF-Sec, Pstk, SBP2, SPS1, SPS2 Secp43, Sec S i tRNAsec.