Materials i mètodes

Obtenció del genoma

El genoma de l'espècie Lethenteron camtschaticum la vam trobar en una carpeta proporcionada pels professors de l'assignatura de Bioinformàtica:

      /cursos/BI/genomes/vertebrates/2014/Lethenteron_camtschaticum/genome.fa

Per tal de no haver d'escriure tot el path cada cop que es necessités el genoma, es va fer un link a la carpeta de l'usuari que portés directament a la carpeta de Lethenteron_camtschaticum:

       ln -s /cursos/BI/genomes/vertebrates/2014/Lethenteron_camtschaticum/


Obtenció de querys

Les querys fetes servir per buscar les selenoproteïnes en el genoma assignat provenien tant de Homo sapiens (les selenoproteïnes del qual estan anotades amb una alta qualitat) com de Petromyzon marinus (l'espècie més propera de la qual hi ha les selenoproteïnes anotades). Totes aquestes seqüències les hem extret de la base de dades SelenoDB.

Com que poden haver-hi anotacions amb mides diferents, sempre s'ha agafat la que fos més llarga per tal d'incloure tota la proteïna i no perdre informació.

Un cop adquirides, es pot observar que en algunes hi ha l'aminoàcid “U”. Els programes d'anàlisi no reconeixen aquest aminoàcid i per tant s'ha de canviar per una “X”, que els programes reconeixen com a indeterminat:

       cat query.fa | tr U X > query.fa


tBLASTn

Per poder comparar 2 seqüències i trobar regions on hi hagi una similitud local fem servir un programa anomenat BLAST (Basic Local Alignment Search Tool). Existeixen diferents tipus de BLAST segons el que estiguem comparant, aquí per exemple estem comparant una seqüència proteica (la de la nostre query) amb una seqüència de nucleòtids (els del nostre genoma). Per tant la variant del BLAST que fem servir és el tBLASTn.

El primer que s'ha de fer és exportar el programa al shell per poder treballar amb ell:

      exportPATH=/cursos/BI/bin/ncbiblast/bin:$PATH
      cp/cursos/BI/bin/ncbiblast/.ncbirc~/


A partir d'ara, sempre que no tanquem el terminal podrem fer servir el tBLASTn amb la següent comanda:

      blastall -p tblastn -i query.fa -d genomes.fa -o query_blast.fa

Cal recordar què volen dir els següents elements:

  • -p: fa referència al tipus de BLAST que fem servir, com ja hem dit, en el nostre cas fem servir el tBLASTn.
  • -i: fa referència al fitxer de la query.
  • -d: fa referència al genoma de l'espècie assignada, on volem trobar les selenoproteïnes.
  • -o: indica com es diu el fitxer de sortida on estarà el resultat del BLAST.

Fastaindex

El genoma assignat està en un format MULTIFASTA, per tal de crear un sol arxiu FASTA i poder indexar el genoma s'ha executat el Fastaindex:

      fastaindex genome.fa query.index


Scaffold i Hit

Un cop fet el tBLASTn i haver indexat el genoma, hem de seleccionar el hit més significatiu. El primer que hem de mirar és si la selenocisteïna o cisteïna de la nostre query està alineada amb una cisteïna o amb un codó STOP. En cas afirmatiu, ens podem trobar que hi hagi més d'una possibilitat; s'agafa l'scaffold que tingui el valor de e-value més baix. El e-value ens diu la possibilitat d'obtenir aquell alineament a l'atzar en la base de dades que estem mirant, com més baix sigui el valor, menys probable que l'alineament sigui degut a l'atzar. L'scaffold ens diu en quin lloc hem trobat aquell alineament.

Amb l'ordre fastafetch el que fem és extreure la regió del genoma on hem trobat el hit:

       fastafetch genome.fa query.index numregio > numregio.fa

On numregió fa referència a l'scaffold.


Fastasubseq

Un cop tenim la regió del genoma, s'ha de limitar la regió a la que s'ha trobat el hit per tal d'obtenir la seqüència de la proteïna sencera:

      fastasubseq numregio.fa start lenght > genomic.fa

On start fa referència a la posició inicial on volem que començi i length la mida de nucleòtids que volem mirar.


Exonerate

El programa Exonerate ens permet predir on són els gens, d'aquesta manera podem veure si el nostre alineament està dins una regió exònica, i que per tant serà codificada com a proteïna.

El primer que s'ha de fer és exportar el programa al shell per poder treballar amb ell:

      export PATH=/cursos/BI/soft/exonerate/i386/bin:$PATH

Per executar el programa fem servir la següent comanda:

       exonerate -m p2g --showtargetgff -q query.fa -t genomic.fa -E> exonerate.gff

Cal recordar què volen dir els següents elements:

  • -m: ens indica quin alineament estem fent servir, en aquest cas fem servir p2g (protein to genome), és a dir, estem comparant una query anotada amb aminoàcids amb una seqüència de nucleòtids.
  • -q: fa referència a la nostra query.
  • -t: la seqüència amb la que comparem la query, és a dir, la regió on hem trobat el hit.
  • -E: representa l'argument exhaustive, per a estar segurs de que s'inclogui tota la seqüència.
El resultat d'aquest programa el trobarem a l'arxiu exonerate.gff.

A continuació s'obté el cDNA, és a dir, els exons que podem trobar en aquesta regió:

       egrep -w exon exonerate.gff > cdna.gff

On egrep -w ens indica que seleccionarem només aquelles files del fitxer exonerate.gff que continguin la paraula exon i ho copiarà a l'arxiu cdna.gff.

Necessitem un programa que sigui capaç de canviar el format gff a FASTA per poder continuar amb l'anàlisi, per exportar-ho al shell fem servir la comanda:

       export PATH=/cursos/BI/bin:$PATH

Per a executar el programa:

       fastaseqfromGFF.pl genomic.fa cdna.gff > cdna.fa

Per poder comparar les 2 seqüències obtingudes, primer hem de traduir la seqüència de DNA per a obtenir la seqüència d'aminoàcids:

       fastatranslate -f cdna.fa -F 1 > translate.fa

Quan el programa ja ha traduït la seqüència, als llocs on hi hagi un codó STOP hi ha un “*” en el pròxim pas, el programa no reconeix aquest símbol; per tant hem d'obrir el fitxer translate.fa i canviar els “*” per una X.


T-coffee

Aquest programa serveix per realitzar alineaments globals múltiples utilitzant un mètode progressiu que aparella seqüències semblants. En el nostre cas alinearem la nostre query i la nostre seqüència traduïda.

Per exportar el programa al shell:

       export PATH=/cursos/BI/soft/t_coffee/i386/bin:$PATH

Per executar la comanda:

       t_coffee query.fa translate.fa > tcoffee.fa

Gràcies a aquest programa veurem quin és l'alineament òptim i veurem com estan alineades les selenocisteïnes trobades.


SECIS

Per totes les proteïnes hem realitzat una cerca d'elements SECIS. Això ens permet confirmar si un codó UGA correspon realment a una selenocisteïna i no a una senyal de finalització. Els elements SECIS es poden trobar a les selenoproteïnes, però també en proteïnes que no ho siguin.

Per tal de realitzar aquesta cerca hem utilitzat el SECISearch 3.0/Seblastian. En la seva pàgina web s'hi introdueix la regió del genoma on es troba l'scaffold d'interès, i ens dóna els possibles elements SECIS.


Automatització

Amb l'objectiu d'estalviar temps i poder-lo dedicar a l'anàlisi dels resultats, s'ha realitzat un programa que inclou les comandes necessàries, juntament amb petits comentaris per entendre el que s'està fent. Per tal de que funcioni correctament, és necessari que totes les querys estiguin a la mateixa carpeta que el programa.

Primerament, tenim un programa en bash per fer els exports i canviar les U per X de les querys. A més, permet l'execució del programa següent en perl. Aquest analitzarà si una determinada query es troba en el genoma de Lethenteron camtschaticum.

Programes: