Predicció de gens

Obtenció del genoma

Obtenció de les queries

BLAST

Extracció seqüència

EXONERATE

Seqüència codificant

T-COFFEE

Predicció de SECIS

Automatització

 

Predicció de gens

Un dels objectius del nostre treball és identificar computacionalment tots els gens que codifiquen per selenoproteïnes presents al genoma de la Balaenoptera acutorostrata, una espècie de rorqual. Per aconseguir-ho, s'ha fet servir una tècnica basada en homologia, és a dir, gràcies a seqüències d’aminoàcids de selenoproteïnes conegudes (querie) s'han buscat regions del genoma del rorqual on hi hagi codificats homòlegs d’aquestes proteïnes. 

Obtenció del genoma de Balaenoptera acutorostrata

El genoma de Balaenoptera acutorostrata es troba al directori:

/cursos/BI/genomes/vertebrates/2014/Balaenoptera_acutorostrata

Informació adicional sobre aquest també es pot trobar a NCBI que inclou un conjunt de bases de dades rellevants per la biotecnologia i la biomedicina.

Obtenció de les queries

En el nostre projecte, les selenoproteïnes conegudes que s'utilitzen per a buscar els homòlegs  provenen de la espècie Tursiops truncatus, és a dir, del dofí mular, espècie més propera al rorqual que té selenoproteïnes anotades.
També es van comparar totes les selenoproteïnes d’Homo sapiens ja que és el mamífer que en té més d’anotades i ben descrites i amb Equus cavallus.
Totes les selenoproteïnes de mamífers que s’han utilitzat com a queries per fer la cerca es poden trobar a la base de dades SelenoDB 2.0 Aquesta pàgina té com a objectiu proporcionar anotacions d’alta qualitat de gens de selenoproteïnes, proteïnes i elements SECIS.

Buscar regions del genoma que continguin selenoproteïnes: BLAST

Obtenció de la base de dades

El genoma d’interès ha estat proporcionat en format multifasta i s’ha de transformar en una base de dades per tal de poder realitzar el BLAST. Per aquest motiu s’executa la comanda formatdb.

$ formatdb –i genome.fa –p F –n fitxerdesortida

-i: input, és a dir, el genoma d’interès proporcionat per la universitat.
-p: pregunta si és una base de dades de proteïna, com no ho és es posa una “F” de false.
-n: output, és a dir, nom de la base de dades

El BLAST (Basic Alignment Search Tool) és un algorisme que permet comparar seqüències problema amb altres i poder trobar regions de similitud. Compara les seqüències de nucleòtids o aminoàcids amb seqüències emmagatzemades en diferents bases de dades i calcula la significança estadística dels alineaments.
S’ha fet servir tblastn, un tipus de BLAST que permet comparar seqüències d’aminoàcids (selenopreoteïnes anotades) amb una seqüència de nucleòtids (genoma del rorqual) i obtenir diferents alineaments. De cada alineament s’obtindran diferents paràmetres.

  • Scaffold: regió del genoma on està localitzat l’alineament.
  • Semblança: similitud entre les dues seqüències alineades.
  • Start i End position: posició d'inici i final del hit.
  • E-value: descriu la probabilitat de trobar un alineament determinat per atzar.  El programa realitzat per automatitzar la cerca només té en compte hits amb un E-value menor a 1·10-4

La comanda per executar el BLAST és la següent:

$blastall –p tblastn –i fitxerquery.fa –d nombbddBLAST –o fitxerdesortida
-p: programa BLAST, en aquest cas tblast
-i: query que s’alinea amb el genoma d’interès
-d: genoma en format base de dades 
-o: output, fitxer de sortida

Extracció de la seqüència d’interès: FASTAINDEX, FASTAFETCH, FASTASUBSEQ

A continuació s’executen diferents programes que acompanyen a EXONERATE que permeten extreure la seqüència genòmica de la regió trobada.

Indexació del genoma de B. acutorostrata

A partir d’aquest punt només interessa l’scaffold que conté el millor alineament que ha proporcionat el BLAST. Per obtenir-lo s’executa el programa fastaindex que separa el genoma del rorqual per segments i els indexa com a scaffolds.

$ fastaindex genome.fa genome.index

- Primer argument: s’especifica el fitxer d’entrada , és a dir el genoma d’interès proporcionat per la universitat.
- Segon argument: s’especifica el fitxer de sortida, és a dir, el genoma d’interès indexat.

Obtenció de l’scaffold sencer d’interès

Fastafetch és una altra programa que permet extreure del genoma en format multifasta la seqüència de nucleòtids d’un scaffold determinat gràcies al genoma indexat.

$ fastafetch genome.fa genome.index nom_scaffold > nomscaffold.fa

- Primer argument: s’especifica el fitxer d’entrada, és a dir, el genoma d’interès proporcionat per la universitat.
- Segon argument: s’especifica el genoma d’interès indexat
- Tercer argument: s’especifica el nom de l’scaffold on s’ha trobat el millor alineament.

D’aquesta manera s’obté un arxiu en format fasta amb tota la seqüència de nucleòtids que conté l’scaffold seleccionat.

Obtenció d’una seqüència determinada de l’scaffold

A continuació, s’executa el programa fastasubseq per obtenir només la seqüència de l’scaffold que ens interessa, on està l’alineament obtingut amb el BLAST.

$fastasubseq nomscaffold.fa posicio_inicial llargada > subsequencia.fa

- Primer argument: s’especifica el fitxer festa amb la seqüència sencera de l’scaffold seleccionat.
- Segon argument: especifica la posició d’inici
- Tercer argument: especifica la llargada de la seqüència que volem extreure

L’alineament que ha realitzat el BLAST només té en compte les regions codificants del genoma d’interès. A l’hora d’agafar la seqüència de l’scaffold s’ha de tenir en compte que també hi ha introns i per tant hem d’agafar un marge més ampli de nucleòtids.  El programa realitzat per automatitzar la cerca amplia 100.000 nucleòtids a 5’ i 100.000 nucleòtids a 3’.

Predicció del gen: EXONERATE

A partir de la query i de la regió genòmica extreta anteriorment es genera una anotació del gen que donarà lloc a la proteïna mitjançant el programa Exonerate.
Aquest programa alinea la query amb la regió genòmica i prediu els elements funcionals continguts en aquesta última, és a dir, els exons i els introns. Exonerate no reconeix la lletra U de la query, de manera que cal canviar-la per una X.

Exonerate es pot executar utilitzant UNIX amb la següent comanda:

$exonerate –m p2g --showtargetgff –exhaustive yes –q query.fa –t subsequencia.fa | egrep –w

exon > exons.exonerate.gff

-m: mode, en aquest cas p2g que significa “protein to genome”, és a dir, comparem una seqüència d’aminoàcids (selenoproteïna de referència) amb el genoma d’interès (rorqual).
--showtargetgff: mostra el resultat en un arxiu en format GFF que dóna informació sobre les coordenades del genoma.
-exhausitve: per allargar (o no) les posicions de la seqüència del genoma.
-q:  seqüència de la query en format fasta.
-t: target, en aquest cas la subseqüència de nucleòtids obtinguda amb el fastasubseq.

A més, s’afegeix un pipe que permet copiar les seqüències exòniques del gen amb la comanda egrep –w exon.

El fitxer resultant tindrà format GFF i contindrà totes les seqüències exòniques del gen que s’està predit.

Obtenció de la seqüència codificant del gen en forma de nucleòtids

Amb el programa fastaseqfromGFF s’obté la seqüència de nucleòtids de la proteïna predita del genoma problema gràcies a l’arxiu de coordenades GFF, on estan els exons, i a l’arxiu que conté la subseqüència.  L’arxiu final tindrà contindrà els exons del gen en format fasta.

$fastaseqfromGFF.pl  subsequencia.fa exons.exonerate.gff > exons.fa

Traducció de la seqüència de nucleòtids del gen problema a proteïna

Amb el programa fastatranslate es tradueix la seqüència exònica en forma de nucleòtids a la seqüència d’aminoàcids corresponent.

$fastatranslate –f exons.fa –F 1 > proteina_predita.fa

-f: s’especifica el fitxer que conté els exons en forma de nucleòtids.
-F: especifica la pauta de lectura amb que es fa la traducció, en aquest cas, pauta de lectura 1.

S’obté un fitxer en format fasta que conté la seqüència d’aminoàcids de la proteïna predita.

Comparació de les dues seqüències de proteïnes: T-COFFEE

Amb el programa T-COFFEE es comparen les dues seqüències de proteïnes, la selenoproteïna predita i la selenoproteïna coneguda.
S’obté un alineament entre les dues on s’observen els residus d’aminoàcids conservats i no conservats.

El programa pot ser executat des de la pàgina web o utilitzant la següent comanda en el terminal UNIX:

$t_coffee sequencia1.fa sequencia2.fa

Predicció de SECIS

Com s’ha explicat a l’apartat d’introducció, un element SECIS (selenocystein insertion sequence) és un motiu estructural del mRNA que en eucariotes es troba en el segment 3’UTR del gen de la selenoproteïna.

Així, per a caracteritzar millor les selenproteïnes predites, es va procedir a determinar els seus elements SECIS utilitzant la web SECISEARCH3, que permet obtenir les seqüències de DNA corresponents a aquests elements. Aquestes són prediccions de novo a partir de la regió del genoma de l'espècie que s'ha extret realitzant el fastasubseq.

Per escollir l'element SECIS adequat, es va tenir en consideració la proximitat a l'exó final de la proteïna predita, la direcció que seguia el gen i el grau de l'element SECIS proporcionat.

Automatització

El següent programa realitzat amb Perl ha estat utilitzat per automatitzar la cerca de selenoproteïnes en Balaenoptera acutorostrata. L’script es pot trobar en el següent enllaç.

El bash utilitzat també es pot trobar en el seguent enllaç. El bash permet realitzar tots els exports necessaris per a l'execució posterior dels diferents programes i a més a més, crida al programa d'automatització.