Discovering Gavialis gangeticus selenoproteins

Predicció de gens

Predicció del
SECIS

Automatització

 

Materials i Mètodes

Un dels objectius d'aquest treball és identificar les selenoproteïnes presents al genoma del cocodril Gavialis gangeticus. Per tal de complir els objectius hem utilitzat una tècnica basada en la homologia. Per tant, hem utilitzat com a seqüències de referència selenoproteïnes ja conegudes d'altres espècies i buscat regions del genoma del cocodril en les quals hi hagi homòlegs.

Obtenció del genoma de Gavialis gangeticus

El genoma ha sigut facilitat per la Universitat Pompeu Fabra i el podem trobar al directori:

/cursos/BI/genomes/2015/Gavialis_gangeticus

Obtenció de queries

Tal i com hem mencionat a la introducció, hem utilitzat com a genoma de referència el de l'espècie Gallus gallus. A SelenoDB podem trobar les selenoproteïnes que s'han anotat per aquest genoma incloent la seqüència genètica, seqüència del promotor, seqüència del trànscrit, seqüència de la proteïna, etc. En el nostre projecte hem utilitzat la seqüència de la proteïna, és a dir, la seqüència d'aminoàcids per buscar homòlegs al genoma del cocodril. En el cas que no puguéssim trobar les selenoproteïnes utilitzant les de G. Gallus hem recorregut al genoma humà perquè és el que està més ben caracteritzat i anotat.

Cerca de regions del genoma que contenen selenoproteïnes: BLAST

BLAST (Basic Local Alignment Search tool) és un programa que utilitza un algoritme heurístic. Compara seqüències d'interès amb altres seqüències conegudes mitjançant alineaments per tal de trobar similituds entre regions. A més, calcula la significació estadística dels alineaments que fa.

Depenent del tipus de blast que utilitzem podrem comparar seqüències en aminoàcids o nucleòtids, però per aquest treball el que ens interessa i hem utilitzat és el tblastn el qual compara i alinea seqüències d'aminoàcids (selenoproteïnes del pollastre) amb seqüències de nucleòtids (genoma de G. gangeticus).

Per cada alineament hem obtingut diferents paràmetres:

- Scaffold: localització de l'alineament en el genoma de G. gangeticus

- Identitat: similitud entre les seqüències alineades representat per una puntuació

- Posició inicial i final de l'alineament: inici i final de la seqüència hit

- Valor E: descriu quantes vegades pots esperar trobar un alineament igual de bo en la base de dades per atzar

La comanda utilitzada és:

$ blastall –p tblastn –i query.fa –d databaseBLAST –o outputfile

-p: especifica el tipus de blast que apliquem

-i: especifica l'input. En aquest cas la seqüència de selenoproteïna coneguda que utilitzem com a referència per buscar al genoma del cocodril

-d: especifica la base de dades a la qual busquem. En el nostre treball es tracta del genoma de G. gangeticus

-o: especifica el fitxer en el qual volem desar els resultats

En aquest projecte utilitzem com a límit acceptat de significació estadística un E-value menor de 0,0001.

Seqüència d'interès: FASTAINDEX, FASTAFETCH, FASTASUBSEQ

Per tal d'extreure la seqüència trobada amb l'alineament en el genoma problema necessitem diferents programes.

  • Indexació del genoma
  • Ens concentrem en el scaffold amb el millor alineament donat pel BLAST. Per tal de fer això hem d'indexar el genoma problema amb la comanda fastaindex separant el genoma del gavial en segments I indexant-los.

    $ fastaindex genome.fa genom.index

    - El primer argument, genome.fa, és l'input (genoma que indexarem)

    - El segon argument, genome.index, és l'output (fitxer que obtindrem amb la indexació)

  • Obtenció del scaffold sencer
  • Un cop tenim l'índex fet, hem d'obtenir el scaffold sencer, és a dir, la seqüència de nucleòtids del genoma del gavial que correspon amb l'alineament.

    Per tal de fer això necessitem el programa fastafetch

    $ fastafetch genome.fa genome.index nom_scaffold > nomscaffold.fa

    - Primer argument: genoma problema

    - Segon argument: genoma indexat

    - Tercer argument: nom del scaffold amb el millor alineament

    Per tant, creem un arxiu que conté la seqüència de nucleòtids de tot el scaffold on es localitza la seqüència corresponent a l'alineament obtingut amb BLAST.

  • Obtenció de la seqüència d'interès del scaffold
  • Hem de tenir en compte que l'alineament fet per BLAST només considera les regions codificants. Com que el gen també conté regions no codificants haurem de agafar un rang més ampli de parells de bases.

    $ fastasubseq nomscaffold.fa posicio_inicial llargada > subsequencia.fa

    - Primer argument: input (arxiu que conté la seqüència de tot el scaffold)

    - Segon argument: posició d'inici de la seqüència que volem extreure en la seqüència del scaffold

    - Tercer argument: longitud de la seqüència que volem extreure

    Obtenim un fitxer amb la seqüència corresponent a l'alineament obtingut en BLAST




Predicció del gen: EXONERATE

Després d'obtenir la seqüència d'interès a partir de la seqüència del scaffold podem utilitzar exonerate per predir l'estructura del gen en la seva seqüència de nucleòtids. Per tal de fer això, l'exonerate alinea la seqüència de proteïna que fem servir com a referència (en el nostre cas una selenoproteïna de G. gallus) amb la seqüència de nucleòtids problema (la seqüència de nucleòtids que hem extret).

$ exonerate –m p2g --showtargetgff –exhaustive yes –q query.fa –t subsequencia.fa | egrep –w

exon > exons.exonerate.gff

-m: mode. En aquest cas utilitzem la relació genoma amb proteïna, on es compara una seqüència d'aminoàcids amb un genoma d'interès.

-showtargetgff: els resultats seran donats en format GFF (dóna les coordenades del gen d'interès al genoma)

-exhaustive: per extendre les posicions de la seqüència genòmica

-q: seqüència query (proteïna de SelenoDB) en format fasta

-t: target (seqüència nucleotídica de scaffold)

A l'afegir | egrep -w exon > exons.exonerate.gff creem un document amb els exons del gen predit

Obtenció de la seqüència codificant del gen en nucleòtids

Aquí, volem obtenir la seqüència nucleotídica de la proteïna predita a partir dels fitxers GFF de coordenadas i la seqüència scaffold completa.

Per fer-ho executem el programa fastaseqfromGFF:

$ fastaseqfromGFF.pl subsequencia.fa exons.exonerate.gff > exons.fa

- Primer argument: document fasta de la seqüència scaffold

- Segon argument: arxiu GFF amb les coordenades dels exons del gen predit

Traducció de la seqüència nucleotídica del gen problema a proteïna

Llavors necessitem traduir la seqüència predita de nucleòtids a seqüència d'aminoàcids (seqüència proteica)

El programa utilitzat és fastatranslate:

$ fastatranslate –f exons.fa –F 1 > proteina_predita.fa

-f: especifica el document que conté la seqüència de nucleòtids

-F: especifica el patró de lectura de la traducció

Comparació de dues seqüències proteiques: T-COFFEE

Finalment, la selenoproteïna predita en aquest procés i la selenoproteïna coneguda (query) es comparen.

Utilitzant el programa T-coffee aconseguim un alineament entre les dues proteïnes on observem els aminoàcids conservats i els no conservats.

Predicció de SECIS

Un element SECIS, tal i com ja s'ha explicat anteriorment, és un motiu estructural d'RNA localitzat a 3'-UTR del gen de la selenoproteïna d'eucariotes.

Per dur a terme una millor caracterització de les selenoproteïnes predites, determinarem de novo els seus elements SECIS mitjançant SECISearch3, que ens permet obtenir les seqüències de DNA que corresponen a aquests elements.

Automatització

S'ha realitzat un script de bash que s'encarrega d'importar els paquets necessaris, crear les carpetes que utilitzarà el programa, fer córrer els programes d'anotació i cridar als filtres (script disponible aquí).

Al seu torn i com s'explica a dalt, l'script de bash utilitza una sèrie de filtres i aparelladors d'arxius que estan escrits en llenguatge de programació Python (script disponible aquí).

Descarrega el paquet complet aquí.