Materials i Mètodes

L'objectiu del nostre estudi és buscar les selenoproteïnes i la maquinària necessària per tal que aquestes es transcriguin en el genoma de Chrysochloris asiatica. En aquesta secció detallem el mètode manual per a la cerca en qüestió, tot i que nosaltres hem usat una sèrie de programes escrits en llenguatge bash i perl per a facilitar-nos el procés que seran detallats a la secció d'automatització.

Obtenció de les querys

Les seqüències a comparar o querys són les selenoproteïnes conegudes i les proteïnes de la maquinària de síntesis de les mateixes. Les seqüències de les proteïnes les hem obtingut de la base de dades SelenoDB. Hem usat les proteïnes del genoma més proper a l'organisme del nostre estudi que estava anotat: l' Echinops telfairi. També hem fet la cerca amb les proteïnes de l'Homo sapiens, ja que són les que han estat anotades de manera més curosa.

Moltes de les querys de les selenoproteïnes usades tenien una U (abreviació del aminoàcid selenocisteïna) a la seva seqüència, cosa que no permet el bon funcionament d'alguns dels programes utilitzats després; per tant, cal canviar les U per X.

Com que cada proteïna dels genomes esmentats pot tenir diversos trànscrits realitzem un t-coffee entre elles per a veure si els diversos tràncrits són gaire diferents i així agafar el nombre mínim de querys representatives per a poder trobar la proteïna en el nostre genoma d'interès.

Obtenció del genoma

El genoma de la Chrysochloris asiatica va ser facilitat pels professors de l'assignatura i es trobava dividit en diferents scaffolds. Aquí podem veure el directori des d'on l'usem.


/cursos/BI/genomes/project_2014/Chrysochloris_asiatica/genome.fa

Torna a dalt

Cerca manual de les selenoproteïnes

Per tal de realitzar la cerca manual que s'explica a continuació, hem hagut d'exportar diversos programes que seran necessaris al llarg del procés:

  • El software del NCBI Blast
  • El software Exonerate
  • El software GeneWise
  • El programa d'alineament global TCOFFEE
  • RUTA D'EXPORTACIO PROGRAMES PELS QUALS ES NECESSARI
    $ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH NCBI Blast
    $ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/ NCBI Blast
    $ export PATH=/cursos/BI/soft/exonerate/i386/bin:$PATH Exonerate
    $ export PATH=/cursos/BI/bin:$PATH Genewise, fastaseqfromGFF.pl i T-coffee
    $ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg Genewise

    1. Alineament de seqüències en BLAST

    Fem inicialment un BLAST de cadascuna de les querys al genoma de Chrysochloris asiatica. Usem el tBLASTn que produeix alineaments locals en comparar una seqüència proteica amb una base de dades de nucleòtids, en aquest cas el genoma de l'organisme d'interès.

    blastall -p tblastn -e 1e-04 -i <fitxer query en format fasta> -d <genoma de Chrysochloris asiatica en format fasta> -o <fitxer de sortida> -m8

    L'argument -p ens indica el tipus de BLAST que estem usant (el tBLASTn). En el lloc del fitxer del genoma, escrivim l'adreça per accedir a l'arxiu que tenim al servidor que se'ns ha proporcionat. El fitxer de sortida és el nom del fitxer on es guarda el resultat. Posant l'argument e limitem el e value llindar pel que considerarem els nostres hits. Finalment, l'argument m8 ens proporciona un format més manipulable del fitxer de sortida.

    2. Extracció de la regió genòmica

    Per tal de manipular les dades hem delimitat la regió genòmica que envolta el nostre hit obtenint una sequncia més curta. Per això agafem els hits obtinguts al tBLASTn i expandim els marges upstream i downstream de forma que ens assegurem d'agafar la totalitat del gen.

    L'extracció de les sequüències requereix el genoma indexat. Aquest arxiu ha estat proporcionat pel professorat en un arxiu anomenat ca.index. Hem usat la comanda fastafetch per tal d'extreure l'scaffold on es troba cada hit que considerem amb un e value significatiu producte del tBLASTn anterior.

    Aquest procés es fa amb la comanda:

    fastafetch <directori del genoma en fasta> <arxiu del genoma indexat> "<scaffold"> < <fitxer de sortida.fa>

    I per seleccionar la regió que envolta el gen, no tot el scaffold, utilitzem la comanda fastasubseq mitjançant la següent comanda:

    fastasubseq <directori del genoma en fasta> <nucleòtid d'inici de la subseqüència> <llargada en nucleòtids de la regió que volem extreure> > <fitxer de sortida>

    Un cop seleccionades les possibles regions que poden contenir les nostres querys, usem dos programes de predicció génica:

    • Exonerate
    • Genewise
    • L'objectiu dels dos programes és el mateix: comparar una seqüència proteica amb una regió genòmica del DNA. Els programes són diferents tot i que majoritàriament donen resultats similars hi ha petites diferències. Ens són útils tots dos per suplir resultats si un d'ells no ha trobat la query i també alhora de verificar els resultats. També cal comentar la gran diferència de temps en l'execució d'un i altre, l'Exonerate és un programa molt més àgil i ràpid que el Genewise.

      3. Exonerate

      La comanda per utilitzar l'exonerate és: exonerate -m .p2g -showtargetgff - q <l'arxiu de la nostra query en fasta> -t <genoma en format fasta> > <fitxer de sortida.gff>

      L'argument -m p2g indica el model d'alineament, seqüència proteica contra regió genòmica. L'altre argument showtargetgff el que fa és incloure el format GFF en el fitxer de sortida.

      Utilitzant el programa fastaseqfromGFF.pl, que construeix una seqüència de nucleòtids a partir d'un fitxer amb el format GFF inclós, aconseguirem el cDNA de la seqüència (els exons).

      S'han de fer servir les següents comandes:

      egrep -w exon sortida.gff > cDNA.gff

      ./fastaseqfromGFF.pl genomic.fa cDNA.gff > cDNA.fa

      Així finalment obtindrem el nostre cDNA en format fasta.

      I, per acabar, voldríem obtenir la seqüència d'aminoàcids de la proteïna predita. O fem amb el programa fastatranslate amb la comanda:

      fastatranslate -F 1 <cDNA de la proteïna> > <fitxer de sortida en format multifasta>

      El programa dóna sis ORFs (marcs de lectura) per seqüència, nosaltres hem limitat els marcs de lectura obtinguts mitjançant l'argument -F1, de manera que només n'obteníem el primer (en el cas que aquest tingués codons stop al llarg de la predicció ho hem tornat a realitzar sense aquesta limitació).

      4. Genewise

      Utilitzem també un altre programa per a completar els resultats de l'exonerate, el genewise. Usem la comanda:

      genewise -pep -pretty -cdna -gff -both <query en format fasta> <DNA genomic en fasta> > <arxiu de sortida amb format GFF>

      On l'argument -pep és perquè mostri la seqüència peptídica, -pretty és per a que ensenyi l'alineament, -cdna mostra la seqüència genòmica alineada i -both perquè realitzi la predicció en sentit forward i reverse. Finalment hem seleccionat el sentit de lectura que donava millor alineament.

      5. Alineament global amb t-coffee

      Amb les prediccions gèniques traduïdes a seqüència aminoacídica, usem el programa T-Coffee (Tree-based Consistency Objective Function for alignment Evaluation). El programa ens produirà alineament globals de proteïna, per mirar si hi ha homologia entre la nostra query i la seqüència predita.

      tcoffee <query en fasta> <seqüència proteica predita en fasta>

      6. Cerca d'elements SECIS

      A continuació fem la cerca d'elements SECIS ( Selenocysteine Insertion Sequence ), que són elements necessaris per a la traducció de la selenocisteïna. La cerca dels elements SECIS l'hem fet mitjançant el SECISearch amb les subseqüències extretes en el pas 2.

      7. Predicció tRNA

      No ens hem conformat amb la cerca de proteïnes, per tal de donar més validesa al fet de trobar selenoproteïnes en el genoma de Chrysochloris asiatica, hem buscat en el seu genoma els tRNAs de la Selenocisteïna. Hem agafat les seqüències dels tRNA que codifiquen per Selenocisteïna en humans a partir de la Genomic tRNA Database

      Aquí es poden veure les seqüències que hem agafat:

      Homo_sapiens_chr22.trna1-SeC(e)TCA (44546537-44546622) SeC(e) (TCA) 86 bp Sc: 62.60

      GCTCGGATGATCCTCAGTGGTCTGGGGTGCAGGCTTCAAACCTGTAGCTGTCTAGTGACA GAGTGGTTCAATTCCACCTTTGTAGG

      Homo_sapiens_chr19.trna8-SeC(e)TCA (45981945-45981860) SeC(e) (TCA) 86 bp Sc: 75.99

      GCCCGGATGATCCTCAGTGGTCTGGGGTGCAGGCTTCAAACCTGTAGCTGTCTAGCGACA GAGTGGTTCAATTCCACCTTTCGGGC

      Primerament hem utilitzat el programa NCBI Blast per fer un Blastn usant de querys les seqüències humanes dels tRNA de SeC en el genoma de la Chrysochloris asiatica. Per això hem usat la comanda:

      blastall -p blastn -e 1e-04 -i <seqüència tRNA humana en fasta> -d <ubicació genoma d'interés en fasta> -o <fitxer de sortida> -m8

      Un cop analitzat el resultat del Blastn, usem la comanda fastafetch del exonerate per a extreure el scaffold on pressuposem que es troben els tRNA de selenocisteïna. Això ho fem amb la següent comanda.

      fastafetch < ubicació genoma d'interés en fasta> <ubicació genoma indexat> <"scaffold resultat del Blastn > < <fitxer de sortida amb el scaffold extret>

      Una de les tècniques utilitzades per predir els nostres tRNA de SeC és el programa web ARAGORN, que ens permet trobar els diferents tRNA de tots els aminoàcids donant una regió genòmica de no més de 15 Mb.

      Com que alguns dels nostres scaffolds sobrepassen aquest valor, fem servir la comanda d'unix split per a dividir-ho en arxius més petits, concretament de 14 Mb.

      split -b 14000000 <fitxer amb el scaffold extret> L'argument -b fa referència als bytes de l'arxiu que en aquest cas podem equiparar als nucleòtids.

      L'altre programa que ha estat utilitzat és el tRNAscan-SE 1.21 . En aquest cas el programa no pot analitzar seqüències tan grans, pel que realitzem un fastasubseq dels scaffolds on ens han aparegut bons hits al tblastn, incloent en aquesta subseq els nucleòtids on es trobaven els nostres hits.

      fastasubseq scaffold_d'interes "100000 nucleòtids abans del començament del hit" "llargada de 300000 nucleòtids" > "fitxer de sortida que utilitzarem pel programa"

      Automatització

      El link següent vincula als programes usats per automatitzar el procés de cerca de selenoproteïnes.

      Programes per automatització

      Torna a dalt