Materials i Mètodes

Per tal de dur a terme el projecte, primer hem utilitzat el Selenoprofiles, un programa que prediu automàticament les selenoproteïnes que poden haver en un genoma gràcies a la seva base de dades interna. Per comprovar que els resultats són correctes, hem revisat cadascuna de les proteïnes predites de manera manual. A continuació es detalla el programari utilitzat:

Genoma i seqüències

Obtenció del genoma

El genoma de la nostra tortuga el trobem al directori:
/cursos/BI/genomes/project_2013
Com que ja estava creada la base de dades de BLAST del genoma no ha calgut executar cap comanda addicional abans de començar a treballar amb ell. A més a més, per poder utilitzar el genoma de manera més còmoda es va guardar al clúster de cada membre del grup, un espai personal on poder guardar fitxers en xarxa. El genoma s'ha extret d'Ensembl on apareix amb el nom de Chinese softshell turtle (Pelodiscus_sinensis.PelSin_1.0.69.dna.toplevel.fa.gz). Aquest genoma també va ser facilitat pels professors de l'assignatura. Cal tenir en compte que el genoma es troba en forma d’scaffolds i per solucionar això vam fer un automatització que eliminés els encapçalament de cadascun d’aquests scaffolds per aconseguir únicament la seqüència nucleotídica.

Obtenció de les selenoproteïnes conegudes

Les selenoproteïnes ja conegudes i descrites que s'han utilitzat per identificar regions genòmiques de Pelodiscus sinensis que s'alineïn i que, per tant, puguin contenir noves selenoproteïnes, s'han obtingut de la base de dades SelenoDB. SelenoDB és una base de dades que conté gens que codifiquen per selenoproteïnes, proteïnes, elements SECIS i molècules relacionades. Aquestes proteïnes es prediuen per sistemes d'anotació automàtica, els quals estan en constant millora per tal de realitzar cerques més encertades i acurades. Per altra banda, el programa Selenoprofiles inclou per sí mateix les seqüències d'aminoàcids de totes les selenoproteïnes eucariotes conegudes i de tots els factors específics per selenoproteïnes, els quals estan involucrats en la síntesi d'aquestes. Les seqüències base de cada família estan extretes del SelenoDB, però hi ha altres selenoproteïnes que estan extretes directament del genoma en què es van identificar.  
>gi|325117666|emb|FR823390.1|:subseq(1685381,20000) Neospora caninum Liverpool complete genome, >SPP00000004_1.0 # Protein # Glutathione peroxidase 1 (GPx1) # Homo sapiens # Complete
MCAARLAAAAAAAQSVYAFSARPLAGGEPVSLGSLRGKVLLIENVASLUGTTVRDYTQMN
ELQRRLGPRGLVVLGFPCNQFGHQENAKNEEILNSLKYVRPGGGFEPNFMLFEKCEVNGA
GAHPLFAFLREALPAPSDDATALMTDPKLITWSPVCRNDVAWNFEKFLVGPDGVPLRRYS
RRFQTIDIEPDIEALLSQGPSCA%

Selenoprofiles

El Selenoprofiles [3], creat per Marco Mariotti (CRG), és una eina informàtica basada en homologia que busca noves selenoproteïnes en un genoma donat per mitjà de seqüències de selenoproteïnes eucariotes ja conegudes, de manera que és capaç de trobar tant aquestes com homòlogues amb cisteïna. Aquest programa utilitza psiblastn, exonerate, genewise, SECISearch i filtrats per tal d’annotar i predir selenoproteïnes en un genoma. Per a executar el programa, primerament l'hem instal.lat seguint les instruccions que es troben a la pàgina web ttp://big.crg.cat/services/selenoprofiles dins del clúster. Un cop instal.lat, hem creat dos fitxers (~/.ncbirc i ~/.bashrc) que contenen la informació necessària per poder executar correctament tots els programes que es troben inclosos en el Selenoprofiles: ~/.ncbirc. Aquest fitxer permet el correcte funcionament del Blast:
   [NCBI]
   Data=/cursos/BI/bin/ncbiblast/data
   [NET_SERV]
   SRV_CONN_MODE=FIREWALL
   SRV_HTTP_PROXY_HOST=proxy.upf.edu
   SRV_HTTP_PROXY_PORT=8080 
~/.bashrc: Aquest fitxer conté totes les comandes necessàries per executar els programes:
 $ export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH    # pel NCBI Blast
$ cp /cursos/BI/bin/ncbiblast/.ncbirc ~/            # pel NCBI Blast 
$ export PATH=/cursos/BI/soft/exonerate/i386/bin:$PATH # per l'exonerate
$ export PATH=/cursos/BI/bin:$PATH  # pel GeneWise, el fastaseqfromGFF.pl i el t_coffee
$ export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg # pel GeneWise
Finalment, l'hem executat amb la següent comanda:
nohup ./Selenoprofiles resultats_selenoprofiles /homes/users/UXXXXX/Pelodiscus_sinensis/genome.fa -species "Pelodiscus_sinensis" &
Cal dir que hem afegit la funció nohup per poder executar-lo dins del clúster independentment de que nosaltres sortim del terminal, ja que el processament requereix una quantitat de temps bastant elevada.

Un cop ha finalitzat el programa, s'ha creat una carpeta ouput (dins de la carpeta de resultats) amb els fitxers de totes les selenoproteïnes predites. Per comprovar que els resultats obtinguts són correctes, hem fet una revisió manual de les proteïnes trobades, que es detalla a continuació.

1. Cercar la seqüència de les selenoproteïnes

Hem fet una cerca a la base de dades NCBI de totes les selenoproteïnes ja conegudes (queries) que el Selenoprofiles ha trobat en el nostre genoma i les hem desat al clúster en format FASTA. Per evitar posteriors problemes amb els programes, hem canviat totes les U de les seqüències proteiques per X.

2. Blastall

El primer programa que utilitzem és el TBlastn, el qual compara i realitza alineaments entre la seqüència d’una selenoproteïna coneguda i una base de dades de nucleòtids (el genoma de la nostra tortuga). La comanda utilitzada per executar el programa és:
#!/bin/bash
 blastall -p tblastn -i Selenoprotein.fa -d /homes/users/UXXXXX/Pelodiscus_sinensis/genome.fa -o  SelenoproteinBLAST.fa
Un cop obtingut els resultats, hem seleccionat els hits que tenien unes e-values significativament baixes (a partir de 1e-5) per continuar la cerca de gens que codifiquin per selenoproteïnes en el nostre genoma.

3. Fastaindex

El genoma disponible al cluster ja tenia l'índex dels fragmets de seqüències. Per a crear-lo de nou només cal introduir la següent comanda:
$ formatdb -i ./Pelodiscus_sinensis/genome.fa -p F -n genome.index 

4. Fastafetch i Fastasubseq

Per extreure la regió que conté el hit que ens interessa, hem executat el programa fastafetch:
fastafetch /homes/users/UXXXXX/Pelodiscus_sinensis/genome.fa /homes/users/UXXXXX/Pelodiscus_sinensis/genome.index JH123456.1 > Selenoproteinseq.fa
Seguidament, hem executat el programa fastasubseq per a extreure la regió genòmica que hem estimat que conté el gen d'interès. Per assegurar-nos que l'incloem, hem afegit 20kb a cada banda del hit. Per tant, el start correspondrà a la posició 20kb abans de començar la regió i la longitud tindrà 40kb més que aquesta:
fastasubseq Selenoproteinseq.fa   start   lenght > Selenoproteingenomic.fa

5. Exonerate i Genewise

L’Exonerate alinea la seqüència d’una selenoproteïna coneguda amb una regió genòmica que hem extret de la nostra tortuga mitjançant el fastasubseq, per tal de fer anotacions dels gens d’interés. Per tal de fer cerques més acurades, hem afegit a la comanda l'opció exhaustive (-E):
exonerate -m p2g -E –showtargetgff -q Selenoprotein.fa -t Selenoproteingenomic.fa | egrep -w exon > Selenoproteinexonarate.gff 
El Genewise s'utilitza bàsicament en cas que l'Enoxerate no prodrueixi cap anotació, ja que els dos fan la mateixa funció.

6. FastaseqfromGFF

Per tal d'extreure la seqüència de cDNA a partir del fitxer GFF de l'exonerate, hem utilitzat el fastaseqfromGFF.pl:
fastaseqfromGFF.pl  Selenoproteingenomic.fa   Selenoproteinexonerate.gff > Selenoproteinexonerate.fa  

7. Fastatranslate

Hem traduït el cDNA a seqüència aminoacídica mitjançant aquest programa:
fastatranslate  Selenoproteinexonerate.fa > Selenoproteinaa.fa  

8. T-coffee

Finalment, hem alineat la proteïna obtinguda amb la query inicial. Així, podem veure si els residus d'aminoàcids de la proteïna inicial coneguda i la predita es corresponen i, fins i tot, inferir homologia:
t_coffee Selenoprotein.fa  Selenoproteinaa.fa
Quan no obtenim una bona alineació, ja que la proteïna predita no comença per metionina, podem modificar manualment la pauta de lectura canviant la posició dels exons predits (agafant uns quants pb abans) per poder millorar la seqüència aminoacídica. Cal dir que totes aquelles selenoproteïnes predites amb Selenoprofiles que tenien un bon alineament, una identitat elevada i un SECIS de qualitat strict, han estat comprovades directament amb el t-coffee, sense passar pels passos anteriors.

9.SECIS-SEARCH

Hem cercat SECIS de manera manual en aquelles selenoproteïnes predites en què el Selenoprofiles no els ha trobat aquests elements. Aquesta cerca la fem a través de la plana del software SECISearch on es pot escollir quin grau de restricció s'usa per trobar l'element SECIS. En totes els casos, es comença per l'opció Pattern Loose (canonical and non-canonical), per tal d'ampliar al màxim les possibilitats de troballa.

Criteris d'avaluació

Les proteïnes estudiades van ser obtingudes mitjançant el Selenoprofiles i de manera manual es van extreure del SelenoDB i d'altres bases de dades. Per avaluar-les ens hem basat en coneixements previs sobre el selenoproteoma dels vertebrals [8] per a completar i comprovar els resultats del Seneloprofiles i com a guia en el procés manual. Per valorar les evidències que donen suport a la presència de cada selenoproteïna en el genoma de P. sinensis ens vam fixar principalment en els següents factors:

  • Score de l'alineament (obtingut amb t_coffee) entre la selenoproteïna predita i la selenoproteïna query.
  • Longitud del hit entre la selenoproteïna predita i la selenoproteïna query mesurat en coverage, que representa la longitud total de la seqüència de la proteïna.
  • Qualitat del SECIS trobat en 3'.
  • Alineament de la metionina inicial.
  • Alineament de les selenocisteïnes/cisteïnes.