1. Selecció de les querys.

El primer pas per a determinar la presència de selenoproteïnes de les famílies de MsrA i SelR en els nostres organismes problema és trobar una seqüència model o query. Per això s’utilitzen diferents seqüències aminoacídiques d’aquestes selenoproteïnes trobades en altres espècies, que s’alinearan amb el genoma que ens interessa. Cal tenir en compte que molts programes bioinformàtics poden confondre el símbol U, que identifica les selenocisteïnes, amb un STOP codon, pel que ha estat necessari substituir aquest símbol per una X, que no especifica cap aminoàcid concret, per tal d'evitar problemes en l’execució dels programes.

La selecció de les nostres querys ha estat, en alguns casos, el resultat d’un exhaustiu procés de cerca a SelenoDB, una base de dades disponible a Internet i dedicada a catalogar seqüències de selenoproteïnes; mentre que, en els casos que no estan catalogades, s’han utilitzat com a querys les selenoproteïnes trobades en altres organismes per alumnes de cursos anteriors.

Tot i això, és possible que la selenocisteïna (Sec o U) de la query no sigui alineada correctament amb el genoma protista, quedant downstream de la seqüència del hit facilitat pel tBLASTn. Així, el fragment del genoma traduït s’utilitza per aplicar BLAST a NCBI de manera que es poden conèixer els organismes disponibles a aquesta base de dades que contenen una seqüència similar. Després de seleccionar aquelles amb el domini d'interès (SelR o MrsA en el nostre cas) i adquirir-lo amb el format FASTA (.fa), pot emprar-se com una nova query.

2. Obtenció dels genomes

Els genomes dels organismes en què es centra aquest estudi han estat proporcionats pels professors de l'assignatura a través de la carpeta que correspon a la següent ruta:

cd /cursos/BI/genomes/protists/2011

3. BLAST contra el genoma de l’organisme problema

L’objectiu del BLAST és determinar el grau de similitud entre les query i els genomes protistes. El flavour de BLAST adequat per aquesta mena d’estudi és tBLASTn perquè es comparen seqüències aminoacídiques com a querys amb genomes composats per DNA.
Per tal de fer funcionar el tBLASTn s’ha d’introduir aquesta comanda al shell:

export PATH=/cursos/BI/bin/ncbiblast/bin:$PATH

cp /cursos/BI/bin/ncbiblast/.ncbirc ~/

Un cop el programa funciona, es pot fer servir el tBLASTn amb la següent comanda, sent genome.fa el genoma de l’organisme problema en cada cas i query.fa la query seleccionada.

blastall -p tblastn -d genome.fa -i query.fa

És possible aconseguir un arxiu de sortida (output) afegint -o output.fa a la comanda anterior.

blastall -p tblastn -d genome.fa -i query.fa -o output.fa

El fitxer output.fa conté l’E-value de cada hit i l’alineament corresponent entre la query i la regió del genoma de l’organisme. Amb l’objectiu d’obtenir un resultat més visual en forma de llistat, en el qual sigui més accesible la informació sobre la localització dels hits, es pot emprar la següent comanda:

blastall -p tblastn -d genome.fa -m 9 -i query.fa -o outputllista.fa

En acabar aquest procés s’obtenen diferents hits. El programa ens proporciona els diferents alineaments entre la query i el genoma, i també un E-value per a cadascun, així com la seva posició dins el genoma. Un cop obtingut aquest fitxer cal analitzar aquestes dades. El primer paràmetre a tenir en compte és l’E-value, considerant com a significatius els E-values inferiors a 10-4 i, conseqüentment, descartant els valors superiors a aquest llindar. Per a aquells hits amb E-values que compleixin els requisits establerts s’ha de comprovar que la regió de la U correspongui amb la la zona alineada del genoma.

En el cas que no s'alineïn correctament cal buscar querys alternatives i repetir el procés. Si l’E-value és significatiu i l’alineament inclou la U es continua amb el nostre protocol de cerca.

4. Delimitació de la regió a estudiar

Un cop seleccionats els hits dels organismes amb un E-value significatiu (<0,0001) cal delimitar la regió on es fa la cerca. El primer pas consisteix en indexar el genoma de l'organisme amb la següent comanda:

fastaindex genome.fa  genome.index

Genome.fa correspon al genoma del organisme i el resultat de l’indexat s’emmagatzema a l'arxiu genome.index

A continuació, s’extreu únicament la regió on es troba el E-value significatiu de la regió d'interès del genoma:

fastafetch genome.fa genome.index “fragment d’interès” > candidat1.fa

Sent genome.fa el genoma del protista, genome.index l'arxiu on es troben indexats els fragments d’aquest genoma i candidat1.fa l’arxiu on es queda guardat el fragment del genoma on el BLAST ha trobat el hit que és el nostre objecte d’estudi.

La comanda fastasubseq permet acotar encara més la regió d’interès:

fastasubseq candidat1.fa inici longitud > subsequenciacandidat1.fa

L’inici i la longitud són paràmetres que es poden extreure de l’arxiu outputllista.fa obtingut anteriorment. Es considera que el valor d’inici és el més petit dels límits que dóna aquest arxiu perquè el hit es pot haver trobat a la seqüència complementària a la cadena que el programa considera principal (de 5’ a 3’). La longitud és la diferència entre l’origen i el final.

5. Anotació del genoma

És important cerciorar-se que el hit es troba dins d’un exó, és a dir, que codifica per a una proteïna. Aquesta tasca la poden dur a terme programes com Exonerate, que permeten l’obtenció de la seqüència de cDNA i la completa l’anotació del genoma. Les comandes per utilitzar el programa Exonerate són:

export PATH=/cursos/BI/bin/exonerate/i386/bin:$PATH

Un cop cridat el programa hem d’utilitzar-lo amb la comanda següent:

exonerate -m p2g --showtargetgff -q query.fa -t subsequenciacandidat1.fa > exonerate.txt

En l’arxiu de sortida apareixerà el resultat gràfic de l’alineament que ha fet l’Exonerate: l'alineament aminoacídic entre la nostra query i la regió obtinguda amb el fastasubseq. Cal fixar-se en que la X de la query estigui alineada amb un asterisc (***) indicatiu de la presència de U o amb una cisteïna (C). En aquest últim cas es tractaria d’un homòleg en cisteïna. L’output de l’Exonerate també mostra si la regió del genoma està inclosa dins d’un exó.
L’extracció de la regió exònica de l'alineament amb Exonerate es fa mitjançant aquesta comanda:

export PATH=/cursos/BI/bin:$PATH

exonerate -m p2g --showtargetgff -q query.fa -t subsequenciacandidat1.fa | egrep -w exon > cDNAcandidat1.gff

Després d’obtenir l'arxiu gff es fa servir el programa Perl fastaseqfromGFF.pl, que és capaç d'obtenir el cDNA de la nostra possible selenoproteïna o homòleg en cisteïna en format FASTA.

fastaseqfromGFF.pl subsequenciacandidat1.fa cDNAcandidat1.exonerate.gff >cdnacandidat1.fa

Amb aquesta comanda es genera un arxiu de sortida que conté el cDNA de l’exó que teòricament codifica per la proteïna que s’està buscant en format FASTA.

Existeixen alternatives per a l’anotació del genoma: el programa Genewise permet visualitzar l’alineament de la query amb el genoma que s’està treballant en una regió codificant. A més a més, dóna la seqüència aminoacídica que es proposa com a millor selenoproteïna predita, de manera que no caldrà efectuar el següent pas (6).

export WISECONFIGDIR=/cursos/BI/soft/wise-2.2.0/wisecfg

genewise -pep -pretty -cdna -gff query.fa subsequenciacandidat1.fa

6. Traducció de les seqüències de cDNA a proteïnes

L’output del programa fastatranslate són les diferents seqüències proteiques en les 6 pautes de lectura possibles. D’aquestes traduccions caldrà seleccionar aquella que Exonerate hagi alineat prèviament amb la query.

fastatranslate cdnacandidat1.fa

7. Alineament de proteïnes

Un cop obtinguda la nostra selenoproteïna o homòleg en cisteïna s’ha d’alinear amb la query seleccionada. El programa T-Coffee ha estat dissenyat per a realitzar aquesta tasca i és capaç de generar l’alineament final que, en cas d’alinear selenocisteïnes (visualitzades com X), permetria demostrar la presència de selenoproteïnes en l’organisme problema. Una altra possibilitat seria que mostrés un alineament amb una cisteïna (C), la qual cosa determinaria l’existència d’un homòleg en cisteïna en aquella espècie.

8. Comparació amb la base de dades

En confirmar el correcte alineament entre la query utilitzada i la regió de genoma on es troba la selenoproteïna o l'homòleg en cisteïna, cal realitzar un BLASTp per comprovar que la proteïna obtinguda té els dominis propis de SelR o MsrA.
Amb aquesta comanda es procedeix a comprovar-ho:

export PATH=/cursos/BI/bin/netblast/bin:$PATH

blastcl3 -p blastp -i fitxerFASTAproteina.fa -d nr

9. Cerca de SECIS

Amb el programa SECISearch es pot esbrinar si les possibles selenoproteïnes predites contenen SECIS en la regió 3'. SECISearch localitza els possibles elements SECIS i valora la seva estructura tridimensional. Es comença utilitzant els criteris més restrictius i, si no s’obtenen resultats, es van aplicant, progressivament, criteris menys restrictius.
En aquest estudi, la cerca de SECIS s’ha realitzat tant en les possibles selenoproteïnes com en les proteïnes homòlogues en cisteïna, tot i que no s’espera la seva conservació en seqüències que codifiquen per proteïnes que no contenen U.

10. Cerca de maquinària de traducció

El fet que un organisme presenti la maquinària necessària per a la traducció de selenoproteïnes en el seu genoma dóna més fiabilitat a la hipòtesi que aquesta espècie presenta selenoproteïnes que es tradueixen i acompleixen una determinada funció.
En aquest treball s’han cercat tRNAs amb un anticodó que reconegui TGA a través del programa tRNA-search.
La maquinària de síntesi s’ha buscat seguint el protocol que s’ha detallat anteriorment. Concretament, aquest treball es centra en: Pstk (phosphoseryl-tRNA kinase), el eEFsec (eukaryotic elongation factor, selenocysteine-tRNA-specific), la SECIS-BP2 (SECIS binding protein-2), SECp43, SPS2 (selenophosphate synthetase 2) i la SepSec (O-phosphoseryl-tRNA(Sec) selenium transferase). Si el resultat final que proporciona el flavour BLASTp mostra un output com a predicted protein significa que és una proteïna predita per programes informàtics però que encara no ha estat catalogada. Per tant, molt probablement, es tracti de la proteïna que s’està buscant.

Definicions

E-value (E): Paràmetre que descriu el nombre de hits que hom pot esperar obtenir per atzar. El seu valor decau exponencialment quan la score dels alineaments augmenta. Tot i així, s'ha tenir en compte que depèn de la longitud de la query usada, sent inversament proporcional al valor E-value.

Hits: Tots aquells alineaments que mostra BLAST en diferent regions del genoma que s’està estudiant. Aquests podran ser significatius o no segons el E-value mínim que estableixi l’usuari.

Basic Local Alignement Search Tool (BLAST): Programa informàtic que permet rastrejar bases de dades per trobar regions de similitud amb una seqüencia proteica o nucleotídica que compara. Els alineaments resultats són locals, com el seu nom indica; i l’algorisme que fa servir per a agilitzar i disminuir el cost computacional de la cerca és heurístic. Existeixen diferents programes derivats del BLAST segons què es vol comparar i amb què es vol comparar. S'utilitza tBLASTn, que compara una query proteica amb una seqüència nucleotídica; i el BLASTp, que compara una query proteica amb altres seqüències proteiques d’una base de dades.

Genoma anotat: Aquell genoma en el que s'han descrit prous elements funcionals com per respondre a preguntes com: el genoma conté un gen X? Quins gens tenim en el genoma? Quins gens són susceptibles de ser transcrits?

Exonerate: Eina bioinformàtica amb el que es poden fer comparacions a parells de seqüències. Permet alinear seqüències usant diferents models d’alineament: usant programació dinàmica o varietats heurístiques.

Query: Seqüències de selenoproteïnes d’altres espècies usades com a model per l’alineament.

GeneWise: Programa molt semblant a l’Exonerate: Permet alinear parells de seqüències. És indiferent si s’utilitza un o altre programa en l’estudi de les selenoproteïnes en protistes, però la principal avantatge que presenta GeneWise és que dóna la seqüència de cDNA alineada i la seva traducció. Per tant, no cal el programa fastatranslate per obtenir la seqüència de la proteïna.

T-Coffee: Programa que realitza alineaments múltiples de seqüències, tant proteiques com nucleotídiques. Permet la visualització del resultat en format .html, un format molt més visual ja que utilitza una llegenda colorimètrica per destacar les regions amb més similitud i les més divergents.

SElenoCystein Insertion Sequence (SECIS) i SECISearch: Element estructura del RNA missatger format per una seqüència de nucleòtids i una estructura secundària específica. En presència d’un codó UGA, l’element SECIS senyalitza la introducció d’una selenocisteïna en la seqüència proteica que s’està traduint; en absència de SECIS, el codó es tradueix com un codó STOP. En bacteris, l’element SECIS es troba immediatament downstream del codó UGA; mentre que en eucariotes es pot trobar fins a 1000 nucleòtids de distància en la regió 3’ no traduïda del mRNA.
S'utilitza el programa SECISearch per predir la presència d'elements SECIS. Aquest es basa en el programa PatScan, capaç de detectar diferents tipus de patrons en seqüències tant proteiques com nucleotídiques; i en el Vienna RNA Package, un programa que prediu estructures secundàries de RNA.