Bioinformàtica - UPF

Anotació de genomes (I)

La seqüència d’ADN d’un genoma no serveix de res sense disposar d’un catàleg dels elements funcionals què la cèl·lula utiliza a cada moment per donar resposta als requeriments imposats pel seu entorn. Donat un genoma qualsevol, aquest catàleg d’elements funcionals se’l coneix popularment com la seva anotació. Direm que un genoma està molt ben anotat quan el catàleg d’elements funcionals coneguts per aquest genoma sigui ampli i acurat, mentre que direm que un genoma està poc anotat, o te una anotació pobra quan aquest catàleg sigui petit i inexacte. Les dues bases de dades que trobem disponibles a internet amb més quantitat de genomes anotats són Ensembl i UCSC Genome Browser.

El tipus d’element funcional més important que sempre s’intenta anotar primer en un genoma són els gens que codifiquen per proteïnes i al llarg d’aquesta pràctica veurem com utilizar diferents eines per tal d’anotar un gen en una seqüència genòmica a partir de la proteïna que aquest gen codifica.

Concretament, al llarg d’aquesta pràctica, treballarem amb la següent selenoproteïna humana:

>Sel15_human
MVAMAAGPSGCLVPAFGLRLLLATVLQAVSAFGAEFSSEACRELGFSSNLLCSSCDLLGQ
FNLLQLDPDCRGCCQEEAQFETKKLYAGAILEVCGUKLGRFPQVQVCPWFRPCIKAFGRQ
WEHC

que haurieu d’emmagatzemar en un fitxer que es digués, per exemple, sel15human.aa.fa.

Localització ràpida de gens amb BLAT

Partint d’una seqüència de mRNA o de proteïna sovint volem veure ràpidament en quin lloc del genoma es troba aquesta seqüència sense obtenir immediatament una anotació acurada dels exons i introns corresponents. Això ho podem fer mitjançant una eina que es coneix com BLAT (BLAST-Like Alignment Tool) i que trobarem anat al UCSC Genome Browser i seguint l’enllaç Blat que es troba al panel vertical de l’esquerra.

Exercici: Alinieu amb BLAT la proteïna donada amb el genoma huma. A la plana de resultats veureu una taula amb informació diferent sobre on ha estat alineada la proteïna, preneu nota del cromosoma on surt alineada i en quina de les dues hebres (forward o reverse). Trobareu tambe dos enllaços Browser i Details, exploreu-los, intenteu entendre per vosaltres mateixos la informació que us ofereixen i en base al que interpreteu d’aquestes resultats i al que trobeu a la plana d’ajuda (Help) d’aquesta eina, respongueu les preguntes següents:

  • L’anotació que ens proporciona l’alineament de BLAT d’aquest gen és completa? Si no la considereu completa, quina part faltaria? Que ha passat amb la selenocisteina (l’aminoàcid denotat per U)?
  • Que passa si feu la cerca substituint el codi IUPAC de la selenocisteina (U) per una X?
  • Quina es la diferencia principal entre BLAT i BLAST?

Localització de la regió on es troba un gen amb TBLASTN

Mireu de localitzar el gen de la selenoproteïna anterior en el genoma huma utilitzant TBLASTN i la base de dades de BLAST del cromosoma humà corresponent, que trobareu en el seguent lloc del sistema de fitxers:

/mnt/NFS_UPF/soft/genomes/H.sapiens/GRCh38/chromFa/chrXX.fa

on XX es refereix al número del cromosoma. La cerca BLAST l’heu de fer aleshores des del shell del Unix amb la comanda tblastn:

tblastn -query fitxerquery.fa -db nombbddBLAST -out fitxerdesortida

on fitxerquery.fa ha de ser el fitxer que contingui la selenoproteïna, nombbddBLAST ha de ser el nom de la base de dades BLAST en la qual volem fer la cerca, i fitxerdesortida ha de ser el nom d’un fitxer dins el qual volem que BLAST ens emmagatzemi els resultats de la cerca.

Mirant-vos el fitxer amb els resultats de la cerca, heu aconseguit alinear més part de la selenoproteïna que utilitzant BLAT? Podeu identificar algun problema en la forma en que BLAST ha fet la nostra cerca? A que pot ser degut aquest problema? Com el podriem evitar? Un cop evitat, hem aconseguit alinear més parts de la proteïna que amb BLAT? Com ens mostra BLAST l’alineament de la selenocisteina?

Extracció de la regió genòmica que potencialment conté el gen que estem buscant

Per la tasca que farem ara, i d’altres més endavant, farem anar uns programes que formen part d’un software anomenat exonerate.

Torneu a fer la cerca TBLASTN pero afegint l’opció -outfmt 7 que us mostrarà un resum de les posicions que ocupen els alineaments de BLAST. A partir d’aquestes posicions cromosòmiques, estimeu les posicions cromosòmiques on comença i acaba la regió sencera que ocupa aquest gen i feu-les anar per extreure la regió cromosomica on està en un fitxer FASTA apart mitjançant el programa fastasubseq (què es part dels programes que acompanyen exonerate):

fastasubseq /mnt/NFS_UPF/soft/genomes/H.sapiens/GRCh38/chromFa/chr1.fa start length > genomic.fa

on XX fa referència al número del cromosoma amb el què estem treballant, start fa referència a la posició de començament en la seqüència emmagatzemada en el fitxer que li estem especificant (en aquest cas el cromosoma XX humà) i length fa referència a la quantitat de nucleòtids que volem extreure a partir d’aquella posició.

Comproveu que al fitxer genomic.fa hi ha un fitxer FASTA amb la regió cromosòmica que busqueu.

Generació d’una anotació amb el programa exonerate

A partir de la proteïna humana Sel15 i de la regio genòmica que hem extret anteriorment generarem una anotació del gen que dona lloc a aquesta proteïna mitjançant el programa exonerate, cridant-lo de la seguent forma:

exonerate -m p2g --showtargetgff -q sel15human.aa.fa -t genomic.fa

fent exonerate --help trobareu explicacions de les opcions i anant a la plana web del programa trobareu més informació dins l’apartat Documentation. La versió actual d’aquest programa (2.4) malgrat disposa d’una opció per proporcionar la seqüència del cDNA corresponent a l’anotació generada (–ryo <format>) aquesta no sembla funcionar correctament i també proporciona les seqüències dels introns. Per tal de poder extreure la seqüència del cDNA a partir del fitxer GFF obtingut amb aquest programa farem anar un altre programa en Perl anomenat fastaseqfromGFF.pl. El farem anar en dos passos, en un primer pas obtindrem en un fitxer apart l’anotació en GFF del programa exonerate, i en un segon pas extreurem la seqüència:

exonerate -m p2g --showtargetgff -q sel15human.aa.fa -t genomic.fa | egrep -w exon > sel15hsap2hsapgenome.exonerate.gff
fastaseqfromGFF.pl genomic.fa sel15hsap2hsapgenome.exonerate.gff

Un altre programa que incorpora el software exonerate es fastatranslate que serveix per traduïr una seqüència d’ADN a proteïna en totes les pautes de lectura possibles. Esbrineu com el podeu fer anar per traduïr la seqüència obtinguda anteriorment i feu l’alineament global de la proteïna resultant amb la seqüència original a partir de la qual hem començat aquest exercici (en el fitxer sel15human.aa.fa) mitjançant el programa TCOFFEE que haureu de cridar de la següent forma:

t_coffee <fitxerFASTAsequencia1> <fitxerFASTAsequencia2>

haurieu de poder observar que l’anotació generada anteriorment dona lloc exactament a la mateixa proteïna a partir de la qual hem buscat l’anotació del gene que la codifica. Observeu també la forma en que TCOFFEE mostra l’alineament de la selenocisteina.

Generació d’una anotació amb el programa GeneWise

A partir de la proteïna humana Sel15 i de la regio genòmica que hem extret anteriorment generarem una anotació del gen que dona lloc a aquesta proteïna mitjançant el programa GeneWise. Per tal de fer-lo anar, el cridarem de la seguent forma:

genewise -pep -pretty -cdna -gff sel15human.aa.fa genomic.fa

es aquest el resultat que esperavem? proveu-lo ara afegint l’opció -trev. Per què creieu que el primer cop no ens ha funcionat?