VALIDACIÓ DE LES PREDICCIONS DE GENS


Una bona manera de validar prediccions gèniques és trobar evidències que aquests gens s'expressen, com per exemple, mitjançant l'alineament amb ESTs (Expressed Sequence Tags, que s'obtenen a partir d'mRNAs expressats en un moment determinat, fent una retrotranscripció massiva). Hi ha una gran quantitat d'ESTs disponibles, amb una àmplia cobertura en vertebrats; això justifica la comparació dels gens en estudi amb la bases de dades d'ESTs humans.

Obtenció de les validacions

Per validar els gens mitjançant ESTs hem tallat la regió en funció de les coordenades on es prediuen els gens. Aquestes les hem fixat en funció de l'observació dels gràfics de les cinc subregions de 100000 pb (veure apartat Predicció de gens 'ab initio'). Les regions que hem escollit són:

REGIÓ INICI FINAL
regió1 0 28000
regió2 36000 56000
regió3 66000 130000
regió4 142000 146000
regió5 152000 158000
regió6 162000 168000
regió7 170000 220000
regió8 220000 223000
regió9 237000 257000
regió10 258000 267000
regió11 269000 374000
regió12 376000 379000
regió13 378000 500000

Per tallar aquestes regions, les vam escriure en un fitxer de l'editor emacs que vam anomenar fragments.tbl i vam executar el següent:

export PATH=$PATH:/disc8/bin

egrep -v '^\#' fragments.tbl | while read regio INI END; do { LEN=`expr $END - $INI + 1`; echo "#--> "$regio"--->"$INI"<-->"$LEN"<--"; ( echo ">"$regio"."$INI"-"$LEN ; fastachunk maskedN.fa $INI $LEN | fold -60 ) > alphaglobin.$regio.fa; }; done


Així es van crear tretze fitxers en format fasta cadascun amb la seqüència emmascarada de la corresponent regió nucleotídica.


Vam llençar aquestes subregions a alinear contra la base de dades d'ESTs humans (MegaBlast) seleccionant les opcions Hit table, HTML, At the bottom, ESThuman (i la resta per defecte).

Del Megablast vam obtenir tretze outputs (un per cada subregió) que ens interessava tenir en format gff. Això s'aconsegueix amb la comanda:

gawk '$1 !~ /^\#/ { print $1,"megaBLASTN","hsp-est",$7,$8,$3,".",".",$2 }' nomdelaregio.txt > nomdelaregio.gff

D'altra banda les coordenades d'aquests fitxers eren relatives per cadascuna de les subregions. Per tant, tot seguit vam haver de recuperar les coordenades absolutes respecte de la seqüència. Les comandes executades són:

gawk 'BEGIN{OFS="\t"}{$4=$4+x; $5=$5+x;print}' nomdelaregio.gff > nomdelaregio.absolut.gff;


on $4 i $5 són les coordenades d'inici i final de la subregió, i el paràmetre x es va substituint pel número de nucleòtid en què comença la subregió.

Les validacions en les que ens fixarem són les dels spliced ESTs, que cobreixen més d'un exó i permeten una millor aproximació de les estructures reals exó/intró, al mateix temps que són més indicatius que el gen s'expressa (en unes determinades condicions). Això és així perquè els ESTs-no-spliced podrien ser deguts a amplificació de mRNA immadur, a altres problemes en la reacció d'amplificació, o a que l'EST indiqui expressió d'un domini proteic d'una altra proteïna, comú a la codificada pel gen en estudi.

Si ens interessés validar experimentalment els resultats de l'alineament de la nostra seqüència amb spliced ESTs podríem fer una RT-PCR amb encebadors complementaris al tros amb què s'alineen aquests. Si dos exons pertanyen al mateix gen i són contigus, això es veurà reflectit en el resultat de la reacció: serà un cDNA corresponent als dos exons seguits (sense introns).

Vam filtrar els ESTs per quedar-nos amb un output que conté menys soroll -els spliced-EST alineats amb les regions nucleotídiques- mitjançant el programa getsplicedhsp.awk que s'executa amb la comanda:

gawk -f getsplicedhsp.awk nomdelaregio.absolut.gff > nomdelaregio.absolut.spliced.gff

Finalment, tenim tretze nous fitxers en format gff.

El que interessa és una representació gràfica comuna per les tres prediccions de gens i amb els ESTs. Per això, vam concatenar els fitxers de les subregions que havíem alineat amb els ESTs i vam redireccionar l'output en un únic fitxer.

cat regio1.absolut.spliced.gff regio2.absolut.spliced.gff regio3.absolut.spliced.gff regio4.absolut.spliced.gff regio5.absolut.spliced.gff regio6.absolut.spliced.gff regio7.absolut.spliced.gff regio8.absolut.spliced.gff regio9.absolut.spliced.gff regio10.absolut.spliced.gff regio11.absolut.spliced.gff regio12.absolut.spliced.gff regio13.absolut.spliced.gff > tot.absolut.spliced.gff

El format gff el vam passar a ps junt amb els fitxers gff que contenien les prediccions de gens de cada programa. Dels quatre fitxers només vam passar a ps les coordenades que volíem que forméssin la regió. Per posar un exemple, la comanda per la regió1 és:

/disc8/bin/gff2ps -S 0 -E 28000 $GENEID/sencerGENEID.gff $GENSCAN/sencerGENSCAN.gff $FGENESH/sencer.fgenesh.gff /home/U18444/novell/HOME/BINFO/REPETICIONS/BLASTESTfragments/RESULTATS/tot.absolut.spliced.gff > regio1.ps


i les vàrem passar a format png per veure'n la representació gràfica

convert -rotate 90 nomdelaregio.ps nomdelaregio.png

export PATH=$PATH:/disc8/soft/R/bin

kview nomdelaregio.png


que analitzarem en el següent apartat.

Anàlisi de les validacions

Per cadascuna de les regions en estudi trobem els enllaços amb els fitxers ps i png.

En base a aquests gràfics, decidim quins gens predits són vàlids experimentalment; segons els ESTs. El criteri que seguim és que ens fixarem en aquells ESTs que abarquin un spliced site (per això hem filtrat abans) i quan veiem ambigüitats, mirarem quines són les coordenades que més coincideixen amb els splicedESTs per esbrinar quina predicció d'introns i exons sembla més corroborada. Cal dir que generalment trobem més ESTs a l'extrem 3', la qual cosa és normal pel fet que per fer la retrotranscripció massiva dels mRNAs s'utilitza un primer poliT.

Regió 1:

A la regió 1 (0-28000) havíem trobat, en forward, 1 gen per FGENESH, 1 per GENEID i 1 per GENSCAN; en reverse, 1 per FGENESH, 1 per GENEID i 1 per GENSCAN. No ens quedem amb cap de les prediccions dels gens en forward perquè no estan suportades pels ESTs. Pel que fa als reverse, ens quedem amb la prediccio del FGENESH perquè hi ha molts ESTs que uneixen tres exons predits, que validen l'estructura d'aquesta predicció i no la de les altres dues.

Veure regió1.ps regió1.png




Regió 2:

A la regió 2 (36000-56000) havíem trobat en forward 1 gen per FGENESH, 1 per GENEID i 1 per GENSCAN. En quant al reverse, havíem obtingut 1 gen per FGENESH, 2 per GENEID i 2 per GENSCAN. De la predicció pels gens forward triem la de GENEID, perquè es valida amb dos ESTs mentre que les altres prediccions tenen exons en l'extrem 5' que no queden validats. Referent a la predicció dels gens reverse, el primer gen predit pel GENEID a la regió 3' queda molt ben validat, perquè hi ha varis ESTs que donen suport a l'estructura d'exons del gen (els lliga tots). En segon lloc, dels gens que queden més cap a l'extrem 5', ens quedem amb la predicció del GENSCAN, que té un exó més. Ho fem perquè, tot i que no està suportat per cap spliced-EST,tampoc no canvia la pauta de lectura; amb la qual cosa ens pot aportar més informació a l'hora d'estudiar les proteïnes. Per contra, en el cas que canviés la pauta de lectura, hauríem de treballar amb els dos gens. La predicció del GENEID la descartem perquè no mostra l'estructura de quatre exons validada pels ESTs.

Veure regió2.ps regió2.png




Regió 3:

A la regió 3 (66000-130000) en forward, es prediuen: dos gens amb el programa FGENESH, un gen amb el GENEID i dos gens amb el GENSCAN. Per cap d'aquestes prediccions no hi ha spliced ESTs que les validin experimentalment, per tant, no donen com a vàlids cap d'aquests gens predits.

En aquesta mateixa regió, però en reverse, es prediuen: un gen amb el programa FGENESH, dos gens amb el GENEID i un gen amb el GENSCAN. Només trobem spliced ESTs en la part més 3' de la regió, i aquests validen de la mateixa manera les diferents prediccions dels tres programes. Finalment ens quedem amb el gen predit pel programa GENSCAN, ja que aquest és igual que el predit pel FGENESH, però en ésser més llarg ens pot aportar més informació quan estudiem les proteïnes. De totes maneres, si quan fem un blastp swissprot amb aquesta proteïna, veiem que s'alinea molt bé amb una altra excepte per un extrem on apareix un gap, podríem provar de fer un segon swissprot.

En el cas que en alinear la proteïna codificada pel gen predit amb el FGENESH s'alineés bé i sense gaps amb la proteïna anterior, voldrà dir que potser haurem comés un error en la validació del gen i el més vàlid serà el predit pel FGENESH. Descartem el gen predit pel GENEID per què, tot i que té les mateixes coordenades que el del GENSCAN, aquest darrer té més exons interns, que no canvien la pauta de lectura, i per tant, pot aportar més informació pel que fa a les proteïnes.

Veure regió3.ps regió3.png




Regió 4:

A la regió (142000-146000) en forward el tres programes ens prediuen el mateix gen (mateix nombre d'exons i coordenades). Aquest gen està molt ben validat pels spliced ESTs, ja que n'hi ha molts (pot ser indicatiu de que aquest gen s'expressa molt) i n'hi ha que uneixen els tres exons del gen. Creiem que aquesta validació és bastant forta.

Cap dels programes prediu la presència de gens reverse en aquesta regió nucleotídica.

Veure regió4.ps regió4.png




Regió 5:

A la regió 5 (152000-158000) en forward els tres programes prediuen dos gens amb el mateix nombre d'exons i les mateixes coordenades, els dos gens estan molt ben validats pels spliced ESTs, per tant, analitzarem les dues proteïnes que prediuen aquests gens. Ens és indiferent quin programa triem (fan les mateixes prediccions), ens quedem amb el GENSCAN. Cal comentar que trobem uns quants spliced ESTs que uneixen els dos gens, la qual cosa ens xoca bastant, potser valdria la pena estudiar també aquest cas com a un únic gen, com a possible cas de splicing alternatiu entre exons de dos gens diferents. Nosaltres no podem ajuntar les dues seqüències peptídiques i analitzar-ho també com a una única proteïna, ja que veiem que els ESTs que ajunten els dos gens; no agafen ni l'exó terminal d'un gen, ni l'inicial de l'altre i no sabem si això altera la seqüència d'aminoàcids.

Cap dels tres programes prediu gens en reverse.

Veure regió5.ps regió5.png




Regió 6:

A la regió 6 (162000-168000) trobem diferents gens en forward predits; els programes FGENESH i GENEID en prediuen dos, que són iguals (mateixos exons i coordenades), en canvi, el GENSCAN ens prediu un únic gen, que és com la unió dels dos gens predits pels altres programes, però amb alguns petits canvis de llargades en els exons. Tots els spliced ESTs que trobem validen la predicció del GENSCAN, a més la validen amb bastanta força (molts ESTs i agafen molts o tots els exons del gen).

Pel que fa a gens en reverse, cap programa en prediu.

Veure regió6.ps regió6.png




Regió 7:

A la regió 7 (170000-220000) els tres programes prediuen un gen en forward, i els tres tenen un extrem 5' bastant similar, el que més varia és l'extrem 3' del gen, on el FGENESH i el GENSCAN prediuen un exó terminal que no surt en la predicció del GENEID; de totes maneres, descartem qualsevol d'aquests gens per què no estan predits per cap spliced ESTs.

Pel que fa a la predicció dels gens en reverse, el FGENESH en prediu dos, el GENEID un i el GENSCAN un altre. Descartem la predicció del FGENESH perquè separa en dos gens una estructura que està suportada pels spliced ESTs com a un únic gen. Entre la predicció del GENEID i del GENSCAN ens quedem amb la d'aquest últim perquè té un exó (coordenades 217242-217336) que no està present en la predicció del GENEID, però que està validat per ESTs (tot i que és de puntació baixa perquè té poca altura. A més el GENEID prediu un exó en l'extrem 3' que no està present en el GENEID, i que cap EST spliced valida. És curiós que en aquesta regió trobem molts ESTs en l'extrem 5' dels gens.

Veure regió7.ps regió7.png




Regió 8:

La regió 8 (220000-223000) tot i ser molt petiteta vam decidir estudiar-la per separat per què conté un gen que quedava aïllat de les altres regions i dubtàvem de si es tractava o no d'una regió interessant. Aquest gen forward el predia el programa GENEID, però cap spliced EST ens la validava, per tant, no n'estudiarem la proteïna per la qual codifica.

Veure regió8.ps regió8.png




Regió 9:

A la regió 9 (237000-257000) cada programa prediu un gen en forward, els tres predits són molt similars en l'extrem 3', però divergeixen pel que fa a la longitud del gen, variant les coordenades de l'exó inicial (extrem 5') i també d'alguns exons intermitjos. La predicció no està gaire suportada pels ESTs; en tot cas, hi ha algun spliced EST alineat en la part més 3' dels gens (on és normal trobar-ne més, per la metodologia amb que es creen els bancs d'ESTs). Els tres gens predits són llargs, i no trobem cap EST que validi els exons intermitjos ni lextrem 5'; és una elecció bastant difícil. Triem la predecció del programa GENSCAN, perquè té un exó final en l'extrem 3' que les altres dues prediccions no tenen i que trobem validat per algun spliced EST. A més, té un exó final més (que no altera la pauta de lectura dels codons) i ens pot aportar més informació quan fem el blastp swissprot.

Cap dels programes prediu presència de gens en reverse.

Veure regió9.ps regió9.png




Regió 10:

A la regió 10 (258000-267000) no tenim cap predicció de gens forward.

Els tres programes prediuen un gen en reverse. Les tres prediccions són bastant similars tot i que varien en el nombre d'exons de la meitat 3' del gen i en la coordenada de l'exó inicial. Els tres gens estan molt validats: hi ha molts ESTs que suporten la unió dels diferents exons en el mateix gen. Descartem la predicció del programa GENEID perquè li manca el primer exó de l'extrem 3' que tenen les prediccions dels altres dos programes i que està validat per varis spliced ESTs. Entre el gen predit pel FGENESH i el GENSCAN ens quedem amb el d'aquest últim perquè té un exó (261399-261460) que no té la predicció del FGENESH i que està validat per varis spliced ESTs.

Veure regió10.ps regió10.png




Regió 11:

A la regió 11 (269000-374000)els tres programes prediuen dos gens, les prediccions s'assemblen molt (coordenades, nombre d'exons...), però cap dels gens predits està validat per spliced ESTs; no sembla que siguin gens que s'expressin o s'expressen poc, no n'estudiarem les respectives proteïnes.

Pel que fa als gens reverse, el programa FGENESH prediu quatre gens, el GENEID tres i el GENSCAN dos. La prediccó del FGENESH la descartem perquè separa dos gens que queden validats com a un únic gen amb spliced ESTs. Dels altres cinc gens predits, n'estudiarem les cinc proteïnes per veure quina és més informativa, ja que amb els spliced ESTs no sabem quin gen predit descartar.

Veure regió11.ps regió11.png




Regió 12:

A la regió 12 (376000-379000) els programes GENEID i FGENESH prediuen un gen en forward cadascún (les dues prediccions són iguals), però el gen predit no està validat per cap spliced EST.

En aquesta regió no hi ha cap gen predit en reverse.

Veure regió12.ps regió12.png




Regió 13:

A la regió 13 (378000-500000) trobem predits dos gens amb el programa GENEID, dos amb el GENSCAN i tres amb el FGENESH. Entre la predicció del GENEID i del GENSCAN, ens quedem amb la del GENSCAN perquè el GENEID uneix una regió molt gran amb un parell d'exons de molt baixa puntuació (la caixa dels exons té una altura baixa) que no estan validats per cap EST (la llargada del gen del GENEID no està validada per cap spliced EST; només estan validats els extrems en aquesta regió). Per tant això fa pensar que és més vàlida la separació del gen en dos, com prediu el GENSCAN. Pel que fa a la comparació de prediccions del GENSCAN i del FGENESH, ens quedem les dues perquè no considerem que hi hagi una de les prediccions prou ben validada com per descartar l'altra.

Només el programa FGENESH prediu un gen amb reverse, però aquest no està validat experimentalment amb spliced ESTs, per tant no l'estudiarem.

Veure regió13.ps regió13.png







enrere >>> endavant