Ens hem baixat la nostra sequeencia en format fasta de la pàgina web de UCSC Genome Browser on Human May 2004 Assembly. El fitxer l'anomenem sequencia.fa.Ara cal passar la sequencia en format tabular per tal de contar número de nt i contingut en C+G. Ho fem amb la comanda: awk '{printf $1}' sequencia.fa > sequencia.tbl0 El fitxer sequencia.tbl0 cal posar-hi una tabulació entre nom de la sequencia i la sequencia. Ara ja podem contar nt, ho fem amb la comanda: awk '{print length($2)}' sequencia.tbl0 i ens resulta en 1877426 nt. Ara hem contat el contingut de C+G a tota la sequencia amb la comanda: awk '{print$2}' sequencia1.tbl0 | fold -1 | \ sort | uniq -c | gawk '{print $2, $1/1877426}' Ens ha donat: A 0,305551 C 0,1925 G 0,191955 T 0,309994 %G+C= 0,384455 Ara estem buscant un programa per tal de tallar la nostra sequencia de 2 megues en subsequencies solapants amb les que treballar millor. Cada subsequenciencia sera  de 350.000 nt i els solapants seran 50.000.El programa que haurem d'exportar es fastachunk.L'exportem amb la comanda:export PATH=$PATH:/disc8/bin Calculem que obtindrem unes 7 subsequencies, la ultima de menys nt.Posarem a cada subsequencia el nom:subseq1-7.fa Hem posat la comanda: ( echo ">subseq1"; fastachunk sequencia.fa 0 350000 | fold -60 ) > subseq1.fa Recordem que fold -60 son les lletres que vols per linia Hem comprovat que realment la subseq1.fa te 350.000nt amb la comanda wc, tot i que ens ha contat els canvis de linia. Resultat:5833 5834 355833 subseq1.fa Ara farem aixó amb cada una. ( echo ">subseq2"; fastachunk sequencia.fa 300000 350000 | fold -60 ) > subseq2.fa ( echo ">subseq3"; fastachunk sequencia.fa 600000 350000 | fold -60 ) > subseq3.fa ( echo ">subseq4"; fastachunk sequencia.fa 900000 350000 | fold -60 ) > subseq4.fa ( echo ">subseq5"; fastachunk sequencia.fa 1200000 350000 | fold -60 ) > subseq5.fa ( echo ">subseq6"; fastachunk sequencia.fa 1500000 377426 | fold -60 ) > subseq6.fa En la pagina web podriem posar una taula descriptiva de les subseq! Per tal de tenir aquests fitxers en format fasta posem echo ">subseq" En l'última subsequencia hem hagut d'afegir els nt que ens sobraven, que no arribaven a formar una 7ena subsequencia de 350000.La 6ena subseq té 377426 nt Ideem un programa per tal de contar proporcio de c+g en finestres de 1000 nt de la nostra sequencia. El programa li diguem contarcg.pl EMMASCARAMENT Ara, emmascarem les subseqüències a través del programa Servidor EMBL del Repeat Masker Per a cada subsequencia ens guardarem a una carpeta per cada subsequencia amb el nom:"masksubseq" els següents 3 fitxers resultat del Repeat Masker: repeat.seq.out Annotation of masked sequence repeat.seq.tbl summary of the repeat content repeat.seq.masked Masked Sequence Cal treure els residus del format html, ho fem amb la comanda: egrep -v '^[ \t]*$|^[ \t]*<' subseq1.fa.msk > subseq1fasta.fa.msk En les repeticions que veurem de cada subseq que s'hauran emmascarat mirarem si els tipus de repeticions més abundants son les mateixes en les 6 subseq i aquestes veure en pubmed que fan, que son... Ens és interessant ara visualitzar la distribució de les repeticions al llarg de cada subseqüencia. Utilitzarem el programa gff2ps, que ens baixarem on treballem amb la comanda: export PATH=/disc8/soft/perl/bin/:/disc8/bin/:$PATH export LC_ALL="C" Cal passar primer les subseq a format gff amb la següent comanda awk: grep subseq1 subseq1.repeatmasker.out | \ awk 'BEGIN{ OFS="\t" } { print $5, $11, "repeat", $6, $7, ".", ".", "."; } ' > subseq1.repeatmasker.out.gff Llavors ja podem fer anar el gff2ps: primer cal posar la comanda: gff2ps subseq1.repeatmaskerfasta.out.gff > subseq1.repeatmaskerfasta.out.ps Per tal de visualitzar-ho usarem ghostview: kghostview subseq1.repeatmaskerfasta.out.ps o bé ho convertim a una imatge de bits en format png convert -density 100 -rotate 90 subseq1.repeatmaskerfasta.out.ps subseq1.repeatmaskerfasta.out.png eog subseq1.repeatmaskerfasta.out.png kview subseq1.repeatmaskerfasta.out.png ############PROBLEMES#########Aixó passa perque el nostre shell no està  preparat per rebre com a decimals comes o punts. Cal posar cada cop que obrim el terminal:$ > export LC_ALL="C" PREDICCIÓ DE GENS AB-INITIO We use a number of gene predictions programs to predict the genes along the sequence. For instance, we will run geneid, fgenesh and genscan. Hem començat pel geneid i no ens funcionava per la primera subseq "subseq1.fa.msk". El problema estava en que al començament del fitxer fasta contenia un indicador de la pàg web d'on l'havíem baixat i aixó ens interferia en el programa geneid.Cal posar la comanda: egrep -v '^[ \t]*$|^[ \t]*<' subseq1.fa.msk > subseq1fasta.fa.msk GENEID Cridem el geneid que tenim local a la terminal i l'executem.Primer per obtenir un fitxer en format gff i després per obtenir-ne un d'out: $ geneid --help $ geneid -G -P /disc8/bin/geneidparams/human3iso.param kk.fa.msk > kk.fa.gff $ geneid -D -P /disc8/bin/geneidparams/human3iso.param kk.fa.msk > kk.fa.out No cal passar a gff perquè el geneid ja ens ho dónen en format gff. GENSCAN Usem el genscan local, a la terminal. genscan /disc8/bin/genscanparams/HumanIso.smat \ ../../masksubseq3/subseq3fasta.fa.msk -cds \ > subseq3fasta.msk.genscan.out Cal passar-ho a format gff.Ho fem amb la comanda: gawk 'BEGIN{OFS="\t"} $2 ~ /Term|Intr|Init/ { print "subseq1", "genscan", $2, start=($4<$5 ? $4 : $5), end=($5<$4 ? $4 : $5), $13, $3, $7, $1; }' subseq1.genscan.out | \ sed 's/\.[0-9][0-9]$//' > subseq1.genscan.out.gff FGENESH Caldrà  passar a format gff!!!! Guardem el resultat de fgenesh amb el nom subseq1.fgenesh.txt Ara cal passar a format gff amb la comanda: gawk 'BEGIN{OFS="\t"} $4 ~ /CDSf|CDSi|CDSl/ { print "subseq1", "fgenesh", $4, start=($5<$7 ? $5 : $7), end=($7<$5 ? $5 : $7), $8, $2, $3, $1; }' subseq1.fgenesh.out | \sed 's/\.[0-9][0-9]$//' > subseq1.fgenesh.out.gff GRÀFIC Farem un gràfic conjunt dels resultats dels 3 programes de predicció: gff2ps predicciogens/geneid/subseq1geneid.fa.gff\ predicciogens/fgenesh/subseq1.fgenesh.out.gff\ predicciogens/genescan/subseq1.genscan.gff > subseq1.graficpre.ps Per visualitzar el gràfic: kghostview subseq1.graficpre.ps MEGABLAST Hem canviat les següents opcions, les altres les altres les hem deixat per defecte. - Base de dades : est-human - deseleccionar: Graphical Overview, Linkout i Sequence Retrieval - Descriptions: 1000 i Alignments:1000 - Alignment view: pairwise - Layout: one window - Formatting options on page with results:at the bottom Hem desat la pàgina de resultats amb el nom: subseq1.megablast.txt I també en format html:subseq1.megablast.html perl -ne 's/\>/>/og; # recuperem el caracter ">" s/\&.+?;//og; # treiem qualsevol altre caracter codificat en HTML s/\<.+?\>//og; # treiem tots els tags de HTML s/^-->//o; # eliminem el que queda davant de "*BLAST*" $. > 4 && print; # i ens salten les 4 primeres linies que tambe son HTML ' subseq6.megablast.txt > subseq6.megablast.out export MEGABLAST2GFF="/home/u21439.est12.alu.upf/novell/home/treball/megablast/parsemegablast.pl" perl $MEGABLAST2GFF -G subseq2.megablast.out > subseq2.megablast.gff VALIDACIÓ DELS ESTS Cal filtrar els ESTs per trobar aquells que estiguin suportats per splicing. Ens baixem el programa getsplicedhsp.awk BEGIN{ OFS="\t"; } { nhsp[$9]++; hsp[$9,nhsp[$9]]=$0; } END{ for (i in nhsp) if (nhsp[i]>1) for (j=1;j<=nhsp[i];j++) print hsp[i,j]; } gawk -f getsplicedhsp.awk subseq1.megablast.gff > subseq1.megablast.spliced.gff Després cal treure el frame(sentit) dels ESTs perque en la imatge ho possi al mig. gawk '{$7=".";print $0}' subseq1.megablast.spliced.gff > subseq1.megablast.splicednotframe.gff ############GRAFIC PREDICCIONS AB-INITIO I MEGABLAST############# Ara, fem un gràfic conjunt amb les prediccions ab-initio i els est filtrats i sense frame del megablast. Les passem a ps: gff2ps predicciogens/geneid/subseq2geneid.fa.gff \ predicciogens/fgenesh/subseq2.fgenesh.out.gff \ predicciogens/genescan/subseq2.genscan.out.gff \ megablast/subseq2.megablast.splicednotframe.gff > subseq2.validacio.ps gff2ps -K 25000 \ predicciogens/geneid/subseq4geneid.fa.gff \ predicciogens/fgenesh/subseq4.fgenesh.out.gff \ predicciogens/genescan/subseq4.genscan.out.gff \ megablast/subseq4.megablast.splicednotframe.gff > subseq4.validacio.ps gff2ps -K 25000 -N 100000 \ predicciogens/geneid/subseq5geneid.fa.gff \ predicciogens/fgenesh/subseq5.fgenesh.out.gff \ predicciogens/genescan/subseq5.genscan.out.gff \ megablast/subseq5.megablast.splicednotframe.gff > subseq5.validacio.ps ############CERCA DE REGIONS SINTENIQUES############### (no agafarem aquells gens que superin les 100000 bases perque no podrem passar-ho sencer pel programa SGP2) ###########BLAT############# Fem servir el programa BLAT (http://genome.ucsc.edu/cgi-bin/hgBlat?command=start) Canviem els parametres següents: - genome: mouse - query type: DNA - sort output: chrom,score #####################Analisi del gens de la subseq1############### Predim un gen per fgenesh perque es el que esta mes suportat per els ESTs, no obstant com que la sequencia es mes gran de 100,000 (136,195). Com que no el podrem passar per el SGP2 sencer no fem el BLAT ni els seguents pasos. Va de 1384 a 137,579 Trobem un gen sencer predit aproximadament pels 3 programes, pero com que en la subseq2 hem escollit el gen predit per genscan que inclou aquest gen, ja que les sequencies estan solapades. Per tant el gen que es veu al final del grrafic de la subseq 1 correspon al primer gen predit en la subseq2. ###########Analisi dels gens en la Subseq2:############# Ens fixem amb el genscan subseq2: - veiem que els gens 2 i 4 predits per genscan estan molt suportats per ESTs, sobretot el segon. (coordenades relatives a la subseq2: 29316-88821 - com que el gen 3 predit té només un exo, no esta suportat per cap EST i no apareix al gràfic: gen 1: 29,316 a 35,693 i agafem de 5000 a 40000 (llargada 35000) gen 2: 54935 a 88821 i agafem de 42000 a 105000 (llargada 63000) Aquestes coordenades les agafem tenint en compte els gens que es troben anteriors i posteriors a la regió d'interés predits per el mateix programa, per assegurar-nos que ens quedem amb tota la regió no codificant) - el següent pas, és fer un fastachunk de la subseq2 sense emmascarar, per recuperar aquests talls de seqüència escollits per cada gen: ---------------gen1: - ( echo ">subseq2:5000-40000"; fastachunk subseq/subseq2.fa 5000 35000| fold -60; echo ) > sintenica/subseq2.gen1.fa Amb les subseq2.gen1.fa hem de fer un BLAT, contra el genoma de ratoli. Amb aixo volem trobar les regions sinteniques en ratoli, es a dir, regions conservades en genoma de ratolí i en el mateix ordre. El BLAT nomes accepta sequencies de 25000 parells de bases, i tenim una regió d'1 gen seleccionada de 35,000 bases. Caldrà fer un fastachunk per tallar la sequencia seleccionada en 2 talls de 15000 i 20000 - ( echo ">seq1_1"; fastachunk sintenica/subseq2.gen1.fa 0 15000 | fold -80; \ echo) > sintenica/subseq2.gen1a.fa; - ( echo ">seq2_1"; fastachunk sintenica/subseq2.gen1.fa 15000 20000 | fold -80;\ echo ) > sintenica/subseq2.gen1b.fa; EL PROGRAMA SGP2 ENS DONA UN ERROR!!!!!!!!!!!!!!!!!!!!!! Resultat del BLAT: ACTIONS QUERY SCORE START END QSIZE IDENTITY CHRO STRAND START END SPAN a: No trobem cap regió del genoma de ratolí amb score alt. Això deu ser degut a que hem agafat massa sequencia no codificant upstream del gen (24316). b: browser details seq2 165 317 899 22500 80.8% 6 + 17578131 17578675 545 Amb el BLAT hem localitzat la sequencia de ratoli en el cromosoma 6, entre 17.570.000 i 17.600.000. L'exportem i la guardem emmascarada.(seleccionar opció emmascarar amb N amb el nom: mouse_syntenic_ch6.hsap_subseq2_1.fa) Allargada: 30000 ------------gen2 Primer tallem la sequencia: - ( echo ">subseq2:42000-105000"; fastachunk subseq/subseq2.fa 42000 63000| fold -60; echo ) > sintenica/subseq2.gen2.fa Ara la fem a tres talls de 21000 per poder passar-ho pel BLAT. - ( echo ">seq1_2"; fastachunk sintenica/subseq2.gen2.fa 0 21000 | fold -80; \ echo) > sintenica/subseq2.gen2a.fa; - ( echo ">seq2_2"; fastachunk sintenica/subseq2.gen2.fa 21000 21000 | fold -80 ; \ echo) > sintenica/subseq2.gen2b.fa; - ( echo ">seq3_2"; fastachunk sintenica/subseq2.gen2.fa 42000 21000 | fold -80 ; \ echo) > sintenica/subseq2.gen2c.fa; ·······BLAT ACTIONS QUERY SCORE START END QSIZE IDENTITY CHRO STRAND START END SPAN a: browser details seq1_2 912 12096 16073 21000 89.2% 6 + 17246422 17250180 3759 b: browser details seq2_2 967 2025 17229 21000 84.8% 6 + 17255413 17268129 12717 C: browser details seq3_2 894 4466 6828 21000 86.6% 6 + 17279555 17281801 2247 Per tant agafarem la regió genòmica de ratolí que va de 17240000 a 17283000.NOM: mouse_syntenic_ch6.hsap_subseq2_2.fa (allargada: 43000) #######Analisi dels gens en la subseq3:######### El BLAT nomes accepta sequencies de 25000 parells de bases, i tenim una regió d'1 gen seleccionada de 90,000 bases. Caldrà fer un fastachunk per tallar la sequencia seleccionada en 4 talls de 22500. Analitzarem dos gens, que estan predits per els tres programes de predicció (amb les mateixes coordenades). El primer gen està suportat per ESTs en la regió 5' i el gen 2 està totalments suportat per ESTs. ---------------gen1: En els tres programes les prediccions son exactes, pero ens quedem amb el geneid: 92,146 - 147,401 - ( echo ">subseq3:70000-160000"; fastachunk subseq/subseq3.fa 70000 90000| fold -60; echo ) > sintenica/subseq3.gen1.fa - ( echo ">seq1"; fastachunk sintenica/subseq3.gen1.fa 0 22500 | fold -80; \ echo) > sintenica/subseq3.gen1a.fa; - ( echo ">seq2"; fastachunk sintenica/subseq3.gen1.fa 22500 22500 | fold -80;\ echo ) > sintenica/subseq3.gen1b.fa; - ( echo ">seq3"; fastachunk sintenica/subseq3.gen1.fa 45000 22500 | fold -80; \ echo) > sintenica/subseq3.gen1c.fa; - ( echo ">seq4"; fastachunk sintenica/subseq3.gen1.fa 67500 22500 | fold -80 ; \ echo) > sintenica/subseq3.gen1d.fa; Resultat del BLAT: ACTIONS QUERY SCORE START END QSIZE IDENTITY CHRO STRAND START END SPAN a: browser details seq1 616 3072 22482 22500 85.2% 6 + 17569681 17577853 8173 b: browser details seq2 165 317 899 22500 80.8% 6 + 17578131 17578675 545 c: browser details seq3 559 2636 20891 22500 87.6% 6 + 17588951 17597723 8773 d: browser details seq4 1462 2200 11566 22500 89.0% 6 + 17601139 17607536 6398 Ens quedem amb les coordenades inferior i superior del ratolí les arrodonim (cap avall!): 17,565,000 - 17,610,000: llargada 45.000nt Ara ho busquem al browser, get DNA ( emmascarat i N) i posem aquestes coordenades. Guardem la seqüència amb el nom: mouse_syntenic_ch6.hsap_subseq3_1.fa -------------------gen2 Els tres programes prediuen el gen, pero ens quedem amb el de geneid. Coordenades: 202445 - 201,699 - ( echo ">subseq3:190000-240000"; fastachunk subseq/subseq3.fa 190000 50000| fold -60; echo ) > sintenica/subseq3.gen2.fa - ( echo ">seq1"; fastachunk sintenica/subseq3.gen2.fa 0 25000 | fold -80; \ echo) > sintenica/subseq3.gen2a.fa; - ( echo ">seq2"; fastachunk sintenica/subseq3.gen2.fa 25000 25000 | fold -80;\ echo ) > sintenica/subseq3.gen2b.fa; Resultat del BLAT: ACTIONS QUERY SCORE START END QSIZE IDENTITY CHRO STRAND START END SPAN a: browser details seq1 108 19170 19309 25000 89.4% 6 + 17662299 17662437 139 b: browser details seq2 71 23900 24049 25000 80.8% 6 + 17681665 17681813 149 Ens quedem amb les coordenades inferior i superior del ratolí les arrodonim (cap avall!): 17,650,000 - 17,685,000: llargada 35,000nt , ################Analisi dels gens de la subseq4################ Veiem que en la subseq 4, hi ha un gen predit pels tres programes i amb coordenades similars. Davant de la prediccio del gen hi ha molts ESTs pero no hi ha gen predit. Aixo ens ha fet pensar que l'inici del gen predit en la subseq4 estaria al final de la subseq3. Ho hem comprovat i veiem que hi ha un gen predit en els 3 programes (tot i que al ser la part 3' no te ESTs). Com que les prediccions dels tres casos, que van de: Les tres prediccions donen unes coordenades similars ( de mes de 100,000) pero obtem: Ens quedem amb geneid perque es el mes fiable, no obstant la predicció de fgenesh preveuen un exo a que esta validat per ESTs que no prediuen els altres programes. geneid: 889,781-1,051,665 llargada: 161,884 --> no podem passar-ho a SGP2, tampoc BLAT genscan: , --------------------------gen1 NO HO HEM FET AL FINAL!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!1 El últim gen en la subseq3 comença a la posició 289,781 i finalitza en la subseq4 a 151,665. Coses que hem de tenir en compte: - hem d'agafar regio anterior a la predicció: agafem a partir de 260,000 - fem un fastachunk per agafar aquesta regio fins al final de la subseq3 (que son 350,000) El gen de la subseq4 que comença a la posició 49.254 i finalitza a la posicio 151.665 - hem d'agafar a partir de la posicio inicial, pero tenint en compte, que la subseq3 i la 4 es solapen 50,0000 nucleotids, per tant agafarem a partir del 50,000 fins 155,000. - fem un fastachunk per agafar aquesta regio de la subseq4 fastachunk 50000 105000 | fold -60 > Ara caldra concatenar els dos resultats.................NO HO FEM AL FINAL!!!!!!!!!!!!!! ------------------------gen2 El segon gen, es revers. Aquesta prediccio esta validada per els tres programes i te molts ESTs. Genscan i Geneid prediuen un gen molt més llarg del que suporten els ESTs, en canvi Fgenesh prediu un gen que la seva llargada esta totalment suportada per ESTs. Les coordenades del gen predit per Fgenesh son (recordar que es reverse): 252,523- 204,604 Ara afagem la regio anterior i posterior al gen: 200,000 -265,000 ( ja hem girat les coordenades) Com que BLAT només excepta fragments de 25,000 nt, caldra tallar la seqüencia en dos fragments de 25,000 i un de 15,000 Tallem la sequencia de la subseq4: - ( echo ">subseq4:200000-265000"; fastachunk subseq/subseq4.fa 200000 65000| fold -60; echo ) > sintenica/subseq4.gen2.fa La fragmentem per a passar al BLAT: - ( echo ">seq1"; fastachunk sintenica/subseq4.gen2.fa 0 25000 | fold -80; \ echo) > sintenica/subseq4.gen2a.fa; - ( echo ">seq2"; fastachunk sintenica/subseq4.gen2.fa 25000 25000 | fold -80;\ echo ) > sintenica/subseq4.gen2b.fa; - ( echo ">seq3"; fastachunk sintenica/subseq4.gen2.fa 50000 15000 | fold -80; \ echo) > sintenica/subseq4.gen2c.fa; Resultat del BLAT: ACTIONS QUERY SCORE START END QSIZE IDENTITY CHRO STRAND START END SPAN a: browser details seq1 1388 2509 16380 25000 87.8% 6 + 17925417 17939471 14055 b: browser details seq2 2594 1664 24441 25000 87.1% 6 + 17948813 17968180 19368 c: browser details seq3 1849 90 5673 15000 88.9% 6 + 17968369 17973729 5361 La regio en ratoli va de : 17,925,000 a 17,975,000 (arrodonit) Baixem la regio i la guardem com a: mouse_syntenic_ch6.hsap_subseq4_2.fa ###############analisi dels gens de la subseq5################# .......................gen1 Fgenesh: 47,740 --> ens quedem amb Fgenesh perque prediu exons que estan validats per ESTs Es reverse. coordenades: absolutes 1,256,994 - 1,209,254; relatives:9,254-56,994 Per passar al blat agafem de 5,000 a 70,000. La llargada es de 65,000 BLAT: Tallem la sequencia........ - ( echo ">subseq5:5000-70000"; fastachunk subseq/subseq5.fa 5000 65000| fold -60; echo ) > sintenica/subseq5.gen1.fa La fragmentem per a passar al BLAT: Farem 3 talls de 25,000 nt per passar el blast,dos de 25,000 i un de 15,000 - ( echo ">seq1"; fastachunk sintenica/subseq5.gen1.fa 0 25000 | fold -80; \ echo) > sintenica/subseq5.gen1a.fa; - ( echo ">seq2"; fastachunk sintenica/subseq5.gen1.fa 25000 25000 | fold -80;\ echo ) > sintenica/subseq5.gen1b.fa; - ( echo ">seq3"; fastachunk sintenica/subseq5.gen1.fa 50000 15000 | fold -80; \ echo) > sintenica/subseq5.gen1c.fa; Resultats del BLAT: ACTIONS QUERY SCORE START END QSIZE IDENTITY CHRO STRAND START END SPAN a: browser details seq1 709 4208 10366 25000 86.1% 6 + 18012178 18017738 5561 b: browser details seq2 179 19687 21831 25000 81.1% 6 + 18043946 18045292 1347 c: browser details seq3 105 10036 10277 15000 88.9% 6 + 18057479 18057735 257 Agafem la sequencia de 18,010,000 a 18,060,000 (50,000) Ens baixem la sequencia i la guardem com a: mouse_syntenic_ch6.hsap_subseq5.gen1.fa .......................gen2 (CFTR) Els tres programes, prediuen un gen. El gen predit per genscan era més curt i fgenesh i geneid era mes llarg. a és hi ha un ESTs que dona suport al gen llarg. Ens quedem amb geneid perque el Sr.Abril ens ha dit que ho fem així. Els tres programes prediuen el mateix final. El gen va de 109,629 a 296,642. Afagem la regio que va de 70,000 a 330,000 - ( echo ">subseq5:70000-330000"; fastachunk subseq/subseq5.fa 70000 260000| fold -60; echo ) > sintenica/subseq5.gen2.fa La fragmentem per a passar al BLAT, fem 11 fragments de 25000 i un de 10000. - ( echo ">seq1"; fastachunk sintenica/subseq5.gen2.fa 0 25000 | fold -80; \ echo) > sintenica/subseq5.gen2a.fa; - ( echo ">seq2"; fastachunk sintenica/subseq5.gen2.fa 25000 25000 | fold -80;\ echo ) > sintenica/subseq5.gen2b.fa; - ( echo ">seq3"; fastachunk sintenica/subseq5.gen2.fa 50000 25000 | fold -80; \ echo) > sintenica/subseq5.gen2c.fa; - ( echo ">seq4"; fastachunk sintenica/subseq5.gen2.fa 75000 25000 | fold -80; \ echo) > sintenica/subseq5.gen2d.fa; - ( echo ">seq5"; fastachunk sintenica/subseq5.gen2.fa 100000 25000 | fold -80;\ echo ) > sintenica/subseq5.gen2e.fa; - ( echo ">seq6"; fastachunk sintenica/subseq5.gen2.fa 125000 25000 | fold -80; \ echo) > sintenica/subseq5.gen2f.fa; - ( echo ">seq7"; fastachunk sintenica/subseq5.gen2.fa 150000 25000 | fold -80; \ echo) > sintenica/subseq5.gen2g.fa; - ( echo ">seq8"; fastachunk sintenica/subseq5.gen2.fa 175000 25000 | fold -80;\ echo ) > sintenica/subseq5.gen2h.fa; - ( echo ">seq9"; fastachunk sintenica/subseq5.gen2.fa 200000 25000 | fold -80; \ echo) > sintenica/subseq5.gen2i.fa; - ( echo ">seq10"; fastachunk sintenica/subseq5.gen2.fa 225000 25000 | fold -80; \ echo) > sintenica/subseq5.gen2j.fa; - ( echo ">seq11"; fastachunk sintenica/subseq5.gen2.fa 250000 10000 | fold -80;\ echo ) > sintenica/subseq5.gen2k.fa; Fem el BLAT.... ACTIONS QUERY SCORE START END QSIZE IDENTITY CHRO STRAND START END SPAN a: aquesta regio no es codificant i no hi ha cap regio en ratoli amb alt score ni que estigui en el chr6. Hema agafat de regio anterior del gen unes 40,000 bases i en a) en hi ha 25,000.Les 15,000 restants estan a b) Aqui hi podria haver el promotor. b: browser details seq2 687 5318 16293 25000 88.8% 6 + 18093613 18112902 19290 c: browser details seq3 425 2574 18688 25000 85.9% 6 + 18123817 18144752 20936 d: browser details seq4 573 15250 19541 25000 89.0% 6 + 18154403 18161777 7375 e: browser details seq5 621 1276 24412 25000 82.1% 6 + 18167821 18182042 14222 f: browser details seq6 541 7409 25000 25000 83.8% 6 + 18188570 18198804 10235 g: browser details seq7 1199 1427 24281 25000 85.6% 6 + 18208137 18226136 18000 h: browser details seq8 218 11788 12334 25000 85.2% 6 + 18239873 18240424 552 i: browser details seq9 924 1952 24379 25000 82.6% 6 + 18246272 18259531 13260 j: browser details seq10 504 17 3336 25000 83.3% 6 + 18260160 18263363 3204 k: En aquesta regio tampoc trobem en ratolí cap hit amb un score gran, tampoc en el cromosoma 6 ( regio de 320,000 a 330,000. El nostre gen s'acabava a 296,642) La regio del DNA de ratoli que agafarem anira de 18,090,000 a 18,265,000. Guardarem el fitxer com a: mouse_syntenic_ch6.hsap_subseq5_2.fa ###############analisi dels gens de la subseq6################# NO EL FAREM PERQUÈ ÉS MASSA LLARG PER PODER-LO PASSAR SENCER PEL SGP2!!!!!!!!!!!!!! Els tres programes prediuen gens en reverse. Geneid i Fgenesh prediuen un gen molt llarg (300,000) i la part final no esta suportada per ESTs. En canvi, Genscan prediu dos gens en reverse, pero els dos estan suportats per mateixos ESTs. Com que no sabem si es tracta d'un o dos gens els estudiem conjuntament.Agafem una sequencia que abarqui els dos"gens". Les coordenades inicials: 149,362 - 41,071 Agagarem: 37,000 - 225,000 Busquem la regio en la subseq6: - ( echo ">subseq6:37000-225000"; fastachunk subseq/subseq6.fa 37000 188000 | fold -60; echo ) > sintenica/subseq6.gen1.fa La fragmentem per a passar al BLAT, fem 7 fragments de 25000 i un de 13000. - ( echo ">seq1"; fastachunk sintenica/subseq6.gen1.fa 0 25000 | fold -80; \ echo) > sintenica/subseq6.gen1a.fa; - ( echo ">seq2"; fastachunk sintenica/subseq6.gen1.fa 25000 25000 | fold -80;\ echo ) > sintenica/subseq6.gen1b.fa; - ( echo ">seq3"; fastachunk sintenica/subseq6.gen1.fa 50000 25000 | fold -80; \ echo) > sintenica/subseq6.gen1c.fa; - ( echo ">seq4"; fastachunk sintenica/subseq6.gen1.fa 75000 25000 | fold -80; \ echo) > sintenica/subseq6.gen1d.fa; - ( echo ">seq5"; fastachunk sintenica/subseq6.gen1.fa 100000 25000 | fold -80;\ echo ) > sintenica/subseq6.gen1e.fa; - ( echo ">seq6"; fastachunk sintenica/subseq6.gen1.fa 125000 25000 | fold -80; \ echo) > sintenica/subseq6.gen1f.fa; - ( echo ">seq7"; fastachunk sintenica/subseq6.gen1.fa 150000 25000 | fold -80; \ echo) > sintenica/subseq6.gen1g.fa; - ( echo ">seq8"; fastachunk sintenica/subseq6.gen1.fa 175000 13000 | fold -80;\ echo ) > sintenica/subseq6.gen1h.fa; Fem el BLAT.... ACTIONS QUERY SCORE START END QSIZE IDENTITY CHRO STRAND START END SPAN a: browser details seq1 1365 3355 20873 25000 87.1% 6 + 18307125 18323464 16340 b: browser details seq2 1017 2443 24298 25000 86.0% 6 + 18328484 18345849 17366 c: browser details seq3 915 2659 23099 25000 85.7% 6 + 18348631 18364415 15785 d: browser details seq4 2447 1 10714 25000 87.7% 6 + 18366090 18376295 10206 e: browser details seq5 1317 796 20755 25000 87.2% 6 + 18386173 18406145 19973 f: browser details seq6 294 17263 23229 25000 89.6% 6 + 18426358 18437319 10962 g: browser details seq7 1242 6345 20145 25000 86.4% 6 + 18445110 18460958 15849 h: browser details seq8 392 2334 6499 13000 85.1% 6 + 18467302 18471220 3919 !!!!!!!!!!!!!!!!! En el ratoli ens dona +!!!!!!!!!!!!!!!!!! Agafarem la sequencia de :18,305,000 - 18,475,000 La guardarem amb el nom: mouse_syntenic_ch6.hsap_subseq6_1.fa NO EL FAREM PERQUE NO PASSARA PEL SGP2!!!!!!!!!!!!!!!!!!!!!!!! ###########Resum dels gens predits: subseq 1: 1 Fgensh: 1384 a 137,579. El gen del final de la imatge esta ben validat en la subseq2 i sencer subseq 2: 2. Dos gens, els analitzaem per separat degut a la seva allargada.Agafem coordenades de genscan:29316-35693 i 54935-88453; subseq 3: 2. El primer amb geneid: 92,146 - 147,401; El segon amb geneid: 202445 - 201,699 subseq 4: 2. El primer fgenesh: 889,781-1,051,665 (absolutes)Relatives : 289,781(subseq3)-151,665(subseq4); El segon amb fgenesh 252,523- 204,604 subseq 5: 2. El primer queda partit amb la 4 amb geneid. Amb Fgenesh absolutes 1,256,994 - 1,209,254;Relatives 56,994 - 92,054. El segon amb geneid 109,629-296,642 subseq 6: 1; fgenesh 366839 - 41,071 Tenim 10 gens predits. ##############################SGP2############################################# Programa extret de la web: http://genome.imim.es/software/sgp2/ El programa SGP2 només admet fins a 100Kb, i la regió genomica extreta de ratoli en te 150Kb. Ens cal doncs tallar amb un fastachunk la regió genomica de ratoli i d'huma intuint on cau cada un dels dos gens que tenim en aquesta regio. #########Subseq2: - gen1: la humana té allargada 35000 i la de ratolí 30000.Les dues poden passar pel programa sense tallar-les. El SGP2 ens dóna ERROR!!!!!!!!!!!!!!!!!!No la podem fer. - gen2: la humana té allargada 63000 i la de ratolí 43000.Les dues poden passar pel programa sense tallar-les. Hem passat sequencia del segon gen huma vs ratoli amb paràmetres GFF i que ens mostrés només lapredicció gènica de la query (humana) i el resultat l'hem guardat en : huma_ratoli.subseq2_gen2.gff huma_ratoli.subseq2_gen2CDs.txt (aqui hi tenim el cDNA i la prot. predida) ###################Subseq3 - gen1: La de huma (90,000) i ratoli (70,000) no cal partir.Ho anomenem huma_ratoli.subseq3_gen1.gff i huma_ratoli.subseq3_gen1CDs.txt - gen2: huma unes 100,000 i ratoli 35,000 no cal partir. Nomes prediu un exo terminal!!!!!!!!!!Que fem? huma_ratoli.subseq3_gen2.gff i huma_ratoli.subseq3_gen2CDs.txt #################Subseq 4: gen1:Es massa llarg. gen2: 65000 huma i 50000 ratoli; no cal partir; NO prediu exo inicial. huma_ratoli.subseq4_gen2.gff i huma_ratoli.subseq4_gen2CDs.txt #################Subseq5: gen1: ens queda tallat a la 4 .Però el tenim sencer a la 5. Hem agafat les coordenades de Fgenesh:9,254-56,994.Agafem 5,000 a 70,000. La llargada es de 65,000 i pel que fa el ratolí la sequencia homologa va de 18,010,000 a 18,060,000 (50,000). No cal tallar les sequencies per fer anar el programa. No ens prediu exo inicial ni final. huma_ratoli.subseq5_gen1.gff i huma_ratoli.subseq5_gen1CDs.txt gen2: huma: 260,000 (70000-330000) ratoli:175,000 --------Tot i que les sequencies son superiors a 100,000 bases i haurem de tallar les dues sequencies estudiem aquest gen perque es interessant estudiar el gen CFTR.!!!!!!!!!!! Tot i que el servidor diu que n'accepta 100,000 no es veritat. Com ho tallem? Tallem la humana ( 2 fragments de 95,000 amb solapament de 10,000 i l'ultim fragment de 90,000) ( echo ">seq1"; fastachunk sintenica/subseq5.gen2.fa 0 95000 | fold -80; echo) > sintenica/subseq5.gen2.spg2a.fa; ( echo ">seq2"; fastachunk sintenica/subseq5.gen2.fa 85000 95000 | fold -80;\ echo) > sintenica/subseq5.gen2.spg2b.fa; ( echo ">seq3"; fastachunk sintenica/subseq5.gen2.fa 170000 90000 | fold -80;\ echo) > sintenica/subseq5.gen2.spg2c.fa; Tallem la de ratoli ( 3 fragments solapants, els dos primers de 70,000 i l'ultim de 75,000) ( echo ">seq1"; fastachunk sintenica/mouse_syntenic_ch6.hsap_subseq5_2.fa 0 70000 | fold -80;\ echo) > sintenica/mouse_syntenic_ch6.hsap_subseq5_2a.fa ( echo ">seq2"; fastachunk sintenica/mouse_syntenic_ch6.hsap_subseq5_2.fa 50000 70000 | fold -80;\ echo) > sintenica/mouse_syntenic_ch6.hsap_subseq5_2b.fa ( echo ">seq3"; fastachunk sintenica/mouse_syntenic_ch6.hsap_subseq5_2.fa 100000 75000 | fold -80;\ echo) > sintenica/mouse_syntenic_ch6.hsap_subseq5_2c.fa #################MODIFICACIONS RESULTATS SGP2########## Fem una comanda gawk per passar a coordenades absolutes: ------------subseq2: gen 1: gen2: gawk ' BEGIN{OFS="\t"}$0 !~ /^\#|^[ \t]*$/ { $4 = $4 + 42000; $5 = $5 + 42000; print } ' huma_ratoli.subseq2_gen2.gff > huma_ratoli.subseq2_gen2.absolutes.gff ------------subseq3: gen1: $ gawk ' BEGIN{OFS="\t"}$0 !~ /^\#|^[ \t]*$/ { $4 = $4 + 70000; $5 = $5 + 70000; print } ' huma_ratoli.subseq3_gen1.gff > huma_ratoli.subseq3_gen1.absolutes.gff gen 2: $ gawk ' BEGIN{OFS="\t"}$0 !~ /^\#|^[ \t]*$/ { $4 = $4 + 190000; $5 = $5 + 190000; print } ' huma_ratoli.subseq3_gen2.gff > huma_ratoli.subseq3_gen2.absolutes.gff -------------subseq4: gen 2: $ gawk ' BEGIN{OFS="\t"}$0 !~ /^\#|^[ \t]*$/ { $4 = $4 + 200000; $5 = $5 + 200000; print } ' huma_ratoli.subseq4_gen2.gff > huma_ratoli.subseq4_gen2.absolutes.gff ------------subseq 5: gen 1: $ gawk ' BEGIN{OFS="\t"}$0 !~ /^\#|^[ \t]*$/ { $4 = $4 + 5000; $5 = $5 + 5000; print } ' huma_ratoli.subseq5_gen1.gff > huma_ratoli.subseq5_gen1.absolutes.gff gen 2: CFTR $ gawk ' BEGIN{OFS="\t"}$0 !~ /^\#|^[ \t]*$/ { $4 = $4 + 70000; $5 = $5 + 70000; print }' huma_ratoli.subseq5_gen2a.gff > huma_ratoli.subseq5_gen2a.absolutes.gff $ gawk ' BEGIN{OFS="\t"}$0 !~ /^\#|^[ \t]*$/ { $4 = $4 + 155000; $5 = $5 + 155000; print }' huma_ratoli.subseq5_gen2b.gff > huma_ratoli.subseq5_gen2b.absolutes.gff $ gawk ' BEGIN{OFS="\t"}$0 !~ /^\#|^[ \t]*$/ { $4 = $4 + 240000; $5 = $5 + 240000; print }' huma_ratoli.subseq5_gen2c.gff > huma_ratoli.subseq5_gen2c.absolutes.gff #########################GRÀFICS TOTALS####################### Per a fer la gràfica de la prediccio, juntament amb els resultats del SGP2, primer cal passar les coordenades de la regio genomica a les coordenades absolutes de la subsequencia que estem treballant. Quan fem el gawk, també estem sumant la coordenada inicial, a tots el $4 però només ens interesa en aquells que hi ha una coordenada real. Fem una comanda gawk: gawk ' BEGIN{OFS="\t"} $0 !~ /^\#|^[ \t]*$/ { $4 = $4 + 6263; $5 = $5 + 6263; print } ' huma_ratoli.subseq2_gen1.gff > huma_ratoli.subseq2_gen1.absolutes.gff Comanada per passar a ps, prediccions, ESTs i SGP2 a grafic: gff2ps predicciogens/geneid/subseq2geneid.fa.gff \ predicciogens/fgenesh/subseq2.fgenesh.out.gff \ predicciogens/genescan/subseq2.genscan.out.gff \ megablast/subseq2.megablast.splicednotframe.gff \ sintenica/SGP2/huma_ratoli.subseq2_gen1.absolutes.gff \ sintenica/SGP2/huma_ratoli.subseq2_gen2.absolutes.gff \ > sintenica/SGP2/validacio+SGP2.subseq2_gen1+2.ps Per si volem que els ESTs s'acumulin a una sola linia en el grafic: cat > collapse_ESTs.rc <<'EOF' # S # BLASTN::unfold_grouped_ungrouped=off BLASTN::unfold_ungrouped_line=off BLASTN::unfold_grouped_line=off EOF gff2ps -C collapse_ESTs.rc -- \ predicciogens/geneid/subseq2geneid.fa.gff \ predicciogens/fgenesh/subseq2.fgenesh.out.gff \ predicciogens/genescan/subseq2.genscan.out.gff \ megablast/subseq2.megablast.splicednotframe.gff \ sintenica/SGP2/huma_ratoli.subseq2_gen1.absolutes.gff \ sintenica/SGP2/huma_ratoli.subseq2_gen2.absolutes.gff \ > sintenica/SGP2/validacio+SGP2.subseq2_gen1+2_collapsedESTs.ps Per la subseq5: $ cat sintenica/SGP2/huma_ratoli.subseq5_gen2a.absolutes.gff sintenica/SGP2/huma_ratoli.subseq5_gen2b.absolutes.gff sintenica/SGP2/huma_ratoli.subseq5_gen2c.absolutes.gff > sintenica/SGP2/huma_ratoli.merged_sgp.absolutes.gff $ gff2ps -C collapse_ESTs.rc -- predicciogens/geneid/subseq5geneid.fa.gff predicciogens/fgenesh/subseq5.fgenesh.out.gff predicciogens/genescan/subseq5.genscan.out.gff megablast/subseq5.megablast.splicednotframe.gff sintenica/SGP2/huma_ratoli.subseq5_gen1.absolutes.gff sintenica/SGP2/huma_ratoli.subseq5_gen2a.absolutes.gff sintenica/SGP2/huma_ratoli.subseq5_gen2b.absolutes.gff sintenica/SGP2/huma_ratoli.subseq5_gen2c.absolutes.gff sintenica/SGP2/huma_ratoli.merged_sgp.absolutes.gff > sintenica/SGP2/validacio+SGP2.subseq5_gen1+2_collapsedESTs.ps Ens sembla interessant afegir al gràfic les coordenades reals del gen CFTR. Del fitxer recuperat de les coordenades absolutes trobades dels exons del gen CFTR cal extreure i quedar-nos només amb les coordenades CDs, això ho fem amb una comanda grep: grep CDS CFTR.gff >CFTR.grep.gff Per tal que les coordenades trobades, que son absolutes del cromosoma, siguin relatives a la nostra subseq5 que es on hem trobat nosaltres el gen cal fer una comanda gawk. La nostra sequencia de 2000000 de bases comença pel que fa a coordenades absolutes del cromosoma en 115404472, i la subseq5 respecte la sequencia que estudiem a 1200000. Per tant, per dur a coordenades relatives a subseq5 el gen real cal: 115404472+1200000=116604472 i aixo restar-ho a les coordenades absolutes del gen real: gawk ' BEGIN{OFS="\t"}{ $4 = $4 - 116604472 ; $5 = $5 - 116604472 ; print } ' CFTR.grep.gff > CFTR.grep__absolutes.gff Hem afegit les coordenades del gen CFTR reals en el grafic: $ gff2ps -C collapse_ESTs.rc -- predicciogens/geneid/subseq5geneid.fa.gff predicciogens/fgenesh/subseq5.fgenesh.out.gff predicciogens/genescan/subseq5.genscan.out.gff megablast/subseq5.megablast.splicednotframe.gff sintenica/SGP2/huma_ratoli.subseq5_gen1.absolutes.gff sintenica/SGP2/huma_ratoli.subseq5_gen2a.absolutes.gff sintenica/SGP2/huma_ratoli.subseq5_gen2b.absolutes.gff sintenica/SGP2/huma_ratoli.subseq5_gen2c.absolutes.gff sintenica/SGP2/huma_ratoli.merged_sgp.absolutes.gff CFTR.grep_absolutes.gff > sintenica/SGP2/validacio+SGP2.subseq5_gen1+2_collapsedESTs.ps #########################GC CONTENT###################### ########################################################## perl contargc.pl 500 sequencia.fa > sequencia.gccontent_500.tbl perl contargc.pl 1000 sequencia.fa > sequencia.gccontent_1000.tbl perl contargc.pl 2000 sequencia.fa > sequencia.gccontent_2000.tbl perl contargc.pl 5000 sequencia.fa > sequencia.gccontent_5000.tbl perl contargc.pl 10000 sequencia.fa > sequencia.gccontent_10000.tbl R t <- read.table("sequencia.gccontent_500.tbl"); str(t); plot(t,type="h"); segments(-100000,0.40,2000000,0.40,col="red"); t <- read.table("sequencia.gccontent_1000.tbl"); str(t); plot(t,type="h"); segments(-100000,0.40,2000000,0.40,col="red"); t <- read.table("sequencia.gccontent_2000.tbl"); str(t); plot(t,type="h"); segments(-100000,0.40,2000000,0.40,col="red"); t <- read.table("sequencia.gccontent_5000.tbl"); str(t); plot(t,type="h"); segments(-100000,0.40,2000000,0.40,col="red"); t <- read.table("sequencia.gccontent_10000.tbl"); str(t); plot(t,type="h"); segments(-100000,0.40,2000000,0.40,col="red"); # dibuixo -> sequencia.gccontent_combo.png mysegments <- function(x,y) { polygon(c(x,y,y,x), c(0.185,0.185,0.225,0.225), col="blue",border="blue",lty="solid",fg="blue",bg="blue"); } t1 <- read.table("sequencia.gccontent_500.tbl"); t2 <- read.table("sequencia.gccontent_1000.tbl"); t3 <- read.table("sequencia.gccontent_2000.tbl"); t4 <- read.table("sequencia.gccontent_5000.tbl"); t5 <- read.table("sequencia.gccontent_10000.tbl"); png("sequencia.gccontent_combo.png",width=4000,height=500); plot(t1,type="l",col="black",xlim=c(0,2000000),ylim=c(0.2,0.8),axes=FALSE); axis(1,seq(0,2000000,100000),col="black",las=1); axis(2,seq(0.20,0.80,0.05),col="black",las=1); lines(t2,col="blue"); lines(t3,col="red"); lines(t4,col="green"); lines(t5,col="orange"); segments(-100000,0.38,2000000,0.38,col="red",lty="dotted"); segments(1200000,0.205,1550000,0.205,col="purple",lty="solid"); mysegments(1309628,1496641); dev.off(); # eog sequencia.gccontent_combo.png per recuperar gràfic. gawk '{ printf "segments(%d,0.20,%d,0.20,col=\"green\",lty=\"solid\");\n", $4,$5; }' CFTR.grep_absolutes.gff gawk '{ printf "segments(%d,0.20,%d,0.22,col=\"blue\",lty=\"solid\");\n", $4,$5; }' CFTR.grep_absolutes.gff gawk '{ printf "mysegments(%d,%d);\n", $4,$5 }' CFTR.grep_absolutes.gff # dibuixo -> sequencia.gccontent_combo_zoom5.png mysegments <- function(x,y) { polygon(c(x,y,y,x), c(0.185,0.185,0.225,0.225), col="blue",border="blue",lty="solid",fg="blue",bg="blue"); } t1 <- read.table("subseq5.gccontent_500.tbl"); png("sequencia.gccontent_combo_zoom5.png",width=4000,height=500); plot(t1,type="l",col="black",xlim=c(0,350000),ylim=c(0.2,0.8),axes=FALSE); axis(1,seq(0,350000,25000),col="black",las=1); axis(2,seq(0.20,0.80,0.05),col="black",las=1); segments(-50000,0.38,400000,0.38,col="red",lty="dotted"); segments(109628,0.205,296641,0.205,col="blue",lty="solid"); mysegments(109628,109680); mysegments(133786,133896); mysegments(138567,138675); mysegments(160432,160647); mysegments(163809,163898); mysegments(164781,164944); mysegments(166081,166206); mysegments(169633,169879); mysegments(171549,171641); mysegments(178174,178356); mysegments(188997,189188); mysegments(217272,217366); mysegments(219886,219972); mysegments(221467,222190); mysegments(224463,224591); mysegments(232359,232396); mysegments(233065,233315); mysegments(236207,236286); mysegments(240052,240202); mysegments(241114,241341); mysegments(244146,244246); mysegments(257055,257303); mysegments(271971,272126); mysegments(282375,282464); mysegments(294221,294393); mysegments(294992,295097); mysegments(296441,296641); dev.off(); # t2 <- read.table("subseq5.gccontent_1000.tbl"); # t3 <- read.table("subseq5.gccontent_2000.tbl"); # t4 <- read.table("subseq5.gccontent_5000.tbl"); # t5 <- read.table("subseq5.gccontent_10000.tbl"); ############ANALISI DE LES PROTEINES###################### Farem un BLASTP amb les proteines predites: database: swissprot or select from: Homo sapiens expect:10 word size:3 matrix: BLOSUM62 ? Cal canviar.la? existence:11 extension:1 Ara renombrem els gens trobats en les diferents subsequencies: Subseq1: gen 1--> gen A.TESTIN Seleccionat a Fgenesh 1384 de 137579. Primer gen del out. FET >FGENESH: 1 11 exon (s) 1384 - 137579 555 aa, chain + MILPVKSSRGFAREDSRVLNGECSGMECLELEGTQGFKEQREKRAIQVKGRELTVECQEM LTEMNRTGQHLPLCLTPGPLRRTGRRKFDGAGRVAVERRRGSSAGFPCSQRSRRPAEPGR GIPDRRRRGPIGRVNMDLENKVKKMGLGHEQGFGAPCLKCKEKCEGFELHFWRKICRNCK CGQEEHDVLLSNEEDRKVGKLFEDTKYTTLIAKLKSDGIPMYKRNVMILTNPVAAKKNVS INTVTYEWAPPVQNQALARQYMQMLPKEKQPVAGSEGAQYRKKQLAKQLPAHDQDPSKCH ELSPREVKEMEQFVKKYKSEALGVGDVKLPCEMDAQGPKQMNIPGGDRSTPAAVGAMEDK SAEHKRTQYSCYCCKLSMKEGDPAIYAERAGYDKLWHPACFVCSTCHELLVDMIYFWKNE KLYCGRHYCDSEKPRCAGCDELIFSNEYTQAENQNWHLKHFCCFDCDSILAGEIYVMVND KPVCKPCYVKNHAVVIVEVVDNGIVDGGIGLLVRGIRKGLGSNATITGGPGPALAWQEPV ELQIHTSGKFHFPSY INTERPRO: TESTIN DOMAIN 7.5e-225(E-value)(Pertany a la familia lim domains) LIM DOMAIN 7.5e-225(E-value) Subseq2: gen1 --> gen B.CAVEOLIN 2 genscan 29316 a 35693. El segon predit. >subseq2|GENSCAN_predicted_peptide_2|219_aa MGLETEKADVQLFMDDDSYSHHSGLEYADPEKFADSDQDRDPHRLNSHLKLGFEDVIAEP VTTHSFDKVWICSHALFEISKYVMYKFLTVFLAIPLAFIAGILFATLSCLHICLNQILGQ SELPGVSEAKLFVMLRTQLKFDVGGSLDSLLQNEGTQDFNAFCKDLPNGSAFSADNMEEC DRCYHCSIVYERRTMLLFCQPATEPGLNTWTPGLEIGIL INTERPRO: CAVEOLIN DOMAIN 3.7e-81 CAVEOLIN 2 DOMAIN 3.7e-81 gen2 --> gen C CAVEOLIN 1 genscan 54935 a 88821. El quart predit. >subseq2|GENSCAN_predicted_peptide_4|221_aa MLPCRGTPAVRPCLLGVRRGGVQGGGVIYPSPGDSPRDSPPGAQTGRSRRRRAGHLYTVP IREQGNIYKPNNKAMADELSEKQVYDAHTKEIDLVNRDPKHLNDDVVKIDFEDVIAEPEG THSFDGIWKASFTTFTVTKYWFYRLLSALFGIPMALIWGIYFAILSFLHIWAVVPCIKSF LIEIQCISRVYSIYVHTVCDPLFEAVGKIFSNVRINLQKEI INTERPRO: CAVEOLIN DOMAIN 1.9e-148 CAVEOLIN 1 DOMAIN 1.9e-148 Subseq3: gen1 --> gen D F-actin capping protein alpha-2 subunit Geneid 92146 a 147401. El tercer gen. >subseq3_3|geneid_v1.1_predicted_protein_3|153_AA MADLEEQLSDEEKVRIAAKFIIHAPPGEFNEVFNDVRLLLNNDNLLREGAAHAFAQYNLD QFTPVKIEGYEDQLLFLFLRNGRWRSEWKFTITPSTTQVVGILKIQTAISENYQTMSDTT FKALRRQLPVTRTKIDWNKILSYKIGKEMQNA* INTERPRO: F-ACTIN CAPPING PROTEIN ALPHA 5.1e-29 gen2 --> gen E Tropomyosin alpha-4 chain (Tropomyosin-4) (TM30p1). Geneid 202445 a 201699.El sizè gen. >subseq3_6|geneid_v1.1_predicted_protein_6|226_AA MAGITTIEAVKGNIQVLQQQADDAEERADRLQIQLVHEKLDCAQERPATALQKLEEAEKT ADESERGMKFIENQPLKDEEKMELQEIQLKEAKHIAEEANRKYEEVAHKLVIIERDLERT EEQTELAEYRCREMDEQIRLMDQNLKCLSPAEEKYSQKEDKYEKEIKILTDKFKEGEARD GFAERSVAKLENTIEDLEDKLKCTKGQRLCTQKMLVQTLLDLNEM* INTERPRO: Tropomyosin 2.2e-76 Subseq4: gen1 --> gen F Sodium/glucose cotransporter 2 (Na(+)/gluc..... ST7 Geneid: 889,781-1,051,665 (absolutes)Relatives : 289,781(subseq3)-151,665(subseq4); El setè de la subseq 3 >subseq3_7|geneid_v1.1_predicted_protein_7|160_AA MEIKIGLRATESVAESVVKEMWRRQAEYQIYTERFGRGLFQECNTGVAHTLKKIVAGYYC HESQNVAGFLQTWLHRGMPLSMFLNTLTPKFYVALTGTSSLISGLILIFEWWYFRKYGTS FIEQVSVSHLRPLLGGVDNNSSNNSNSSNGDSDSNRQSVSag INTERPRO:ST7(SUPRESSION OF TUMORIGENICITY)2.4e-60 i el primer de la subseq4. Tambe diu que es TS7: pero no puc entrar al posar FORMAT >subseq4_1|geneid_v1.1_predicted_protein_1|385_AA tgSMFLNTLTPKFYVALTGTSSLISGLILIFEWWYFRKYGTSFIEQVSVSHLRPLLGGVD NNSSNNSNSSNGDSDSNRQSVSECKVWRNPLNLFRGAEYNRYTWVTGREPLTYYDMNLSA QDHQTFFTCDSDHLRPADAKEATTIAEAEKLFKQALKAGDGCYRRSQQLQHHGSQYEAQH RRDTNVLVYIKRRLAMCARRLGRTREAVKMMRDLMKEFPLLSMFNIHENLLEALLELQAY ADVQAVLAKYDDISLPKSATICYTAALLKARAVSDNFSDDPLSLGKGAPILSLPNLYRNS RPRAASMEILVKFRFSAFHEVSVYPKKELPFFILFTAGLCSFTAMLALLTHQFPELMGVF AKAVSVCLEGGLGEWMGKAKGIKAA* INTERPRO: SUPPRESSION OF TUMORIGENICITY 7 1.7e-269 PROTEINA QUE ENS DONA EL BLATP Passem les dues proteines per blastp per veure si ens prediu el mateix. gen2 --> gen G WNT1: Wnt-2 protein precursor (IRP protein) (Int-1-related protein) Length=360 Fgenesh 252,523- 204,604.. El tercer gen predit. >FGENESH: 3 6 exon (s) 204604 - 252523 378 aa, chain - MNAPLGGIWLWLPLLLTWLTPEVNSSWWYMRATGGSSRVMCDNVPGLVSSQRQLCHRHPD VMRAISQGVAEWTAECQHQFRQHRWNCNTLDRDHSLFGRVLLRSKSPAFTQPYGSPLMHS SLTPSSKTLLIFYCILFHQKFVQLGVIVPVLQIPKALKKGGKFTNLDHKKSGGRAGPKWA HRAAQQHPQNPDLHICQVCLQLAACRHCCPQVAERLLQKPASRDRDKAVKRFLKQECKCH GVSGSCTLRTCWLAMADFRKTGDYLWRKYNGAIQVVMNQDGTGFTVANERFKKPTKNDLV YFENSPDYCIRDREAGSLGTAGRVCNLTSRGMDSCEVMCCGRGYDTSHVTRMTKCGWMRE SSGMLLDYRCLRREAGEA INTERPRO: WNT RELATED 2.6e-170 Subseq5: gen1 --> gen H Ankyrin repeat, SAM and basic leucine zipper domain-containing protein 1 (Germ cell-specific ankyrin, SAM and basic leucine zipper domain containing protein). Fgenesh , 1,256,994 - 1,209,254; el primer gen predit. >FGENESH: 1 11 exon (s) 9254 - 56994 386 aa, chain - MAASALRGLPVAGGGESSESEDDGWEIGYLDRTSQKLKRLLPIEEKKEKFKKAMTIGDVS LVQELLDSGISVDSNFQYGWTPLMYAASVANAELVRVLLDRGANASFEKDKQSILITACS AHGSEEQILKCVELLLSRNADPNVACRRLMTPIMYAARDGHTQVVALLVAHGAEVNTQDE NGYTALTWAARQGHKNIVLKLLELGANKMLQTKDGKMPSEIAKRNKHHEIFNLLSFTLNP LEGKLQQLTKEDTICKILTTDSDREKDHIFSSYTAFGDLEVFLHGLGLEHMTDLLKERDI TLRHLLTMREDEFTKNGITSKDQQKILAALKELQVEEIQFGELSEETKLEIRVIDFGRYC VLKLDVLCKVNFYKVIYQEANNMSSC INTERPRO: ANKYRIN, SAM AND BASIC LEUCINE ZIPPER DOMAIN CONTAINING 2.7e-128 gen2 --> gen I Cystic fibrosis transmembrane conductance regulator (CFTR) (cAMP-dependent chloride channel) Geneid, 109,629-296,642; el segon gen predit >subseq5_2|geneid_v1.1_predicted_protein_2|1296_AA MQRSPLEKASVVSKLFFSWTRPILRKGYRQRLELSDIYQIPSVDSADNLSEKLEREWDRE LASKKNPKLINALRRCFFWRFMFYGIFLYLGEVTKAVQPLLLGRIIASYDPDNKEERSIA IYLGIGLCLLFIVRTLLLHPAIFGLHHIGMQMRIAMFSLIYKKTLKLSSRVLDKISIGQL VSLLSNNLNKFDEINPGKELHFLSRKQVLGGIVQLVDVVFLINKTELKLTRKAAYVRYFN SSAFFFSGFFVVFLSVLPYALIKGIILRKIFTTISFCIVLRMAVTRQFPWAVQTWYDSLG AINKIQDFLQKQEYKTLEYNLTTTEVVMENVTAFWEEGFGELFEKAKQNNNNRKTSNGDD SLFFSNFSLLGTPVLKDINFKIERGQLLAVAGSTGAGKTSLLMVIMGELEPSEGKIKHSG RISFCSQFSWIMPGTIKENIIFGVSYDEYRYRSVIKACQLEEDISKFAEKDNIVLGEGGI TLSGGQRARISLARAVYKDADLYLLDSPFGYLDVLTEKEIFESCVCKLMANKTRILVTSK MEHLKKADKILILHEGSSYFYGTFSELQNLQPDFSSKLMGCDSFDQFSAERRNSILTETL HRFSLEGDAPVSWTETKKQSFKQTGEFGEKRKNSILNPINSIRKFSIVQKTPLQMNGIEE DSDEPLERRLSLVPDSEQGEAILPRISVISTGPTLQARRRQSVLNLMTHSVNQGQNIHRK TTASTRKVSLAPQANLTELDIYSRRLSQETGLEISEEINEEDLKVAASLVVLWLLGNTPL QDKGNSTHSRNNSYAVIITSTSSYYVFYIYVGVADTLLAMGFFRGLPLVHTLITVSKILH HKMLHSVLQAPMSTLNTLKAGGILNRFSKDIAILDDLLPLTIFDFIQLLLIVIGAIAVVA VLQPYIFVATVPVIVAFIMLRAYFLQTSQQLKQLESEGEGEGRVGIILTLAMNIMSTLQW AVNSSIDVDSLMRSVSRVFKFIDMPTEGKPTKSTKPYKNGQLSKVMIIENSHVKKDDIWP SGGQMTVKDLTAKYTEGGNAILENISFSISPGQRVGLLGRTGSGKSTLLSAFLRLLNTEG EIQIDGVSWDSITLQQWRKAFGVIPQKVFIFSGTFRKNLDPYEQWSDQEIWKVADEVGLR SVIEQFPGKLDFVLVDGGCVLSHGHKQLMCLARSVLSKAKILLLDEPSAHLDPVTYQIIR RTLKQAFADCTVILCEHRIEAMLECQQFLVIEENKVRQYDSIQKLLNERSLFRQAISPSD RVKLFPHRNSSKCKSKPQIAALKEETEEEVQDTRL* INTERPRO: ABC_tran 3.3e-54 [385-556]T 8.3e-60 [1052-1234]T Subseq6: gen1--> Cortactin-binding protein 2 (CortBP2) Amb Fgenesh, és el primer iúnic gen predit (41071-366839) >subseq6|FGENESH: 1 32 exon (s) 41071 - 366839 1991 aa, chain - MLNPADYASQDSIPTGFLLGSAKGSHSCRNGEAAQREELVNSEDEKWEKAEGLGNTALLP NLPHNHVFVMSNQEHRTQPTDLEYKKLLWYRMNAEAPTASSIFQAEKRHKRDGAYIREAK LTQHSRNPFTQNPLPHWQKRGLPEEMAEYTLLDVLHLEFHSPQGPDLSKRTLVQAESTIC PHFLACKTLCFTYIGWFLMTQVIDKISKPPLRRLNVVPLTTFKQIKEIGKEPAPAVREAS PSWRSVVRWPTPSMIIISRKKEFDVDTLSKSELRMLLSVMEGELEARDLVIEALRELKWF TGIKTAKWENARRKEVFIQERYGRFNLNDPFLALQRDYEAGAGDKEKKPVCTNPLSILEA VMAHCKKMQERMSAQLAAAESRQKKLEMEKLQLQALEQEHKKLAARLEEERGKNKQVVLM LVKECKQLSGKVIEEAQKLEDVMAKLEEEKKKTNELEEELSAEKRRSTEMEAQMEKQLSE FDTEREQLRAKLNREEAHTTDLKEEIDKMRKMIEQLKRGSDSKPSLSLPRKTKDRRLVSI SVGTEGTVTRSVACQTDLVTENADHMKKLPLTMPVKPSTGSPLVSANAKGSVCTSATMAR PGIDRQASYGDLIGASVPAFPPPSANKIEENGPSTGSTPDPTSSTPPLPSNAAPPTAQTP GIAPQNSQAPPMHSLHSPCANTSLHPGLNPRIQAARFRFQGNANDPDQNGNTTQSPPSRD VSPTSRDNLVAKQLARNTVTQALSRFTSPQAGAPSRPGVPPTGDVGTHPPVGRTSLKTHG VARVDRGNPPPIPPKKPGLSQTPSPPHPQLKVIIDSSRASNTGAKVDNKTVASTPSSLPQ GNRVINEENLPKSSSPQLPPKPSIDLTVAPAGCAVSALATSQVGAWPAATPGLNQPACSD SSLVIPTTIAFCSSINPVSASSCRPGASDSLLVTASGWSPSLTPLLMSGGPAPLAGRPTL LQQAAAQGNVTLLSMLLNEEGLDINYSCEDGHSALYSAAKNGHTDCVRLLLSAEAQVNAA DKNGFTPLCAAAAQGHFECVELLISYDANINHAADGGQTPLYLACKNGNKECIKLLLEAG TNRSVKTTDGWTPVHAAVDTGNVDSLKLLMYHRIPAHGNSFNEEESESSVFDLDGGEESP EGISKPVVPADLINHANREGWTAAHIAASKGFKDCNLPDALLAFSHMRVRRFYSHCSSHL GPPGGIHELSGLGVSTEFPGHWYLASQLCLKEPGTSLTPQPLLCPWSIVTDPSVSAGPMG TQHKDSILQSPLQGTMAKYLSSGKWNNCLEILCRHGGLEPERRDKCNRTVHDVATDDCKH LLENLNALKIPLRISVGEIEPSNYGSDDLECENTICALNIRKQTSWDDFSKAVSQALTNH FQAISSDGWWSLEDVTCNNTTDSNIGLSARSIRSITLGPQEGCLSSVTYASMIPLQMMQN YLRLVEQYHNVIFHGPEGSLQDYIVHQLALCLKHRQMAAGFSCEIVRAEVDAGFSKEQLL DLFISSACLIPVKQSPSKKKIIIILENLEKSSLSELLRDFLAPLENRSTESPCTFQKGNG LSECYYFHENCFLMGTIAKACLQGSDLLVQQHFRWVQLRWDGEPMQGLLQRFLRRKVVNK FKGQAPSPCDPVCKIVDWALSVWRQLNSCLARLGTPEALLGPKYFLSCPVVPGHAQVTVK WMSKLWNGVIAPRVQEAILSRASVKRQPGFGQTTAKRHPSQGQQAVVKAALSILLNKAVL HGCPLPRAELDQHTADFKGGSFPLSIVSSYNTCNKKKGESGAWRKVNTSPRRKSGRFSLP TWNKPDLSTEGMKNKTISQLNCNRNASLSKQKSLENDLSLTLNLDQRLSLGSDDEADLVK ELQSMCSSKSESDISKIADSRDDLRMFDSSGNNPVLSATINNLRMPVSQKEVSPLSSHQT TECSNSKSKTELGVSRVKSFLPVPRSKVTQCSQNTKRSSSSSNTRQIEINNNSKEVNWNL HKNEHLEKPNK INTERPRO: CORTACTIN-BINDING PROTEIN 2 5.4e-120 [959-1175]T Com ja esperavem la prediccio no es molt bona, no trobem cap proteina amb un escore alt (PEL GEN DE LA SUBSEQ6). ##########En total tenim 10 gens!!!!#####################