OBTENCIÓ I CARACTERITZACIÓ DE LA SEQÜÈNCIA

Hem obtingut la seqüència corresponent a la regió ENm008 del projecte ENCODE, fent cerca en aquesta pàgina amb els passos: Regions > ENm008 > DNA > Get DNA. La seqüència està en format fasta, i la convertim a format tabular amb la següent comanda:

awk '{printf $1}' SEQDNA.fa > SEQDNA.tbl0

Del mateix enllaç n'obtenim les coordenades, que són 1-500.000 en el cromosoma 16 (p13.3)

Llargada de la seqüència

Amb la següent comanda comprovem que la llargada de la seqüència que hem guardat en el fitxer coincideix amb l'original del ENCODE.

awk '{print length($2)}' SEQDNA.tbl0

Composició nucleotídica de la seqüència

Per tal de conèixer la composició absoluta de nucleòtids en la nostra seqüència hem executat la comanda:

awk '{print $2}' SEQDNA.tbl0 | fold -1 | sort | uniq -c | gawk '{print $2, $1}'

Per obtenir la mateixa composició però en valors relatius a la longitud de la seqüència, fem:

awk '{print $2}' SEQDNA.tbl0 | fold -1 | sort | uniq -c | gawk '{print $2, $1/500000}'

composició nucleòtid
A 0.23484
C 0.273756
G 0.267686
T 0.223714
N 4e-06

(on N són gaps trobats)

D'aquesta taula és important remarcar la freqüència en C+G de la seqüència que serà un indicatiu del contingut gènic. El contingut total de C+G en el cromosoma 16 és d'un 44.7% (més dades); en la nostra regió, d'un 54%. Això és indicatiu que estem treballant en una regió molt rica en gens.

Localització de la seqüència

Ens va sorpendre que les coordenades de la regió ENCODE que estem estudiant fossin 1-500000, perquè això implicaria que la nostra regió forma part dels telòmers del cromosoma 16. Com que la regió ENCODE és del Juliol del 2003, vam pensar que potser el cromosoma 16 no estava del tot seqüenciat, i que valia la pena fer un BLAT amb la base de dades actualitzada del genoma humà, Maig del 2004, per veure si la coordenada d'inici de la regió ha canviat.

El BLAT el vam fer amb els primers 25000 pb de la regió. Per això va ser necessari crear un fitxer amb les primeres 25000 bases de la regió ENm008 a partir del fitxer amb la seqüència completa d'aquesta. Això ho vam fer amb la següent comanda:

export PATH=$PATH:/disc8/bin

fastachunk SEQDNA.fa 0 25000 | fold -60 > SEQDNA0a25000.fa


Abans d'executar aquest programa vam haver de passar el fitxer que conté la seqüència, de format tabular a format fasta:

export PATH=/disc8/soft/perl/bin/:/disc8/bin/:$PATH

TblToFasta SEQDNA.tbl0 SEQDNA.fa


Els resultats del Blat ens van seguir donant com a coordenades de la regió: 1-500000. Per assegurar-nos que el problema no fós que la heterocromatina dels telòmers del cromosoma 16 no estiguessin seqüenciats -i per tant el primer nucleòtid de la regió fós el primer de l'eucromatina seqüenciada i no el primer del cromosoma- vam fer cerca bibliogràfica. Així mateix vàrem escriure un e-mail a UCSC (genome@soe.ucsc.edu).

Principalment per l'article The sequence and analysis of duplication-rich human chromosome 16 vam acabar concloent que es tracta d'una regió del principi de l'eucromatina seqüenciada del cromosoma 16. Per tant, ENm008 pot ser una regió subtelomèrica (és sabut que aquestes regions són especialment riques en gens).


Analitzant els resultats del BLAT sorprèn l'elevada identitat (99%, en 24194 de 25000 pb) d'aquesta regió amb els principis dels cromosomes X i Y. Això duu a pensar que es pot tractar d'una duplicació segmentària, però que els paràmetres usats no són prou per assegurar-ho.

Per estudiar-ho vam fer un segon BLAT amb els nucleòtids 25000-50000 de la nostra regió per si se seguia observant aquesta identitat. Amb els resultats d'aquest BLAT no es pot recolzar massa aquesta hipòtesi, ja que només es van alinear 4000 de 25000 pb. Tot i això, no la descartem del tot perquè hi ha paràmetres en els que no podem influenciar sobretot degut a que el BLAT detecta exclusivament la paraula exacta.

També hem fet cerca bibliogràfica sobre possibles duplicacions segmentàries del cromosoma 16 al llarg del genoma. En la figura de l'article Finishing the euchromatic sequence of the human genome veiem que efectivament hi ha duplicacions segmentàries al principi del braç curt del cromosoma 16. L'article més interessant és el citat en primer lloc (especialment aquesta figura) però com en la resta dels consultats no es compara la relació entre el 16, X i Y. El que trobem sempre és similar a aquesta figura de l'article The Sequence of the Human Genome on es comparen les duplicacions segmentàries de l'X amb altres cromosomes i viceversa.

No hem de descartar però que tot plegat no sigui degut simplement a errors d'ensamblatge.







enrere >>> endavant