EMMASCARAMENT DE LA SEQÜÈNCIA


És sabut que el genoma humà és molt ric en repeticions com ara microsatèl.lits o macrosatèl.lits. Per tal d'evitar falsos positius en els outputs dels programes de predicció de gens ha calgut emmascarar la seqüència de la nostra regió.

Identificació de les regions repetitives

Per emmascarar les repeticions de la seqüència hem utilitzat el servidor RepeatMasker (amb les opcions DNA Source is from Primates, Running options FAST, i la resta per defecte).

Obtenim cinc outputs, el resum dels quals és:

================================================== file name: repeat.seq sequences: 1 total length: 500000 bp (500000 bp excl N-runs) GC level: 54.14 % bases masked: 201872 bp ( 40.37 %) ================================================== number of length percentage elements* occupied of sequence -------------------------------------------------- SINEs: 573 149068 bp 29.81 % ALUs 558 147571 bp 29.51 % MIRs 15 1497 bp 0.30 % LINEs: 69 19830 bp 3.97 % LINE1 59 17745 bp 3.55 % LINE2 9 1926 bp 0.39 % L3/CR1 1 159 bp 0.03 % LTR elements: 27 14603 bp 2.92 % MaLRs 13 3584 bp 0.72 % ERVL 2 515 bp 0.10 % ERV_classI 11 9530 bp 1.91 % ERV_classII 1 974 bp 0.19 % DNA elements: 18 6108 bp 1.22 % MER1_type 12 3096 bp 0.62 % MER2_type 4 2738 bp 0.55 % Unclassified: 1 616 bp 0.12 % Total interspersed repeats: 190225 bp 38.05 % Small RNA: 2 196 bp 0.04 % Satellites: 1 1094 bp 0.22 % Simple repeats: 64 5673 bp 1.13 % Low complexity: 60 4746 bp 0.95 % ================================================== * most repeats fragmented by insertions or deletions have been counted as one element

Els fitxers output són:

En el fitxer output de masked sequence es veuen Xs enlloc de Ns, fruit d'un error: vam seleccionar "Mask with X's to distinguish masked regions from Ns already in query"; però ho vam corregir amb la comanda:

sed 's/X/N/g' fitxer_amb_X > fitxer_amb_N

L'arxiu amb la seqüència emmascarada tenia espais, a més a més calia passar-lo a format Fasta; per això vam fer:

perl -ne 'if (/>/){print; next;} s/\s//g; print' masked | FastaToTbl | TblToFasta > maskedN.fa

Finalment la seqüència emmascarada amb la que treballarem és: maskedN.fa

Anàlisi de les seqüències repetitives

Com es pot veure a la taula resum de l'output del Repeat Masker la nostra seqüència és molt rica en repeticions, un 40.37%: s'han emmascarat 201872 bp. La majoria són repeticions del tipus Alu que són SINEs (Short Interspersed Nucleotide Elements ) d'uns 300 pb de longitud. S'estima que els Alu's constitueixen un 5% del genoma humà.

De la composició de repeticions de la nostra regió cal destacar la presència d'elements (CCCTAA)n, que són especialment interessants per ser la complementària de les seqüències repetitives que formen els telòmers (TTAGGG)n. (Més informació). Altrament, trobem satèl.lits telomèrics com TAR1.

En veure a l'output "annotacions" una freqüència notòria de repeticions típiques de les regions telomèriques o subtelomèriques, vàrem creure convenient repetir l'emmascarament de la seqüència completa però canviant el paràmetre fast a slow. Això comporta que les seqüències de sortida puguin ser un xic més degenerades però per altra banda pot permetre trobar seqüències més específiques de telòmers.

En el cas que els resultats es decantessin per un augment en la presència de repeticions telomèriques confirmariem encara més que la regió és molt propera als telòmers.

Aquest és el resum del Repeat Masker en slow:

================================================== file name: repeat.seq sequences: 1 total length: 500000 bp (500000 bp excl N-runs) GC level: 54.14 % bases masked: 210623 bp ( 42.12 %) ================================================== number of length percentage elements* occupied of sequence -------------------------------------------------- SINEs: 580 150130 bp 30.03 % ALUs 556 147582 bp 29.52 % MIRs 24 2548 bp 0.51 % LINEs: 73 24322 bp 4.86 % LINE1 61 21273 bp 4.25 % LINE2 11 2890 bp 0.58 % L3/CR1 1 159 bp 0.03 % LTR elements: 30 15717 bp 3.14 % MaLRs 16 4421 bp 0.88 % ERVL 2 682 bp 0.14 % ERV_classI 11 9640 bp 1.93 % ERV_classII 1 974 bp 0.19 % DNA elements: 21 6943 bp 1.39 % MER1_type 14 3794 bp 0.76 % MER2_type 5 2875 bp 0.57 % Unclassified: 2 960 bp 0.19 % Total interspersed repeats: 198072 bp 39.61 % Small RNA: 2 196 bp 0.04 % Satellites: 1 1084 bp 0.22 % Simple repeats: 65 6360 bp 1.27 % Low complexity: 66 4956 bp 0.99 % ================================================== * most repeats fragmented by insertions or deletions have been counted as one element


Comparant les coordenades dels repeats veiem que els específics de telòmers s'extenen una mica més en la regió (tot i que no és una diferència massa significativa).







enrere >>> endavant