CERCA DE CLUSTERS DE GENS

Com que la regió ENm008 és molt rica en gens ens vam plantejar la possibilitat que hi haguessin clusters de gens.

Vam crear una base de dades amb les 22 proteïnes validades mitjançant spliced ESTs per comparar-les entre elles amb un blastp. Així el millor hit correspondrà a l'alineament d'una proteïna amb ella mateixa, però si en trobem un altre de prou bo indicarà que es tracta de duplicació gènica.

En primer lloc vam guardar en un fitxer texte les 22 proteïnes (en format fasta) validades. Per tal de crear la base de dades necessitem el programa formatdb, que l'exportem de:

export PATH=$PATH:/disc8/bin/:/disc8/bin/ncbiblast/:/disc8/soft/R/bin

export BLASTMAT="/disc8/bin/ncbiblast/data"

Data="/disc8/bin/ncbiblast/data"


executem el formatdb i creem la base de dades:

formatdb -p -i proteinespredites

blastall -p blastp -d proteinespredites -i proteinespredites -e 0.1 > protblast_all.out


Per fer la base de dades es creen tres fitxers:


Executem un parseblast per passar el fitxer de sortida del blastp a format gff:

parseblast.pl -S -G -i protblast_all.out | sort > protblast_all.gff

Amb la següent comanda gawk aconseguirem que ens mostri només aquelles proteïnes que s'alineen amb una altra de diferent (no amb ella mateixa). Així, tansols veurem les proteïnes que possiblement formen un cluster: indicarà que hi pot haver hagut un fenomen de duplicació gènica i que han anat evolucionant de forma independent.

sed 's/;//g;' protblast_all.gff | gawk '$1 != $9' > protblast_all_filtrat.gff

De l'output final deduïm que hi ha dos possibles clusters.

El primer cluster el conformen les proteïnes 6, 7, 8 i 9; i el segon, les proteïnes 12, 13 i 15. Així mateix les proteïnes 22 i 19, 18 i 20, 21 i 18, 13 i 16 també s'alineen, amb un alt percentatge d'identitat; però només veiem dominis en comú entre la proteïna 18 i 20 (NDK i adh_short); caldria fer més anàlisi d'homologia de proteïnes per certificar si són resultat de duplicació gènica.

El primer cluster coincideix amb aquelles proteïnes que tenen domini globina, són diferents tipus de cadenes globina. L'alineament d'aquestes proteïnes entre elles és pràcticament complet.

En l'output de la base de dades s'observa que en el segon cluster les proteïnes s'alineen entre elles mateixes només per 218 aminoàcids. Aquesta longitud correspon a la del domini RGS, present en les tres. Aquí es plantegen dues opcions: bé que siguin resultat d'unaduplicació gènica llunyana -i que només conservin el domini RGS-, o bé que realment no siguin un cluster sinó que es tracti de proteïnes que tenen aquest domini en comú i s'hagin alineat amb el blastp.

Per tal de confirmar la presència de clusters podríem construir arbres filogenètics per representar relacions de similitud entre les diferents proteïnes. Un mètode de reconstrucció d'arbres filogenètics és el Neighbour-joining, amb una matriu de distàncies entre les diferents seqüències (inclòs en el paquet PHYLIP o al servidor ClustalW). En aquests arbres les proteïnes amb més similitud se'ns agruparan en clusters; així podríem confirmar la nostra hipòtesi. Tot i això, sempre caldrà en última instància validació experimental.







enrere >>> endavant