MÈTODES

RESUM
INTRODUCCIÓ
MÈTODES
RESULTATS
CONCLUSIONS
BIBLIOGRAFIA
AGRAïMENTS
Lasdfkjfasdf

      L'objectiu d'aquest projecte és identificar possibles llocs d'unió de factors de transcripció en el promotor TRPV4. Per tal d'aconseguir aquest objectiu, és necessària informació de dos tipus:

  • Conservació dels nucleòtids del promotor de TRPV4: ens basem en què les regions on s'uneixen els factors de transcripció, degut a la seva importància, tenen un grau de conservació més elevat que altres regions del promotor. Per tant, l'estudi es centrarà en les regions més conservades.

  • Predicció de regions on s'uneixen factors de transcripció: utilitzant programes com PROMO i TRANSFAC-MATCH, es poden obtenir els possibles factors de transcripció que s'uneixen a un promotor.

      A partir de les dades esmentades, es procedirà a filtrar la informació obtinguda per a poder seleccionar els resultats més plausibles. Els passos seguits per tal d'obtenir la informació són:

  1. Obtenció de les seqüències
  2. Aliniaments locals
  3. Conservació del promotor
  4. Predicció de llocs d'unió a FT
  5. Processament dels resultats

1. Obtenció de les seqüències
      En primer lloc, s'obté la seqüència del promotor TRPV4 en humà utilitzant el programa Ensembl. Mitjançant l'opció Data Mining d'aquest programa s'aconsegueixen els 2000pb corresponents al promotor del gen TRPV4. Es realitza el mateix procés per als ortòlegs coneguts o predits (12 espècies). Les seqüències obtingudes són les següents:

Homo sapiens aslñdkfjañs Bos taurus
Macaca mulatta aslñdkfjañs Canis familiaris
Danio rerio aslñdkfjañs Fugu rubripes
Gallus gallus aslñdkfjañs Monodelphis domestica
Mus musculus aslñdkfjañs Pan troglodytes
Rattus norvegicus aslñdkfjañs Tetraodon nigrovoridis
Xenopus tropicalis

      Les seqüències de Gallus gallus, Monodelphis domestica i Xenopus tropicalis presenten N en la regió que s'està analitzant, perquè no es coneix la seqüència completa d'aquest fragment. El fet que no es conegui la seqüència porta problemes en passos posteriors del treball. És per això que, partint de les seqüències anteriors, s'elimina la porció que conté N. En el cas de Xenopus tropicalis i Gallus gallus, entre els 2000 nucleòtids seleccionats, hi ha dues regions no consecutives que contenen N, de manera que es disposa de dues seqüències modificades diferents. Ambdues modificacions s'utilitzen per realitzar alineaments locals independents. Pel que fa a la seqüència de Monodelphis domestica, s'obté una sola versió modificada ja que tan sols hi ha una regió amb N i es troba a l'inici de la seqüència. Les seqüències modificades són les següents:

asdfasdf
asdfasdf
Gallus gallus 2 asdfasdf Xenopus tropicalis 2 asdfasdf Monodelphis domestica 2
Gallus gallus 3 asdfasdf Xenopus tropicalis 3

2. Aliniaments locals
      Disposant de les seqüències es procedeix a aliniar-les utilitzant el programa d'alineament local SMM de Castillo-Davis ([4]) (descàrrega del programa disponible en aquesta pàgina web). Mitjançant un script en Perl (programa 1) s'executa el programa SMM de Castillo-Davis (cal tenir en compte que en certes ocasions cal modificar l'script en funció de la localització del programa Castillo-Davis en l'ordinador que s'està utilitzant). El mateix script en Perl permet modificar el format de l'output del programa SMM de Castillo-Davis, que correspon als alineaments locals de les diferents espècies amb l'humana, a format gff. Aquest fitxer en format gff, conté per a cada fila la informació corresponent a un alineament local. El fet que el fitxer estigui en format gff permet presentar la informació de manera gràfica. El format gff consta de:

      [seqname] [source] [feature] [start] [end] [score] [strand] [frame]

Seqname: identificador de la seqüència en la base de dades d'on s'ha extret; en aquest cas, correspon a l'identificador d'Ensembl.

Source: identificador del programa o de la base de dades utilitzats per a l'obtenció de la seqüència. En el cas que la seqüència no hagi estat modificada, la font serà la mateixa base de dades; si s'ha utilitzat un programa per modificar-la, s'indicarà de quin programa es tracta.

Feature: característica important de les seqüència o del treball que s'està portant a terme.

Start: nucleòtid de l'inici de la seqüència.

End: nucleòtid final de la seqüència.

Score: puntuació de la seqüència. En el cas que la seqüència no estigui relacionada amb cap procés puntuable, es posa (.).

Strand: especificació del sentit de la cadena (forward o reverse). Si no és rellevant o no es coneix es pot posar (.).

Frame: especificació de la pauta de lectura. Si la seqüència no és codificant, es posa (.).

Atributs: a partir de la novena columna, ja no són camps obligatoris i es poden utilitzar per a posar característiques i atributs que es consideein importsns de la seqüència.

      Per a més informació sobre el format gff, es pot consultar al següent tutorial sobre el format gff de l'Institut Sanger.

      Per obtenir la representació gràfica de les dades s'utilitza el programa gff2ps, que permet fer la conversió de format gff a format ps. Per tal d'exportar gff2ps a l'ordinador amb el que s'està treballant cal executar les següents comandes des de la finestra terminal:

    export PATH=/disc8/soft/perl/bin/:/disc8/bin/:$PATH export LC_ALL="C"

      A continuació, mitjançant la següent comanda, que té com a paràmetre un fitxer que permet canviar els colors dels gràfics, es fa el canvi de format. El gràfic 1 obtingut es mostra a l'apartat de resultats del projecte.

    gff2ps -C spc.rs nomdelfitxer.gff > fitxerdesortida.ps

      Així doncs, es disposa dels aliniaments locals entre la seqüència d'Homo sapiens i la resta de seqüències en format gff i en format gràfic.

3. Conservació del promotor
      Seguidament, mitjançant un altre script en Perl (programa 2), s'anota la conservació per a cada nucleòtid dels 2000 que constitueixen el promtor de TRPV4. Per tal d'obtenir aquesta informació, es registra per a cada seqüència (excepte la d'Homo sapiens) les posicions que estan conservades respecte la seqüència humana. Amb aquestes anotacions, s'obté per a cada posició de la seqüència d'Homo sapiens el nombre d'espeè que conserven el nucleòtid. Amb aquesta informació i amb el mateix script en Perl, es filtren les regions que es troben conservades en un mínim de quatre espècies. El fitxer de sortida del programa està en format gff, fet que permet, com s'ha fet anteriorment, representar la informació de forma gràfica. (gràfic 2). Per tant, en aquest segon gràfic, s'observen les regions de la seqüència humana que es troben conservades en quatre o més espècies.

4. Predicció de llocs d'unió a FT
      Seguidament, s'apliquen els programes PROMO i TRANSFAC-MATCH ([5][6]) als 2000 nucleòtids de la seqüència promotora humana, per tal de predir llocs d'unió de factors de trancripció. Els fitxers següents contenen les prediccions obtingudes mitjançant aquests programes (promo) (transfac).

5. Processament dels resultats
      Un cop es disposa de tota la informació, cal filtrar i seleccionar els resultats, ja que no tots els obtinguts són vàlids. En primer lloc, es crea un script en Perl (programa3) per filtar les prediccions fetes per PROMO i TRANSFAC-MATCH que corresponguin a les regions més conservades en les tretze espècies. És interessant conservar els factors de transcripció que s'uneixen a regions conservades a, com a mínim, sis espècies. A part de filtrar segons la conservació, s'utilitza un segon filtre en el mateix programa que ens permet seleccionar els factors de transcripció que s'uneixen a una regió del promotor amb una longitud mínima de cinc nucleòtids. Aquesta restricció permet descartar unions inespecífiques. Els resultats obtinguts del programa 3 es mostren en un fitxer en format gff.

      En el fitxer anterior, s'observen moltes línies referents al mateix factor de transcripció. En la majoria de casos, es deu a què el factor de transcripció es pot unir en diferents llocs dins d'una mateixa regió. Per evitar les repeticions, s'utilitza un script en Perl (programa4) del qual s'obté un fitxer de sortidaen format gff amb la possible regió d'unió de cada factor de transcripció. El gràfic (gràfic 3)corresponent es mostra a l'apartat de resultats.

      A la sortida del programa 4 hi ha 22 possibles factors de transcripció que s'uneixen al promotor de TRPV4 d'Homo sapiens. Per a cada un d'aquests factors es busca informació sobre la possible relació amb el canal catiònic. Aquesta informació també, es mostra a l'apartat de resultats.

National Center of Biotechnology Information


Bioinformática UPF


Ensembl


Algorithmics Genetics Group


SharMot.02sep04.tgz (described in Castillo-Davis, Hartl and Achaz (2004).)


Clara Serra Juhé
Irene Valenzuela Palafoll