Predicció computacional d'elements promotors de gens:


En organismes eucariotes, la regulació de l'expressió dels gens és actualment un dels processos biològics més poc coneguts degut, principalment, a la seva complexitat i al gran número de factors tan diferents que hi participen. Essencialment, es creu que el punt més important de control d'aquest mecanisme és la transcripció de DNA en RNA, però es sospita que altre tipus de controls, bè pre-transcripcionals (com l'estructura dels cromosomes i el moviment dels nucleosomes, les CpG islands i la metilació) o post-transcripcionals (transport i degradació del mRNA o regulació de la proteïna sintetitzada), poden tambè jugar-hi un paper relevant.

La transcripció d'un gen eucariota es realitzada per la RNA polimerasa II. La regulació del inici d'aquest procès de còpia consisteix en dues etapes:

  • Atracció d'aquesta cap al lloc on ha de començar la còpia, gràcies a una serie de Factors Generals de Transcripció (TATA box, ...) que permeten el reconeixement del punt d'inici de transcripció mitjançant la seva unió a DNA i a la pròpia polimerasa.

  • Començament de la transcripció seguint uns certs parametres de rendiment i de necesitat de la proteina codificada pel gen. Aquests paràmetres depenen de certes combinacions de Factors de Transcripció específics d'aquest gen que actuen en contacte amb la regió de DNA anterior al punt d'inici. Poden ser reguladors positius (activadors) o negatius (repressors) de la transcripció.

Donat que es coneixen milers de FTs així com els llocs preferits d'unió d'aquests, i que amb la publicació dels genomes de mosca, humà o ratolí, disposem de la gran majoria de possibles regulacions reguladores, es fa necesari un tractament bioinformàtic per tal de predir quines combinacions de TFs poden regular específicament cada gen, a partir de la detecció dels seus llocs d'unió. Una aproximació molt utilitzada consisteix en utilitzar matrius de pesos, previament derivades de coleccions de binding sites reals, per construir una llista de possibles llocs d'unió al llarg d'una seqüència promotora. A la base de dades TRANSFAC existeix la colecció mes gran de matrius de pesos per llocs d'unió DNA/proteïna.

Projecte de programació:


Dissenyar 1 programa en PERL que implementi el procès d'analitzar una seqüencia de DNA amb una matriu de TRANSFAC per tal de generar una llista dels llocs més probables d'unió al FT descrit per la matriu d'entrada. Tant la documentació del projecte com la sortida del programa es desenvoluparan en HTML per tal de ser fàcilment visualitzables amb un navegador convencional com Netscape o Explorer.


INPUT:fitxer_seq_DNA, fitxer_matriu
OUTPUT:posicions dels millors candidats al llarg de la seqüència
COMMAND:ScanSequence -options fitxer_seq_DNA fitxer_matriu

 
OPTIONS:
   -v: mostrar informació del procès per pantalla
   -m: mostrar informació de la matriu (consensus,...)
   -s: mostrar informació de la seqüència (G+C, Longitut,...)
   -t x.x: fixar un threshold de qualitat dels resultats

Objectius del projecte:


  • Comprendre la dificultat del problema i la necessitat de desenvolupar una eina bioinformàtica. solucionar-lo.
  • Aprofitar la WEB com a recurs per obtenir i publicar informació.
  • Aplicar els coneixements adquirits durant les classes pràctiques:
  • Llegir paràmetres i opcions de configuració del programa
  • Obrir, llegir, esciure, tancar firxers
  • Recorregut de seqüències de DNA
  • Aplicació de matrius de pesos
  • Comentar totes les parts del programa

Planificació recomanada:


  1. Desenvolupar un programa que demani dos fitxers, una seqüència FASTA de DNA i una matriu de pesos (les seves dimensions poden variar), i les emmagatzemi com s'ha vist a les pràctiques, normalitzant la matriu (probabilitats).
  2. Afegir la part d'aplicació de la matriu a la seqüència per obtenir una llista de candidats.
  3. Afegir les opcions de mostrar informació sobre el procès, la matriu i la seqüència.
  4. Permetre més d'una matriu com a entrada
  5. Mostrar la sortida del programa en HTML per tal de visualitzar-lo per Internet.
  6. Escriure una petita documentació sobre el programa en HTML.

Material adicional:

  1. sequencia DNA fasta + matriu de transfac
  2. Programa en perl explicant la rutina getopts, per llegir les diferents opcions per linia de comandes
  3. Fitxer amb mes d'una sequencia de DNA
  4. Fitxer amb mes d'una matriu de transfac
  5. Tutorial de HTML per escriure pagines web
  6. Sortida basica en HTML del programa ScanSequence
  7. Sortida avançada en HTML del programa ScanSequence
  8. Documentacio (veure link ABSTRACT)


Enrique Blanco Garcia © 2002 eblanco@imim.es