BUSCOEXON
Bioinformática
2o trimestre curso 2001/2002 - UPF
Jon Portuondo

Indice:
  1. Objetivo
  2. Ficheros de entrada
  3. Ejecución de BuscoExon


OBJETIVO
El proyecto consiste en hacer un programa que encuentre
los exones internos ("internal") de la cadena positiva
de una secuencia en sus tres pautas de lecutra.

FICHEROS DE ENTRADA DE DATOS
(Para ejecutar buscoexon debería bajárselos,
si no tiene otros ficheros más apropiados para el caso)

Matrices de pesos

de los sitios de splicing: una de "donnors" y otra de "acceptors".
El ejemplo que sigue es la matriz de donnors,
que ilustra el formato que he usado, al cual hay que convertir
cualquier matriz de pesos que se desee usar.
El ejemplo:
     P0       A       C        G       T
	01  -0.459   0.241   -0.409   0.357   
	02  -0.495   0.252   -0.540   0.418   
     03  -0.511   0.192   -0.495   0.456
	04  -0.614   0.280   -0.639   0.474   
	05  -0.775   0.305   -0.642   0.504   
	06  -0.955   0.304   -0.666   0.557   
	07  -1.061   0.258   -0.768   0.639   
	08  -1.176   0.300   -0.788   0.634   
	09  -1.302   0.238   -0.923   0.723   
	10  -1.227   0.388   -0.881   0.597   
	11  -1.049   0.341   -0.773   0.577   
	12  -1.007   0.460   -0.758   0.458   
	13  -1.163   0.525   -1.188   0.526   
	14  -1.311   0.582   -1.401   0.527   
       15  -1.093   0.414   -1.503   0.657  
       16   0.030   0.151   -0.117  -0.086  
	17  -1.860   1.093   -4.269  -0.165   
	18    0.00   -9999    -9999   -9999   
	   19   -9999   -9999     0.00   -9999      
        20  -0.064  -0.513    0.732  -0.957   
      21  -0.075  -0.220   -0.087   0.302 
XX 20
	

Comentarios:

El número que hay después de XX, és el "offset", és decir,
el nucleótido a partir del cual empieza el exón
(en caso de que la matriz sea de acceptors) o en el que acaba
el exón (en caso de un donnor). En ambos casos,
el nucleótido debe estar; incluido en el exón.

Debe ponerse un -9999 en los nucleótidos que no son
A,G (si es acceptor) o G,T (si es donnor)
en las posiciones que corresponden a dichos nucleótidos.

Bajar Matriz de acceptors
Bajar Matriz de donnors

Tabla de Codon Usage

Representa la distribución de probabilidad estimada
de los codones del organismo humano.

Bajar Tabla

Fitxero de la Secuencia

Dicho fichero debe estar en formato fasta.
Como ejemplo sirve un botón, por ello he utilizado
un gen de 3 exones, luego con 1 único exón interno.

Bajar Secuencia


EJECUCION DE BUSCOEXON

Bajar Buscoexon

Funciona con 7 argumentos:

  1. Matriz de acceptors
  2. Matriz de donnors
  3. Tabla de Codon Usage
  4. Fitxero de secuencia
  5. Cutoff (puntuación mínima) de los acceptors
  6. Cutoff de los donnors
  7. Longitud mínima de los exones (debe ser igual o superior a 18)

Ejecución:

Siguiendo el ejemplo que he usado, el programa se ejecuta:

./buscoexon.pl macceptors.txt mdonnors.txt propcodons.txt hs.fasta 0 0 80

Obteniendo el siguiente resultado, en formato GFF:

Comentarios:

Una vez ejecutado el programa podemos variar los
tres últimos parárametros para regular la cantidad de
exones internos que nos devuelve el programa.

Se debe tener en cuenta que la primera posición de la secuencia
es la posició:n 0 cuando observemos
las posiciones de principio y fin de exón.