BIOINFORMATICA

El objetivo de este trabajo es encontrar motivos conservados en aquellos intrones dónde las tres señales que dirigen el splicing (donor, acceptor y branch-site) no estan conservadas. Todos aquellos intrones que no presenten señales consenso, presumiblemente tendrán que tener otras señales reguladoras para hacer el splicing correctamente. Por esto, se diferencian dos grupos de intrones: el grupo 1, que incluye intrones que conservan los splice-sites y el branch-site consenso; y el grupo 2, dónde como mínimo una de las tres señales no está conservada. Además, para cada grupo, se buscarán otros motivos conservados de longitud concreta.

MATERIALES

Se parte de diversos alineamientos múltiples de 163 introns de cuatro especies diferentes de levadura: Saccharomyces cerevisae, Saccharomyces bayanus, Saccharomyces mikatae y Saccharomyces paradoxus. Las secuencias se encuentran en este formato:

Sc_YAL001C GTATGTTCATGTCTCATTCTTTTCGGCTCTTTATGATAAACGTACTATATTGTGAAAGATTATTTACTAACGACACATTGAAG
Sb_YAL001C GTATGTATACGCTTCATCCGCTCTAGCTTCTCACGAGAAGCATGCTGTGT-GCAAGAAAGCCTTTACTAACTATTTGTTAAAG
Sm_YAL001C GTATGTCTATGTCTCATTTTTTGCAGTCTCTCTTGAGGAATGTTCTATTTTGTAAGAGATCTTTTACTAACTACTTACCAAAG
Sp_YAL001C GTATGTATATGCCTCATTCTATTCCGTTCTTCATGAGAAACGTGATATATTGT--AAGATTATTTACTAACGACTTATTAAAG
           ******  * *  ****    *   *    *   **  *   *  * * * *    * *   ********* *       ***

Cada línia contiene un identificador de la especie (Sc, Sb, Sm, Sp) y nombre del intrón y, a continuación, la secuencia correspondiente. La quinta línia de asteriscos indica las posiciones conservadas en el alineamiento. Se asume que estos alineamientos son óptimos.

MÉTODOS

Se han escrito dos programas: el programa1 permitirá clasificar los intrones en el grup consens o no consens dependiendo de si todas las señales de splicing se encuentran o no conservadas en las 4 especies; el programa2 buscará, dentro de cada grupo, aquellas señales conservadas de una longitud concreta (k) en las cuatra especies y que no sean señales consenso de splicing.

- Programa 1

Se ha escrito el programa primero.pl en lenguaje Perl y se ha ejecutado sobre el fichero de alineamientos múltiples (dataset.txt) con la siguiente orden:
- $ perl primero.pl dataset.txt 1 o bien
- $ perl primero.pl dataset.txt 2
- dónde 1 mostrará los resultados para el grupo consenso y 2 para el grup no consenso
Si se quieren guardar los resultados en un documento, se puede utilizar el redireccionamiento. Por ejemplo:
- $ perl primero.pl dataset.txt 1 > consens.txt o bien
- $ perl primer.pl dataset.txt 2 > noconsens.txt
En el caso de que la orden no sea correcta o no se pueda abrir el documento, el programa muestra un mensaje de error.

El programa lee cada línia y construye un hash %hash para cada intrón y para cada especie, dónde almacena los nucleótidos de la secuencia correspondiente. Además, también se almacena la fila de asteriscos como especie 'star'. El hash tendrá un formato como éste, pero con todos los intrones:

Intrón	Especie	Secuencia
YAL001C	Sc	GTATGTTCATGTCTCATTCTCCTTTTCGGCTCCGTTTAGGTGATAAACGTACTATATTGTGAAAGATTATTTACTAACGACACATTGAAG
	Sb	GTATGTATACGCTTCATCCCC-GCTCTAGCTTCCCTCATTCGAGAAGCATGCTGTGT-GCAAGAAAGCCTTTACTAACTATTTGTTAAAG
	Sm	GTATGTCTATGTCTCATTTTT-TTTGCAGTCTTTCTCTCGTGAGGAATGTTCTATTTTGTAAGAGATCTTTTACTAACTACTTACCAAAG
	Sp	GTATGTATATGCCTCATTCTTCTATTCCGTTCTTTTCAGGTGAGAAACGTGATATATTGT--AAGATTATTTACTAACGACTTATTAAAG
	Star	****** * * **** * * * ** * * * * * * * * ********* * ***
YBL018C	Sc	GTATGTATATTTTTGACTTTTTGAGTCTCAACTACCGAAGAGAAATAAACTACTAACGTACTTTAATATTTATAG
	Sb	GTACGTATATTTTTGA-TTTTCGAGCCCTAGCTAGCTAAAGAGAATAAGCTACTAACCTCCCCTTATATTTTCAG
	Sm	GTACGTATATTTTTGGTTTTTCGAGGCCCAGCCACCCAAGGAAAATAAGCTACTAACTTACCTTAATATTTACAG
	Sp	GTACGTATATTTTTGGTTTTTCGAGGCCCAGCCACCCAAGGAAAATAAGCTACTAACTTACCTTAATATTTACAG
	Star	* ****** ** * * * ****** * * **

Se recorre %hash para establecer las condiciones que llevarán las cuatro secuencias de cada intrón al grupo 1 o al grupo 2. Por esto, se define la variable $linia, donde se registra la secuencia de S.cerevisae del intrón, y $star, donde se encuentra la secuencia de asteriscos del mismo intrón. Para un intrón dado, aquellas posiciones de $linia que coincidan con asteriscos en $star, corresponderán a posiciones conservadas en las cuatro especies.
Las señales consenso se identifican mediante expresiones regulares.
Branch-site:
- - Se recorre $linia para buscar un branch-site consenso (TACTAAT) y se almacenan las subsecuencias solapantes de 7 nucleótidos en el vector @branch_sp.
- - Se recorre $star en ventanas solapantes de 7 carácteres y las subsecuencias se almacenan en el vector @branch_star.
- - Se compara cada subsecuencia de @brancs_sp con la correspondiente en en @branch_star, y en caso de estar conservada, se almacena la posición anterior al inicio del branch-site ($m) en el hash %branches. En el caso de que no lo encuentre, el intrón pasa directamente al grupo 2 y el programa busca el siguiente intrón en el hash.
Donor-site
- - Se recorren los nucleótidos de $linia para buscar el donor-site consenso (GTATGT) y conservado (mirando $star). En el caso que no encontremos donor-site, el intrón pasa al grupo 2 y el programa analiza el siguiente intrón del hash.
Acceptor-site
- - Si existe el donor-site (y, por tanto, también el branch-site), se recorren los nucleótidos de las cuatro especies ($actual) para buscar el acceptor-site consenso (C/T AG) y conservado ($star). Si encuentra esta señal de splicing, $interruptor = 1, y el intrón se incluirá en el grup 1; en caso contrario, $interruptor se mantendrá a 0 y el intrón se clasificará en el grupo 2. La búsqueda se ha tenido que hacer en las cuatro especies y $star, para evitar errores. Por ejemplo, si el donor-site para un intrón fuese:
  si sólo comparamos $linia i $star, el intrón irá al grupo 2, aunque según nuestro criterio, pertenece al grupo 1.
El programa muestra los resultados obtenidos por el grupo escogido ( consenso o no consenso ).

- Programa 2

Se ha escrito el programa ( segundo.pl ) en lenguaje Perl y se ha ejecutado sobre el fichero que contiene los intrones (consenso o no consenso). Además, hace falta especificar la longitud de los motivos que buscamos, con la orden:
- $ perl segundo.pl consens.txt 4 o bien
- $ perl segundo.pl noconsens.txt 4
  en este caso, el número 4 indica que buscamos motivos de 4 carácteres.
Si se quieren guardar los resultados en un documento, se puede utilizar el redireccionamiento. Por ejemplo:
- $ perl segundo.pl consens.txt 4 > consens4.txt
En el caso de que la orden no sea correcta o no pueda abrir el documento, muestra un mensaje de error.
Se recorren las línias del fichero, para cada intrón ($intro) y se registra el branch-site (si tiene) en $branch.
Se recorre la secuencia de 'Sc' evitando el branch (si hay), los 6 nucle&ocute;tidos del donor-site y los 3 del acceptor site; i y se almacenan las secuencias solapantes de k nucleótidos en el vector @subSc.
Se recorre la secuencia de 'star' evitando el branch (si hay), los 6 nucleótidos del donor-site y los 3 del acceptor site; i y se almacenan las subsecuencias solapantes de k nucleótidos en el vector @substar.
Se compara cada subsecuencia de 'Sc' con la correspondiente de 'star' y, en el caso de estar conservada, la guarda en el hash %contar.
- - Si el motivo no existe, la guarda como una nueva clave y le asigna el valor 1.
- - Si el motivo ya existe, suma 1 al valor asignado a esa clave.
Así, conseguimos un hash que cuenta las subsecuencias conservadas de k nucleótidos.
Se muestran los motivos, guardados en en el hash, ordenados numéricamente.

MATERIALES Y MÉTODOS

MATERIALES

MÉTODOS