Iron Response ElementS

MÉTODOS, PROCEDIMIENTO Y RESULTADO

 

BÚSQUEDA EN UNA BASE DE DATOS MAYOR

Tras haber obtenido los patrones para los diferentes tipos de proteinas quisimos correrlos sobre un conjunto de secuencias mucho más amplio, más concretamente sobre la base de datos inicial de la que sacamos las secuencias originales (las de ensayo y las test). Este paso nos ayudaría a saber si el patrón resulta altamente estricto o no.

Primeramente, bajamos la base de datos UTR y la descomprimimos. Ésta se encontraba organizada por grupos o tipos de organismos y en función de secuencias 5' y 3' para cada uno de ellos. De todos los organismos tans olo tomamos los que integraban los siguientes grupos: humanos, invertebrados, mamíferos, vertebrados y roedores.

Seleccionamos al azar secuencias de estos grupos utilizando su número de acceso (AC). Como para poder correr los patrones necesitamos un formato concreto fue necesario convertilas a formato Fasta.

Creamos dos ficheros:

- Archivo 5'db: contenía 200 secuencias 5'UTR de cada uno de los subgrupos antes mencionados (1000 secuencias)
- Archivo 3'db: contenía 200 secuencias 3'UTR de cada uno de los subgrupos antes mencionados (1000 secuencias)

Estos dos archivos simulaban una pequeña base de datos de secuencias UTR, así que sobre las 3' podríamos correr el patrón de la tansferrina y sobre las 5' el de la ferritina. Sorprendentemente no obtuvimos ningún resultado. Esto corroboraba que nuestro patrón era realmente estricto y que para poder hallar alguna secuencia, al menos las originales, debíamos generar dos nuevos archivos con un número mucho mayor de secuencias:

- 5'db_2: todas las secuencias 5'UTR de la base de datos bajada y descomprimida anteriormente.
- 3'db_2: todas las secuencias 3'UTR de la base de datos bajada y descomprimida anteriormente.

Como hicimos con la base de datos más reducida, corrimos el patrón de la transferrina sobre el fichero 3' y el de la ferritina sobre el 5'. En este caso sí obtuvimos secuencias, pero ninguna de ellas correspondían a las que habíamos extraído y a partir de las cuales habíamos generado los patrones. En ese momento nos dimos cuenta que no debíamos haber utilizado el AC sino el ID (número de identificación). Fue necesario modificar las secuencias substituyendo el AC por el ID.

Volvimos a correr los patrones de transferrina y ferritina nuevamente pero sobre la base de datos mayor modificada. Los resultados fueron los siguientes:

- Obtuvimos todas las secuencias originales de ferritinas y transferinas (tanto las de ensayo como las test) y,
- Un nuevo grupo de secuencias: 11 secuencias de ferritinas y 10 de transferrinas (en este último caso tan sólo eran dos secuencias diferentes pero con 5 IREs cada una). Buscamos las nuevas secuencias en la base de datos EMBL y comprobamos que todas tenían IREs confirmados.

Para concluir el análisis sobre la base de datos quisimos saber si las nuevas secuencias eran realmente positivas. Para ello corrimos el patrón universal de los IREs sobre ellas. Todas las secuencias resultaron ser verdaderos IREs.