Expectation - Maximitation Algorithm

Qué puedes encontrar en esta página ?

Introducción Programa Discusión Bibliografía Acerca de nosotras

Si tenemos en cuenta que un motivo consiste en una región bien definida que tiene un significado funcional, podemos deducir la importancia que conlleva el hecho de encontrar motivos similares ya conocidos en un conjunto de secuencias. De igual modo, encontrar un motivo similar que desconocíamos previamente, en un conjunto de secuencias que juegan un papel biológico similar, puede ser la evidencia de que este motivo posee una función concreta.

Con este programa llevamos a cabo lo que conocemos como pattern discovery, es decir, una búsqueda de patrones desconocidos en un número N de secuencias. Esto se convertiría en un faenoso trabajo si no dispusiésemos de programas como éste, sin la bioinformática. Gracias al algoritmo iterativo empleado, la eficiencia y rapidez con la que podremos realizar esta búsqueda nos facilita gratamente el trabajo.

Durante la elaboración del programa hemos pensado en la posibilidad de introducir algunas modificaciones que, nos han parecido, aumentaban su eficacia, también algunos obstáculos nos han hecho replantearnos algún punto de la base previa que disponíamos del algoritmo EM, es ahora el momento de comentar cuáles han sido, cómo los hemos modificado y cuál ha sido el motivo por el que creemos que en cada momento hemos encontrado la mejor solución. También os daremos algunas recomendaciones en el uso de nuestro programa.

Por un lado, nos dimos cuenta que, en el momento de calcular los scores, necesitábamos dividir puntuaciones que podían tener alguna representación, eran mayores que 0, entre números muy negativos, cosa que nos conducía a disminuir considerablemente la significación de éstos. Decidimos igualar todos aquellos números negativos a un número cercano a cero antes de llevarlos a este punto. De este modo se dio un peso mucho más representativo a cada una de las posiciones. Esto iba a facilitar también el correcto funcionamiento de la posterior modificación que realizamos.

Esta modificación ha sido en la normalización de las matrices. Pensamos en la posibilidad de introducir una segunda normalización haciendo el logaritmo en cada matriz (si tenemos en cuenta que no podemos hacer logaritmos de números negativos, vemos que de nuevo en este punto, la sustitución por un número cercano a cero, que comentamos arriba, nos va a ser muy útil). Esto nos permite establecer una distribución normal ( Gaussiana ) de los ratios con valores centrados en 0. Con esto conseguimos obtener mejores resultados, encontrando, en cada una de las nuevas búsquedas, motivos más similares entre ellos y con scores más elevados. Esto mejoró cuando aplicamos logaritmos en base 2 en vez de base 10. Empleamos esta corrección ya que a menudo se considera 2X como el nivel mínimo de diferencia aceptable como significativo.

Después de utilizar el programa repetidas veces y con diferentes grupos de secuencias, comprobamos con satisfacción los positivos resultados obtenidos. Cabe comentar que no siempre vamos a obtener resultados igualmente satisfactorios. Nos permitimos recomendar longitudes de motivos que vayan entre 4 y 9 nucleótidos. Motivos menores no van ha tener una gran significancia, y motivos mayores vamos a poderlos encontrar, con puntuaciones muy elevadas, pero no en todas las secuencias introducidas, incluso, depende cómo, tan solo en una de ellas, cosa que no es lo que nos interesa en este caso, sinó encontrar motivos comunes. En cuanto al número de iteraciones, lo más recomendable es que llegasen a convergencia