Bioinformàtica

Identificació d'homòlegs a ENSEMBL

Per tal d'obtenir la matèria base sobre la qual treballar vam utilitzar una eina del ENSEMBL, Biomart. Aquest és un sistema desenvolupat pel European Bioinformatics Institute (EBI) i Cold Spring Harbor Laboratory (CSHL). Biomart ens proveeix de funcions per tal de poder recuperar anotacions de gens, descripcions funcionals (Gene Onthology), SNP, seqüències i altres informacions extretes directament de la seva base de dades.

Inicialment vam seleccionar l'espècie de referència al START sobre la qual volíem treballar de la base de dades ENSEMBL37, Fugu. En les opcions del FILTER es van deixar les que venen per defecte. En l'apartat OUTPUT, vam seleccionar a la casella d'atributs gens homòlegs en la categoria de pèptids i finalment vam seleccionar la parella contra la qual volíem trobar els homòlegs, el Zebrafish. Vam obtenir el llistat de parells d'homòlegs. En aquest llistat no podem diferenciar entre ortòlegs i paràlegs, de forma que per una mateixa proteïna de fugu podíem arribar a tenir dues o més proteïnes de zebrafish. Després d'un tractament mitjançant comandes del Unix per tal d'obtenir una llista no redundant, vam obtenir un total de 12808 parelles.

Classificació de seqüències

El segon pas en aquest treball va ser classificar en tres grups els gens de Fugu identificats amb homòlegs de Zebrafish (teleostoms, vertebrats i eucariotes) segons la seva antiguitat.

El grups d'espècies utilitzades per datar aquesta antiguitat són els següents:

EUCARIOTES: Drosophila melanogaster, Anopheles gambiae, Caenorhabditis elegans, Saccharomycies cerevisiae
VERTEBRATS: Xenopus tropicalis, Gallus gallus, Monodelphis domestica, Bos taurus, Mus musculus, Homo sapiens
TELEOSTOMS: Dario rerio

Per aquest apartat vam haver d'elaborar el nostre primer programa. En el codi font podreu aprofundir en cadascun dels paràmetres emprats. Mitjançant BLASTP, ja que estem treballant amb seqüències de proteïnes, vam classificar cadascun dels gens de Fugu. Per optimitzar la cerca i reduir al màxim el temps, l'estratègia utilitzada ha sigut fer els blasts seguint la llista especificada a dalt, començant per les espècies més properes al Fugu per cadascun dels grups d'edat, basant-nos en la seva distància evolutiva tal com mostra el diagrama. D'aquesta forma si la proteïna és trobada en la primera espècie, queda classificada i no cal alinear-la amb la resta d'espècies d'aquest mateix grup, disminuint considerablement el nombre de pròxims blasts. El E-Value utilitzat va ser de 0.00001, el qual ens permet minimitzar al màxim els alineaments per atzar, tot i perdre una certa sensibilitat.

Aquest procediment va ser utilitzat per al grup d'eucariotes i per al de vertebrats, i les proteïnes que no van quedar classificades en cap d'ambdós grups eren del llinatge específic dels teleostoms. Les proteïnes que es trobaven tant en el grup de vertebrats com d'eucariotes són considerades d'aquest últim grup, ja que és el més antic de tots.

Calcular el % d'identitat i similaritat

Per portar a terme aquesta tasca, el que vam fer va ser alinear les parelles d'homòlegs Fugu-Zebrafish per cadascún dels tres grups d'edat mitjançant un alineament global amb ClustalW. En aquest apartat vam realitzar el nostre segon programa, mitjançant el qual es feia automàticament l'alineament de cada parella d'homòlegs i s'analitzava el fitxer resultant per extreure el percentatge d'identitat i similaritat.

Per representar les dades obtingudes hem utilitzat el paquet estadístic R el qual ens ha permès fer els histogrames.

Validació de les dades

Arribat aquí tindrem i) els grups de edats i ii) el tant per cent de identitat i similaritat. El que volem veure a continuació és si existeix algun tipus de relació entre aquest dos paràmetres. Per tal de corroborar-ho, hem utilitzat el paquet de software estadístic R, el qual ens ha permès realitzar el test de Kolmogorov-Smirnov (dues mostres) de les dades per poder aprofundir en el seu anàlisi.

El test Kolmogorov-Smirnov (dues mostres) és un dels mètodes no-paramètrics més utilitzats per comparar la distribució de dues mostres. Per realitzar-ho tan sols és necessari dues columnes de dades, en el nostre cas percentatges d'identitat o de similaritat per cadascuna de les seqüències proteiques. El test té una gran sensibilitat per detectar diferències, localització i forma de les distribucions empíriques acumulatives de les dues mostres.

Materials i mètodes