EXON-fishing

Materials

Fitxers d'entrada de dades:

Format FASTA:

Els fitxers en format FASTA són fitxers dels que el seu nom té, o mes aviat sol tenir, extensió .fa. Aquest format s'utilitza per enregistrar seqüències. Cada seqüència va precedida d'una línia que comença amb el símbol '>' i segueix una paraula que identificarà la seqüència. A partir de la línia següent anirà enregistrada la seqüència, típicament trencada en línies de 50, 60 o 70 símbols. Un exemple de fitxer en format FASTA podria ser el següent:


>NM_145865.chr16
ctgcctggagagacatctggccaagttctggtgagcaggaaaaatgtctactcgttacca
cactcctctacattttgcagcctccaatggccatgcccactgcgtctcattcctggtcaa
ctttggtgccaacatctttgccctggataatgacttacagactccactggatgctgctgc
gggggccggctgctttctgctgctcacactgcct
>NM_145815.chr19
ccaagtcctctgttctcaaactctgagcccaagggaaccccggccacatctcctccaaac
tgggggccccttcatttcccaggtctggatcgattcacttgccgggagagactttttaca
actcatctgcagctccgggtgcggttgggggagatagcgaagggtctggcctcgctgtga
tctgatttgggattaaaggtttggaaatttaa

Format de la taula d'ús de codons:

Aquesta taula pot estar enregistrada en un fitxer de texte com a parells de valors codo-proporció:


GGG 0.01708
GGA 0.01931
GGT 0.01366
GGC 0.02494
GAG 0.03882
GAA 0.02751
GAT 0.02145
GAC 0.02706
GTG 0.02860
GTA 0.00609
GTT 0.01030
GTC 0.01501
GCG 0.00727
GCA 0.01550
...

Format de les matrius de pesos:

Les matrius de pesos estaran enregistrades de forma que cada fila especifiqui els pesos dels nucleòtids d'una posició determinada. El primer valor sera la posició, i els seguents quatre valors seran els corresponents als nucleòtids, l'ordre dels quals vindrà especificat a la primera línia que començarà amb la paraula P0. La última línia estara formada per la paraula XX seguida de la posició on comença (o acaba) l'exó. Un exemple d'aquest format és la següent matriu de pesos per puntuar senyals de donors a seqüències d'ADN de l'organisme humà:


P0       A        C       G        T
01   0.302    0.483  -0.305   -0.856
02   0.817   -0.667  -0.743   -0.474
03  -1.143   -0.782   1.123   -1.660
04   -9999    -9999   0.000    -9999
05   -9999    -9999   -9999    0.000
06   1.083   -2.097   0.135   -2.246
07   1.032   -1.093  -0.627   -1.111
08  -1.218   -1.479   1.257   -1.534
09  -0.411   -0.358  -0.136    0.492
XX 3

Fitxer de sortida de dades:

Format GFF:

Els fitxers en format GFF són fitxers dels que el seu nom té extensió .gff. El propòsit d'aquest format és proporcionar una forma estàndard d'enregistrar les anotacions generades a partir de seqüències genòmiques. El seu contingut està organitzat en columnes de la següent format:

seqid  source  feature  start  end  score  strand  frame [group]
...

on els valors no poden tenir cap espai tret de l'última columna, que a més es opcional, i estan separats entre sí per una tabulació. La descripció de cadascun dels valors és la següent:

  • seqid. Identificador de la seqüència a partir de la qual s'obte l'anotació (en el nostre cas aquesta anotació correspon a la predicció d'un exó.
  • source. Origen de l'anotació, que en el nostre cas, correspon al nom que li hem donat al nostre programa. En uns altres casos podria ser el nom de la base de dades de la qual prové l'anotació.
  • feature. Nom d'allò que estem anotant, o en unes altres paraules, tipus d'anotació. En el contexte d'aquest treball, utilitzarem els següents: termes First (primer exó, extrem 5'), Terminal (últim exó, extrem 3'), i Internal (exó que es troba entre el primer i l'últim).
  • start. Posició dins la seqüència on comença l'anotació. Serà sempre un nombre sencer entre 1 i la longitut de la seqüència i la posició referida formarà part de l'anotació. Aquesta posició ha de ser forçosament més petita o igual que a la posició especificada com a end. Això implica que les posicions de les anotacions fetes al strand negatiu han d'estar especificades respecte al strand positiu.
  • end. Posició dins la seqüència on acaba l'anotació. Serà sempre un nombre sencer entre 1 i la longitut de la seqüència.
  • score. Puntuació associada a l'anotació. Pot ser qualsevol número real. Es convenient utilitzar un nombre fix de xifres decimals. Si no hi hagues puntuació associada, hi escriurem el símbol del punt '.'.
  • strand. Serà el símbol + si l'anotació ha estat feta llegint la seqüència de 5' a 3', o el símbol - si l'anotació ha estat feta llegint la seqüència de 3' a 5'. Si aquesta informació no és rellevant, escriurem el símbol del punt '.'.
  • frame. Pauta de lectura en la qual s'ha fet l'anotació, serà un valor numèric entre 0, 1 i 2. Utilitzarem el símbol del punt quan la pauta de lectura no sigui rellevant. La pauta 0 indicarà que la primera base de l'anotació correspon a la primera base d'un codó. La pauta 1 indicarà que la primera base de l'anotació és la segona base del seu codó. La pauta 2 indicarà que la primera base de l'anotació és la tercera base del seu codó.
  • [group]. Aquest és un valor opcional, el qual pot estar format per lletres o números, i inclús espais, i que es sol fer servir per agrupar anotacions, com ara, exons que pertanyen a un mateix gen.

Un exemple de fitxer en format GFF seria el següent:



#
# GFF_sample.gff
#
chr1  geneid   Utr      150     500    1   +   .   "bio gene"
chr1  geneid   First    300     500    1   +   0   "bio gene"
chr1  geneid   Internal 750     1000   1   +   0   "bio gene"
chr1  geneid   Terminal 1250    1550   1   +   1   "bio gene"
chr1  geneid   Utr      1250    1800   1   +   .   "bio gene"
#
chr1  geneid   Utr      2600    2880   1   -   .   "rev gene"
chr1  geneid   First    2600    2775   1   -   0   "rev gene"
chr1  geneid   Internal 2350    2500   1   -   1   "rev gene"
chr1  geneid   Terminal 2230    2250   1   -   0   "rev gene"
chr1  geneid   Utr      2000    2250   1   -   .   "rev gene"

Com es pot observar, també es poden incloure línies de comentari que començaran amb el símbol '#'.