Materials

Eines utilitzades per desenvolupar el programa



1. Format dels fitxers d'entrada de dades

1.1 Format FASTA

Els fitxers en format FASTA són fitxers dels que el seu nom té o més aviat sol tenir, extensió .fa. Aquest format s'utilitza per enregistrar seqüències. Cada seqüència va precedida d'una línia que comença; amb el símbol '>' i segueix una paraula que identificarà la seqüència. A partir de la línia següent anirà enregistrada la seqüència, teòricament trencada en línies de 50, 60 o 70 símbols. Un exemple de fitxer en format FASTA podria ser el següent:

>NM_145865.chr16
ctgcctggagagacatctggccaagttctggtgagcaggaaaaatgtctactcgttacca
cactcctctacattttgcagcctccaatggccatgcccactgcgtctcattcctggtcaa
ctttggtgccaacatctttgccctggataatgacttacagactccactggatgctgctgc
gggggccggctgctttctgctgctcacactgcct

>NM_145815.chr19
ccaagtcctctgttctcaaactctgagcccaagggaaccccggccacatctcctccaaac
tgggggccccttcatttcccaggtctggatcgattcacttgccgggagagactttttaca
actcatctgcagctccgggtgcggttgggggagatagcgaagggtctggcctcgctgtga
tctgatttgggattaaaggtttggaaatttaa
	

1.2 Format de la taula d'ús de codons

Aquesta taula pot estar enregistrada en un fitxer de text com a parells de valors codó-proporció:

GGG 0.01708
GGA 0.01931
GGT 0.01366
GGC 0.02494
GAG 0.03882
GAA 0.02751
GAT 0.02145
GAC 0.02706
GTG 0.02860
GTA 0.00609
GTT 0.01030
GTC 0.01501
GCG 0.00727
GCA 0.01550
...
	

1.3 Format de les matrius de pesos

Les matrius de pesos estaran enregistrades de forma que cada fila especifiqui els pesos dels nucleòtids d'una posició determinada. El primer valor serà la posició i els següents quatre valors seran els corresponents als nucleòtids, l'ordre dels quals vindrà especificat a la primera línia que començar amb la paraula P0. La última línia estarà formada per la paraula XX seguida de la posició on comença (o acaba) l'exó. Un exemple d'aquest format és la següent matriu de pesos per puntuar senyals de donors a seqüències d'ADN de l'organisme humà:

P0       A        C       G        T
01   0.302    0.483  -0.305   -0.856
02   0.817   -0.667  -0.743   -0.474
03  -1.143   -0.782   1.123   -1.660
04   -9999    -9999   0.000    -9999
05   -9999    -9999   -9999    0.000
06   1.083   -2.097   0.135   -2.246
07   1.032   -1.093  -0.627   -1.111
08  -1.218   -1.479   1.257   -1.534
09  -0.411   -0.358  -0.136    0.492
XX 3
	

2. Format dels fitxers de sortida de dades

2.1 Format GFF

Els fitxers en format GFF són fitxers dels que el seu nom té extensió .gff. El propòsit d'aquest format és proporcionar una forma estàndard d'enregistrar les anotacions generades a partir de seqüències genòmiques. El seu contingut està organitzat en columnes de la següent forma:

seqid source feature start end score strand frame [group]

...

on els valors no poden tenir cap espai tret de l'última columna, que a més és opcional, i estan separats entre ells per una tabulació. La descripció de cadascun dels valors és la següent:

Un exemple de fitxer en format GFF seria el següent:

#
# GFF_sample.gff
#
chr1  geneid   Utr      150     500    1   +   .   "bio gene"
chr1  geneid   First    300     500    1   +   0   "bio gene"
chr1  geneid   Internal 750     1000   1   +   0   "bio gene"
chr1  geneid   Terminal 1250    1550   1   +   1   "bio gene"
chr1  geneid   Utr      1250    1800   1   +   .   "bio gene"
#
chr1  geneid   Utr      2600    2880   1   -   .   "rev gene"
chr1  geneid   First    2600    2775   1   -   0   "rev gene"
chr1  geneid   Internal 2350    2500   1   -   1   "rev gene"
chr1  geneid   Terminal 2230    2250   1   -   0   "rev gene"
chr1  geneid   Utr      2000    2250   1   -   .   "rev gene"
	

Com es pot observar, també és poden incloure línies de comentari que començaran amb el símbol '#'.


TORNAR A DALT