ACANTHAMOEBA CASTELLANII

Materiales y Métodos

Búsqueda de Selenoproteínas en Acanthamoeba castellanii

Búsqueda de selenoproteínas y homólogos de Cisteína existentes

Para la búsqueda de selenoproteínas homólogas a las identificadas hasta el momento en Homo sapiens y Drosophila melanogaster se siguen los siguientes pasos:

1. Buscar el genoma de Acanthamoeba castellanii
El genoma del organismo a analizar no está completamente secuenciado y se encuentra fragmentado en diferentes contigs. Con el fin de disponer de este material con mayor facilidad, los contigs están almacenados en:

/disc8/genomes/A.castellani/genome.fa


2. Obtener las secuencias proteicas de las selenoproteínas
Se descargan de la base de datos SelenoDB las secuencias proteicas de las selenoproteinas y homologos de cisteina descritas en Homo sapiens y Drosophila melanogaster.

3. tBLASTn
Se comparan las secuencias de las selenoproteínas (query) descargadas con el genoma de nuestro organismo a analizar (subject). Para poder realizar el tBLASTn se utilizan los siguientes comandos en el shell del Unix:

export PATH=$PATH:/disc8/bin/ncbiblast/bin
blastall -p tblastn -i (query.fa) -d (subject.fa) -o (query.blast.out)
blastall -p tblastn -i (query.fa) -d (subject.fa) -o (query.blast.out) -m9
(información en forma de tabla)


Una vez obtenidos los resultados del tBLASTn se analizan y se escogen aquellos que siguen los sigueintes criterios:
  • Aceptar como significativos los hits que tienen un E-value < 10-7. Aunque en algunos casos E-value de mayor valor también se analizan, considerando que nuestra especie está muy alejada filogenéticamente de Homo sapiens y Drosophila melanogaster.
  • Valor de score lo más alto posible.
  • Analiar el alineamiento para comprobar si la selenocisteína o la cisteína de Homo sapiens o Drosophila melanogaster se ha alineado con nuestro genoma, y/o si la homología en el alineamiento es elevada.
4. Extraer de la región genómica alineada
Se extrae el contig en el que se encuentra la secuencia alineada obtenida con el tBLASTn mediante fastafech. Para ello se utilizan los siguientes comandos en el shell:

export PATH=/disc8/bin:$PATH
export PATH=/disc8/bin/exonerate/bin:$PATH
fastafetch /disc8/genomes/A.castellani/genome.fa /disc8/genomes/A.castellani/genome.index (Contigs) > (query.contig.fa)


Posteriormente se extrae la subsecuencia de este contig en la que se encuentra la secuencia alineada con el tBLASTn y 3000 bases upstream y downstream, mediante el siguiente comando:

fastasubseq (query.contig.fa) (nt inicial) (longitud) > (query.secuencia.fa)


5. Predecir los genes
Se predicen los exones e intrones de nuestra supuesta selenoproteína u homologa con cisteína utilizando el programa GeneWise, con los comandos necesarios para que se muestre el cDNA, el péptido y el archivo gff:

export PATH=/disc8/bin:$PATH
export WISECONFIGDIR=/disc8/soft/wise-2.2.0/wisecfg
genewise -pep -pretty -cdna -gff (query.fa) (query.secuencia.fa)


En caso que el hit se encuentre en la cadena complementaria, el último comando se reemplaza por:

genewise -pep -pretty -cdna -gff -trev (query.fa) (query.secuencia.fa) > (genewise.gff)


Para asegurarse de que se trata de una selenoproteína es necesario que la selenocisteína de la proteína query se alinee con un codón reconocido como stop en la secuencia de Acanthamoeba castellanii.

En algunos casos en la proteína query la selenocisteína se puede encontrar al final y al realizar el Genewise la proteína obtenida del subject se detiene en ese codón stop. Para obtener toda la secuencia aminoacídica lo que se debe hacer es cambiar el codón stop por otro. Para ello, primero se pasa la región genómica extraída a un frame positivo (en caso de que sea la cadena complementaria), con el comando:

/disc8/bin/exonerate/bin/fastarevcomp (query.secuencia.fa) > (query.secuenciarev.fa)


Posteriormente se vuelve a realizar el GeneWise y se comprueba que se obtiene toda la secuencia aminoacídica y que el codón cambiado traduce un aminoácido que se alinea con la selenocisteína del query.

6. Protein BLAST
La utilización del protein BLAST a través de la página web del NCBI, ayuda a confirmar que la proteína predicha es realmente homóloga a la selenoproteína query y no es más similar a otra proteína diferente. Por tanto, en primer lugar se realiza un BLASTp contra el genoma del organismo de la proteína query y, en segundo lugar, contra todos los genomas disponibles.

7. Alinear la proteina query con la selenoproteína predicha
Una vez obtenida la secuencia proteica de la selenoproteína en nuestra especie, se puede alinear con la secuencia del query inicial para poder analizar su homología. Para ello se utiliza el programa t_coffee introduciendo los siguientes comandos en el shell:

export PATH=/disc8/bin:$PATH
t_coffee (query.fa) (secuencia.predicha.fa)


Además, el fichero que se obtiene puede ser utilizado para realizar alineamientos globales con ClustralW.

8. Comprobación de dominios
Para estar seguros de que la proteína encontrada tiene los mismos dominios que la inicial y cumple la misma función se realiza una búsqueda de éstos mediante el software Pfam disponible en linea. Al introducir la secuencia predicha este programa muestra los posibles dominios que ésta secuencia introducida puede tener y la funció que pueden desempeñar.

9. Búsqueda del elemento SECI
Se comprueba si la secuencia obtenida es una selenoproteína buscando un elemento SECI en el extremo 3' UTR del mRNA, siguiendo los siguientes pasos:

  • Del archivo query.secuencia.fa extraer 2000 bases downstream a partir del último nucleótido del cDNA predicho por el GeneWise, utilizando el comando de fastasubseq (como en el apartado 4)
  • Ratrear con el SECISearch la secuencia
  • Analizar los resultados con los siguientes criterios:
    • Score significativo > 15.00
    • Estructura adecuada
    • Conservación de la secuencia consenso

Búsqueda de las proteínas de la maquinaria necesaria para la síntesis de selenoproteínas

1. Obtener de las secuencias proteicas de la maquinaria
Nos descargamos de la base de datos SelenoDB las secuencias proteicas de la maquinaria descritas en Homo sapiens y Drosophila melanogaster.

2. tBLASTn
Se comparan las secuencias de las proteínas (query) descargadas con el genoma de nuestro organismo a analizar (subject). Para poder realizar el tBLASTn se utilizan los siguientes comandos en el shell del Unix:

export PATH=$PATH:/disc8/bin/ncbiblast/bin
blastall -p tblastn -i (query.fa) -d (subject.fa) -o (query.blast.out)
blastall -p tblastn -i (query.fa) -d (subject.fa) -o (query.blast.out) -m9
(para obtener la información en forma de tabla)


Una vez obtenidos los resultados del tBLASTn se analizan y se escogen aquellos que siguen los sigueintes criterios:
  • Aceptar como significativos los hits que tienen un E-value < 10-7. Aunque en algunos casos E-value de mayor valor también se analizan, considerando que nuestra especie está muy alejada filogenéticamente de Homo sapiens y Drosophila melanogaster.
  • Valor de score lo más alto posible.
  • Analiar el alineamiento para comprobar si la selenocisteína o la cisteína de Homo sapiens o Drosophila melanogaster se ha alineado con nuestro genoma, y/o si la homología en el alineamiento es elevada.
3. Extraerla región genómica alineada.
Se extrae el contig en el que se encuentra la secuencia alineada obtenida con el tBLASTn mediante fastafech. Para ello se utilizan los siguientes comandos en el shell:

export PATH=/disc8/bin:$PATH
export PATH=/disc8/bin/exonerate/bin:$PATH
fastafetch /disc8/genomes/A.castellani/genome.fa /disc8/genomes/A.castellani/genome.index
(Contigs) > (query.contig.fa)


Posteriormente se extrae la subsecuencia de este contig en la que se encuentra la secuencia alineada con el tBLASTn y 3000 bases upstream y Downstream, mediante el siguiente comando:

fastasubseq (query.contig.fa) (nt inicial) (longitud) > (query.secuencia.fa)


4. Predecir los genes
Se predicen los exones e intrones de nuestra supuesta selenoproteína u homologa con cisteína utilizando el programa GeneWise, con los comandos necesarios para que se muestre el cDNA, el péptido y el archivo gff:

export PATH=/disc8/bin:$PATH
export WISECONFIGDIR=/disc8/soft/wise-2.2.0/wisecfg
genewise -pep -pretty -cdna -gff (query.fa) (query.secuencia.fa)


En caso que el hit se encuentre en la cadena complementaria, el último comando se reemplaza por:

genewise -pep -pretty -cdna -gff -trev (query.fa) (query.secuencia.fa) > (genewise.gff)


5. Protein BLAST
La utilización del protein BLAST a través de la página web del NCBI, ayuda a confirmar que la proteína predicha es realmente homóloga a la selenoproteína query y no es más similar a otra proteína diferente. Por tanto, en primer lugar se realiza un BLASTp contra el genoma del organismo de la proteína query y, en segundo lugar, contra todos los genomas disponibles.

6. Comprobación de dominios
Para estar seguros de que la proteína encontrada tiene los mismos dominios que la inicial y cumple la misma función se realiza una búsqueda de éstos mediante el software Pfam disponible en linea. Al introducir la secuencia predicha este programa muestra los posibles dominios que ésta secuencia introducida puede tener y la funció que pueden desempeñar.

7. Alinear la proteina query con la selenoproteína predicha
Una vez obtenida la secuencia proteica de la selenoproteína en nuestra especie, se puede alinear con la secuencia del query inicial para poder analizar su homología. Para ello se utiliza el programa t_coffee introduciendo los siguientes comandos en el shell:

export PATH=/disc8/bin:$PATH
t_coffee (query.fa) (secuencia.predicha.fa)


Además, el fichero que se obtiene puede ser utilizado para realizar alineamientos globales con ClustralW.

Búsqueda de tRNAs de selenocisteína

Mediante el software tRNAscan-SE se rastrea todo el genoma de interés en búsqueda de posibles tRNAs que codifican para selenocisteína. Se obtiene un documento donde se busca la presencia del codón que codifica para Sec (los resultados fueron facilitados por Marco Mariotti)

Búsqueda de nuevas selenoproteínas

Una vez encontradas las selenoproteínas homólogas a las descritas en Homo sapiens y Drosophila melanogaster, se pueden buscar proteínas candidatas a ser selenoproteína. Éstas deben cumplir dos requisitos:

- Estar cerca de un elemento SECIS

- Ser homóloga a una proteína (no selenoproteína) con una cisteína o un codón stop que alinee con un codón stop (posible selenocistína) en el genoma en estudio.

Con este fin se siguieron los siguientes pasos (protocolo facilitado por Robert Castelo):

1.
Ejecutar el programa SECISearch sobre el genoma interés e indicar que únicamente guarde los SECIS con deltaG < -30 (recomendado por Charles Chapple) usando el siguiente comando en el shell:

perl SECISearch.pl -vp s -e -30 genoma.fa


Se crea un fichero genome.fa.std.secis

2.
Buscar los nombres de los contigs que tienen SECIS (cambiando "genome.fa.std.secis" por el nombre del fichero que os dio el SECISearch.pl). Este comando guarda los nombres de los contigs que tenían SECIS. Se trata de buscar las líneas con ">" que son las que tienen el nombre del contig. Luego se tiene que correr sobre el fichero de salida del SECISearch (generalmente llamado genome.fa.std.secis)

i. Para el strand positivo:

egrep ">" genome.fa.std.secis | grep -v complemen | gawk -F: '{print $1}' | sed 's/>//' | sort | uniq > nombres_mas


ii. Para el strand negativo

egrep ">" genome.fa.std.secis | grep complemen | gawk -F: '{print $1}'| sed 's/>//' | sort | uniq > nombres_menos


3.
En el fichero nombres_mas se conservan los nombres de los contigs que tenían un SECIS en el strand positivo y en nombres_menos los que tenían un SECIS en el strand negativo.

4.
Para extraer la secuencia de los contigs que nos interesan se usa el programa retrieveseqs.pl. Correr este comando, cambiando "ESPECIE" por Acanthamoeba castellanii.

perl retrieveseqs.pl -vf /disc8/genomes/ESPECIE/genome.fa nombres_mas > contigs_mas.fa perl retrieveseqs.pl -vf /disc8/genomes/ESPECIE/genome.fa nombres_menos > contigs_menos.fa


Se crean dos archivos (contigs_mas.fa y contigs_menos.fa) donde se encuentran en formato FASTA los contigs que tenían SECIS en cada strand.

5.
Para cambiar los contigs del strand negativo a strand positivo:

/disc8/bin/exonerate/bin/fastarevcomp contigs_menos.fa > contigs_menos.revcomp.fa


6.
Y concatenarlos todos en un fichero:

cat contigs_mas.fa contigs_menos.fa > contigs_todos.fa


7.
Crear un directorio llamado salidas donde irán los ficheros que crearemos en los siguientes pasos:

mkdir salidas

8.
A continuación se extrae una región de 500nt upstream de cada contig donde hubiera un SECIS predicho. "genome.fa.std.secis" es el nombre del fichero de salida de SECISearch.

Para el strand positivo:

grep ">" genome.fa.std.secis | grep -v comple | perl -ne '/>(.+?):\[(\d+)/; my $a=$2-500; my $b=$2; my $name=$1; $name=~/(\d+)/; my $outname=$1; if ($b>=500){ system("perl retrieveseqs.pl -vfn contigs_todos.fa \"$name\" > contig_temp.fa; /disc8/bin/exonerate/bin/fastasubseq -s $a -l 500 contig_temp.fa> salidas/$outname.$b.subseq.fa") }'


Para el strand negativo:

grep ">" genome.fa.std.secis | grep comple | perl -ne '/>(.+?):\[\d+,(\d+)/; my $a=$2-500; my $b=$2; my $name=$1; $name=~/(\d+)/; my $outname=$1; if ($b>=500){ system("perl retrieveseqs.pl -vfn contigs_todos.fa \"$name\" > contig_temp.fa; /disc8/bin/exonerate/bin/fastasubseq -s $a -l 500 contig_temp.fa> salidas/$outname.$b.menos.subseq.fa") }'


Se obtendrá en la carpeta "salidas" un fichero para cada SECIS (Ejemplo: 12345.678.menos.subseq.fa donde 12345 será el numero del contig y 678 el punto del inicio del SECIS). Los ficheros .menos son donde el SECIS estaba en el strand negativo (aunque, en realidad, ya los pasamos anteriormente al strand positivo)

Se asume que, en el caso de que el SECIS predicho sea real, tendrá algún exón codificante y una selenocisteína en los primeros 500nt upstream al SECIS.

9.
Se usa el programa trans.pl, que traduce las secuencias por defecto en 3 pautas (no analiza el strand complementario), y substituye los codones TGA por una "U" y los otros dos codones de stop como "*".

Para traducir:

for n in $(/bin/ls salidas/*fa); do echo "traduciendo $n..."; perl trans.pl $n > $n.pep; done


Para concatenar todo en un fichero:

cat salidas/*pep > salidas/contigs_todos.pep


Y para realizar el BLAST:

blastcl3 -p tblastn -i salidas/contigs_todos.pep -d nr > contigs-nr.out


Esta última comanda la realizó Charles Chapple pues desde la facultad no nos era posible. Se le envió el fichero salidas/contigs_todos.pep y él devolvió los resultados.

10.
Posteriormente, se ejecuta el programa perl creado por miembros de nuestro grupo (con la ayuda indispensable de Charles Chapple y Nicolás) para recoger únicamente los alineamientos en qué un codón TGA (U, es decir, selenocisteína) se alinea con una cisteína o un codón stop. Una vez obtenido el fichero con los resultados se analiza para conocer las proteínas (por falta de tiempo no se ha seguido con esta faena).