Identificación y Clasificación de Regiones Codificantes de Proteínas: Un Estudio Comparativo de Métodos Independientes del Modelo de ADN Codificante

Jesús P. Mena Chalco

Tesis presentada a la Escuela Profesional de Ingeniería de Sistemas para la obtención del título profesional de Ingeniero de Sistemas.

Arequipa, 16 de Enero de 2008

Resumen

Un tópico importante en el análisis de secuencias biológicas es la identificación de regiones codificantes de proteínas. En ese contexto, diferentes métodos independientes del modelo de ADN codificante fueron estudiados. Estos métodos son basados en la búsqueda de patrones periódicos genómicos específicos propios de las regiones codificantes de proteínas; sin embargo, no son completamente satisfactórios debido a la dependencia sobre el tamaño de ventana el cual debe se ser previamente definido para analizar localmente una región de ADN. Alternativamente, un nuevo método de identificación de regiones codificantes de proteínas para organismos eucariotos, basado en la transformada modificada de Morlet, fue propuesto recientemente. Esa nueva transformada multi-escala permite evitar la dependencia del tamaño de ventana, analizando secuencias de ADN con funciones de frecuencia tres y de escala variable.

En el presente trabajo es realizado un análisis comparativo de los métodos más representativos de identificación y clasificación de regiones codificantes de proteínas en secuencias de ADN. El estudio esta concentrado en la definición de nuevos procedimientos de comparación entre métodos basados únicamente en medidas independientes del modelo de ADN codificante. Son cuatro los métodos evaluados incluyendo los basados en: (1) transformada modificada de Morlet, (2) información mutua media, (3) spectrum de Fourier, y (4) características espectrales de Fourier. Finalmente son discutidas situaciones biológicas donde la exactitud de los métodos de identificación de regiones codificantes aún este lejos de lo idealmente esperado.

Palabras clave: identificación y clasificación de regiones codificantes de proteínas, periodicidad en las regiones codificantes, métodos independientes del modelo de ADN codificante, bioinformática.


Índice General

Agradecimientos

Es con mucha satisfacción que, finalmente, concluyo una etapa académica que debió ser realizada hace varios años. Siendo que hasta ahora fueron pocas las logradas en mi vida, esta etapa -muchas veces olvidada- fluctuaba recurrentemente en mis pensamientos.

Deseo agradecer profundamente a mis padres Emílio y Julia, y a mis hermanos Rafael, Senovia y Madelyn por todo el gran apoyo y fuerza que siempre me dan. Agradezco especialmente a Elizabeth por toda la ayuda, el amor y paciencia de todos estos últimos años.

Estoy muy agradecido a los profesores Luis Alfaro Casas, Pedro Rodríguez Gonzáles, y Alfredo Paz Valderrama, miembros del jurado de esta tesis por su ayuda incondicional, sugerencias y recomendaciones para la presentación final de este trabajo. De igual manera, deseo agradecer a mi profesor y amigo Roberto Marcondes Cesar Junior del Departamento de Ciencia de la Computación de la Universidad de São Paulo, por darme la oportunidad de trabajar en el área de reconocimiento de patrones y bioinformática en el Laboratorio de Bioinformática y Procesamiento de Imágenes.

Agradezco a todos quienes de forma directa o indirecta me ayudaron en la elaboración y presentación de este trabajo, ya sea intercambiando ideas, dando consejos y recomendaciones o haciendo alegres el tiempo dedicado al mismo. Quiero citar especialmente a los profesores: Robert Arisaca Mamani, César Baluarte Araya, César Beltran Castañón, Eveling Castro Gutierrez, Lucy Delgado Barra, Juan Carlos Gutierrez Cáceres, Percy Huertas Niquén, Juan Carlos Juarez Bueno, y Wilber Ramos Lovón.

Finalmente, pero no en último lugar, deseo agradecer a Eliana Merma Rodríguez, y a todo personal administrativo de la universidad por todo el apoyo dado. También a mis compañeros de promoción de la EPIS, en especial a Richard Arias Arias, César Agramonte Quispe, Fredy Calizaya López, Alvaro Cuno Parari, Dennis Barrios Aranibar, Nelly Condori Fernández, Cristian López del Álamo, Liliana Mamani Sánchez, Raquel Patiño Escarcina, Arturo Palacios Aguilera, Christian Paz Trillo, Viviana Pino Mestas, y Gustavo Salazar Torres. ¡Por todo gracias!

Lista de abreviaciones

AC Correlación aproximada (Approximate correlation)
AUC Área bajo la curva ROC (Area under the ROC curve)
ADN Ácido desoxy ribonucléico (Deoxyribonucleic acid)
bp Par de base (Base pair)
CDS Región codificante de proteína (Coding sequence, protein coding sequence)
DSP Procesamiento digital de señales (Digital signal processing )
EIIP Potencial de interação elétron-íon (electron-ion interaction potentials)
FN Falso negativo (False negative)
FP Falso positivo (False positive)
mRNA RNA mensageiro (Messenger RNA)
MMT Transformada modificada de Morlet (Modified Morlet transform)
RNA Ácido ribonucléico (Ribonucleic acid)
ROC Característica de operación del receptor (Receiver operating characteristics)
Sn Sensibilidad (Sensitivity)
Sp Especificidad (Specificity)
TBP Periodicidad de tres bases (Three-base periodicity)
TN Verdadero negativo (True negative)
TP Verdadero positivo (True positive)

Lista de símbolos

$^\ast$ Complejo conjugado
$a$ Escala
$j$ Número imaginario, $\sqrt{-1}$
$s$ Señal (discreto o contínuo)
$t$ Tiempo o posición
$\vert.\vert$ Valor absoluto de un número
A Base adenina
C Base citocina
G Base guanina
T Base timina
U Base uracila
$u_X$ Secuencia binaria asociada a las posiciones de la base X
$U_X$ Transformada de Fourier de la secuencia $u_X$


Índice de Figuras


Índice de tablas


1. Introducción


1.1 Consideraciones preliminares

Los recientes avances en bioinformática, procesamiento de señales genómicas, e información de entropía han generado mucho interés debido a la integración de teoría y métodos con entendimiento global de genómica funcional de organismos [Costa, 2005; Dougherty et al., 2005]. Cuando un nuevo organismo es secuenciado, es deseable obtener toda su información posible. Un paso fundamental es la identificación de regiones codificantes de proteínas en una cinta de la secuencia de ADN la cual posiblemente represente la estructura biológica de los genes [Haussler, 1998; Zhang, 2002]. Los métodos para identificación de regiones codificantes descritos en la literatura pueden ser agrupados en diferentes maneras. Blanco and Guigó [2004] dividen los diversos métodos en tres enfoques: búsqueda por contenido, búsqueda por señal (también referido como búsqueda por sitios) y búsqueda por similaridad1.1.

Búsqueda por contenido se refiere a métodos que buscan segmentos de ADN con propiedades específicas como frecuencia de nucleótidos, composición de nucleótidos con abundante G/C o A/T, composición de códons e islas CpG [Haussler, 1998]. Por otro lado, búsqueda por sitios y búsqueda por similaridad se refieren a métodos que están basados en informaciones (base de datos) previamente conocidas, y que son usadas para entrenar un clasificador supervisado como Cadenas de Markov, por ejemplo [Borodovsky and McIninch, 1993].

Guigó [1999] sugiere una taxonomía ligeramente diferente para estos métodos, dividiéndolos en métodos dependientes y no-dependientes del modelo de codificación de ADN. Métodos dependientes del modelo son construídos sobre alguna información conocida a priori, que están usualmente disponibles en bases de datos genómicos de organismos previamente estudiados. Métodos independientes del modelo no asumen tal información a priori. Estas diferencias explican porque programas para identificar genes están típicamente basados en combinaciones de tales técnicas: métodos dependientes del modelo tienden a ser más precisos porque ellos cuentan con información a priori para entrenar los clasificadores. Sin embargo, nuevos organismos secuenciados pueden tener regiones codificantes que no son representados en las bases de datos disponibles y así pueden no ser identificados. En tales situaciones, métodos independientes del modelo complementan las capacidades para, computacionalmente, detectar las regiones codificantes. El presente estudio evalúa los métodos independientes del modelo de codificación más representativos para la clasificación e identificación de regiones codificantes de proteínas, como se describe en los objetivos del trabajo.


1.2 Regiones codificantes de proteínas

En secuencias de ADN, las regiones codificantes de proteínas típicamente muestran una organización periódica imperfecta de tres bases [Silverman and Linsker, 1986] la cual no es encontrada en otras regiones: como las regiones intergénicas e íntrons en eucariotos. En recientes años esta característica ha sido analizada para explicar su causa [Gutierrez et al., 1994; Pierre et al., 1995; Trifonov and Sussman, 1980; Tsonis et al., 1991; Zhurkin, 1981] y así poder cuantificarla [Eskesen et al., 2004; Silverman and Linsker, 1986]. En la literatura, esta periodicidad es comúnmente llamada de periodicidad de tres bases (TBP, three-base periodicity), habiendo sido observado en manera similar para di-nucleótidos en bacterias de cromosomas [Lopez-Villasenor et al., 2004].

La TBP refleja relaciones entre posiciones de nucleótidos en las regiones codificantes [Gutierrez et al., 1994]. Sin embargo, es posible encontrar excepciones de esta propiedad genómica en regiones codificantes de secuencias virales y de mitocondrias [Li, 1997]. Periodicidad de aproximadamente 11 bases ha sido encontrada en regiones intergénicas de E. coli, y los estudios sugieren que esta es una propiedad típica de esas regiones, posiblemente para regulación de transcripción [Hosid et al., 2004].

En el Apéndice C es mostrado un análisis empírico de periodicidad en conjuntos genómicos de secuencias de ADN.


1.3 Identificación de regiones codificantes de proteínas

Actualmente existen varios estudios de métodos concentrados en características de correlación de periodicidad tres entre posiciones de nucleótidos. Nuevas metodologías computacionales que combinan procesamiento digital de señales y reconocimiento de patrones han sido creados en estudios de bioinformática [Chen et al., 2003; Liò, 2003; Zhang et al., 2002] presentando prometedores resultados.

La identificación de regiones codificantes de proteínas basado en el spectrum de Fourier fue discutido en [Anastassiou, 2000; Li, 1997; Silverman and Linsker, 1986; Tiwari et al., 1997]. Kotlar and Lavner [2003], estudiaron la rotación espectral; Datta and Asif [2005], usaron características espectrales de Fourier; y Vaidyanathan and Yoon [2004], usaron filtros digitales para resolver el mismo problema de identificación. Tales enfoques brindan una base matemática robusta y algoritmos computacionalmente eficientes.

Adicionalmente, otros métodos independientes del modelo de ADN codificante han sido satisfactoriamente usados para identificar localmente regiones codificantes en secuencias de ADN. Konopka [1990] analizó secuencias usando índices de asimetría periódica en nucleótidos, Fickett and Tung [1992] usaron asimetría de posiciones en nucleótidos; y Grosse et al. [2000], usaron información mutua media como una medida intimante relacionada a la entropía en secuencias de ADN. Sin embargo, los resultados de estos estudios son limitados debido a que requiere de una definición a priori del tamaño de ventana. La definición del tamaño de ventana a ser usada en el análisis de secuencias de ADN es crítica porque afecta directamente los resultados [Liew et al., 2005]. Por tal motivo, para evitar esa dependencia, métodos alternativos aparecieron para explorar diferentes tamaños de ventanas, como la transformada en wavelets [Chen and Zhang, 2003; Ning et al., 2003].

Una manera natural de realizar un análisis de secuencias de ADN, tomando ventaja del enfoque multi-escala, consiste en usar pequeñas escalas para analizar pequeñas regiones codificantes de proteínas y usar grandes escalas para grandes regiones. Transformadas tiempo-escala tradicionales, como en wavelets, podrían ser la forma natural para ser aplicada en tales situaciones. Sin embargo, el análisis en wavelets no es completamente adecuado, dado que la frecuencia de las funciones de análisis varían con el parámetro de la escala. Este hecho motivó la definición de un nuevo método para la identificación de regiones codificantes, basado en la transformada modificada de Morlet [Mena-Chalco and Cesar-Jr., 2006; Mena-Chalco, 2005], el cual permite analizar una señal, variando la escala y manteniendo constante la frecuencia en las funciones de análisis.

En 1996, Burset y Guigó, realizaron un estudio comparativo entre vários métodos de identificación de regiones codificantes, de los cuales únicamente cuatro fueron los métodos independientes del modelo de ADN codificante [Burset and Guigó, 1996]. Desde ese estudio hasta la actualidad fueron diversos los métodos creados para identificación de regiones codificantes (basados en medidas independientes del modelo de codificación). La falta de un procedimiento de comparación y evaluación de desempeño entre métodos de identificación y clasificación, y la falta de un estudio comparativo entre métodos del estado-del-arte, motivó principalmente este trabajo de investigación.


1.4 Objetivos

1.4.1 Objetivo general

Realizar un análisis comparativo de métodos más representativos, independientes del modelo de codificación biológica, para la identificación y clasificación de regiones codificantes de proteínas en secuencias de ADN.

El análisis comparativo será realizado entre cuatro de los métodos más representativos de identificación y clasificación de regiones codificantes de proteínas en secuencias de ADN, incluyendo los basados en:

1.4.2 Objetivos específicos


1.5 Organización del trabajo

El presente trabajo está organizado de la siguiente forma: En el capítulo 2 son tratados algunos conceptos básicos de biología molecular. En el capítulo 3 están descritos los métodos de identificación y clasificación de regiones codificantes comprendidos en la evaluación. Las medidas de desempeño adoptadas en la identificación de regiones y clasificación de secuencias de ADN están descritos en el capítulo 4. En el capítulo 5 son mostrados resultados y discuciones correspondientes al análisis de secuencias genómicas reales. Finalmente, las conclusiones obtenidas de la evaluación son descritas en el capítulo 6.


2. Conceptos biológicos

Consideramos a lo largo de este trabajo y de manera indistinta el uso de los términos nucleótidos y bases de ADN. Consideramos también que el tamaño de una secuencia de ADN o ARN es medido por la cantidad de nucleótidos existentes solamente en una cinta. La unidad utilizada es par de base (bp, base pair).


2.1 Ácidos nucléicos

Todo organismo vivo, sin ninguna excepción conocida, almacena su información biológica en forma de moléculas de ácidos nucléicos, formadas por nucleótidos, para construirse y mantenerse. Cada nucleótido, a su vez, consiste de: (1) una molécula de azúcar (desoxiribosa o ribosa), (2) un grupo fosfato y, (3) una segunda molécula llamada de base nitrogenada [Alberts et al., 2002].

Existen cinco tipos de bases nitrogenadas. Las encontradas en el ácido desoxiribonucléico (ADN o DNA, Desoxyribonucleic acid) son: adenina ( A), citosina ( C), guanina ( G) y timina ( T), de modo que una secuencia de bases nitrogenadas de ADN esta formada sólo por A, C, G y T. En el ácido ribonucléico (ARN) existe una substitución de timina por uracila ( U) y la secuencia de ARN es formada por las bases A, C, G y U.

El ácido desoxiribonucléico es representado como una doble cinta complementaria y antiparalela2.1, siendo por medio de los nucleótidos que las dos cintas componentes de molécula de ADN permanecen enlazadas. El ADN posee el esquema de emparejamiento donde el nucleótido A siempre se enlaza al nucleótido T y el nucleótido C siempre se enlaza al nucleótido G por puentes de hidrógeno. Por convención, una molécula de ADN comienza en el lado $5'$ y termina en el lado $3'$, donde $5'$ y $3'$ corresponden a los átomos de carbono libres de la molécula de azúcar presentes en cada nucleótido [Alberts et al., 2002]. Cada una de las cintas componentes de la molécula posee una orientación propia, donde el final de una corresponde al inicio de la otra (Figura 2.1).

Figura 2.1: Representación de DNA como una doble cinta complementaria y antiparalela.
\includegraphics[scale=.5]{dnaduplafita}

El ácido ribonucléico (ARN o RNA, Ribonucleic acid), es representado como una cinta única de ácidos nucléicos, que diferente del ADN, tiene azúcar ribosa y uracila en lugar de timina. Esa cinta es obtenida mediante la transcripción de una de las cintas de ADN (Figura 2.2(c)). Son tres los tipos de ARN: (1) ARN mensajero (mARN) que contiene la información para la codificación de proteínas, (2) el ARN transportador (tARN), que es responsable por el transporte de aminoácidos, y (3) el ARN ribosomal (rARN), que posee un papel estructural.

Las diferencias entre ADN y ARN no se restringe a los tipos de nucleótidos que los constituyen. En la mayor parte de las veces, el ADN es presentado como una larga doble hélice y con una estructura secundaria regular y simple. Por otro lado, el ARN se presenta como una cinta única y de tamaño menor que el ADN, con una grande diversidad de estructuras secundarias relacionadas a las funciones del ADN y del ARN en la célula [Alberts et al., 2002].


2.2 Aminoácidos

Los aminoácidos son moléculas orgánicas que contienen átomos de carbono, hidrógeno, oxígeno y nitrógeno en su composición, siendo el resultado de la traducción de agrupamientos funcionales de moléculas de ADN. Los aminoácidos forman pequeñas cadenas de polímeros llamados polipeptideos, peptideos o monómeros de proteínas.

De los más de 500 tipos de aminoácidos encontrados en la naturaleza, son 20 los más comunes o universalmente aceptados para la síntesis, i.e., codificación de proteínas. Los vegetales tienen la capacidad de producir esos 20 aminoácidos necesários para la producción de sus proteínas. Sin embargo, las células de animales no producen todos ellos, siendo que algunos deben ser ingeridos. Por todo eso, los aminoácidos son clasificados de esenciales, que no pueden ser producidos por los animales y, los no esenciales, que pueden ser producidos por animales.

Será adoptada la representación clásica [Alberts et al., 2002] de una y tres letras para cada uno de los 20 aminoácidos (Tabla 2.1).

Tabla 2.1: Códigos, abreviaturas y nombres de los aminoácidos.
Código Abreviatura Nombre completo
A Ala Alanina
C Cys Cisteína
D Asp Ácido aspartico
E Glu Ácido glutamico
F Phe Fenilalanina
G Gly Glicina
H His Histidina
I Ile Isoleucina
K Lys Lisina
L Leu Leucina
M Met Metionina
N Asn Asparagina
P Pro Prolina
Q Gln Glutamina
R Arg Arginina
S Ser Serina
T Thr Treonina
V Val Valina
W Trp Tiptofano
Y Tyr Tirosina



2.3 Genes

Los genes son los responsables por la expresión de una proteína, o responsables por el control de expresión de otros genes [Alberts et al., 2002]. Todos los genes tienen una estructura compleja, pero para fines prácticos consideramos los genes como constituidos por las siguientes regiones características:

  1. Región de reconocimiento (región promotora);
  2. Región de inicio de transcripción;
  3. Región no traducida $5'$, que regula la transcripción génica;
  4. Región de início de traducción, o códon de inicio (start codon);
  5. Región para la codificación de proteínas (CDS). Para procariotos se considera una única región. Sin embargo, en los genes de organismos eucariotos es considerada una secuencia alternada de exón/intrón separadas por regiones de corte (donor splice site o $5'$ splice site) y regiones aceptadoras (acceptor splice site o $3'$ splice site). Consideramos un exón como una región necesaria para la codificación de proteínas, y un intrón como una región no presente en la codificación con funciones aún desconocidas;
  6. Región de parada de traducción, o códon de parada (stop codon);
  7. Región no traducida $3'$;
  8. Región de poliadenilación rica en adenina (polyA), presente en los eucariotos;
  9. Región de parada de transcripción.

Las funciones de las regiones de ADN existentes entre los genes (regiones intergénicas) aún no son conocidas por completo [Alberts et al., 2002]. El proceso de duplicación2.2 do ADN es llamado de replicación de ADN (Figura 2.2(a)). La transcripción de una secuencia de ADN en una otra secuencia es llamada de pre-RNA (Figura 2.2(b)) y el proceso que permite la retirada de los intrones para la obtención del mARN es llamada de corte (splicing) (Figura 2.2(c)). Ciertos genes pueden hacer esta retirada de forma variante, llamada de corte alternativo (alternative splicing). El proceso biológico que hace la codificación del mARN, mediante el tARN y ribosoma, es llamado de traducción (Figura 2.2(d)).

Figura 2.2: Representación del Dogma Central de la Biología Molecular: (a) cinta de ADN conteniendo regiones génicas, (b) cinta de pre-mARN donde estan representados los exones e intrones, (c) cinta de mARN, con intrones eliminados, e (d) una secuencia de aminoácidos que, traducidos, forman una proteínas.
\includegraphics[scale=.47]{dogma_central}

Existe un caso no usual de genes que son transcritos pero no traducidos, llamados de genes de ARN no-codificantes (noncoding RNA genes). Vea en [Zhang, 2002] una descripción detallada de la estructura de un gen y clasificación de los tipos de exones.

En este trabajo, será considerada a las regiones codificantes constituídas por una única región dentro de los genes procariotos. En los eucariotos, contituídas por varias regiones llamadas de exones y separados por intrones. Por lo tanto, todos los intrones y las regiones intergénicas son consideradas como no codificantes.


2.4 Códigos genéticos y proteínas

El código genético, o código de aminoácidos, es un conjunto de reglas que usan las células vivas para decodificar su genoma necesario para la síntesis de proteínas. Esta codificación es realizada de cada región codificante. Usualmente el código genético es escrito como un conjunto de 64 códons2.3 de los cuales tres son indicadores de parada de síntesis de proteínas.

El código genético es talvez el mas grande descubrimiento después del ADN, pues ajudó a comprender mejor la estructura genética de los organismos. Todos los organismos vivos usan el mismo o pequeñas variaciones del código genético estándar [Jukes and Osawa, 1993]. Vea la Tabla 2.2 donde los códons de início estan representados por la letra M y los códons de parada por el símbolo *. Jukes and Osawa [1993]; Osawa et al. [1992] atribuyeron para cada taxonomía de los organismos, variaciones de código genético estándar con base en las evidencias de secuencias homologas y/o relaciones filogenéticas. Una de las variaciones del estándar utilizado en la comparación de secuencias de proteínas es la de bacterias y plastídeos de plantas, donde fueron encontrados siete códons de inicio (Tabla 2.2).


Tabla 2.2: Código genético estándar y de bactérias/plastídeos de plantas. Los códons de iniciación están representados por la letra M y los códons de parada por el símbolo *.
Aminoácidos FFLLSSSSYY**CC*WLLLLPPPPHHQQRRRRIIIMTTTTNNKKSSRRVVVVAAAADDEEGGGG
1$^\circ$ nucleótido TTTTTTTTTTTTTTTTCCCCCCCCCCCCCCCCAAAAAAAAAAAAAAAAGGGGGGGGGGGGGGGG
2$^\circ$ nucleótido TTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGGTTTTCCCCAAAAGGGG
3$^\circ$ nucleótido TCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAGTCAG
Iniciación estándar ...M...............M...............M............................
Iniciación en bactérias ...M...............M............MMMM...............M............


El Dogma Central de la Biología Molecular (Figura 2.2) es considerado como el proceso de replicación, transcripción del ADN y traducción de las regiones codificantes. Esos procesos son importantes debido a que de ellos dependen todas las actividades celulares [Alberts et al., 2002]. Es importante destacar que cuando un gen es expresado, este brinda las instrucciones a la célula para producir una proteína específica. Las células en un organismo poseen el mismo ADN, i.e., el mismo conjunto de genes, pero diferentes genes son expresados funcionalmente en las diferentes células, permitiendo así la diferenciación celular.


3. Métodos de identificación y clasificación de regiones codificantes

Las regiones codificantes de proteínas en secuencias de ADN presentan tipicamente una organización periódica imperfecta de tres bases (TBP) y que aún no es comprendida completamente (Sección 1.2). Nótese que varios métodos fueron creados para la identificación de las regiones codificantes (Sección 1.3) basados en la búsqueda de esa característica.

En este capítulo serán tratados una forma simple de mapeamiento numérico de nucleótidos para tratar las secuencias de símbolos como secuencias numéricas. Seguidamente serán presentados los principales métodos de identificación y clasificación de regiones codificantes, independientes del modelo de codificación de ADN.


3.1 Mapeamiento numérico de nucleótidos

Varios métodos fueron utilizados para convertir datos categóricos o simbólicos de secuencias de ADN para ser tratados como secuencias numéricas [Afreixo et al., 2004; Wang and Johnson, 2002]. Esta conversión, o mapeamiento, se debe a la dificultad de uso directo de datos simbólicos en los métodos basados en procesamiento de señales. Un mapeamiento de símbolos a números no debe imponer una estructura matemática que no exista en las secuencias de ADN [Afreixo et al., 2004]. Existen dos enfoques que pueden ser utilizados para representar numericamente una secuencia de ADN:

  1. Mapeamiento fijo, consiste en la atribución de números enteros, reales o complejos, a los cuatro caracteres A, C, G y T correspondientes a los tipos de bases presentes en la secuencia de ADN (Seción 2.1).

    En el mapeamiento binario [Buldyrev et al., 1995] son creadas siete secuencias numéricas. Cada secuencia numérica corresponde a una de las siete formas de mapear una secuencia de ADN basadas en las características propias de las bases, considerando, por ejemplo, los enlaces de hidrógenos y si las bases nitrogenadas son purinas o pirimidinas.

    En la Tabla 3.1 están representadas las siete reglas utilizadas en [Buldyrev et al., 1995] para las atribuciones de valores binarios en cada base. Las secuencias obtenidas por cada una de esas reglas de mapemiento son independientes, pues se refieren a aspectos diferentes de la secuencia de ADN, manteniendo así la invarianza a la atribución numérica.

    Tabla 3.1: Reglas para el mapeamiento binario de secuencias de ADN. En el mapeamiento es asociada una secuencia binaria para cada regla que indica una característica o posición de cada base.
    Regla Atribución
    A C G T
    1 Enlaces de hidrógeno 0 1 1 0
    2 Purina/pirimidina 1 0 1 0
    3 Híbrida 1 1 0 0
    4 Base A 1 0 0 0
    5 Base C 0 1 0 0
    6 Base G 0 0 1 0
    7 Base T 0 0 0 1


    Para el mapeamiento por número enteros [Tsonis et al., 1991], reales [Ning et al., 2003] o complejos [Anastassiou, 2001] son utilizados números arbitrarios o valores que representan alguna propiedad de las bases nitrogenadas como, por ejemplo, los potenciales de interacción electrón-ion (EIIP, electron-ion interaction potentials) encontrada en las bases. Los autores de [Ning et al., 2003] analizaron secuencias de ADN en que fueron atribuídos valores para cada base como siendo ( A, C, G, T)=(0.1260, 0.1340, 0.0806, 0.1335). La dificultad con este último mapeamiento es la dependencia en la atribución de números (enteros, reales o complejos) adoptado, permitiendo que alguna estructura armónica relevante sea oculta o artificialmente creada por la atribución [Afreixo et al., 2004; Wang and Johnson, 2002]. Considerando, por ejemplo, la secuencia periódica ( GTGCGA GTGCGA ... con la atribución de valores ( A, C, G, T)=(1, 0, 0, 0) se forma una secuencia numérica de período seis, y para la atribución de ( A, C, G, T)=(0, 0, 1, 0), se forma otra de período dos.

  2. Mapeamientos basados en criterios de optimización [Chen and Zhang, 2003; Stoffer et al., 1993; Wang and Johnson, 2002], de manera no arbitraria, y que enfatiza cualquier característica periódica que pudiera existir sobre series estacionarias o no-estacionarias.

En este trabajo, utilizamos solamente las reglas 4 y 7 del mapeamiento binario para la atribución de valores para cuatro secuencias $u_A$, $u_C$, $u_G$ y $u_T$, correspondientes a las bases nitrogenadas, donde cada secuencia binaria3.1 especifica la presencia o no de la base A, C, G o T en una dada posición de la secuencia de ADN. Tal enfoque fue también considerado en los trabajos [Afreixo et al., 2004; Anastassiou, 2001; Tiwari et al., 1997]. Por ejemplo, la secuencia ATGCTTGACTAGGGCTCAGT y sus correspondientes secuencias binarias son mostradas en la Tabla 3.2.

Tabla: Secuencias binarias que representan las posiciones de A, C, G y T, en una secuencia de ADN, correspondientes a las reglas 4 a 7 del mapeamiento binario.
Secuencia A T G C T T G A C T A G G G C T C A G T
$u_A$ 1 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0
$u_C$ 0 0 0 1 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0
$u_G$ 0 0 1 0 0 0 1 0 0 0 0 1 1 1 0 0 0 0 1 0
$u_T$ 0 1 0 0 1 1 0 0 0 1 0 0 0 0 0 1 0 0 0 1


Obsérvese que un mapeamiento fijo (entero, real o complejo) puede ser obtenido basado en el mapeamiento binario. Si $a$, $c$, $g$ y $t$ son valores numéricos arbitrarios correspondientes a las bases A, C, G y T, una secuencia $s$ de tamaño $N$ puede ser representada como una combinación lineal de sus secuencias binarias $u_A$, $u_C$, $u_G$ y $u_T$ [Anastassiou, 2001], tal que

\begin{displaymath}
s[b] = a.u_A[b] + c.u_C[b] + g.u_G[b] + t.u_T[b],
\end{displaymath} (3.1)

donde $b$ es una determinada posición de la secuencia. Note que esa representación es tal que $u_A[b]+u_C[b]+u_G[b]+u_T[b]=1$, para cualquier posición de $b$. En la Figura 3.1, se muestran las representaciones gráficas del mapeamiento binario y del mapeamiento entero de una secuencia de ADN (Tabla 3.2). Para este último mapeamiento consideramos valores atribuidos para ( A, C, G, T)=(1,2,3,4).
Figura 3.1: Representación gráfica de una secuencia de ADN: ATGCTTGACTAGGGCTCAGT. En (a) son consideradas cuatro secuencias binarias correspondientes a las reglas 4 a 7 del mapeamiento binario. En (b) se considera una secuencia numérica con valores de ( A, C, G, T)=(1,2,3,4).
\includegraphics[width=.7\textwidth]{sequencias_binarias}
(a) Mapeamiento binario
\includegraphics[width=.7\textwidth]{sequencia_numerica}
(b) Mapeamiento entero


3.2 Información mutua media

La información mutua entre dos variables aleatorias y discretas $X$ e $Y$ esta definido por:
\begin{displaymath}
I(X;Y) = \sum_{x \in X} \sum_{y \in Y} P(x,y). \log_2 \Big(\frac{P(x,y)}{P(x) P(y)} \Big)
\end{displaymath} (3.2)

con las siguientes propiedades: $ I(X;Y) = I(Y;X)$, y $ I(X;Y) \ge 0$. Adicionalmente, esta operación entre las dos variables es equivalente a ser expresada en términos de entropía:
\begin{displaymath}
I(X;Y) = H(X) + H(Y) - H(X;Y)
\end{displaymath} (3.3)

donde $H(X)$ es la entropía de la variable aleatoria $X$ y, $H(X,Y)$ es la entropía conjunta de $X$ e $Y$.

Utilizando la primera aproximación, la función de información mutua para el análisis de secuencias de ADN, puede ser definida como:

\begin{displaymath}
I(k) = \sum_{i \in \{A,C,G,T\}}
\sum_{j \in \{A,C,G,T\}}
P_{ij}(k) . \log_2 \Big(\frac{P_{ij}(k)}{p_i(k) p_j(k)} \Big)
\end{displaymath} (3.4)

donde $P_{ij}(k)$ denota la probabilidad de encontrar el par de nucleótidos $i$ y $j$ separados por una distancia de $k$ nucleótidos y, $p_i(k)$ y $p_j(k)$ denotan las probabilidades de encontrarse los nucleótidos $i,j \in \{A,C,G,T\}$, i.e.,

\begin{displaymath}p_i(k) = \sum_{j \in \{A,C,G,T\}} P_{ij}(k)\end{displaymath}


\begin{displaymath}p_j(k) = \sum_{i \in \{A,C,G,T\}} P_{ij}(k)\end{displaymath}

Grosse et al. [2000] utilizaron la función de información mutua en secuencias codificantes y no-codificantes de humanos. En la Figura 3.2, la información mutua para las secuencias codificantes está representado con línea delgada, las no-codificantes con línea gruesa. Observamos que $I$ para ADN no-codificantes oscila entre dos valores, la información mutua in-frame $I_{in}$ en una distancia $k$ que son múltiplos de 3 y la información mutua out-of-frame $I_{out}$ en todos los otros valores de $k$.

Figura 3.2: Función de información mutua, $I(k)$, de regiones codificantes (línea delgada) y no-codificantes (línea gruesa) de secuencias de ADN de humanos [Grosse et al., 2000].
\includegraphics[width=.70\textwidth]{dna_mi_paper}

El comportamiento oscilatorio de $I(k)$ en ADN codificante es una consecuencia de la presencia del código genético que mapea triplas de nucleótidos (códons) no sobrepuestos en aminoácidos, y de la no-uniformidad de la distribución de frecuencias de códons. Vea en la Sección 1.3 una descripción de las propiedades de las regiones codificantes de proteínas.

Grosse et al. [2000] usaron un modelo desconsiderando alguna otra correlación entre códons a fin de expresar la probabilidad conjunta $P_{ij}(k)$ en términos de probabilidades de las posiciones de los nucleótidos $P_{i}^{(m)}$ de encontrar el nucleótido $n_i$ en la posición $m \in \{1,2,3\}$ para un reading-frame arbitrario3.2:

\begin{displaymath}
P_{ij} = \frac{1}{3} . \left\{
\begin{array}{rl}
p_{i}^{...
...2)}, & \textrm{para } k = 5,8,11,\dots
\end{array} \right.
\end{displaymath} (3.5)

Nótese que $P_{ij}(k)$, en la Ecuación (3.5), es invariante a shifts de reading frames pues las expresiones del lado derecho en la ecuación anterior son invariantes a permutaciones de los índices (1,2,3). Como la segunda y tercera línea son idénticas después de la transposición de los índices $(i,j)$, Grosse et al. [2000] obtenieron, $P_{ij}(k=4,7,10,\dots) = P_{ij}(k=5,8,11,\dots)$ las cuales implican que $I(k)$ son calculadas de $P_{ij}(k)$. Así asumieron únicamente dos valores diferentes, $I_{in}=I(3,6,9,\dots)$ y $I_{out}=(4,5,7,8,10,11,\dots)$.

A fin de obtener una medida que pueda identificar si una secuencia de ADN es codificante o no-codificante, el enfoque utilizado esta basado en la presencia o en la ausência de la oscilación periódica tres en ADN codificante o no-codificante, respectivamente. Grosse et al. [2000] expresaron, para secuencias de ADN, la máxima y mínima oscilación de $I(k)$, $I_{in}$ y $I_{out}$, en términos de $P_{i}^{(m)}$ de la siguiente forma: son amuestradas de cada secuencia las frecuencias $p_{i}^{(m)}$, calculadas $P_{ij}(k)$ a partir de $p_{i}^{(m)}$ (Ecuación 3.5) y finalmente son calculados:

\begin{displaymath}
I_{in} = I(3) \textrm{ e } I_{out} = I(4) = I(5)
\end{displaymath} (3.6)

usando la Ecuación (3.4), donde $p_i = q_j = ( p_{i}^{(1)} + p_{i}^{(2)} +
p_{i}^{(3)})/3$. Así, la información mutua media, que estima en solamente una medida de interpretación intuitiva, es definida como:
\begin{displaymath}
\bar{I} = \mathcal{P}_{in}.I_{in} + \mathcal{P}_{out}.I_{out}
\end{displaymath} (3.7)

donde $\mathcal{P}_{in}=1/3$ y $ \mathcal{P}_{out}=2/3$ denotan la probabilidad de ocurrencia de $I_{in}$ y $I_{out}$. Cuando $\mathcal{P}_{in}$ y $\mathcal{P}_{out}$ son seleccionadas de esa manera, $\bar{I}$ cuantifica el valor medio de información obtenida del nucleótido X a partir de (1) su identidad con cualquier otro nucleótido Y en la misma secuencia de ADN, y (2) si la distancia $k$ entre X e Y es un múltiplo de 3.


3.3 Spectrum de Fourier

Al saber que las regiones codificantes de proteínas presentan periodicidad imperfecta de bases, Li [1997]; Silverman and Linsker [1986] , estudiaron las secuencias de ADN mediante la transformada de Fourier, puesto que las correlaciones periódicas en secuencias de ADN también pueden ser examinadas mediante un análisis de Fourier.

El spectrum parcial de una secuencia $s$ de tamaño $N$ correspondiente al nucleótido $b$ fue definido como:

\begin{displaymath}
E_b[f] = \frac{1}{N^2} \left ( \sum_{j=1}^N U_b(s_j) e^{2\pi i f j} \right )^2
\end{displaymath} (3.8)

donde $U_b (s_j) = 1$ si $s_j=b$, y es 0 en caso contrario, y $f$ es la frecuencia discreta, i.e., $f = k / N$, con $k=1,2, \dots , l/2$. Así, el spectrum total de Fourier de una secuencia de ADN es definido como la suma de los cuatro espectros parciales:
\begin{displaymath}
E[f] = \sum_{b \in \{A,C,G,T\}} E_b[f]
\end{displaymath} (3.9)

Regiones codificantes revelan la periodicidad característica de tres bases con un pico (sobresaliente) en la frecuencia $f = 1/3$. Tal ``pico'' no esta presente en regiones no-codificantes [Guigó, 1999; Tiwari et al., 1997].

Otra forma de representar el spectrum total de Fourier usando secuencias binarias, tratada en la Sección 3.1, es la siguiente:

\begin{displaymath}
E[k] = \frac{1}{N^2}\Big(\vert U_A[k]\vert^2 + \vert U_C[k]...
...[k]\vert^2 + \vert U_T[k]\vert^2 \Big), \quad k=0,\dots,N-1
\end{displaymath} (3.10)

donde $U_A$, $U_C$, $U_G$ y $U_T$ son las transformadas discretas de Fourier de las secuencias binarias ($u_A$, $u_C$, $u_G$ y $u_T$) pertenecientes a la secuencia $s$, i.e.:
$\displaystyle U_A[k] = \sum_{b=0}^{N-1} u_{A}[b]e^{-2 \pi j k b/N },$     (3.11)
$\displaystyle U_C[k] = \sum_{b=0}^{N-1} u_{C}[b]e^{-2 \pi j k b/N },$     (3.12)
$\displaystyle U_G[k] = \sum_{b=0}^{N-1} u_{G}[b]e^{-2 \pi j k b/N },$     (3.13)
$\displaystyle U_T[k] = \sum_{b=0}^{N-1} u_{T}[b]e^{-2 \pi j k b/N },$     (3.14)

cada una de estas secuencias representan las frecuencias de cada nucleótido que, combinadas, dan una representación cuatro-dimensional del espectro de frecuencia de la secuencia de ADN. De esa forma, considerando un valor de $k$ correspondiente a la frecuencia tres, podremos usar el análisis de Fourier para encontrar regiones codificantes de proteínas ya que en ellas existe la periodicidad de tres bases.

Finalmente, es importante destacar que, con la Ecuación (3.1) y el resultado de las Ecuaciones (3.11)-(3.14), tenemos que

\begin{displaymath}
U_A[k] + U_C[k] + U_G[k] + U_T[k] = \left\{
\begin{array}{rl}
N, & k = 0 \\
0, & k \neq 0
\end{array} \right.
\end{displaymath}


3.4 Características espectrales de Fourier

Datta and Asif [2005] también estudiaron el problema de identificación de regiones codificantes de proteínas usando un análisis de Fourier un poco más elaborado mostrando buenos resultados. Ambos autores crearon un método donde derivaron propiedades a partir de secuencias binarias y una función de conteo de posiciones.

Una función de conteo de posiciones $C$ sobre la secuencia binaria $u_A$ de tamaño $N$ es definida como:

\begin{displaymath}
C_{w}^{A} [s] = \sum_{i=0}^{ \lfloor \frac{N-1}{w} \rfloor } u_A[wi+s],
\textrm{para } 0 \leq s < w
\end{displaymath} (3.15)

donde $i$ representa a posição da base A na secuencia ($0 \leq i < N $), y $w$ o tamaño de agrupamientos no sobrepuestos en la secuencia binaria ($3 \leq w < N $). De esa forma $C$ realiza el conteo de 1's en la fase $s$ dentro de agrupamientos de tamaño $w$.

Datta and Asif [2005] demostraron que la magnitud de la transformada de Fourier de $u_A$, en la frecuencia discreta $k=\frac{N}{3}$, es dado por:

\begin{displaymath}
{\Big\vert U_A[\frac{N}{3}] \Big\vert}^2 =
\frac{1}{2}
...
...\big)^2 +
\big( { C_{3}^{A}[2]-C_{3}^{A}[0] } \big)^2
\Big]
\end{displaymath} (3.16)

Esta medida representa el valor de la frecuencia tres del nucleótido A de la secuencia analizada, i.e., $\Big\vert U_A[\frac{N}{3}] \Big\vert^2$ tendrá picos correspondientes a regiones donde exista periodicidad de tres bases y relativamente valores bajos en regiones correspondientes a las no-codificantes. Sin embargo los valores de esos picos varían significativamente para diferentes secuencias de ADN. Debido a esa característica Datta and Asif [2005] usaron una función alternativa, llamada de característica espectral de Fourier para resolver ese problema. En el caso de la secuencia binaria $u_A$, su característica espectral es calculada como:
\begin{displaymath}
Snr_A = \frac{ {\Big\vert U_A[\frac{N}{3}] \Big\vert}^2 }
{2 \big\vert A_{av}^{(1)} \big\vert^2 }
\end{displaymath} (3.17)

donde
\begin{displaymath}
\big\vert A_{av}^{(1)} \big\vert^2 =
\frac{1}{(N-1)}
\Big...
...{s=0}^{w-1} C_{w}^{A}[s]
\Big)
\sum_{s=0}^{w-1} C_{w}^{A}[s]
\end{displaymath} (3.18)

es la energía promedio presente en los coeficientes de la transformada de Fourier. De manera análoga son calculados las características espectrales de Fourier para las demás secuencias binarias. Finalmente, la característica espectral de Fourier de la secuencia completa estará dada por:
\begin{displaymath}
Snr = Snr_A + Snr_C + Snr_G + Snr_T
\end{displaymath} (3.19)

Es importante destacar que los métodos tratados anteriormente, como los de información mutua média, spectrum de Fourier y características espectrales de Fourier, únicamente ofrecen una medida global sobre la secuencia de ADN analizada. En ese sentido, deberán ser usadas ventanas de tamaño fijo para analizar localmente la secuencia. En la siguiente sección será descrita un método reciente que intenta analizar de forma local secuencias de ADN para así identificar regiones con periodicidad de tres bases.


3.5 Transformada modificada de Morlet

En el trabajo [Mena-Chalco, 2005] fue propuesto un método de identificación de regiones codificantes el cual esta compuesto por tres pasos: (1) mapeamiento numérico de una secuencia de ADN a cuatro secuencias binarias, (2) aplicación de la MMT a cada secuencia binaria, y (3) proyección de la secuencias espectrales sobre el eje de las posiciones.

La creación de cuatro secuencias binarias es realizada mediante el mapeamiento fijo binario (reglas 4-7), cada una representando las posiciones de los bases. Considerando una dada secuencia de DNA $s$, es denotada por $u_A$, $u_C$, $u_G$ y $u_T$ las secuencias binarias asociadas a los nucleótidos A, C, G y T, respectivamente. Esta representación redundante es preferida porque no depende de ninguna atribución numérica adoptada, y ninguna estructura armónica relevante de significado biológico es oculta o expuesta [Afreixo et al., 2004].

Seguidamente, la MMT es aplicada a todas las secuencias binarias3.3. Las correspondientes transformadas son calculadas para diferentes escalas $a$ y frecuencia constante $\omega_0$. Sea $N$ el tamaño de cada secuencia. La definición de $\omega_0=\frac{N}{3}$ implica que la frecuencia angular en la función de análisis sea un múltiplo de tres. La transformada de cada secuencia binaria $u_A$, $u_C$, $u_G$ y $u_T$, es dada por:

$\displaystyle U_A(b,a) = \int u_A(x) \psi_{\mbox{\tiny {MM}}}(x,b,a)\textrm{d}x$     (3.20)
$\displaystyle U_C(b,a) = \int u_C(x) \psi_{\mbox{\tiny {MM}}}(x,b,a)\textrm{d}x$     (3.21)
$\displaystyle U_G(b,a) = \int u_G(x) \psi_{\mbox{\tiny {MM}}}(x,b,a)\textrm{d}x$     (3.22)
$\displaystyle U_T(b,a) = \int u_T(x) \psi_{\mbox{\tiny {MM}}}(x,b,a)\textrm{d}x$     (3.23)

donde $b$ es el parámetro de posición através de la secuencia de ADN y $a$ el parámetro de escala.

Las MMTs resultantes representan las medidas de similitud de la TBP de cada nucleótido. Estas transformadas pueden ser aplicadas para e análisis de secuencias de ADN usando diferentes escalas. El espectro de cada secuencia binaria es definida como el módulo al cuadrado de sus coeficientes, i.e.,

$\displaystyle m_A(b,a) = \vert U_A(b,a)\vert^2$     (3.24)
$\displaystyle m_C(b,a) = \vert U_C(b,a)\vert^2$     (3.25)
$\displaystyle m_G(b,a) = \vert U_G(b,a)\vert^2$     (3.26)
$\displaystyle m_T(b,a) = \vert U_T(b,a)\vert^2$     (3.27)

O espectro total, el cual combina las contribuciones de todas las transformadas, es la suma del espectro de las cuatro secuencias binarias:
\begin{displaymath}
M(b,a) = m_A(b,a) + m_C(b,a) + m_G(b,a) + m_T(b,a)
\end{displaymath} (3.28)

Cuando la secuencia es representada por su spectrum multi-escala, diferentes enfoques pueden ser usados a fin de extraer información útil [Costa and Cesar-Jr., 2001]. Nótese que el mapeamiento binario usado representa los nucleótidos por cuatro secuencias independientes. El espectro total es una medida que elimina esa independencia, así representando los posibles valores de TBP para todos los nucleótidos en la secuencia.

El espectro total de todas las transformadas (Ecuación 3.28) es proyectado sobre el eje de las posiciones a fin de detectar las posibles regiones codificantes, las cuales podrían corresponder a regiones de máximo local de las proyecciones.

Estos coeficientes de proyección toman ventaja de la información redundante calculada en la aplicación de la MMT usando diferentes escalas, i.e., las secuencias son analizadas desde pequeñas a grande escalas. Los coeficientes de proyección de regiones donde la TBP este presente mostrará respuestas altas, consiguiendo de esa forma la identificación de regiones codificantes.

Dada una secuencia de tamaño $N$, la proyección de los coeficientes sobre el eje de las posiciones es definido como una función de $b$:

\begin{displaymath}
M_p(b) = \sum_{a} M(b,a) \quad b=0,\dots,N-1
\end{displaymath} (3.29)

La proyección del espectro sobre el eje de las escalas revela cual escala mantiene más energía a través de las posiciones, siendo definida como una función de $a$:
\begin{displaymath}
M_s(a) = \sum_{b=1}^{N} M(b,a)
\end{displaymath} (3.30)

Esta proyección está relacionada a la transformada de Fourier convencional, dado que la información de posición es perdida. Valores altos de su proyección son asociados a la escala (i.e. tamaño) de las regiones codificantes detectadas.


4. Medidas de desempeño


4.1 Operación de threshold

Como mencionadas en el capítulo anterior, las regiones codificantes son identificadas como regiones de máximo local en las medidas de identificación.

Una manera natural de encontrar los límites de regiones codificantes es mediante la incorporación de una operación de threshold. Esta operación sobre los coeficientes permite excluir coeficientes de valores pequeños, i.e. el $t\%$ de coeficientes pequeños son substituidos por cero, donde $t$ es el valor conocido a priori. En general, regiones con poca o ninguna TBP presentan valores de coeficientes pequeños. Los coeficientes restantes son usados como indicadores de las regiones codificantes de proteínas.


4.2 Medidas de desempeño consideradas en la identificación

Las medidas de exactitud en el nivel de nucleótidos, propuestas por Burset and Guigó [1996], describen una forma de comparación de regiones identificadas, mediante procedimientos computacionales, versus regiones codificantes conocidas biológicamente. i.e., regiones cuyas posiciones de los exones, en los genes, son conocidas. Por lo tanto, estas medidas sirven para comparar el desempeño de los programas computacionales de identificación de genes.

La medidas de desempeño de las regiones identificadas contra las regiones codificantes es realizada mediante conteo de nucleótidos correspondiente a los (1) verdaderos positivos (TP, true positive), que son regiones correctamente identificadas, (2) falsos positivos (FP, false positive), que son regiones identificadas incorrectamente, (3) verdaderos positivos (TN, true negative), que son regiones correctamente no identificadas, y (4) falsos negativos (FN, false negative), que son regiones no identificadas (Figura 4.1). Fueron propuestas dos medidas de exactitud basadas en las tasas de ocurrencias de sensibilidad y especificidad.


Figura 4.1: Cuatro posibles resultados de regiones identificadas contra regiones codificantes de proteínas conocidas.
\includegraphics[width=.9\textwidth]{medidas_exatidao}

Un programa computacional es considerado exacto si su Sn y Sp son simultánemente altas. Comúnmente, la medida de exactitud que combina la Sn y Sp es llamada de correlación aproximada (AC). En este trabajo, usamos la correlación aproximada como medida total de exactitud en la identificación de regiones codificantes de proteínas,

\begin{displaymath}
AC = \frac{1}{2}\Big[\frac{TP}{TP+FN}+\frac{TP}{TP+FP}+\frac{TN}{TN+FN}+\frac{TN}{TN+FP}\Big]-1
\end{displaymath} (4.3)

Los valores de AC van de 0, cuando la identificación es incorrecta, y 1, cuando la identicación es correcta [Burset and Guigó, 1996; Mount, 2004].

Una evaluación de algunos programas de identificación de genes fue realizada por Mathe et al. [2002]; Rogic et al. [2001]. Otras medidas de exactitud, en el nivel de exones y de proteínas, pueden ser revisadas en [Burset and Guigó, 1996]. Es importante resaltar que todas estas medidas no estan basadas en componentes de desempeño, como el tiempo de ejecución o requerimientos de memoria de los métodos computacionales evaluados.


4.3 Medidas de desempeño consideradas en la clasificación

Adicionalmente a la evaluación de métodos de identificación, es realizada una evaluación en la clasificación de secuencias de ADN.

Usando el método basado en la MMT, las secuencias pueden ser clasificades entre codificantes y no-codificantes usando los valores de proyección sobre el eje de las escalas (Ecuación 3.30). Fue definida una medida global para reconocer secuencias codificantes como la suma de las proyecciones sobre el eje de las escalas, normalizadas por el número de bases de la secuencia analizada, i.e., $\frac{1}{N} \sum_{a} M_s(a)$.

Para las medidas de los otros métodos fueron usados simplemente los valores obtenidos después de su análisis, siendo también normalizadas por el número de bases.

Análisis ROC

Para validación de la clasificación de secuencias, fueron adoptadas las curvas en gráficos ROC (receiver operating characteristic, o característica de operación del receptor), un procedimiento efectivo de evaluación de clasificadores [Hanley and McNeil, 1982].

Gráficos ROC son bastante utilizados en la teoría de detección de señales y recientemente en reconocimiento de patrones, y auxilio en sistemas de diagnóstico médico. Ellos permiten visualizar el desempeño de clasificadores o tests de diagnósticos, expresando la relación de compromiso entre el aumento de la capacidad de detección y de la tasa de falsas alarmas.

Las curvas ROC son formadas por pares ordenados compuestos de tasas de verdaderos positivos y falsos positivos. Un par formado por una tasa de verdaderos positivos y una de falsos positivos es marcado en el gráfico para cada configuración. Así, la curva ROC es comúnmente definida como un gráfico de la tasa de verdaderos positivos como una función de la tasa de los falsos positivos para todos los posibles thresholds sobre la distribución de los valores obtenidos en cada clasificación.

Verdaderos positivos son secuencias codificantes clasificadas como codificantes, sin embargo, los falsos positivos son secuencias no-codificantes clasificadas como codificantes. Las medidas pueden ser resumidas en la matriz de confusión (también llamada matriz de error), ilustrada en la Tabla 4.1. El total de positivos y negativos de la referencia será denotado por $P$ y $N$, respectivamente; los verdaderos y falsos positivos por $TP$ y $FP$, y los verdaderos y falsos negativos por $TN$ y $FN$, como indicado en la matriz de confusión.


Tabla 4.1: Matriz de confusión.
Secuencia de referencia
codificante ($P$) no-codificante ($N$)
Resultado del codificante verdadero positivo ($TP$) falso positivo ($FP$)
método no-codificante falso negativo ($FN$) verdadero negativo ($TN$)


A partir de los elementos de la matriz se puede desarrollar medidas usadas en la evaluación de la clasificación de los métodos. La tasa de verdaderos positivos es definido por:

\begin{displaymath}
TTP = \frac{TP}{P}
\end{displaymath} (4.4)

y la tasa de falsos positivos, por:
\begin{displaymath}
TFP = \frac{FP}{N}
\end{displaymath} (4.5)


5. Resultados y discusión

En este capítulo son mostrados los resultados experimentales de la comparación de los cuatro métodos tratados: transformada modificada de Morlet [Mena-Chalco and Cesar-Jr., 2006; Mena-Chalco, 2005], información mutua media [Grosse et al., 2000], spectrum de Fourier (contenido espectral) [Li et al., 1994; Silverman and Linsker, 1986] y características espectrales de Fourier [Datta and Asif, 2005]. Cabe resaltar que fueron seleccionadas esos métodos para comparación dado que son los métodos independientes de modelo de codificación mas representativos que usan traslaciones de ventanas.

5.1 Conjunto de datos

El estudio fue enfocado en el análisis de secuencias de ADN de eucariotos que han sido particularmente estudiados en el contexto de identificación de regiones codificantes de proteínas. Para un análisis detallado, fue usada la secuencia F56F11.4 de C. elegans de 8000bp la cual contiene 5 exones codificantes en las posiciones 928-1039, 2528-2857, 4114-4377, 5465-5644, 7255-7605 (número de acceso GenBank AF099922 y posiciones 7021-1502).

En este estudio, tres conjuntos de dados de benchmark han sido considerados. BG570 es una base de datos genómica de 570 secuencias de vertebrados que codifican en un único gen, agrupado por Burset and Guigó [1996]; HMR195 es una base de datos de secuencias de humano, ratón y rata que codifican en únicos genes y usados en el trabajo de [Rogic et al., 2001]; y Asp67 una base de datos de 67 secuencias codificadoras de múltiples genes de Aspergillus fumigatus la cual forma parte de la base de datos de TIGR (http://www.tigr.org/software/traindata.shtml). En el Apéndice B son mostradas estadísticas de las tres bases de datos.

Los tres conjuntos genómicos de genes de vertebrados con sus respectivos límites entre exones e intrones fueron usados para realizar dos experimentos de evaluación, descritos en los objetivos del trabajo: (1) identificación de regiones codificantes usando las secuencias completas de DNA; (2) clasificación de secuencias codificantes. Para esta última evaluación, conjuntamente con las anotaciones genómicas, fueron extraídos todos los exones e intrones con tamaño mayor o igual a 100bp de todas las bases de datos. De esa forma, un conjunto fue creado, conteniendo 3038 exones y 2820 intrones.

Finalmente, un análisis comparativo que también incluye un método dependiente del modelo de codificacion de ADN fue realizado usando datos de la secuencia humana $\beta $-globin, cromosoma 11 (código Genbank HUMHBB y posiciones 62001-64000). Esta secuencia contiene tres regiones codificantes localizadas en posiciones relativas de 87-278, 409-631 y 1482-1610.


5.2 Desempeño en la identificación de regiones codificantes

En el caso de la MMT, funciones de análisis de 1200 puntos (tamaño de la función de análisis) y 40 escalas separadas exponencialmente entre 0.2 y 0.7 fueron usadas en todas las secuencias. Con la finalidad de obtener una forma de comparación, fueron usados porcentajes de thresholds dentro del intervalo (1,99) sobre las medidas de los métodos considerados en la identificación de probables regiones codificantes. De esa forma, los cálculos de las medidas de sensibilidad, especificidad y correlación aproximada fueron obtenidos bajo las mismas condiciones en diferentes valores de threshold.


5.2.1 Identificación de regiones codificantes sobre la secuencia F56F11.4 de C. elegans

Fue analizada la secuencia F56F11.4 de C. elegans y el espectrograma resultante de la MMT (Ecuación 3.28) es mostrada en la Figura 5.1(a). Esta figura representa el espectro total, i.e. la suma de todos los valores espectrales de las secuencias binarias. La Figura 5.1(b) representa las proyecciones sobre el eje de las posiciones de los valores espectrales. Las Figuras 5.1(c)-(e) muestran las medidas obtenidas usando los métodos información mutua media, spectrum de Fourier, y características espectrales de Fourier, respectivamente. Un tamaño de ventana de 351bp y una ventana rectangular, con traslación de 1bp, fue adoptada.



Tabla 5.1: Resumen de las mejores medidas de desempeño (AC, correlación aproximada) de identicación de regiones codificantes en la secuencia F56F11.4 usando diferentes valores de threshold. La sensibilidad y especificidad son representados por Sn y Sp, respectivamente.
Método Sn Sp AC Threshold
Transformada modificada de Morlet 0.88 0.90 0.87 85
Información mutua media 0.82 0.70 0.71 82
Spectrum de Fourier 0.82 0.71 0.72 82
Características espectrales de Fourier 0.65 0.77 0.66 87



\begin{landscape}
% latex2html id marker 2279\begin{figure}[!tpb]
\centering
...
...elativa de las verdaderas
regiones codificantes.}
\end{figure}\end{landscape}

Figura 5.2: Medidas de desempeño en la identificación de regiones codificantes sobre la secuencia F56F11.4 de 8000bp.
\includegraphics[width=.70\textwidth]{F56F11_snsp}
(a) Sensibilidad y especificidad
\includegraphics[width=.70\textwidth]{F56F11_ac}
(b) Porcentaje de thresholds y correlación aproximada

Los picos de las figuras corresponden a regiones donde la TBP esta presente. claramente, los coeficientes dependen del tamaño de ventana y el intervalo de escalas utilizadas. En este experimento, el tamaño de la ventana es el mismo como el considerado en [Anastassiou, 2000; Datta and Asif, 2005; Tiwari et al., 1997] para el análisis de secuencias de ADN. El análisis multi-escala intrínseco en el método usando la MMT brinda una variacición robusta de escalas. Es interesante notar que la primera región codificante de 112bp que está en las posiciones de 928 y 1039 tiene una TBP débil. Esa es la razón, porque cualquier método basado exclusivamente en la búsqueda de regiones con TBP y en las mismas escalas no son capaces de identificarla. En las restantas cuatro regiones codificantes una TBP alta está presente. Obsérvese también que el último exón no presenta periodicidad contínua de tres bases (dos sub-regiones de este exón tienen alta TBP).

La Figura 5.2 y Tabla 5.1 muestran las medidas de sensibilidad, especificidad y coeficiente de correlación de los métodos considerados. Usando un valor de threshold de 85% y la MMT, fue obtenida una especificidad de 0.9 en una sensibilidad de 0.88, y una exactitud de 0.87. Usando información mutua media, spectrum de Fourier, y características espectrales de Fourier, exactitudes máximas de 0.71, 0.72 y 0.66 fueron respectivamente obtenidas.


5.2.2 Identificación de regiones codificantes sobre conjuntos de datos genómicos

Fueron aplicados y comparados los métodos usando las secuencias del conjunto de datos BG570. En la Tabla 5.2 se muestran las medidas de desempeño calculadas para esta base de datos usando ventanas rectangulares de tamaños 60, 120, 180, 240, 300, 360, 420 y 480bp, y traslaciones de ventana de 1bp5.1

Los mejores desempeños fueron obtenidos con el método basado en la MMT. Con regiones codificantes grandes, la exactitud de identificación es mejorada. Cuando el tamaño de regiones codificantes es muy pequeño, los métodos basados en ventanas de tamaño fijo no tienen un desempeño similar. Este experimento es importante porque muestra la limitación de métodos basados en tamaños de ventana fijas, i.e., sus desempeños dependen directamente de la elección correcta del tamaño de ventana. Siendo así que el uso de la MMT es mucho más robusto en este contexto. Resultados similares son mostrados en las Tablas 5.3 y 5.4 correspondientes a los conjuntos de datos HMR195 y Asp67, respectivamente.


\begin{landscape}
% latex2html id marker 2311\begin{table}
\setlength{\tabco...
...rentes tamaños de ventana y traslaciones de 1\,bp.}
\end{table}\end{landscape}

\begin{landscape}
% latex2html id marker 2350\begin{table}
\centering
\setle...
...rentes tamaños de ventana y traslaciones de 1\,bp.}
\end{table}\end{landscape}

\begin{landscape}
% latex2html id marker 2392\begin{table}
\centering
\setle...
...rentes tamaños de ventana y traslaciones de 1\,bp.}
\end{table}\end{landscape}


5.3 Desempeño en la clasificación de secuencias de ADN

Fue realizada la evaluación de clasificación de secuencias de ADN usando 3038 exones y 2820 intrones correspondientes a todas las exones e intrones mayores e iguales a 100bp. En las Figuras 5.3 y 5.4 son mostradas las funciones de densidad de probabilidad pertenecientes a las clasificaciones usando la MMT, información mutua media, spectrum de Fourier, y características espectrales de Fourier. Observemos que una simple comparación visual no es suficiente para evaluar la clasificación de las secuencias, y así determinar el método que mejor realiza la clasificación. Por ese motivo, las curvas ROC, y las áreas bajo las curvas (AUC, area under the ROC curve) fueron consideradas, para evaluarlas numéricamente.

Figura 5.3: Funciones de densidad de las medidas correspondientes a 3038 exones e 2820 intrones mayores o iguales a 100bp.
\includegraphics[width=.79\textwidth, viewport=0 70 450 400]{density_mgwt}
(a) Transformada modificada de Morlet
\includegraphics[width=.79\textwidth, viewport=0 70 450 400]{density_ami}
(b) Información mutua media

Figura 5.4: Funciones de densidad de las medidas correspondientes a 3038 exones e 2820 intrones mayores o iguales a 100bp. (continuación)
\includegraphics[width=.79\textwidth, viewport=0 70 450 400]{density_fs}
(c) Spectrum de Fourier
\includegraphics[width=.79\textwidth, viewport=0 70 450 400]{density_fsc}
(d) Características espectrales

La Figura 5.5 muestra las curvas ROC de los diferentes métodos consideradas usando 3038 secuencias codificantes y 2820 secuencias no-codificantes, ambos mayores o iguales a 100bp y extraídos de los conjuntos de dados. Observemos que todos los métodos tienen un buen desempeño (AUC$>$0.90) en la clasificación de secuencias. El método basado en la MMT presenta un mejor desempeño (AUC de 0.93407). El desempeño de los métodos basados en Información mutua media y Características espectrales de Fourier presentan un desempeño ligeramente inferior (AUC de 0.92634 y 0.92683, respectivamente). El método basado en el Spectrum de Fourier muestra el desempeño más bajo (AUC de 0.90142). Secuencias codificanes más grandes resultan en un mejor desempeño de clasificasión para todos los métodos independientes del modelo de codificación de ADN.

Figura 5.5: Curvas ROC para la evaluación de desempeño usando 3038 secuencias codificantes (exones) y 2820 secuencias no-codificantes (intrones) con tamaños mayores o iguales a 100bp.
\includegraphics[width=.70\textwidth]{roc_100_esp}

Un aspecto en la evaluación de métodos para la identificación de regiones codificantes es la comparación de métodos independientes, con los métodos dependientes del modelo de codificación. Como mencionado en la introducción, métodos dependientes del modelo de codificación de ADN pueden presentar un desempeño de reconocimiento superior debido a que exploran información disponible a priori. La principal limitación de tales enfoques es cuando las regiones codificantes no están presentes en las bases de datos (e.g. si las secuencias de entrenamiento no son seleccionadas cuidadosamente, o en el caso de organismos secuenciados recientemente). En tales situaciones, métodos independientes del modelo son usados en una forma complementaria. Esta situación es análoga a los clasificadores supervisados y no supervisados en reconocimiento de patrones [Costa and Cesar-Jr., 2001].

Un experimento comparativo ha sido realizado usando un método independiente de codificación como descrito a seguir. Gao and Zhang [2004] estudiaron el método de curva Z para reconocer exones en secuencias de ADN humanas. Este es un método basado en estadísticas de codificación que calcula medidas basadas en probabilidad el cual captura mas de las características de ADN codificante [Mathe et al., 2002; Zhang, 2002]. Este tipo de método ha sido entrenado con muestras representativas de DNA codificante de especies o genomas en consideración, siendo así un método dependiente del modelo de codificación. Experimentos comparativos para analizar la secuencia humana $\beta $-globin sobre la cromosoma 11 (código GenBank HUMHBB y posiciones 62001-64000) son reportados en [Gao and Zhang, 2004], mostrando que la curva Z presenta un desempeño superior a los métodos dependientes del modelo de codificación estándar, tales como las cadenas de Markov y conteo de hexameros. Similarmente, Guigó analizó la misma secuencia usando otros métodos dependientes del modelo de codificación (codon usage, amino acid usage, hexamer usage, codon preference, codon prototype y modelos de Markov de primer, segundo y quinto orden) [Guigó, 1999].

Fueron aplicados los métodos discutidos en el presente trabajo para analizar la misma secuencia indicada. En [Gao and Zhang, 2004], el método de la curva Z con 45 parámetros, un conjunto de entrenamiento de 4000 secuencias codificantes y no-codificantes, un tamaño de ventana de 120bp, y una traslación de 10bp fueron adoptadas. El método basado en la MMT uso la misma configuración para todos los experimentos descritos anteriormente. Los otros métodos usaron un tamaño de ventana de 120bp y una traslación de ventana de 1bp. Los resultados obtenidos son mostrados en la Tabla 5.5. La MMT supera a los métodos independientes del modelo de codificación. Por otro lado, alcanza un desempeño inferior al método basado en la curva Z. Sin embargo, vale observar que incluso en la ausencia de información a priori, la MMT presenta un desempeño visual comparable con respecto a la curva Z. Vea la Figura 5.6, Figura 2 en [Gao and Zhang, 2004], y Figura 4.2 en [Guigó, 1999]; note que, en particular, el intrón entre el primero y segundo exón, tiene un tamaño pequeño, siendo un caso difícil para cualquier método.

Figura 5.6: Identificación de regiones codificantes de proteínas en la secuencia humana $\beta $-globin de 2000bp usando la MMT. Con un threshold de 75% fueron identificadas tres regiones en las posiciones 185-266, 399-607 y 1426-1633. Las regiones sombreadas denotan la posición física relativa de las verdaderas regiones codificantes.
\includegraphics[width=.70\textwidth]{humanBeta_mgwt}

El método basado en la MMT no requiere ninguna información biológica adicional para ser usado en las secuencias de ADN, y ningún conjunto de datos genómico es necesário para la identificación de regiones codificantes. De esa forma, ese método puede ser usado en la ausencia de conocimiento previo de las especies bajo análisis, siendo particularmente adecuado para el análisis de nuevos genomas secuenciados. Por ejemplo, se ha encontrado, en los experimentos realizados, subregiones con valores altos en los coeficientes de proyección. Esas subregiones actualmente son consideradas como regiones no-codificantes, posiblemente correspondan a regiones codificantes no anotadas o a pseudo-genes.

Fue obtenido el mejor desempeño usando el conjunto de datos BG570 con la MMT y los valores de threshold cercanos a 70-85% (i.e. 70-85% de las bases son consideradas como no-codificantes). Es importante ver que estos valores de threshold están relacionados con su densidad de codificación de alrededor de 15% (en el Apéndice B son mostradas las estadísticas de los conjuntos de datos usados). Una relación similar entre valores de thresholds y densidad de codificación son observados cuando los conjuntos de datos HMR195 y Asp67 son considerados. Creemos que valores óptimos de threshold pueden ser obtenidos desde estadísticas de organismos taxonomicamente similares, las cuales podrían ser una manera de incorporar información basada en modelo de codificación de ADN al enfoque usado en la MMT para mejorar, de esa forma, su desempeño.


Tabla 5.5: Resumen de las mejores medidas de desempeño (AC, correlación aproximada) de identificación de regiones codificantes en la secuencia humana $\beta $-globin. La sensibilidad y especificidad son representados por Sn y Sp, respectivamente.
Método Sn Sp AC Threshold
Curva Z 0.97 0.88 0.90 0
Transformada modificada de Morlet 0.92 0.82 0.83 75
Información mutua media 0.84 0.82 0.78 77
Spectrum de Fourier 0.80 0.85 0.78 79
Características espectrales de Fourier 0.84 0.69 0.69 73



6. Conclusiones

Todos los métodos conocidos, actualmente, son sensibles y dependientes de la naturaleza de los datos analizados, siendo la intuición o domínio del conocimiento de los expertos un factor fundamental en el proceso de identificación de genes y posterior anotación genómica. Así, el problema de identificación de genes está lejos de ser resuelto y la principal dificultad es encontrada en lo que define realmente un gen. Biólogos moleculares encontraron algunos genes de tamaño más corto que lo esperado inicialmente [Hawkins, 1988]. Un desempeño mejor de una identificación requerirá un mejor conocimiento biológico sobre porque los genes tienen esas características encontradas hasta ahora [Liew et al., 2005].

En este trabajo se ha realizado un análisis comparativo de métodos de identificación y clasificación de regiones codificantes de proteínas, usando la transformada modificada de Morlet, información mutua media, spectrum de Fourier, y características espectrales de Fourier. Todos esos métodos estan basados en la búsqueda de periodicidad de tres bases existentes en las regiones codificantes. El análisis comparativo de los métodos solo ha sido posible mediante:

Los resultados obtenidos de la evaluación de los métodos sugieren que el uso de la transformada modificada de Morlet permite una clasificación e identificación más precisa de las regiones codificantes de tamaño corto, presentando un desempeño superior sobre otros métodos independientes del modelo de codificación, esa mejora es una consecuencia de su enfoque multi-escala. El método permite el uso de escalas múltiples, analizando (1) regiones codificantes de tamaño corto, con escalas pequeñas, y (2) regiones codificantes de tamaño largo, con escalas grandes. Siendo así que la principal ventaja de este método, es la robustez a variaciones de escala en el análisis de secuencias de ADN. Actualmente tal dependencia es un problema en los método alternativos propuestos en la literatura. Otra ventaja es la flexibilidad y forma de representación gráfica de la periodicidad de tres bases encontrada en las regiones codificantes. Esta capacidad de visualización es útil para explorar la significancia biológica de regiones con periodicidad de bases.

Es importante resaltar que todas estas medidas de exactitud obtenidas para los métodos de identificación, independientes del modelo de codificación de ADN y tratados en estre trabajo, no son las idealmente esperadas. Suponemos que la exactitud es limitada principalmente debido a (1) la presencia de organización periódica imperfecta de tres bases en las regiones codificantes, i.e., la periodicidad de tres bases en las regiones codificantes no tienen una conducta uniforme; (2) la falta o ausencia de periodicidad de bases algunas regiones codificantes; y (3) la presencia de periodicidad de tres bases en algunas regiones no-codificantes.


A. Transformada Modificada de Morlet

Una transformada multi-escala de una señal $u$ puede ser calculada por,

\begin{displaymath}
U(b,a) = \int u(x) f(x,b,a) \textrm{d}x,
\end{displaymath} (A.1)

donde $a>0$ es el parámetro de escala, $b$ el parámetro de espacio, y $f$ la función de análisis.

En la Ecuación (A.1) diferentes funciones de análisis pueden ser adoptadas para transformar la señal $u$. En particular, funciones bien localizadas en el dominio de la frecuencia, como la función de Gabor (Gaussiana modulada) definida como [Costa and Cesar-Jr., 2001],

\begin{displaymath}
g(x,a) = e^{-\frac{x^2}{2}} e^{j a x},
\end{displaymath} (A.2)

y la función de Morlet [Chan, 1995],
\begin{displaymath}
\psi_M(x) = e^{-\frac{x^2}{2}} e^{j \omega_0 x},
\end{displaymath} (A.3)

donde $\omega_0$ es la frecuencia básica de $\psi$, son utilizadas para analizar señales de forma local y con diferentes frecuencias. Estas funciones no son completamente apropiadas para la identificación de regiones codificantes de proteínas porque varían sus frecuencias con la alteración de la escala, i.e., la variación de la desviación estándar de la Gaussiana involucrada en la ecuación. En la Figura A.1(a)-(b), mostramos las diferencias entre ambas funciones donde la frecuencia de la exponencial compleja es variada.

En [Mena-Chalco, 2005] fue definida una modificación de la función de Morlet para analizar localmente señales en una frecuencia específica y con escala variable. En la función de análisis de Morlet fue usado el parámetro de escala $a$ para mantener constante la frecuencia de la exponencial compleja, variando la desviación estándar de la Gaussiana (i.e., la escala),

\begin{displaymath}
U(b,a) = \int u(x) e^{-\frac{(x-b)^2}{2a^2}} e^{j \omega_0 (x-b)} \textrm{d}x
%nt: new transform
\end{displaymath} (A.4)

Por lo tanto, la función de análisis $\psi_{MM}$ de la Transformada Modificada de Morlet está definida por:
\begin{displaymath}
\psi_{MM}(x,a) = e^{-\frac{x^2}{2a^2}} e^{j \omega_0 x}
% afnt: analysis function of the new transform
\end{displaymath} (A.5)

En la Figura A.1 son ilustradas gráficamente las diferencias entre las funciones de análisis de Gabor, Morlet y la modificación de Morlet.
Figura A.1: Representación de las funciones de análisis de (a) Gabor, donde la frecuencia de la exponencial compleja es variada, manteniendo constante la desviación estándar de la Gaussiana, (b) Morlet, donde la desviación estándar de la Gaussiana es variada así como la frecuencia de la exponencial compleja, y (c) Morlet modificado, donde la desviación estándar de la Gaussiana es variada, manteniendo constante la frecuencia de la exponencial compleja.
\includegraphics[width=0.23\columnwidth]{gabor_1}     \includegraphics[width=0.23\columnwidth]{morlet_1}     \includegraphics[width=0.23\columnwidth]{mmorlet_1}
\includegraphics[width=0.23\columnwidth]{gabor_2}     \includegraphics[width=0.23\columnwidth]{morlet_2}     \includegraphics[width=0.23\columnwidth]{mmorlet_2}
\includegraphics[width=0.23\columnwidth]{gabor_3}     \includegraphics[width=0.23\columnwidth]{morlet_3}     \includegraphics[width=0.23\columnwidth]{mmorlet_3}
(a)     (b)     (c)


B. Estadísticas de los conjuntos de datos

Las bases de datos genómicas usadas corresponden a organismos eucariotos cuyos limites entre exones e intrones fueron cuidadosamente anotados. La base de datos BG570 y HMR195 tienen (ligeramente) bajo contenido de codificación de proteínas ($\sim$15%) y un pequeño tamaño promedio de exón ($\sim$200). En contraposición, la base de datos Asp67 tiene un alto contenido de codificación ($\sim$45%) y un pequeño tamaño promedio de exón ($\sim$500). En la Tabla B.1 son mostradas las estadísticas correspondientes a los conjuntos de datos considerados.


Tabla B.1: Estadísticas genómicas
Tamaño
Conjunto Región Cantidad Bases Promedio Desviación
estándar
BG570 Exón 2649 444498 (15.4%) 168 222
(570 genes) Intrón 2079 1310452 (45.3%) 630 909
Intergénica 1132 1137199 (39.3%) 1004 1464
HMR195 Exón 948 199176 (14.4%) 210 271
(195 genes) Intrón 753 642788 (46.4%) 854 1301
Intergénica 390 544044 (39.2%) 139 2262
Asp67 Exón 778 438810 (45.1%) 564 751
(280 genes) Intrón 711 434468 (44.6%) 611 1254
Intergénica 127 100124 (10.3%) 788 1800



C. Análisis de periodicidad en secuencias de ADN

En este apéndice es realizado un análisis empírico de periodicidad usando los conjuntos de genómicos BG570 y HMR195 descritos en el Apéndice B. Para el cálculo de los valores de periodicidad fueron utilizadas solamente las magnitudes de los coeficientes de la transformada discreta de Fourier de cada región en las secuencias de ADNC.1.

La transformada de Fourier es utilizada para descomponer una señal en componentes que representen frecuencias, describiendo la señal de forma uni-dimensional y global. Así, esta transformada invertible representa de forma no ambigua una secuencia y define la noción de frecuencia global existente en la secuencia analizada.

La transformada discreta de Fourier, $S$, de una secuencia $s$ de tamaño $N$ puede ser definida como:

\begin{displaymath}
S[k] = \sum_{b=0}^{n-1} s[b] e^{-2 \pi j k b/n }, \quad k=0,\dots,N-1
\end{displaymath} (C.1)

donde $k$ representa el valor de la frecuencia necesária para reconstruir $s$.

En la Figuras C.1 es mostrada para cada conjunto las primeras 23 estimativas enteras de periodicidad, i.e., estimativas de periodicidad de 2 a 24 de las regiones codificantes y regiones no-codificantes de proteínas (regiones intergénicas e intrones). Fue observado, para valores mayores de periodicidad, un comportamiento similar en las estimativas de estas periodicidades, siendo así que la energía asociada a la frecuencia tres en las regiones codificantes es siempre mayor que los valores de las otras frecuencias. Obsérvese que los exones muestran una energía asociada a las regiones codificantes mayor en comparación a las otras energías de las periodicidades estimadas. Esta estimativa muestra, empíricamente, la periodicidad de tres bases presente solamente en las regiones codificantes.

Figura C.1: Periodicidades estimadas para secuencias de DNA usando conjuntos genómicos. Fueron calculadas las periodicidades 2 a 24 de las regiones codificantes y regiones no codificantes (regiones intergénicas e intrones).
\includegraphics[width=.7\textwidth]{conjunto_a}
(a) Conjunto BG570
 
\includegraphics[width=.7\textwidth]{conjunto_b}
(b) Conjunto HMR195


D. Medidas de desempeño obtenidas

La Tablas D.1 y D.2 muestran las medidas de desempeño calculadas para la secuencia F56F11.4 y el gen humano $\beta $-globin usando los métodos basados en la transformada modificada de Morlet y aquellos basados en información mutua, spectrum de Fourier y, características espectrales de Fourier con tamaños de ventana de 351bp y 120bp, respectivamente.

Finalmente, las Tablas D.3 a D.10 muestran las medidas de desempeño calculadas para el conjunto de datos BG570 usando los métodos basados en la transformada modificada de Morlet, información mutua media, spectrum de Fourier y, características espectrales de Fourier, usando tamaños de ventanas de 60, 120, 180, 240, 300, 360, 420 y 480bp. Vale destacar que similares resultados fueron obtenidos usando las bases de datos HMR195 y Asp67 (vea Tablas 5.3 y 5.4 en la Sección 5 ).

margin=1.0cm


\begin{landscape}
% latex2html id marker 2981\begin{longtable}{\vert c\vert c\...
....06 & 1.00 & 0.46 & 0.06 & 1.00 & 0.46 \\ \hline
\end{longtable}\end{landscape}


\begin{landscape}
% latex2html id marker 3053\begin{longtable}{\vert c\vert c\...
...0.02 & 0.37 & 0.08 & 0.03 & 1.00 & 0.41 \\ \hline
\end{longtable}\end{landscape}


\begin{landscape}
% latex2html id marker 3124\begin{longtable}{\vert c\vert c\...
...0.04 & 0.66 & 0.25 & 0.04 & 0.64 & 0.24 \\ \hline
\end{longtable}\end{landscape}


\begin{landscape}
% latex2html id marker 3195\begin{longtable}{\vert c\vert c\...
...0.05 & 0.75 & 0.30 & 0.05 & 0.75 & 0.30 \\ \hline
\end{longtable}\end{landscape}


\begin{landscape}
% latex2html id marker 3266\begin{longtable}{\vert c\vert c\...
...0.05 & 0.78 & 0.31 & 0.05 & 0.76 & 0.30 \\ \hline
\end{longtable}\end{landscape}


\begin{landscape}
% latex2html id marker 3337\begin{longtable}{\vert c\vert c\...
...0.04 & 0.74 & 0.29 & 0.04 & 0.73 & 0.28 \\ \hline
\end{longtable}\end{landscape}


\begin{landscape}
% latex2html id marker 3408\begin{longtable}{\vert c\vert c\...
...0.04 & 0.70 & 0.27 & 0.04 & 0.67 & 0.25 \\ \hline
\end{longtable}\end{landscape}


\begin{landscape}
% latex2html id marker 3479\begin{longtable}{\vert c\vert c\...
...0.04 & 0.63 & 0.23 & 0.03 & 0.58 & 0.20 \\ \hline
\end{longtable}\end{landscape}


\begin{landscape}
% latex2html id marker 3550\begin{longtable}{\vert c\vert c\...
...0.03 & 0.57 & 0.20 & 0.03 & 0.52 & 0.17 \\ \hline
\end{longtable}\end{landscape}


\begin{landscape}
% latex2html id marker 3621\begin{longtable}{\vert c\vert c\...
...0.03 & 0.54 & 0.18 & 0.03 & 0.48 & 0.15 \\ \hline
\end{longtable}\end{landscape}

Bibliografía

V. Afreixo, P. J. S. G. Ferreira, and D. Santos.
Fourier analysis of symbolic data: A brief review.
Digital Signal Process., 14 (6): 523-530, 2004.

B. Alberts, A. Johnson, J. Lewis, M. Raff, K. Roberts, and P. Walter.
Molecular biology of the cell.
Garland Science, New York, fourth edition, 2002.

D. Anastassiou.
Genomic signal processing.
IEEE Signal Processing Magazine, 8 (4): 8-20, 2001.

Dimitris Anastassiou.
Frequency-domain analysis of biomolecular sequences.
Bioinformatics, 16 (12): 1073-1081, 2000.

E. Blanco and R. Guigó.
Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, chapter Predictive Methods Using DNA Sequences.
John Wiley & Sons Inc., New York, third edition, 2004.

M. Borodovsky and J. McIninch.
Genemark: Parallel gene recognition for both DNA strands.
Computers & Chemistry, 17 (2): 123-133, 1993.

S. V. Buldyrev, A. L. Goldberger, S. Havlin, R. N. Mantegna, M. E. Matsa, C.-K Peng, M. Simons, and H. E. Stanley.
Long-range correlation properties of coding and noncoding DNA sequences: GenBank analysis.
Physical Review E, 51 (5): 5084-5091, 1995.

M. Burset and R. Guigó.
Evaluation of gene structure prediction programs.
Genomics, 34 (3): 353-367, 1996.

Y. T. Chan.
Wavelet Basics.
Kluwer Academic Publishers, Boston, 1995.

F. Chen and Y.-T. Zhang.
A DNA structure-based bionic wavelet transform and its applications to DNA sequence analysis.
Applied Bionics and Biomechanics, 1 (1): 3-9, 2003.

J. Chen, H. Li, K. Sun, and B. Kim.
How will bioinformatics impact signal processing research?
IEEE Signal Processing Magazine, 20 (6): 16-26, 2003.

L. F. Costa.
Biological sequence analysis through the one-dimensional percolation transform and its enhanced version.
Bioinformatics, 21 (5): 608-616, 2005.

L. F. Costa and R. M. Cesar-Jr.
Shape Analysis and Classification: Theory and Practice.
CRC Press, Inc., Boca Raton, FL, USA, 2001.
ISBN 0849334934.

S. Datta and A. Asif.
A fast DFT based gene prediction algorithm for identification of protein coding regions.
In IEEE International Conference in Acoustics, Speech, and Signal Processing, ICASSP '05, volume 3, pages 113-116, 2005.

E. R. Dougherty, I. Shmulevich, J. Chen, and Z. J. Wang.
Genomic Signal Processing and Statistics.
Hindawi Publishing Corporation, Grawn, MI, 2005.

S. T. Eskesen, F. N. Eskesen, B. Kinghorn, and A. Ruvinsky.
Periodicity of DNA in exons.
Journal Molecular Biology, 5 (12): 1-11, 2004.

J. W. Fickett and C. S. Tung.
Assessment of protein coding measures.
Nucleic Acids Research, 20 (24): 6441-6450, 1992.

F. Gao and C. T. Zhang.
Comparison of various algorithms for recognizing short coding sequences of human genes.
Bioinformatics, 20 (5): 673-681, 2004.

I. Grosse, H. Herzel, S. V. Buldyrev, and H. E. Stanley.
Species independence of mutual information in coding and noncoding DNA.
Physical Review E, 61 (5): 5624-5629, 2000.

R. Guigó.
Genetic Databases, chapter DNA Composition, Codon Usage and Exon Prediction, pages 53-80.
Academic Press, 1999.

G. Gutierrez, J. L. Oliver, and A. Marin.
On the origin of the periodicity of three in protein coding DNA sequences.
Journal of Theoretical Biology, 167 (4): 413-414, 1994.

J. A. Hanley and B. J. McNeil.
The meaning and use of the area under a receiver operating characteristic (ROC) curve.
Radiology, 143 (1): 29-36, April 1982.

D. Haussler.
Computational genefinding.
Trends in Biochemical Sciences, 16 (1): 12-15, 1998.

J. D. Hawkins.
A survey on intron and exon lengths.
Nucleic Acids Research, 16 (21): 9893-9908, 1988.

S. Hosid, E. N. Trifonov, and A. Bolshoy.
Sequence periodicity of Escherichia coli is concentrated in intergenic regions.
BMC Molecular Biology, 5 (14): 1-7, 2004.

T. H. Jukes and S. Osawa.
Evolutionary changes in the genetic code.
Comp Biochem Physiol B, 106 (3): 489-494, 1993.

A. K. Konopka.
Human Genome Initiative and DNA Recombination, chapter Towards mapping functional domains and indiscriminantly sequenced nucleic acids: a computational approach, pages 113-125.
Adenine Press, Guiderland NY, 1990.

D. Kotlar and Y. Lavner.
Gene prediction by spectral rotation measure: A new method for identifying protein-coding regions.
Genome Research, 13 (8): 1930-1937, 2003.

W. Li.
The study of correlation structures of DNA sequences: A critical review.
Computers & Chemistry, 21 (4): 257-271, 1997.

W. Li, T. G. Marr, and K. Kaneko.
Understanding long-range correlations in DNA sequences.
PHYSICA D, 75: 392-416, 1994.

A. W.-C. Liew, H. Yan, and M. Yang.
Pattern recognition techniques for the emerging field of bioinformatics: A review.
Pattern Recognition, 38 (11): 2055-2073, 2005.

P. Liò.
Wavelets in bioinformatics and computational biology: State of art and perspectives.
Bioinformatics, 19 (1): 2-9, 2003.

I. Lopez-Villasenor, M. V. Jose, and J. Sanchez.
Three-base periodicity patterns and self-similarity in whole bacterial chromosomes.
Biochemical and Biophysical Research Communications, 325 (2): 467-478, 2004.

C. Mathe, M. F. Sagot, T. Schiex, and P. Rouze.
Current methods of gene prediction, their strengths and weakness.
Nucleic Acids Research, 30 (19): 4103-4117, 2002.

J. P. Mena-Chalco.
Identificação de regiões codificantes de proteína através da transformada modificada de Morlet.
Master's thesis, Instituto de Matemática e Estatística - Universidade de São Paulo, October 2005.

J. P. Mena-Chalco and R. M. Cesar-Jr.
Identificación de regiones codificantes de proteínas mediante la transformada modificada de Morlet.
In XIII Concurso Latinoamericano de Tesis de Maestría. 32a Conferencia Latinoamericana de Informática, 2006.

D. W. Mount.
Bioinformatics: Sequence and Genome Analysis.
Cold Spring Harbor Press, Cold Spring Harbor, NY, second edition, 2004.

J. Ning, C. N. Moore, and J. C. Nelson.
Preliminary wavelet analysis of genomic sequences.
In IEEE Computer Society Bioinformatics Conference, pages 509-510, 2003.

S. Osawa, T. H. Jukes, K. Watanabe, and A. Muto.
Recent evidence for evolution of the genetic code.
Microbiol Reviews, 56 (1): 229-264, 1992.

B. Pierre, S. Brunak, Y. Chauviny, J. Engelbrecht, and A. Krogh.
Periodic sequence patterns in human exons.
Proc Int Conf Intell Sust Mol Biol, 3 (3): 30-38, 1995.

S. Rogic, A. K. Mackworth, and B. F. Ouellette.
Evaluation of gene-finding programs on mammalian sequences.
Genome Research, 11 (5): 817-832, 2001.

B. D. Silverman and R. Linsker.
A measure of DNA periodicity.
Journal of Theoretical Biology, 118 (3): 295-300, 1986.

R. Staden.
Genetic Engineering Principles and Methods, volume 7, chapter Computer methods to locate genes and signals in nucleic acid sequences, pages 67-114.
New York, 1985.

D. S. Stoffer, D. E. Tyler, and A. J. McDougall.
Spectral analysis for categorical time series: Scaling and the spectral envelope.
Biometrika, 80 (3): 611-622, 1993.

S. Tiwari, S. Ramachandran, A. Bhattacharya, S. Bhattacharya, and R. Ramaswamy.
Prediction of probable genes by Fourier analysis of genomic sequences.
Bioinformatics, 13 (3): 263-270, 1997.

E. N. Trifonov and J. L. Sussman.
The pitch of chromatin DNA is reflected in its nucleotide sequence.
Proceedings of the National Academy of Sciences USA, 77 (7): 3816-3820, 1980.

A. A. Tsonis, J. B. Elsner, and P. A. Tsonis.
Periodicity in DNA coding sequences: Implications in gene evolution.
Journal of Theoretical Biology, 151 (3): 323-331, 1991.

P. P. Vaidyanathan and B. Yoon.
The role of signal-processing concepts in genomics and proteomics.
Journal of the Franklin Institute, 341 (1-2): 111-135, 2004.

W. Wang and D. H. Johnson.
Computing linear transforms of symbolic signals.
IEEE Transaction on Signal Processing, 50 (3): 628-634, 2002.

M. Q. Zhang.
Computational prediction of eukaryotic protein-coding genes.
Nature Reviews Genetics, 3 (9): 698-709, 2002.

X. Zhang, F. Chen, Y. Zhang, S. C. Agner, M. Akay, Z. Lu, M. M. Y. Waye, and S. K. Tsui.
Signal processing techniques in genomic engineering.
Proceedings of the IEEE, 90 (12): 1822-1833, 2002.

V. B. Zhurkin.
Periodicity in DNA primary structure is defined by secondary structure of the coded protein.
Nucleic Acid Research, 9 (8): 1963-1971, 1981.

Sobre este documento...

Este documento fue producido mediante el editor de textos vim (http://www.vim.org) y el compilador LATEX (http://www.latex-pro ject.org/). Muchos paquetes y macros de domínio público fueron usados. La formatación básica se inspiro en el trabajo de maestría de Thiago Teixeira Santos. El sistema operativo usado fue GNU/Linux (kernel 2.6.17.6-k7) ofrecido por la distribución Debian (http://www.debian.org), actualmente teniendo como versión estable a Sarge. Para la ejecución de los programas de identificación y clasificación de regiones codificantes fueron usados intensivamente los computadores pertenecientes al Laboratorio de Procesamiento de Imágenes y Bioinformática del Instituto de Matemática y Estadística de la Universidad de São Paulo. Las figuras correspondientes a los capítulos introductorios y de fundamentación biológica fueron realizados usando las herramientas Gimp (http://www.gimp.org/) y Dia (http://www.gnome.org/projects/dia/). Para los subsiguientes capítulos de resultados y discuciones únicamente fueron usados Matlab (http://www.mathworks.com) y R (http://www.r-project.org/). Mucho te helado, dosis musicales de rock, pop clásico y samba fueron desmesuradamente consumidos en la producción de este documento :-).

This document was generated using the LaTeX2HTML translator Version 2002-2-1 (1.71)

Copyright © 1993, 1994, 1995, 1996, Nikos Drakos, Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999, Ross Moore, Mathematics Department, Macquarie University, Sydney.

The command line arguments were:
latex2html -white -show_section_numbers -local_icons -iso_language PT.BR -short_index -discard -no_math -split 0 -no_navigation -numbered_footnotes tesis

The translation was initiated by Jesus Mena-Chalco on 2008-02-08


Notas al pie

... similaridad1.1
Vea también en [Staden, 1985] una taxonomía similar.
... antiparalela2.1
Las cintas de ADN tienen polaridad opuesta, eso quiere decir que están dispuestas en sentido opuesto (estan orientadas en forma antiparalela).
... duplicación2.2
Proceso semi-conservativo que permite la auto duplicación de todo el material genétido manteniendo de esa forma el patrón de herencia a lo largo de las generaciones.
... códons2.3
Un códon es considerado como un agrupamiento de tres bases que especifican un aminoácido o indicador de parada de síntesis.
... binaria3.1
Este tipo de secuencias también son conocidas como secuencias indicadoras binarias, por ser indicadoras de posiciones.
... arbitrario3.2
Como el código genético es un código que agrupa 3 nucleótidos no sobrepuestos, existen tres frames en el cual una secuencia de ADN puede ser traducida en una secuencia de aminoácido. En la célula, únicamente uno de los tres reading frames codifica en un aminoácido. En el enfoque estadístico utilizado, la elección de algún reading frame es arbitrario en el sentido que $P_{ij}(k)$ es invariante a traslaciones (shifts) entre reading frames.
... binarias3.3
Vea en el Apéndice A una definición formal de esta transformada y su comparación con transformadas similares.
... 1 bp5.1
Uma lista completa de medidas de desempeño es presentada en el Apéndice D.
... ADNC.1
En [Eskesen et al., 2004; Silverman and Linsker, 1986] se encuentra una descripción detallada de los métodos comunes para el cálculo de periodicidad en secuencias de ADN.


Jesus Mena-Chalco 2008-02-08