Un tópico importante en el análisis de secuencias biológicas es la identificación de regiones codificantes de proteínas. En ese contexto, diferentes métodos independientes del modelo de ADN codificante fueron estudiados. Estos métodos son basados en la búsqueda de patrones periódicos genómicos específicos propios de las regiones codificantes de proteínas; sin embargo, no son completamente satisfactórios debido a la dependencia sobre el tamaño de ventana el cual debe se ser previamente definido para analizar localmente una región de ADN. Alternativamente, un nuevo método de identificación de regiones codificantes de proteínas para organismos eucariotos, basado en la transformada modificada de Morlet, fue propuesto recientemente. Esa nueva transformada multi-escala permite evitar la dependencia del tamaño de ventana, analizando secuencias de ADN con funciones de frecuencia tres y de escala variable.
En el presente trabajo es realizado un análisis comparativo de los métodos más representativos de identificación y clasificación de regiones codificantes de proteínas en secuencias de ADN. El estudio esta concentrado en la definición de nuevos procedimientos de comparación entre métodos basados únicamente en medidas independientes del modelo de ADN codificante. Son cuatro los métodos evaluados incluyendo los basados en: (1) transformada modificada de Morlet, (2) información mutua media, (3) spectrum de Fourier, y (4) características espectrales de Fourier. Finalmente son discutidas situaciones biológicas donde la exactitud de los métodos de identificación de regiones codificantes aún este lejos de lo idealmente esperado.
Palabras clave: identificación y clasificación de regiones codificantes de proteínas, periodicidad en las regiones codificantes, métodos independientes del modelo de ADN codificante, bioinformática.
Es con mucha satisfacción que, finalmente, concluyo una etapa académica que debió ser realizada hace varios años. Siendo que hasta ahora fueron pocas las logradas en mi vida, esta etapa -muchas veces olvidada- fluctuaba recurrentemente en mis pensamientos.
Deseo agradecer profundamente a mis padres Emílio y Julia, y a mis hermanos Rafael, Senovia y Madelyn por todo el gran apoyo y fuerza que siempre me dan. Agradezco especialmente a Elizabeth por toda la ayuda, el amor y paciencia de todos estos últimos años.
Estoy muy agradecido a los profesores Luis Alfaro Casas, Pedro Rodríguez Gonzáles, y Alfredo Paz Valderrama, miembros del jurado de esta tesis por su ayuda incondicional, sugerencias y recomendaciones para la presentación final de este trabajo. De igual manera, deseo agradecer a mi profesor y amigo Roberto Marcondes Cesar Junior del Departamento de Ciencia de la Computación de la Universidad de São Paulo, por darme la oportunidad de trabajar en el área de reconocimiento de patrones y bioinformática en el Laboratorio de Bioinformática y Procesamiento de Imágenes.
Agradezco a todos quienes de forma directa o indirecta me ayudaron en la elaboración y presentación de este trabajo, ya sea intercambiando ideas, dando consejos y recomendaciones o haciendo alegres el tiempo dedicado al mismo. Quiero citar especialmente a los profesores: Robert Arisaca Mamani, César Baluarte Araya, César Beltran Castañón, Eveling Castro Gutierrez, Lucy Delgado Barra, Juan Carlos Gutierrez Cáceres, Percy Huertas Niquén, Juan Carlos Juarez Bueno, y Wilber Ramos Lovón.
Finalmente, pero no en último lugar, deseo agradecer a Eliana Merma Rodríguez, y a todo personal administrativo de la universidad por todo el apoyo dado. También a mis compañeros de promoción de la EPIS, en especial a Richard Arias Arias, César Agramonte Quispe, Fredy Calizaya López, Alvaro Cuno Parari, Dennis Barrios Aranibar, Nelly Condori Fernández, Cristian López del Álamo, Liliana Mamani Sánchez, Raquel Patiño Escarcina, Arturo Palacios Aguilera, Christian Paz Trillo, Viviana Pino Mestas, y Gustavo Salazar Torres. ¡Por todo gracias!
| AC | Correlación aproximada (Approximate correlation) |
| AUC | Área bajo la curva ROC (Area under the ROC curve) |
| ADN | Ácido desoxy ribonucléico (Deoxyribonucleic acid) |
| bp | Par de base (Base pair) |
| CDS | Región codificante de proteína (Coding sequence, protein coding sequence) |
| DSP | Procesamiento digital de señales (Digital signal processing ) |
| EIIP | Potencial de interação elétron-íon (electron-ion interaction potentials) |
| FN | Falso negativo (False negative) |
| FP | Falso positivo (False positive) |
| mRNA | RNA mensageiro (Messenger RNA) |
| MMT | Transformada modificada de Morlet (Modified Morlet transform) |
| RNA | Ácido ribonucléico (Ribonucleic acid) |
| ROC | Característica de operación del receptor (Receiver operating characteristics) |
| Sn | Sensibilidad (Sensitivity) |
| Sp | Especificidad (Specificity) |
| TBP | Periodicidad de tres bases (Three-base periodicity) |
| TN | Verdadero negativo (True negative) |
| TP | Verdadero positivo (True positive) |
| Complejo conjugado | |
| Escala | |
| Número imaginario, |
|
| Señal (discreto o contínuo) | |
| Tiempo o posición | |
| Valor absoluto de un número | |
| A | Base adenina |
| C | Base citocina |
| G | Base guanina |
| T | Base timina |
| U | Base uracila |
| Secuencia binaria asociada a las posiciones de la base X | |
| Transformada de Fourier de la secuencia |
Los recientes avances en bioinformática, procesamiento de señales genómicas, e información de entropía han generado mucho interés debido a la integración de teoría y métodos con entendimiento global de genómica funcional de organismos [Costa, 2005; Dougherty et al., 2005]. Cuando un nuevo organismo es secuenciado, es deseable obtener toda su información posible. Un paso fundamental es la identificación de regiones codificantes de proteínas en una cinta de la secuencia de ADN la cual posiblemente represente la estructura biológica de los genes [Haussler, 1998; Zhang, 2002]. Los métodos para identificación de regiones codificantes descritos en la literatura pueden ser agrupados en diferentes maneras. Blanco and Guigó [2004] dividen los diversos métodos en tres enfoques: búsqueda por contenido, búsqueda por señal (también referido como búsqueda por sitios) y búsqueda por similaridad1.1.
Búsqueda por contenido se refiere a métodos que buscan segmentos de ADN con propiedades específicas como frecuencia de nucleótidos, composición de nucleótidos con abundante G/C o A/T, composición de códons e islas CpG [Haussler, 1998]. Por otro lado, búsqueda por sitios y búsqueda por similaridad se refieren a métodos que están basados en informaciones (base de datos) previamente conocidas, y que son usadas para entrenar un clasificador supervisado como Cadenas de Markov, por ejemplo [Borodovsky and McIninch, 1993].
Guigó [1999] sugiere una taxonomía ligeramente diferente para estos métodos, dividiéndolos en métodos dependientes y no-dependientes del modelo de codificación de ADN. Métodos dependientes del modelo son construídos sobre alguna información conocida a priori, que están usualmente disponibles en bases de datos genómicos de organismos previamente estudiados. Métodos independientes del modelo no asumen tal información a priori. Estas diferencias explican porque programas para identificar genes están típicamente basados en combinaciones de tales técnicas: métodos dependientes del modelo tienden a ser más precisos porque ellos cuentan con información a priori para entrenar los clasificadores. Sin embargo, nuevos organismos secuenciados pueden tener regiones codificantes que no son representados en las bases de datos disponibles y así pueden no ser identificados. En tales situaciones, métodos independientes del modelo complementan las capacidades para, computacionalmente, detectar las regiones codificantes. El presente estudio evalúa los métodos independientes del modelo de codificación más representativos para la clasificación e identificación de regiones codificantes de proteínas, como se describe en los objetivos del trabajo.
En secuencias de ADN, las regiones codificantes de proteínas típicamente muestran una organización periódica imperfecta de tres bases [Silverman and Linsker, 1986] la cual no es encontrada en otras regiones: como las regiones intergénicas e íntrons en eucariotos. En recientes años esta característica ha sido analizada para explicar su causa [Gutierrez et al., 1994; Pierre et al., 1995; Trifonov and Sussman, 1980; Tsonis et al., 1991; Zhurkin, 1981] y así poder cuantificarla [Eskesen et al., 2004; Silverman and Linsker, 1986]. En la literatura, esta periodicidad es comúnmente llamada de periodicidad de tres bases (TBP, three-base periodicity), habiendo sido observado en manera similar para di-nucleótidos en bacterias de cromosomas [Lopez-Villasenor et al., 2004].
La TBP refleja relaciones entre posiciones de nucleótidos en las regiones codificantes [Gutierrez et al., 1994]. Sin embargo, es posible encontrar excepciones de esta propiedad genómica en regiones codificantes de secuencias virales y de mitocondrias [Li, 1997]. Periodicidad de aproximadamente 11 bases ha sido encontrada en regiones intergénicas de E. coli, y los estudios sugieren que esta es una propiedad típica de esas regiones, posiblemente para regulación de transcripción [Hosid et al., 2004].
En el Apéndice C es mostrado un análisis empírico de periodicidad en conjuntos genómicos de secuencias de ADN.
Actualmente existen varios estudios de métodos concentrados en características de correlación de periodicidad tres entre posiciones de nucleótidos. Nuevas metodologías computacionales que combinan procesamiento digital de señales y reconocimiento de patrones han sido creados en estudios de bioinformática [Chen et al., 2003; Liò, 2003; Zhang et al., 2002] presentando prometedores resultados.
La identificación de regiones codificantes de proteínas basado en el spectrum de Fourier fue discutido en [Anastassiou, 2000; Li, 1997; Silverman and Linsker, 1986; Tiwari et al., 1997]. Kotlar and Lavner [2003], estudiaron la rotación espectral; Datta and Asif [2005], usaron características espectrales de Fourier; y Vaidyanathan and Yoon [2004], usaron filtros digitales para resolver el mismo problema de identificación. Tales enfoques brindan una base matemática robusta y algoritmos computacionalmente eficientes.
Adicionalmente, otros métodos independientes del modelo de ADN codificante han sido satisfactoriamente usados para identificar localmente regiones codificantes en secuencias de ADN. Konopka [1990] analizó secuencias usando índices de asimetría periódica en nucleótidos, Fickett and Tung [1992] usaron asimetría de posiciones en nucleótidos; y Grosse et al. [2000], usaron información mutua media como una medida intimante relacionada a la entropía en secuencias de ADN. Sin embargo, los resultados de estos estudios son limitados debido a que requiere de una definición a priori del tamaño de ventana. La definición del tamaño de ventana a ser usada en el análisis de secuencias de ADN es crítica porque afecta directamente los resultados [Liew et al., 2005]. Por tal motivo, para evitar esa dependencia, métodos alternativos aparecieron para explorar diferentes tamaños de ventanas, como la transformada en wavelets [Chen and Zhang, 2003; Ning et al., 2003].
Una manera natural de realizar un análisis de secuencias de ADN, tomando ventaja del enfoque multi-escala, consiste en usar pequeñas escalas para analizar pequeñas regiones codificantes de proteínas y usar grandes escalas para grandes regiones. Transformadas tiempo-escala tradicionales, como en wavelets, podrían ser la forma natural para ser aplicada en tales situaciones. Sin embargo, el análisis en wavelets no es completamente adecuado, dado que la frecuencia de las funciones de análisis varían con el parámetro de la escala. Este hecho motivó la definición de un nuevo método para la identificación de regiones codificantes, basado en la transformada modificada de Morlet [Mena-Chalco and Cesar-Jr., 2006; Mena-Chalco, 2005], el cual permite analizar una señal, variando la escala y manteniendo constante la frecuencia en las funciones de análisis.
En 1996, Burset y Guigó, realizaron un estudio comparativo entre vários métodos de identificación de regiones codificantes, de los cuales únicamente cuatro fueron los métodos independientes del modelo de ADN codificante [Burset and Guigó, 1996]. Desde ese estudio hasta la actualidad fueron diversos los métodos creados para identificación de regiones codificantes (basados en medidas independientes del modelo de codificación). La falta de un procedimiento de comparación y evaluación de desempeño entre métodos de identificación y clasificación, y la falta de un estudio comparativo entre métodos del estado-del-arte, motivó principalmente este trabajo de investigación.
El análisis comparativo será realizado entre cuatro de los métodos más representativos de identificación y clasificación de regiones codificantes de proteínas en secuencias de ADN, incluyendo los basados en:
El presente trabajo está organizado de la siguiente forma: En el capítulo 2 son tratados algunos conceptos básicos de biología molecular. En el capítulo 3 están descritos los métodos de identificación y clasificación de regiones codificantes comprendidos en la evaluación. Las medidas de desempeño adoptadas en la identificación de regiones y clasificación de secuencias de ADN están descritos en el capítulo 4. En el capítulo 5 son mostrados resultados y discuciones correspondientes al análisis de secuencias genómicas reales. Finalmente, las conclusiones obtenidas de la evaluación son descritas en el capítulo 6.
Consideramos a lo largo de este trabajo y de manera indistinta el uso de los términos nucleótidos y bases de ADN. Consideramos también que el tamaño de una secuencia de ADN o ARN es medido por la cantidad de nucleótidos existentes solamente en una cinta. La unidad utilizada es par de base (bp, base pair).
Todo organismo vivo, sin ninguna excepción conocida, almacena su información biológica en forma de moléculas de ácidos nucléicos, formadas por nucleótidos, para construirse y mantenerse. Cada nucleótido, a su vez, consiste de: (1) una molécula de azúcar (desoxiribosa o ribosa), (2) un grupo fosfato y, (3) una segunda molécula llamada de base nitrogenada [Alberts et al., 2002].
Existen cinco tipos de bases nitrogenadas. Las encontradas en el ácido desoxiribonucléico (ADN o DNA, Desoxyribonucleic acid) son: adenina ( A), citosina ( C), guanina ( G) y timina ( T), de modo que una secuencia de bases nitrogenadas de ADN esta formada sólo por A, C, G y T. En el ácido ribonucléico (ARN) existe una substitución de timina por uracila ( U) y la secuencia de ARN es formada por las bases A, C, G y U.
El ácido desoxiribonucléico es representado como una doble cinta complementaria
y antiparalela2.1, siendo por medio de los nucleótidos que las dos cintas
componentes de molécula de ADN permanecen enlazadas. El ADN posee el esquema de
emparejamiento donde el nucleótido
A siempre se enlaza al nucleótido
T y el nucleótido
C siempre se enlaza al nucleótido
G por
puentes de hidrógeno. Por convención, una molécula de ADN comienza en el lado
y termina en el lado
, donde
y
corresponden a los
átomos de carbono libres de la molécula de azúcar presentes en cada
nucleótido [Alberts et al., 2002]. Cada una de las cintas componentes de la molécula
posee una orientación propia, donde el final de una corresponde al inicio de la otra
(Figura 2.1).
El ácido ribonucléico (ARN o RNA, Ribonucleic acid), es representado como una cinta única de ácidos nucléicos, que diferente del ADN, tiene azúcar ribosa y uracila en lugar de timina. Esa cinta es obtenida mediante la transcripción de una de las cintas de ADN (Figura 2.2(c)). Son tres los tipos de ARN: (1) ARN mensajero (mARN) que contiene la información para la codificación de proteínas, (2) el ARN transportador (tARN), que es responsable por el transporte de aminoácidos, y (3) el ARN ribosomal (rARN), que posee un papel estructural.
Las diferencias entre ADN y ARN no se restringe a los tipos de nucleótidos que los constituyen. En la mayor parte de las veces, el ADN es presentado como una larga doble hélice y con una estructura secundaria regular y simple. Por otro lado, el ARN se presenta como una cinta única y de tamaño menor que el ADN, con una grande diversidad de estructuras secundarias relacionadas a las funciones del ADN y del ARN en la célula [Alberts et al., 2002].
Los aminoácidos son moléculas orgánicas que contienen átomos de carbono, hidrógeno, oxígeno y nitrógeno en su composición, siendo el resultado de la traducción de agrupamientos funcionales de moléculas de ADN. Los aminoácidos forman pequeñas cadenas de polímeros llamados polipeptideos, peptideos o monómeros de proteínas.
De los más de 500 tipos de aminoácidos encontrados en la naturaleza, son 20 los más comunes o universalmente aceptados para la síntesis, i.e., codificación de proteínas. Los vegetales tienen la capacidad de producir esos 20 aminoácidos necesários para la producción de sus proteínas. Sin embargo, las células de animales no producen todos ellos, siendo que algunos deben ser ingeridos. Por todo eso, los aminoácidos son clasificados de esenciales, que no pueden ser producidos por los animales y, los no esenciales, que pueden ser producidos por animales.
Será adoptada la representación clásica [Alberts et al., 2002] de una y tres
letras para cada uno de los 20 aminoácidos (Tabla 2.1).
Los genes son los responsables por la expresión de una proteína, o responsables por el control de expresión de otros genes [Alberts et al., 2002]. Todos los genes tienen una estructura compleja, pero para fines prácticos consideramos los genes como constituidos por las siguientes regiones características:
Las funciones de las regiones de ADN existentes entre los genes (regiones intergénicas) aún no son conocidas por completo [Alberts et al., 2002]. El proceso de duplicación2.2 do ADN es llamado de replicación de ADN (Figura 2.2(a)). La transcripción de una secuencia de ADN en una otra secuencia es llamada de pre-RNA (Figura 2.2(b)) y el proceso que permite la retirada de los intrones para la obtención del mARN es llamada de corte (splicing) (Figura 2.2(c)). Ciertos genes pueden hacer esta retirada de forma variante, llamada de corte alternativo (alternative splicing). El proceso biológico que hace la codificación del mARN, mediante el tARN y ribosoma, es llamado de traducción (Figura 2.2(d)).
|
Existe un caso no usual de genes que son transcritos pero no traducidos, llamados de genes de ARN no-codificantes (noncoding RNA genes). Vea en [Zhang, 2002] una descripción detallada de la estructura de un gen y clasificación de los tipos de exones.
En este trabajo, será considerada a las regiones codificantes constituídas por una única región dentro de los genes procariotos. En los eucariotos, contituídas por varias regiones llamadas de exones y separados por intrones. Por lo tanto, todos los intrones y las regiones intergénicas son consideradas como no codificantes.
El código genético, o código de aminoácidos, es un conjunto de reglas que usan las células vivas para decodificar su genoma necesario para la síntesis de proteínas. Esta codificación es realizada de cada región codificante. Usualmente el código genético es escrito como un conjunto de 64 códons2.3 de los cuales tres son indicadores de parada de síntesis de proteínas.
El código genético es talvez el mas grande descubrimiento después del ADN, pues ajudó a comprender mejor la estructura genética de los organismos. Todos los organismos vivos usan el mismo o pequeñas variaciones del código genético estándar [Jukes and Osawa, 1993]. Vea la Tabla 2.2 donde los códons de início estan representados por la letra M y los códons de parada por el símbolo *. Jukes and Osawa [1993]; Osawa et al. [1992] atribuyeron para cada taxonomía de los organismos, variaciones de código genético estándar con base en las evidencias de secuencias homologas y/o relaciones filogenéticas. Una de las variaciones del estándar utilizado en la comparación de secuencias de proteínas es la de bacterias y plastídeos de plantas, donde fueron encontrados siete códons de inicio (Tabla 2.2).
|
El Dogma Central de la Biología Molecular (Figura 2.2) es considerado como el proceso de replicación, transcripción del ADN y traducción de las regiones codificantes. Esos procesos son importantes debido a que de ellos dependen todas las actividades celulares [Alberts et al., 2002]. Es importante destacar que cuando un gen es expresado, este brinda las instrucciones a la célula para producir una proteína específica. Las células en un organismo poseen el mismo ADN, i.e., el mismo conjunto de genes, pero diferentes genes son expresados funcionalmente en las diferentes células, permitiendo así la diferenciación celular.
Las regiones codificantes de proteínas en secuencias de ADN presentan tipicamente una organización periódica imperfecta de tres bases (TBP) y que aún no es comprendida completamente (Sección 1.2). Nótese que varios métodos fueron creados para la identificación de las regiones codificantes (Sección 1.3) basados en la búsqueda de esa característica.
En este capítulo serán tratados una forma simple de mapeamiento numérico de nucleótidos para tratar las secuencias de símbolos como secuencias numéricas. Seguidamente serán presentados los principales métodos de identificación y clasificación de regiones codificantes, independientes del modelo de codificación de ADN.
Varios métodos fueron utilizados para convertir datos categóricos o simbólicos de secuencias de ADN para ser tratados como secuencias numéricas [Afreixo et al., 2004; Wang and Johnson, 2002]. Esta conversión, o mapeamiento, se debe a la dificultad de uso directo de datos simbólicos en los métodos basados en procesamiento de señales. Un mapeamiento de símbolos a números no debe imponer una estructura matemática que no exista en las secuencias de ADN [Afreixo et al., 2004]. Existen dos enfoques que pueden ser utilizados para representar numericamente una secuencia de ADN:
En el mapeamiento binario [Buldyrev et al., 1995] son creadas siete secuencias numéricas. Cada secuencia numérica corresponde a una de las siete formas de mapear una secuencia de ADN basadas en las características propias de las bases, considerando, por ejemplo, los enlaces de hidrógenos y si las bases nitrogenadas son purinas o pirimidinas.
En la Tabla 3.1 están representadas
las siete reglas utilizadas en [Buldyrev et al., 1995] para las atribuciones
de valores binarios en cada base. Las secuencias obtenidas por cada
una de esas reglas de mapemiento son independientes, pues se
refieren a aspectos diferentes de la secuencia de ADN, manteniendo
así la invarianza a la atribución numérica.
Para el mapeamiento por número enteros [Tsonis et al., 1991], reales [Ning et al., 2003] o complejos [Anastassiou, 2001] son utilizados números arbitrarios o valores que representan alguna propiedad de las bases nitrogenadas como, por ejemplo, los potenciales de interacción electrón-ion (EIIP, electron-ion interaction potentials) encontrada en las bases. Los autores de [Ning et al., 2003] analizaron secuencias de ADN en que fueron atribuídos valores para cada base como siendo ( A, C, G, T)=(0.1260, 0.1340, 0.0806, 0.1335). La dificultad con este último mapeamiento es la dependencia en la atribución de números (enteros, reales o complejos) adoptado, permitiendo que alguna estructura armónica relevante sea oculta o artificialmente creada por la atribución [Afreixo et al., 2004; Wang and Johnson, 2002]. Considerando, por ejemplo, la secuencia periódica ( GTGCGA GTGCGA ... con la atribución de valores ( A, C, G, T)=(1, 0, 0, 0) se forma una secuencia numérica de período seis, y para la atribución de ( A, C, G, T)=(0, 0, 1, 0), se forma otra de período dos.
En este trabajo, utilizamos solamente las reglas 4 y 7 del mapeamiento
binario para la atribución de valores para cuatro secuencias
,
,
y
, correspondientes a las bases nitrogenadas, donde
cada secuencia binaria3.1 especifica la presencia o no de la base
A,
C,
G o
T en una dada posición de la secuencia de ADN.
Tal enfoque fue también considerado en los trabajos [Afreixo et al., 2004; Anastassiou, 2001; Tiwari et al., 1997]. Por ejemplo, la secuencia
ATGCTTGACTAGGGCTCAGT
y sus correspondientes secuencias binarias son mostradas en la
Tabla 3.2.
Obsérvese que un mapeamiento fijo (entero, real o complejo) puede ser
obtenido basado en el mapeamiento binario. Si
,
,
y
son
valores numéricos arbitrarios correspondientes a las bases
A,
C,
G y
T, una secuencia
de tamaño
puede ser
representada como una combinación lineal de sus secuencias binarias
,
,
y
[Anastassiou, 2001], tal que
|
![]() |
(3.2) |
| (3.3) |
Utilizando la primera aproximación, la función de información mutua para el análisis
de secuencias de ADN, puede ser definida como:
Grosse et al. [2000] utilizaron la función de información mutua
en secuencias codificantes y no-codificantes de humanos.
En la Figura 3.2, la información mutua para las secuencias codificantes
está representado con línea delgada, las no-codificantes con línea gruesa.
Observamos que
para ADN no-codificantes oscila entre dos valores, la
información mutua in-frame
en una distancia
que son múltiplos
de 3 y la información mutua out-of-frame
en todos los otros
valores de
.
|
El comportamiento oscilatorio de
en ADN codificante es una consecuencia
de la presencia del código genético que mapea triplas de nucleótidos (códons) no
sobrepuestos en aminoácidos, y de la no-uniformidad de la distribución de
frecuencias de códons. Vea en la Sección 1.3
una descripción de las propiedades de las regiones codificantes de proteínas.
Grosse et al. [2000] usaron un modelo desconsiderando alguna otra correlación entre códons a fin de expresar la
probabilidad conjunta
en términos de probabilidades de las posiciones de los nucleótidos
de encontrar el nucleótido
en la posición
para
un reading-frame arbitrario3.2:
Nótese que
, en la Ecuación (3.5), es invariante a shifts
de reading frames pues las
expresiones del lado derecho en la ecuación anterior son invariantes a permutaciones de los
índices (1,2,3). Como la segunda y tercera línea son idénticas después de la
transposición de los índices
, Grosse et al. [2000] obtenieron,
las cuales implican que
son calculadas de
. Así asumieron únicamente dos valores diferentes,
y
.
A fin de obtener una medida que pueda identificar si una secuencia de ADN es
codificante o no-codificante, el enfoque utilizado esta basado en la presencia o
en la ausência de la oscilación periódica tres en ADN codificante o no-codificante,
respectivamente. Grosse et al. [2000] expresaron, para secuencias de ADN, la máxima
y mínima oscilación de
,
y
, en términos de
de la siguiente forma: son amuestradas de cada secuencia las frecuencias
, calculadas
a partir de
(Ecuación 3.5) y finalmente son calculados:
| (3.6) |
| (3.7) |
El spectrum parcial de una secuencia
de tamaño
correspondiente al
nucleótido
fue definido como:
![]() |
(3.8) |
![]() |
(3.9) |
Otra forma de representar el spectrum total de Fourier usando secuencias
binarias, tratada en la Sección 3.1, es la siguiente:
Finalmente, es importante destacar que, con la Ecuación (3.1) y el resultado
de las Ecuaciones (3.11)-(3.14), tenemos que
Datta and Asif [2005] también estudiaron el problema de identificación de regiones codificantes de proteínas usando un análisis de Fourier un poco más elaborado mostrando buenos resultados. Ambos autores crearon un método donde derivaron propiedades a partir de secuencias binarias y una función de conteo de posiciones.
Una función de conteo de posiciones
sobre la secuencia binaria
de
tamaño
es definida como:
![]() |
(3.15) |
Datta and Asif [2005] demostraron que la magnitud de la transformada de Fourier de
,
en la frecuencia discreta
, es dado por:
| (3.16) |
tendrá picos
correspondientes a regiones donde exista periodicidad de tres bases y relativamente valores bajos en
regiones correspondientes a las no-codificantes. Sin embargo los valores de esos picos varían
significativamente para diferentes secuencias de ADN. Debido a esa
característica Datta and Asif [2005] usaron una función alternativa, llamada de
característica espectral de Fourier para resolver ese problema. En el caso de
la secuencia binaria ![]() |
(3.17) |
![]() |
(3.18) |
| (3.19) |
Es importante destacar que los métodos tratados anteriormente, como los de información mutua média, spectrum de Fourier y características espectrales de Fourier, únicamente ofrecen una medida global sobre la secuencia de ADN analizada. En ese sentido, deberán ser usadas ventanas de tamaño fijo para analizar localmente la secuencia. En la siguiente sección será descrita un método reciente que intenta analizar de forma local secuencias de ADN para así identificar regiones con periodicidad de tres bases.
En el trabajo [Mena-Chalco, 2005] fue propuesto un método de identificación de regiones codificantes el cual esta compuesto por tres pasos: (1) mapeamiento numérico de una secuencia de ADN a cuatro secuencias binarias, (2) aplicación de la MMT a cada secuencia binaria, y (3) proyección de la secuencias espectrales sobre el eje de las posiciones.
La creación de cuatro secuencias binarias es realizada mediante el mapeamiento
fijo binario (reglas 4-7), cada una representando las posiciones de los bases.
Considerando una dada secuencia de DNA
, es denotada por
,
,
y
las secuencias binarias asociadas a los nucleótidos
A,
C,
G y
T, respectivamente. Esta representación redundante es preferida
porque no depende de ninguna atribución numérica adoptada, y ninguna estructura
armónica relevante de significado biológico es oculta o expuesta [Afreixo et al., 2004].
Seguidamente, la MMT es aplicada a todas las secuencias binarias3.3.
Las correspondientes transformadas son calculadas para diferentes escalas
y
frecuencia constante
. Sea
el tamaño de cada secuencia. La
definición de
implica que la frecuencia angular en la función de
análisis sea un múltiplo de tres.
La transformada de cada secuencia binaria
,
,
y
, es dada
por:
Las MMTs resultantes representan las medidas de similitud de la TBP de cada
nucleótido. Estas transformadas pueden ser aplicadas para e análisis de
secuencias de ADN usando diferentes escalas. El espectro de cada secuencia
binaria es definida como el módulo al cuadrado de sus coeficientes, i.e.,
Cuando la secuencia es representada por su spectrum multi-escala, diferentes enfoques pueden ser usados a fin de extraer información útil [Costa and Cesar-Jr., 2001]. Nótese que el mapeamiento binario usado representa los nucleótidos por cuatro secuencias independientes. El espectro total es una medida que elimina esa independencia, así representando los posibles valores de TBP para todos los nucleótidos en la secuencia.
El espectro total de todas las transformadas (Ecuación 3.28) es proyectado sobre el eje de las posiciones a fin de detectar las posibles regiones codificantes, las cuales podrían corresponder a regiones de máximo local de las proyecciones.
Estos coeficientes de proyección toman ventaja de la información redundante calculada en la aplicación de la MMT usando diferentes escalas, i.e., las secuencias son analizadas desde pequeñas a grande escalas. Los coeficientes de proyección de regiones donde la TBP este presente mostrará respuestas altas, consiguiendo de esa forma la identificación de regiones codificantes.
Dada una secuencia de tamaño
, la proyección de los coeficientes sobre el eje
de las posiciones es definido como una función de
:
Como mencionadas en el capítulo anterior, las regiones codificantes son identificadas como regiones de máximo local en las medidas de identificación.
Una manera natural de encontrar los límites de regiones codificantes es mediante
la incorporación de una operación de threshold. Esta operación sobre los
coeficientes permite excluir coeficientes de valores pequeños, i.e. el
de
coeficientes pequeños son substituidos por cero, donde
es el valor conocido
a priori. En general, regiones con poca o ninguna TBP presentan valores
de coeficientes pequeños. Los coeficientes restantes son usados como indicadores
de las regiones codificantes de proteínas.
Las medidas de exactitud en el nivel de nucleótidos, propuestas por Burset and Guigó [1996], describen una forma de comparación de regiones identificadas, mediante procedimientos computacionales, versus regiones codificantes conocidas biológicamente. i.e., regiones cuyas posiciones de los exones, en los genes, son conocidas. Por lo tanto, estas medidas sirven para comparar el desempeño de los programas computacionales de identificación de genes.
La medidas de desempeño de las regiones identificadas contra las
regiones codificantes es realizada mediante conteo de nucleótidos
correspondiente a los
(1) verdaderos positivos (TP, true positive), que son regiones correctamente identificadas,
(2) falsos positivos (FP, false positive), que son regiones identificadas incorrectamente,
(3) verdaderos positivos (TN, true negative), que son regiones correctamente no identificadas, y
(4) falsos negativos (FN, false negative), que son regiones no
identificadas (Figura 4.1).
Fueron propuestas dos medidas de exactitud basadas en las tasas de
ocurrencias de sensibilidad y especificidad.
|
Un programa computacional es considerado exacto si su Sn y
Sp son simultánemente altas. Comúnmente, la medida de
exactitud que combina la Sn y Sp es llamada de
correlación aproximada (AC). En este trabajo, usamos la
correlación aproximada como medida total de exactitud en la
identificación de regiones codificantes de proteínas,
Una evaluación de algunos programas de identificación de genes fue realizada por Mathe et al. [2002]; Rogic et al. [2001]. Otras medidas de exactitud, en el nivel de exones y de proteínas, pueden ser revisadas en [Burset and Guigó, 1996]. Es importante resaltar que todas estas medidas no estan basadas en componentes de desempeño, como el tiempo de ejecución o requerimientos de memoria de los métodos computacionales evaluados.
Adicionalmente a la evaluación de métodos de identificación, es realizada una evaluación en la clasificación de secuencias de ADN.
Usando el método basado en la MMT, las secuencias pueden ser clasificades entre
codificantes y no-codificantes usando los valores de proyección sobre el eje de
las escalas (Ecuación 3.30). Fue definida una medida global
para reconocer secuencias codificantes como la suma de las proyecciones sobre el
eje de las escalas, normalizadas por el número de bases de la secuencia
analizada, i.e.,
.
Para las medidas de los otros métodos fueron usados simplemente los valores obtenidos después de su análisis, siendo también normalizadas por el número de bases.
Para validación de la clasificación de secuencias, fueron adoptadas las curvas en gráficos ROC (receiver operating characteristic, o característica de operación del receptor), un procedimiento efectivo de evaluación de clasificadores [Hanley and McNeil, 1982].
Gráficos ROC son bastante utilizados en la teoría de detección de señales y recientemente en reconocimiento de patrones, y auxilio en sistemas de diagnóstico médico. Ellos permiten visualizar el desempeño de clasificadores o tests de diagnósticos, expresando la relación de compromiso entre el aumento de la capacidad de detección y de la tasa de falsas alarmas.
Las curvas ROC son formadas por pares ordenados compuestos de tasas de verdaderos positivos y falsos positivos. Un par formado por una tasa de verdaderos positivos y una de falsos positivos es marcado en el gráfico para cada configuración. Así, la curva ROC es comúnmente definida como un gráfico de la tasa de verdaderos positivos como una función de la tasa de los falsos positivos para todos los posibles thresholds sobre la distribución de los valores obtenidos en cada clasificación.
Verdaderos positivos son secuencias codificantes clasificadas como codificantes,
sin embargo, los falsos positivos son secuencias no-codificantes clasificadas
como codificantes. Las medidas pueden ser resumidas en la matriz de
confusión (también llamada matriz de error), ilustrada en la
Tabla 4.1. El total de positivos y negativos de la referencia
será denotado por
y
, respectivamente; los verdaderos y falsos positivos
por
y
, y los verdaderos y falsos negativos por
y
, como
indicado en la matriz de confusión.
| ||||||||||||||||
A partir de los elementos de la matriz se puede desarrollar medidas usadas en la
evaluación de la clasificación de los métodos. La tasa de verdaderos positivos
es definido por:
| (4.4) |
| (4.5) |
En este capítulo son mostrados los resultados experimentales de la comparación de los cuatro métodos tratados: transformada modificada de Morlet [Mena-Chalco and Cesar-Jr., 2006; Mena-Chalco, 2005], información mutua media [Grosse et al., 2000], spectrum de Fourier (contenido espectral) [Li et al., 1994; Silverman and Linsker, 1986] y características espectrales de Fourier [Datta and Asif, 2005]. Cabe resaltar que fueron seleccionadas esos métodos para comparación dado que son los métodos independientes de modelo de codificación mas representativos que usan traslaciones de ventanas.
En este estudio, tres conjuntos de dados de benchmark han sido considerados. BG570 es una base de datos genómica de 570 secuencias de vertebrados que codifican en un único gen, agrupado por Burset and Guigó [1996]; HMR195 es una base de datos de secuencias de humano, ratón y rata que codifican en únicos genes y usados en el trabajo de [Rogic et al., 2001]; y Asp67 una base de datos de 67 secuencias codificadoras de múltiples genes de Aspergillus fumigatus la cual forma parte de la base de datos de TIGR (http://www.tigr.org/software/traindata.shtml). En el Apéndice B son mostradas estadísticas de las tres bases de datos.
Los tres conjuntos genómicos de genes de vertebrados con sus respectivos límites entre exones e intrones fueron usados para realizar dos experimentos de evaluación, descritos en los objetivos del trabajo: (1) identificación de regiones codificantes usando las secuencias completas de DNA; (2) clasificación de secuencias codificantes. Para esta última evaluación, conjuntamente con las anotaciones genómicas, fueron extraídos todos los exones e intrones con tamaño mayor o igual a 100bp de todas las bases de datos. De esa forma, un conjunto fue creado, conteniendo 3038 exones y 2820 intrones.
Finalmente, un análisis comparativo que también incluye un método dependiente
del modelo de codificacion de ADN fue realizado usando datos de la secuencia
humana
-globin, cromosoma 11 (código Genbank HUMHBB y posiciones
62001-64000). Esta secuencia contiene tres regiones codificantes localizadas en
posiciones relativas de 87-278, 409-631 y 1482-1610.
En el caso de la MMT, funciones de análisis de 1200 puntos (tamaño de la función de análisis) y 40 escalas separadas exponencialmente entre 0.2 y 0.7 fueron usadas en todas las secuencias. Con la finalidad de obtener una forma de comparación, fueron usados porcentajes de thresholds dentro del intervalo (1,99) sobre las medidas de los métodos considerados en la identificación de probables regiones codificantes. De esa forma, los cálculos de las medidas de sensibilidad, especificidad y correlación aproximada fueron obtenidos bajo las mismas condiciones en diferentes valores de threshold.
Fue analizada la secuencia F56F11.4 de C. elegans y el espectrograma resultante de la MMT (Ecuación 3.28) es mostrada en la Figura 5.1(a). Esta figura representa el espectro total, i.e. la suma de todos los valores espectrales de las secuencias binarias. La Figura 5.1(b) representa las proyecciones sobre el eje de las posiciones de los valores espectrales. Las Figuras 5.1(c)-(e) muestran las medidas obtenidas usando los métodos información mutua media, spectrum de Fourier, y características espectrales de Fourier, respectivamente. Un tamaño de ventana de 351bp y una ventana rectangular, con traslación de 1bp, fue adoptada.
|
|
Los picos de las figuras corresponden a regiones donde la TBP esta presente. claramente, los coeficientes dependen del tamaño de ventana y el intervalo de escalas utilizadas. En este experimento, el tamaño de la ventana es el mismo como el considerado en [Anastassiou, 2000; Datta and Asif, 2005; Tiwari et al., 1997] para el análisis de secuencias de ADN. El análisis multi-escala intrínseco en el método usando la MMT brinda una variacición robusta de escalas. Es interesante notar que la primera región codificante de 112bp que está en las posiciones de 928 y 1039 tiene una TBP débil. Esa es la razón, porque cualquier método basado exclusivamente en la búsqueda de regiones con TBP y en las mismas escalas no son capaces de identificarla. En las restantas cuatro regiones codificantes una TBP alta está presente. Obsérvese también que el último exón no presenta periodicidad contínua de tres bases (dos sub-regiones de este exón tienen alta TBP).
La Figura 5.2 y Tabla 5.1 muestran las medidas de sensibilidad, especificidad y coeficiente de correlación de los métodos considerados. Usando un valor de threshold de 85% y la MMT, fue obtenida una especificidad de 0.9 en una sensibilidad de 0.88, y una exactitud de 0.87. Usando información mutua media, spectrum de Fourier, y características espectrales de Fourier, exactitudes máximas de 0.71, 0.72 y 0.66 fueron respectivamente obtenidas.
Fueron aplicados y comparados los métodos usando las secuencias del conjunto de datos BG570. En la Tabla 5.2 se muestran las medidas de desempeño calculadas para esta base de datos usando ventanas rectangulares de tamaños 60, 120, 180, 240, 300, 360, 420 y 480bp, y traslaciones de ventana de 1bp5.1
Los mejores desempeños fueron obtenidos con el método basado en la MMT. Con regiones codificantes grandes, la exactitud de identificación es mejorada. Cuando el tamaño de regiones codificantes es muy pequeño, los métodos basados en ventanas de tamaño fijo no tienen un desempeño similar. Este experimento es importante porque muestra la limitación de métodos basados en tamaños de ventana fijas, i.e., sus desempeños dependen directamente de la elección correcta del tamaño de ventana. Siendo así que el uso de la MMT es mucho más robusto en este contexto. Resultados similares son mostrados en las Tablas 5.3 y 5.4 correspondientes a los conjuntos de datos HMR195 y Asp67, respectivamente.
Fue realizada la evaluación de clasificación de secuencias de ADN usando 3038 exones y 2820 intrones correspondientes a todas las exones e intrones mayores e iguales a 100bp. En las Figuras 5.3 y 5.4 son mostradas las funciones de densidad de probabilidad pertenecientes a las clasificaciones usando la MMT, información mutua media, spectrum de Fourier, y características espectrales de Fourier. Observemos que una simple comparación visual no es suficiente para evaluar la clasificación de las secuencias, y así determinar el método que mejor realiza la clasificación. Por ese motivo, las curvas ROC, y las áreas bajo las curvas (AUC, area under the ROC curve) fueron consideradas, para evaluarlas numéricamente.
|
|
La Figura 5.5 muestra las curvas ROC de los diferentes métodos
consideradas usando 3038 secuencias codificantes y 2820 secuencias
no-codificantes, ambos mayores o iguales a 100bp y extraídos de los
conjuntos de dados.
Observemos que todos los métodos tienen un buen desempeño (AUC
0.90) en la
clasificación de secuencias. El método basado en la MMT presenta un mejor
desempeño (AUC de 0.93407). El desempeño de los métodos basados en Información
mutua media y Características espectrales de Fourier presentan un desempeño
ligeramente inferior (AUC de 0.92634 y 0.92683, respectivamente). El método
basado en el Spectrum de Fourier muestra el desempeño más bajo (AUC de
0.90142).
Secuencias codificanes más grandes resultan en un mejor desempeño de
clasificasión para todos los métodos independientes del modelo de codificación
de ADN.
![]() |
Un aspecto en la evaluación de métodos para la identificación de regiones codificantes es la comparación de métodos independientes, con los métodos dependientes del modelo de codificación. Como mencionado en la introducción, métodos dependientes del modelo de codificación de ADN pueden presentar un desempeño de reconocimiento superior debido a que exploran información disponible a priori. La principal limitación de tales enfoques es cuando las regiones codificantes no están presentes en las bases de datos (e.g. si las secuencias de entrenamiento no son seleccionadas cuidadosamente, o en el caso de organismos secuenciados recientemente). En tales situaciones, métodos independientes del modelo son usados en una forma complementaria. Esta situación es análoga a los clasificadores supervisados y no supervisados en reconocimiento de patrones [Costa and Cesar-Jr., 2001].
Un experimento comparativo ha sido realizado usando un método independiente de
codificación como descrito a seguir. Gao and Zhang [2004] estudiaron el método de curva Z
para reconocer exones en secuencias de ADN humanas. Este es un
método basado en estadísticas de codificación que calcula medidas basadas en
probabilidad el cual captura mas de las características de ADN
codificante [Mathe et al., 2002; Zhang, 2002]. Este tipo de método ha sido entrenado con
muestras representativas de DNA codificante de especies o genomas en
consideración, siendo así un método dependiente del modelo de codificación.
Experimentos comparativos para analizar la secuencia humana
-globin sobre
la cromosoma 11 (código GenBank HUMHBB y posiciones 62001-64000) son reportados
en [Gao and Zhang, 2004], mostrando que la curva Z presenta un desempeño superior a los
métodos dependientes del modelo de codificación estándar, tales como las cadenas
de Markov y conteo de hexameros.
Similarmente, Guigó analizó la misma secuencia usando otros métodos dependientes
del modelo de codificación (codon usage, amino acid usage,
hexamer usage, codon preference, codon prototype y modelos
de Markov de primer, segundo y quinto orden) [Guigó, 1999].
Fueron aplicados los métodos discutidos en el presente trabajo para analizar la misma secuencia indicada. En [Gao and Zhang, 2004], el método de la curva Z con 45 parámetros, un conjunto de entrenamiento de 4000 secuencias codificantes y no-codificantes, un tamaño de ventana de 120bp, y una traslación de 10bp fueron adoptadas. El método basado en la MMT uso la misma configuración para todos los experimentos descritos anteriormente. Los otros métodos usaron un tamaño de ventana de 120bp y una traslación de ventana de 1bp. Los resultados obtenidos son mostrados en la Tabla 5.5. La MMT supera a los métodos independientes del modelo de codificación. Por otro lado, alcanza un desempeño inferior al método basado en la curva Z. Sin embargo, vale observar que incluso en la ausencia de información a priori, la MMT presenta un desempeño visual comparable con respecto a la curva Z. Vea la Figura 5.6, Figura 2 en [Gao and Zhang, 2004], y Figura 4.2 en [Guigó, 1999]; note que, en particular, el intrón entre el primero y segundo exón, tiene un tamaño pequeño, siendo un caso difícil para cualquier método.
![]() |
El método basado en la MMT no requiere ninguna información biológica adicional para ser usado en las secuencias de ADN, y ningún conjunto de datos genómico es necesário para la identificación de regiones codificantes. De esa forma, ese método puede ser usado en la ausencia de conocimiento previo de las especies bajo análisis, siendo particularmente adecuado para el análisis de nuevos genomas secuenciados. Por ejemplo, se ha encontrado, en los experimentos realizados, subregiones con valores altos en los coeficientes de proyección. Esas subregiones actualmente son consideradas como regiones no-codificantes, posiblemente correspondan a regiones codificantes no anotadas o a pseudo-genes.
Fue obtenido el mejor desempeño usando el conjunto de datos BG570 con la MMT y los valores de threshold cercanos a 70-85% (i.e. 70-85% de las bases son consideradas como no-codificantes). Es importante ver que estos valores de threshold están relacionados con su densidad de codificación de alrededor de 15% (en el Apéndice B son mostradas las estadísticas de los conjuntos de datos usados). Una relación similar entre valores de thresholds y densidad de codificación son observados cuando los conjuntos de datos HMR195 y Asp67 son considerados. Creemos que valores óptimos de threshold pueden ser obtenidos desde estadísticas de organismos taxonomicamente similares, las cuales podrían ser una manera de incorporar información basada en modelo de codificación de ADN al enfoque usado en la MMT para mejorar, de esa forma, su desempeño.
|
En este trabajo se ha realizado un análisis comparativo de métodos de identificación y clasificación de regiones codificantes de proteínas, usando la transformada modificada de Morlet, información mutua media, spectrum de Fourier, y características espectrales de Fourier. Todos esos métodos estan basados en la búsqueda de periodicidad de tres bases existentes en las regiones codificantes. El análisis comparativo de los métodos solo ha sido posible mediante:
Los resultados obtenidos de la evaluación de los métodos sugieren que el uso de la transformada modificada de Morlet permite una clasificación e identificación más precisa de las regiones codificantes de tamaño corto, presentando un desempeño superior sobre otros métodos independientes del modelo de codificación, esa mejora es una consecuencia de su enfoque multi-escala. El método permite el uso de escalas múltiples, analizando (1) regiones codificantes de tamaño corto, con escalas pequeñas, y (2) regiones codificantes de tamaño largo, con escalas grandes. Siendo así que la principal ventaja de este método, es la robustez a variaciones de escala en el análisis de secuencias de ADN. Actualmente tal dependencia es un problema en los método alternativos propuestos en la literatura. Otra ventaja es la flexibilidad y forma de representación gráfica de la periodicidad de tres bases encontrada en las regiones codificantes. Esta capacidad de visualización es útil para explorar la significancia biológica de regiones con periodicidad de bases.
Es importante resaltar que todas estas medidas de exactitud obtenidas para los métodos de identificación, independientes del modelo de codificación de ADN y tratados en estre trabajo, no son las idealmente esperadas. Suponemos que la exactitud es limitada principalmente debido a (1) la presencia de organización periódica imperfecta de tres bases en las regiones codificantes, i.e., la periodicidad de tres bases en las regiones codificantes no tienen una conducta uniforme; (2) la falta o ausencia de periodicidad de bases algunas regiones codificantes; y (3) la presencia de periodicidad de tres bases en algunas regiones no-codificantes.
Una transformada multi-escala de una señal
puede ser calculada por,
En la Ecuación (A.1) diferentes funciones de análisis pueden ser
adoptadas para transformar la señal
. En particular, funciones bien
localizadas en el dominio de la frecuencia, como la función de Gabor (Gaussiana
modulada) definida como [Costa and Cesar-Jr., 2001],
En [Mena-Chalco, 2005] fue definida una modificación de la función de Morlet para analizar localmente
señales en una frecuencia específica y con escala variable. En la función de
análisis de Morlet fue usado el parámetro de escala
para mantener constante la
frecuencia de la exponencial compleja, variando la desviación estándar de la
Gaussiana (i.e., la escala),
|
Las bases de datos genómicas usadas corresponden a organismos eucariotos cuyos
limites entre exones e intrones fueron cuidadosamente anotados. La base de
datos BG570 y HMR195 tienen (ligeramente) bajo contenido de codificación de
proteínas (
15%) y un pequeño tamaño promedio de exón (
200). En
contraposición, la base de datos Asp67 tiene un alto contenido de codificación
(
45%) y un pequeño tamaño promedio de exón (
500).
En la Tabla B.1 son mostradas las estadísticas
correspondientes a los conjuntos de datos considerados.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
En este apéndice es realizado un análisis empírico de periodicidad usando los conjuntos de genómicos BG570 y HMR195 descritos en el Apéndice B. Para el cálculo de los valores de periodicidad fueron utilizadas solamente las magnitudes de los coeficientes de la transformada discreta de Fourier de cada región en las secuencias de ADNC.1.
La transformada de Fourier es utilizada para descomponer una señal en componentes que representen frecuencias, describiendo la señal de forma uni-dimensional y global. Así, esta transformada invertible representa de forma no ambigua una secuencia y define la noción de frecuencia global existente en la secuencia analizada.
La transformada discreta de Fourier,
, de una secuencia
de tamaño
puede ser definida como:
![]() |
(C.1) |
En la Figuras C.1 es mostrada para cada conjunto las primeras 23 estimativas enteras de periodicidad, i.e., estimativas de periodicidad de 2 a 24 de las regiones codificantes y regiones no-codificantes de proteínas (regiones intergénicas e intrones). Fue observado, para valores mayores de periodicidad, un comportamiento similar en las estimativas de estas periodicidades, siendo así que la energía asociada a la frecuencia tres en las regiones codificantes es siempre mayor que los valores de las otras frecuencias. Obsérvese que los exones muestran una energía asociada a las regiones codificantes mayor en comparación a las otras energías de las periodicidades estimadas. Esta estimativa muestra, empíricamente, la periodicidad de tres bases presente solamente en las regiones codificantes.
|
La Tablas D.1 y D.2 muestran las medidas
de desempeño calculadas para la secuencia F56F11.4 y el gen humano
-globin usando los métodos basados en la transformada modificada de
Morlet y aquellos basados en información mutua, spectrum de Fourier
y, características espectrales de Fourier con tamaños de ventana de 351bp
y 120bp, respectivamente.
Finalmente, las Tablas D.3 a D.10 muestran las medidas de desempeño calculadas para el conjunto de datos BG570 usando los métodos basados en la transformada modificada de Morlet, información mutua media, spectrum de Fourier y, características espectrales de Fourier, usando tamaños de ventanas de 60, 120, 180, 240, 300, 360, 420 y 480bp. Vale destacar que similares resultados fueron obtenidos usando las bases de datos HMR195 y Asp67 (vea Tablas 5.3 y 5.4 en la Sección 5 ).
margin=1.0cm
This document was generated using the LaTeX2HTML translator Version 2002-2-1 (1.71)
Copyright © 1993, 1994, 1995, 1996,
Nikos Drakos,
Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999,
Ross Moore,
Mathematics Department, Macquarie University, Sydney.
The command line arguments were:
latex2html -white -show_section_numbers -local_icons -iso_language PT.BR -short_index -discard -no_math -split 0 -no_navigation -numbered_footnotes tesis
The translation was initiated by Jesus Mena-Chalco on 2008-02-08