Banca Examinadora:
Nesta dissertação, são apresentados um pipeline bioinformático, os conceitos básicos da identificação genômica, e métodos de processamento digital de sinais utilizados para a identificação de regiões codificantes de proteínas. Introduzimos um novo método para a identificação dessas regiões, baseado na transformada proposta, denominada Transformada Modificada de Morlet. Apresentamos vários resultados experimentais obtidos a partir de seqüências de DNA sintéticas e reais. As principais contribuições do trabalho consistem no desenvolvimento de um pipeline bioinformático para projetos genoma e na criação de um método de identificação de regiões codificantes onde a periodicidade de três bases seja latente. O método apresenta desempenho superior e vantagens importantes em comparação ao método tradicional baseado na transformada de Fourier de tempo reduzido.
Palavras-chave: identificação de genes, periodicidade nos éxons, transformada modificada de Morlet, processamento digital de sinais, pipeline, bioinformática.
An important topic in biological sequences analysis is gene finding, i.e. the identification of protein coding regions. This identification allows the posterior research for meaning, description or biological categorization of the analyzed organism. Currently, several methods combine pattern recognition with knowledge collected from training datasets or from comparison with genomic databases. Nonetheless, the accuracy of these methods is still far from satisfactory. New methods of DNA sequences processing and genes identification can be created through search-by-content such sequences. The periodic pattern of DNA in protein coding regions, called three-base periodicity, has been considered proper of coding regions. Digital signal processing techniques supply a strong basis for regions identification with three-base periodicity.
In this work, we present a bioinformatics pipeline, basic concepts of the genomic identification and digital signal processing methods used for protein coding regions identification. We introduce a new method for identification of these regions, based on a newly proposed transform, called Modified Morlet Transform. We present some obtained experimental results from synthetic and real DNA sequences. The main contributions consist of the bioinformatics pipeline development for genoma projects and the creation of a method for protein coding regions identification where the three-base periodicity is latent. The method presents superior performance and important advantages in comparison to traditional method based on the short time Fourier transform.
Keywords: genes identification, periodicity in exons, modified Morlet transform, digital signal processing, pipeline, bioinformatics.
Com muita saudade, e temor de esquecer de alguém, posso escrever que este trabalho é o resultado dos quase vinte e seis meses na minha vida de pós-graduação no IME-USP. Meses sempre cheios do que realmente gosto: ``da vida'', vida que não é a minha.
Gostaria de expressar minha gratidão profunda à minha família: Emílio, Júlia, Rafael, Senovia e Madelyn, que deram-me muito amor, imenso sustento e incentivo. Não importaria o lugar, sempre sentiria saudades de vocês. À minha família em São Paulo: Christian, Cristian, Gustavo e Karina, pelo constante apoio e por tudo o que compartimos.
Agradeço profundamente ao meu orientador, e amigo, professor Roberto Marcondes Cesar Junior por dar-me a oportunidade de pesquisar nesta área e fundamentalmente por acreditar em mim; por explicar-me, com todos seus comentários, a concentrar-me as vezes no como e as vezes no porque. É ele quem tem-me conduzido na pesquisa, sempre me suportou e me orientou tanto como eu podia aprender sobre minha ignorância, sendo sempre um exemplo para mim.
Sou grato aos professores Helaine Carrer e Roberto Hirata Júnior por todas as recomendações e correções dadas na versão prévia deste trabalho e no exame de qualificação. As idéias sugeridas foram de muita utilidade na continuação do trabalho. Também reitero meus agradecimentos por terem aceitado participar como a presente banca de defesa de minha dissertação de mestrado.
Sou grato ao Yossi Zana e ao David da Silva Pires pelas correções, grande ajuda critica nos meus trabalhos, pela sempre boa disposição para tudo, muitas ensinanças e grande amizade. Agradeço, também, ao professor Paulo José da Silva e Silva pelo grande apoio inicial, exemplo e amizade. Gostaria de agradecer à professora Helaine Carrer, Henrique, Adriano, Valesca e todo o pessoal do laboratório de Biotecnologia Agrícola do Departamento de Ciências Biológica da ESALQ-USP, por dar-me a oportunidade de conhecer mais sobre biologia molecular e bioinformática. Aos professores Wilber Ramos, Juan Carlos Juarez, Iván Montes e Ernesto Cuadros pelo apoio quando eu o precisava antes de começar o mestrado.
Agradeço ao André Yoshiaki Kashiwabara, Henrique Alves, Said Sadique Adi e Vladimir Moreira pela amizade, sugestões, correções, e frutíferas conversas que animaram-me muito no estudo deste trabalho. Aos meus amigos Ana Beatriz, Anderson, Ariane, Celina, Claudia, Clodis, Cristian Noriega, Daniel Dantas, Daniel Vaquero, Daniel Vieira, David Junior, Eduardo Guerra, Eduardo Ueda, Elier, Fábio, Gustavo, Jishu, João, Jorge, Kelly, Lourdes, Ricardo, Silvia, Thiago Santos, Thiago Sousa e Walter obrigado pela amizade, compreensão e muitas ensinanças. Não esqueço de todos os meus demais amigos que têm feito cheia de experiências a vida toda. Agradeço especialmente à Elizabeth pela muita paciência, carinho e todo o mundo implícito.
No final mas não por último, esta dissertação nunca teria sido concebida sem o apoio financeiro da CAPES, professores, estudantes, admins e funcionários do IME-USP. Que mais linhas para escrever e dar um ``muito obrigado!''?.
| bp | Par de base (Base pair). |
| BAC | Cromossomo artificial bacteriano (Bacterial artificial chromosome). |
| CDS | Região codificante de proteína (Coding sequence, protein coding sequence). |
| DNA | Ácido desoxirribonucléico (Desoxyribonucleic acid). |
| DSP | Processamento Digital de Sinais (Digital signal processing). |
| EIIP | Potencial de interação elétron-íon (electron-ion interaction potentials). |
| EST | Seqüência expressa (Expressed sequence tag). |
| mRNA | RNA mensageiro (Messenger RNA). |
| MMT | Transformada modificada de Morlet (Modified Morlet transform). |
| RNA | Ácido ribonucléico (Ribonucleic acid). |
| STFT | Tranformada de Fourier de tempo reduzido (Short-time Fourier transform). |
| TBP | Periodicidade de três bases (Three-base periodicity). |
| YAC | Cromossomo artificial de levedura (Yeast artificial chromosome). |
| Complexo conjugado. | |
| Escala. | |
| Número imaginário, |
|
| Sinal (discreto ou contínuo). | |
| Tempo ou posição. | |
| Freqüência angular. | |
| Função de análise wavelet. | |
| Transformada de Fourier de |
|
| Valor absoluto de um número. | |
| A | Base adenina. |
| C | Base citocina. |
| G | Base guanina. |
| T | Base Timina. |
| U | Base Uracila. |
| N | Qualquer base ( A, C, G, ou T). |
| Conjunto de números complexos. | |
| Conjunto de números reais. | |
| Transformada de Fourier de |
|
| Esperança. | |
| Seqüência binária associada às posições da base X. | |
| Transformada de Fourier da seqüência |
|
| Argumento de um número complexo. | |
| Desvio padrão. |
A bioinformática ou biologia computacional, vem ganhando importância pelas suas descobertas na busca de um maior entendimento dos organismos [7,39]. Importantes avanços nessa área devem-se ao desenvolvimento dos métodos e técnicas de seqüenciamento automático de grandes volumes de fragmentos de DNA, predição de estruturas secundárias do RNA e construção de árvores filogenéticas.
Quando um novo organismo é seqüenciado, tipicamente deseja-se obter toda a informação útil do organismo. Um passo fundamental nesse processo é a identificação de todos os genes presentes na estrutura do DNA. Um passo posterior e igualmente importante para atingir sua anotação genômica é procurar seqüências similares às identificadas. Pode-se, assim, conhecer diferentes aspectos sobre uma seqüência molecular mediante as classificações e comparações de organismos similares já bem estudados.
Com os projetos genoma1.1 em fase de seqüenciamento e em grande escala, métodos computacionais tornam-se necessários para identificar genes sobre as seqüências de DNA e saber, com eficiência e confiabilidade, a estrutura dos genes; e, como, quando e quanto é expresso [24].
O problema da identificação de genes corresponde, na verdade, à tarefa de determinar as regiões codificantes de proteínas (CDSs, coding sequences) das duas fitas de um fragmento de DNA, que representem as possíveis estruturas biológicas, parciais ou completas, dos genes [61]. Com tal identificação é possível determinar as funções de cada uma das proteínas produzidas pelos genes, e pode-se compreender mais sobre o organismos biológico. Em termos computacionais, podemos ver esse problema como sendo a tarefa de determinar a seqüência de caracteres componentes (sobre o alfabeto A, C, G, T) de cada um das CDSs em um fragmento de DNA, onde A, C, G e T representam os nucleotídeos correspondentes à seqüência de DNA.
Muitos problemas práticos foram encontrados na utilização de abordagens propostas anteriormente, ou combinações delas, para a identificação de genes [9], visto que ainda não se conhecem completamente, ou não existem formulações robustas que poderiam ser utilizadas para modelar a expressão e estrutura dos genes sobre seqüências de DNA. Entretanto, dispõe-se de métodos, como os descritos em [26,61], que auxiliam os pesquisadores e dão, com certo nível, resultados próximos aos reais. Além dos métodos desenvolvidos nos últimos 20 anos [26], foram criadas metodologias computacionais que combinam busca de padrões com conhecimento obtido das comparações dos bancos de dados de seqüências ou conjunto de treinamento de genes conhecidos.
Novos métodos de processamento digital de sinais (DSP, digital signal processing) aplicados em bioinformática ou biologia computacional [13,34,62] estão sendo usados nessas áreas por serem rápidos, e consistirem em uma outra abordagem alternativa com um arcabouço matemático robusto. Os métodos de DSP foram usados para identificar éxons em algumas células eucariotas [4,51,57] apresentando resultados promissores.
Todos esses métodos tratam a abordagem de busca por conteúdo por meio da procura de periodicidade de três nucleotídeos (TBP, three-base periodicity) presentes somente nas CDSs. Esta abordagem não se limita a conjuntos de genes bem caracterizados necessários na etapa de treinamento de métodos que utilizam outras abordagens. A TBP é considerada um indicador da localização das CDSs em organismos eucariotos e procariotos. Em combinação com outras abordagens esperamos obter um método mais robusto e com alto nível de acurácia.
O objetivo principal deste trabalho consiste no estudo e desenvolvimento de um método novo que utilize uma transformada de sinais, chamada aqui de Transformada Modificada de Morlet (MMT, Modified Morlet transform) para a detecção das CDSs com TBP em seqüências de DNA. Esta transformada permitirá analisar uma seqüência de DNA somente na freqüência correspondente à TBP.
Além desse objetivo, temos o desenvolvimento de um pipeline bioinformático em colaboração com o Laboratório de Biotecnologia Agrícola para o apoio no processamento e montagem do genoma completo de cloroplasto de Eucaliptus grandis e análise de ESTs (expressed sequence tags)1.2 da bactéria Pantoea agglomerans. Para o cumprimento desse objetivo, contamos com a orientação da Profa. Dra. Helaine Carrer do Departamento de Ciências Biológicas da ESALQ-USP.
As principais contribuições deste trabalho estão discriminadas abaixo:
No Capítulo 2, apresentamos os conceitos biológicos fundamentais da biologia molecular necessários para a compreensão do problema da identificação de CDSs. Discutimos também uma representação das regiões constituintes dos genes, bem como o Dogma Central da biologia molecular. Descrevemos o processo adotado para seqüenciar um genoma completo, e explicamos as evidências de existência de periodicidade nas CDSs. No final do capítulo, realizamos uma breve descrição das categorias de estratégias para a identificação de genes.
No Capítulo 3, apresentamos a definição de um pipeline bioinformático e mostramos uma configuração intuitiva das ferramentas computacionais existentes para o processo de identificação de bases, montagem, edição das leituras e anotação para projetos genoma. No final desse capítulo descrevemos ainda o pipeline bioinformático desenvolvido para o recebimento e administração de placas de seqüenciamento, análises de qualidade, filtragem, mascaramento, montagem de seqüências, e comparações dos fragmentos obtidos com seqüências de DNA de organismos conhecidos.
No Capítulo 4 são revisadas as definições básicas da análise de Fourier e mapeamento de nucleotídeos para o tratamento das seqüências simbólicas de DNA como seqüências numéricas. Para avaliar os métodos de identificação de CDSs, realizamos uma análise de espectros de freqüência e de periodicidade para seqüências sintéticas e reais de DNA amplamente utilizadas na literatura. Discutimos vários métodos de DSP baseados em uma análise tempo-freqüência referentes à identificação de CDSs. Apresentamos alguns resultados preliminares do uso de tais métodos. Finalmente, tratamos as medidas de acurácia utilizadas na avaliação dos métodos de identificação de genes.
No Capítulo 5 são revisadas as definições básicas da análise em wavelets e é apresentada a definição da transformada modificada de Morlet usada neste trabalho. Descrevemos o novo método desenvolvido para a identificação de CDSs em seqüências de DNA onde a TBP seja latente. Este método divide o processo no mapeamento de seqüências de DNA, aplicação da MMT, projeção dos coeficientes da MMT, e limiarização dos coeficientes de projeção para a detecção das possíveis fronteiras entre as CDSs.
No Capítulo 6 apresentam-se resultados experimentais do método proposto para a identificação de CDSs. Discutimos experimentos comparativos entre os métodos através da MMT e da STFT em seqüências sintéticas e reais. Para avaliar o desempenho dos métodos na identificação de CDSs utilizamos medidas de acurácia. Um aspecto explorado nas comparações dos experimentos é a questão da limiarização como uma forma lógica de obtenção das fronteiras entre as CDSs.
No Capítulo 7 discutimos algumas conclusões obtidas neste trabalho. Analisamos as vantagens e desvantagens do método proposto para a identificação de CDSs. Apresentamos um esquema que ilustra o posicionamento de nossa contribuição em relação as principais referências da área. Finalmente, sugerimos algumas pesquisas futuras como continuação do trabalho.
Em anexos constam uma descrição das seqüências de DNA testados no trabalho (Apêndice A), estimativas de periodicidades em seqüências sintéticas com ruído (Apêndice B), tabelas de acurácia obtidas para a avaliação dos métodos utilizados para a identificação de CDSs (Apêndice C), assim como as publicações realizadas deste trabalho (Apêndice D).
Consideramos, ao longo deste trabalho, de maneira indistinta, o uso dos termos nucleotídeos e bases de DNA. Consideramos também que o comprimento de uma seqüência de DNA ou RNA é medido pela quantidade de nucleotídeos existentes somente em uma fita. A unidade utilizada é par de base (bp, base pair).
Todo organismo vivo, sem nenhuma exceção conhecida, armazena sua informação biológica na forma de moléculas de ácidos nucléicos, formadas por nucleotídeos, para se construir e manter. Cada nucleotídeo, por sua vez, consiste de: (1) uma molécula de açúcar (desoxirribose ou ribose), (2) um grupo fosfato e, (3) uma segunda molécula chamada base nitrogenada [2].
Existem cinco tipos de bases nitrogenadas. As encontradas no ácido desoxirribonucléico (ADN ou DNA, Desoxyribonucleic acid) são adenina ( A), citosina ( C), guanina ( G) e timina ( T), de modo que uma seqüência de bases nitrogenadas do DNA será formada apenas por A, C, G e T. No ácido ribonucléico (RNA) há uma substituição da timina pela uracila ( U) e a seqüência do RNA é formada pelas bases A, C, G e U.
O ácido desoxirribonucléico, é representado como
uma fita dupla complementar e antiparalela2.1, sendo por meio
dos nucleotídeos que as duas fitas componentes de molécula de DNA permanecem
ligadas. O DNA possui o esquema de emparelhamento onde o nucleotídeo
A
sempre liga-se ao nucleotídeo
T e o nucleotídeo
C sempre liga-se ao
nucleotídeo
G por pontes de hidrogênio. Por convenção, uma molécula de DNA
começa no lado
e termina no lado
, onde
e
correspondem aos
átomos de carbono livres da molécula de açúcar presentes em cada
nucleotídeo [2]. Cada uma das fitas componentes da molécula possui uma
orientação própria, onde o final de uma corresponde ao início da outra
(Fig. 2.1).
O ácido ribonucléico (ARN ou RNA, Ribonucleic acid), é representado como uma fita única de ácidos nucléicos, que diferente do DNA, têm o açúcar ribose e a uracila em vez da timina. Essa fita é obtida através da transcrição de uma das fitas do DNA (Fig. 2.2(c)). São três os tipos de RNA: (1) o RNA mensageiro (mRNA), que contém a informação para a codificação das proteínas, (2) o RNA transportador (tRNA), que é o responsável pelo transporte de aminoácidos, e (3) o RNA ribossomal (rRNA), que possui um papel estrutural.
As diferenças entre o DNA e o RNA não se restringem aos tipos de nucleotídeos constituintes. Na maioria das vezes, o DNA é apresentado como uma longa hélice dupla e com uma estrutura secundária regular e simples. Já o RNA apresenta-se como uma fita única e de tamanho menor que o DNA, com uma grande diversidade de estruturas secundárias relacionadas às funções do DNA e do RNA na célula [2].
Os aminoácidos são moléculas orgânicas que contém átomos de carbono, hidrogênio, oxigênio e nitrogênio em sua composição, sendo o resultado da tradução de agrupamentos funcionais de moléculas de DNA. Os aminoácidos formam pequenas cadeias de polímeros chamados polipeptídeos, peptídeos ou monômeros de proteínas.
Dos mais de 500 tipos de aminoácidos encontrados na natureza, são 20 os mais comuns ou universalmente aceitos para a síntese, isto é, codificação de proteínas. Os vegetais têm a capacidade de produzir esses 20 aminoácidos necessários para a produção de suas proteínas. Entretanto, as células de animais não produzem todos eles, sendo que alguns devem ser ingeridos. Assim, os aminoácidos são classificados em essenciais, que não podem ser produzidos pelos animais e, os não-essenciais que podem ser produzidos por animais.
Adotaremos a representação clássica [2] de uma e três letras para cada um dos 20 aminoácidos (Tab. 2.1).
Os genes são os responsáveis pela expressão de uma proteína, ou pelo controle da expressão de outros genes [2]. Todos os genes têm uma estrutura complexa, mas para fins práticos consideramos os genes como constituídos pelas seguintes regiões características:
As funções das regiões de DNA existentes entre os genes (regiões inter-gênicas) ainda não são conhecidas por completo [2]. O processo de duplicação2.2 do DNA é chamado de replicação de DNA (Fig. 2.2(a)). A transcrição de uma seqüência de DNA em uma outra é chamada de pré-mRNA (Fig. 2.2(b)) e o processo que permite a retirada dos íntrons para a obtenção do mRNA é chamada de corte (splicing) (Fig. 2.2(c)). Certos genes podem fazer esta retirada de forma variante, chamada de corte alternativo (alternative splicing). O processo biológico que faz a codificação do mRNA, mediante o tRNA e ribossomo, é chamado de tradução (Fig. 2.2(d)).
|
Existe um caso não usual de genes que são transcritos mas não traduzidos, chamados de genes de RNA não-codificantes (noncoding RNA genes). Veja [61] para uma descrição detalhada da estrutura de um gene e classificação dos tipos de éxons.
Neste trabalho, consideramos as CDSs como sendo uma única região dentro dos genes procariotos. Nos eucariotos, como várias regiões chamadas de éxons e separados por íntrons. Portanto, todos os íntrons e as regiões inter-gênicas são consideradas como não-codificantes.
O código genético, ou código de aminoácidos, é um conjunto de regras que usam as células vivas para decodificar seu genoma necessário para a síntese de proteínas. Esta codificação é feita de cada CDS. Usualmente, o código genético é escrito como um conjunto de 64 códons2.3 dos quais três são indicadores de parada da síntese de proteínas.
O código genético é talvez o maior descobrimento depois do DNA, pois ajudou a compreender melhor a estrutura genética dos organismos. Todos os organismos vivos usam o mesmo ou pequenas variações do código genético padrão [30] (Tab. 2.2) onde os códons de início estão representados pela letra M e os códons de parada pelo símbolo *. Em [30,42], S. Osawa e T. H. Jukes atribuíram para cada taxonomia dos organismos variações do código genético padrão com base nas evidências de seqüências homólogas e/ou relações filogenéticas. Uma das variações do padrão utilizadas na comparação de seqüências de proteínas é a de bactérias e plastídeos de plantas, onde foram encontrados sete códons de início (Tab. 2.2).
|
O Dogma Central da biologia molecular (Fig. 2.2) é considerado como o processo de replicação, transcrição do DNA e tradução das CDSs. Esses processos são importantes pois deles dependem todas as atividades celulares [2]. Vale salientar que quando um gene é expresso, fornece as instruções à célula para produzir uma proteína específica. As células em um organismo possuem o mesmo DNA, isto é, o mesmo conjunto de genes, mas diferentes genes são expressos funcionalmente nas diferentes células, permitindo assim a diferenciação celular.
Para a montagem genômica (Seção 3.1.2), geralmente adota-se o método de seqüenciamento fragmentado em milhares de pequenos pedaços (e.g. 3.156 milhões de fragmentos para o genoma da Drosophila de aproximadamente 120Mbp [21]), para depois serem lidos por um equipamento de seqüenciamento automático.
Neste trabalho, tratamos o seqüenciamento genômico como um processo para determinar a ordem ou a estrutura dos nucleotídeos em uma amostra. Em projetos genoma é utilizado o método de fragmentação do genoma de um organismo em pequenos pedaços para, em seguida, seqüenciá-los. Com ajuda de ferramentas computacionais, podemos montá-los e, assim, reconstruir a informação genômica do organismo tratado. Atualmente é impossível seqüenciar diretamente blocos contínuos de milhares de nucleotídeos. Geralmente, são usados fragmentos cujas quantidades de nucleotídeos superam em 14 vezes a quantidade do genoma total.
Existem vários métodos de seqüenciamento genômico disponíveis que apresentam vantagens e desvantagens [2]. Em projetos genoma de procariotos, cópias múltiplas do DNA inteiro são cortadas em fragmentos pequenos por enzimas de restrição ou por processos físicos. Esse método é chamado shotgun, e depois do primeiro passo os fragmentos são clonados em vetores plasmidiais que são seqüenciados em suas extremidades. Após a primeira etapa de montagem desse genoma, fragmentos maiores são clonados em cosmídeos e seqüenciados. Essa etapa é importante para a montagem do genoma completo do organismo porque a primeira normalmente produz uma seqüência incompleta apresentando alguns ``buracos'' de seqüência. Os fragmentos sobrepostos criados são a parte fundamental para a montagem.
Em projetos genoma de eucariotos, que tratam uma enorme quantidade de DNA, comumente é usado o método shotgun hierárquico onde o DNA inteiro do organismo é primeiramente inserido em grandes vetores de clonagem, como cromossomos artificiais de bactérias (BAC, bacterial artificial chromosome) ou leveduras (YAC, yeast artificial chromosome). Depois, é realizado o shotgun desses grandes fragmentos dos vetores, gerando fragmentos menores que são clonados em vetores plasmidiais para o seqüenciamento.
Estes projetos, geralmente, consistem de duas etapas: (1) a montagem de cada um dos fragmentos clonados nos BACs e YACs, e (2) a montagem final que reunirá as seqüências completas dos BACs e YACs montados para a reconstituição da informação genômica inicial. Um fragmento pode ser único ou uma das muitas seqüências repetidas. Diferentes partes do genoma são bastante similares na seqüência, e certamente essas regiões são as mais difíceis de montar. O genoma deve ser seqüenciado nessa grande escala para garantir estatisticamente a existência de redundância entre os fragmentos e reduzir as chances que se perca regiões do genoma. Os resultados do seqüenciamento são conhecidos como fragmentos ou leituras (reads).
As CDSs, isto é, as regiões no DNA que codificam em proteínas, tipicamente exibem uma organização periódica de três bases que não é encontrada em outras regiões como (1) as regiões inter-gênicas, e (2) os íntrons nos eucariotos. Nos últimos anos essa característica nas CDSs tem sido analisada para explicar sua causa [25,43,53,56,64] e quantificá-la [20,47]. Na literatura, esta periodicidade é chamada de periodicidade de três bases (TBP, three-base periodicity), tendo sido observada de maneira semelhante para di-nucleotídeos em cromossomos de bactérias [35].
Esta periodicidade mostra relações entre as posições dos nucleotídeos nos éxons que, acredita-se, seja causada pela assimetria na composição das bases nas três posições codificantes [25]. Em [20] concluiu-se que as freqüências não uniformes do codon usage são a principal causa para a determinação dessa periodicidade e que a natureza do código genético é responsável pelo comprimento do período, mas não pela própria periodicidade.
Trifonov [54,55], explica que a TBP é dada pela preferência por
na primeira posição, e na falta de
na segunda posição dos códons
[(
-não
-
)
] tanto para seqüências de organismos procariotos quanto
eucariotos, sugerindo que esse padrão no mRNA possa ser responsável pela
monitoração da leitura correta da tripla de nucleotídeos (frame) durante
a tradução.
Vale salientar que foram encontradas algumas exceções desta propriedade genômica
nas CDSs em alguns procariotos e seqüências virais e mitocôndriais [32].
Para as regiões inter-gênicas da bactéria E. coli foi encontrada
periodicidade próxima a 11 bases [29], e sugeriu-se que seja uma propriedade típica das regiões
inter-gênicas de organismos procariotos acreditando-se que regula a transcrição.
Entretanto, essa TBP nas CDS não é uniforme, ou seja, é latente, contendo repetições imperfeitas. Entenda-se como periodicidade latente de uma seqüência de DNA a periodicidade com baixo nível de homologia entre quaisquer dois períodos na seqüência de DNA [31].
Finalmente, acreditamos que estamos em uma etapa inicial da explicação da causa e quantificação da periodicidade. O estudo da periodicidade no DNA é importante para o entendimento de uma seqüência de DNA e para o desenvolvimento de métodos de identificação gênica.
Atualmente, a identificação de genes é a maior área de pesquisa em análise de seqüências de DNA [33]. No processo tratado sobre o Dogma Central da biologia molecular (Seção 2.1.3) várias características podem ser notadas e usadas na dedução computacional da estrutura dos genes, ou seja, a identificação de genes. Esta inclui promotores e regiões reguladoras, limites entre éxons e íntrons, e sinais de início e parada de tradução [7,37,39].
No nível de DNA, são três as categorias que agrupam as abordagens tipicamente adotadas para a identificação de regiões funcionais que codificam elementos responsáveis para a estrutura dos genes, regulação e transcrição. A seguir, descrevemos brevemente cada uma delas:
Nesta categoria, está incluída a procura por uma seqüência consenso ou uma expressão que descreva uma seqüência consenso, com algumas variações. O uso de matrizes de pesos no lugar do consenso são geralmente utilizadas [26].
A grande dificuldade para estes métodos é que os sítios nem sempre estão presentes nas seqüências de DNA, e quando o estão, nem sempre estão no mesmo contexto de onde foram concebidos [7].
Para discriminar CDS de não-CDS, geralmente são usados modelos estatísticos da freqüência de nucleotídeos e dependências presentes na estrutura do códon [26], analisando a complexidade composicional da seqüência.
Uma vantagem desta abordagem é que nenhuma seqüência similar é necessária para identificar os genes codificantes de proteínas, pois a identificação é obtida da própria seqüência [33].
Todos os métodos conhecidos, atualmente, são sensíveis e dependentes da natureza dos dados analisados, sendo a intuição ou domínio do conhecimento dos especialistas um fator fundamental no processo da identificação de genes e posterior anotação genômica.
O problema de identificação de genes está longe de ser resolvido e a principal dificuldade é encontrada no que define realmente um gene. Biólogos moleculares encontraram alguns genes de comprimento mais curtos do que os esperados inicialmente [27]. Um desempenho melhor de uma identificação requererá melhor conhecimento biológico sobre porque os genes têm as características até agora encontradas [33].
Neste trabalho, nos concentramos na busca por conteúdo para identificação de CDSs, sendo usada a TBP (Seção 2.3) como um bom indicador de suas localizações. Pode ser encontrada em [26,61] uma descrição ampla das ferramentas utilizadas para a identificação computacional de genes de eucariotos.
Depois do seqüenciamento genômico, é particularmente necessária a determinação da longa seqüência original de DNA para sua posterior anotação. Assim, procedimentos biológicos e/ou computacionais, tal como um pipeline bioinformático, são fundamentais para auxiliar todo o processo de uma maneira simples, lógica e ordenada.
Pipeline bioinformático (bioinformatics pipeline) é um termo usado, mas vagamente definido em bioinformática. Aqui o definimos como uma seqüência de unidades ou etapas funcionais que realizam uma tarefa genômica em diferentes passos biológicos e/ou computacionais, em que cada unidade funcional recebe entradas e produz saídas que são armazenadas em arquivos ou bancos de dados especiais para sua posterior interpretação biológica. Uma saída de uma unidade funcional é uma entrada da unidade seguinte, sendo que operações dentro de uma unidade podem ser realizadas em paralelo.
A organização das unidades funcionais em um pipeline bioinformático para projetos genoma depende do tipo, características e necessidades do projeto em que deseja-se utilizar (para recentes exemplos, ver [21,41,46]). Entretanto, nas seguintes subseções, apresentamos uma organização típica e simplificada dessas unidades funcionais (Fig. 3.1).
|
As entradas para o pipeline bioinformático são as leituras (reads) dos fragmentos produzidos pelo seqüenciador automático de DNA com informações analógicas que representam os nucleotídeos lidos deste equipamento (raw data), chamados de arquivos de cromatograma, de um dos fragmentos próprios do método de seqüenciamento.
Para converter esses dados analógicos em fragmentos de bases, as leituras são submetidas a um programa de identificação, denominado base-caller, o qual as identifica como A, C, G ou T, atribuindo um valor de qualidade para cada um. O rótulo N é atribuído no caso de um nucleotídeo não ser identificado ou possuir uma qualidade muito baixa (Fig. 3.2).
A orientação de um fragmento é desconhecida e freqüentemente as máquinas de seqüenciamento automático apresentam erros nas leituras dos fragmentos de DNA. Uma boa parte dos fragmentos contém erros em uma taxa de 1 a 5%. Muito mais erros ocorrem nos extremos das leituras [39,45].
|
Nos trabalhos de Ewing [22,23], as atribuições dos valores
confiáveis aos nucleotídeos são dadas por um algoritmo que tem como base a
análise de Fourier [38]. O valor de qualidade de uma base em um
fragmento é
, onde
é a probabilidade de erro estimado
para a base. Assim, os valores de qualidade estão definidos para inteiros
positivos pequenos para cobrir um amplo intervalo de probabilidade de erro. Esse
valor é importante para determinar se um fragmento precisa ser re-seqüenciado.
Esta etapa consiste na geração da seqüência genômica a partir dos fragmentos já digitalizados. Os programas utilizados são baseados em algoritmos heurísticos e de programação dinâmica de alinhamento de seqüências que essencialmente procuram encontrar redundâncias entre fragmentos, agrupando os que tenham uma parte comum, que formam fragmentos maiores, chamados fragmentos consensos ou contíguos (contigs ou contiguous.) [39].
Os genomas de diferentes organismos da mesma espécie não são idênticos devido ao polimorfismo entre eles (e.g. estima-se uma diferença em uma taxa de 1 em 1000 bases para o genoma de duas pessoas diferentes [2]). Assim, as regiões no genoma com alta taxa de polimorfismo são um problema nesta etapa da montagem [45].
O seqüenciamento termina quando o aumento no número de fragmentos não contribui para o alongamento dos consensos, resultando ainda em regiões onde não se conhece a seqüência devido a contaminantes nas flutuações de clonagem, presença de seqüências repetidas, dentre outros [39]. Pode-se usar métodos biológicos alternativos para adicionar mais fragmentos, podendo também ser retirados do conjunto de entrada. A montagem termina quando produz tantos consensos quanto replicons3.1 do genoma e todas as bases tenham um valor de qualidade aceitável dependendo do valor estabelecido para o projeto.
Existem diferentes maneiras para certificar que uma seqüência genômica seja a correta [2]. A seqüência pode ser comparada com pequenas partes de um genoma que tenha sido seqüenciado e anotado previamente ou com regiões de mapas genômicos. Se uma montagem é consistente com regiões dispersas de informação conhecida, então é bastante provável que toda a seqüência seja a correta [48].
Esta etapa consiste nas operações de substituição, remoção ou inserção de bases. Permitindo assim a correção de possíveis erros cometidos na identificação de nucleotídeos e nos erros da própria montagem. Em geral, isso pode ser feito devido à existência de um ou mais fragmentos que tenham bases adequadas com qualidade alta para inferir a correção da base incorreta [41].
Esta etapa é crítica porque consiste na identificação de regiões onde estão localizados os possíveis genes para depois determinar quais são suas funções, descrições ou categorizações biológicas [45,48]. As operações comuns nesta etapa são:
Veja [48], para uma descrição detalhada das categorias típicas de anotação, técnicas usadas, e modelos sociológicos que têm sido adotados pelos pesquisadores.
Nesta seção, apresentamos uma descrição do pipeline bioinformático que desenvolvemos no Laboratório de Bioinformática do Departamento de Ciência da Computação do IME-USP, em colaboração com o Laboratório de Biotecnologia do Departamento de Ciências Biológicas da ESALQ-USP, sob a orientação da Profa. Dra. Helaine Carrer.
O pipeline bioinformático desenvolvido é tratado como um conjunto de ferramentas computacionais configuradas para (1) o recebimento e administração de placas de seqüenciamento, (2) análises de qualidade por placa, (3) filtragem e mascaramento de seqüências, (4) montagem dos fragmentos de DNA e, (5) comparações dos fragmentos obtidos com seqüências de DNA de organismos conhecidos.
Atualmente, este pipeline bioinformático (Fig. 3.3), disponível para uso em
http://malariadb.ime.usp.br:8026/pipeline, sob o sistema operacional
SUNOS
5.8, apóia a montagem do genoma completo de cloroplasto de
Eucaliptus grandis e na análise de ESTs da bactéria Pantoea
agglomerans.
Na Figura 3.4 ilustramos um esquema correspondente à arquitetura do pipeline bioinformático desenvolvido. A seguir descrevemos a interface web, o sistema de gerenciamento e as cinco unidades funcionais deste pipeline.
Um processo típico para um projeto arbitrário poderia ser o seguinte. Quando uma placa de seqüenciamento é submetida ao pipeline bioinformático, será realizada a identificação de bases, filtragem, mascaramento, e análise de qualidade de seqüências. Este primeiro passo permite descartar seqüências com qualidade baixa. Um processo seguinte permite a montagem genômica somente com as seqüências obtidas no processo anterior para a placa submetida, como também para o processo de montagem das seqüências de todas as placas. Toda a informação sobre a montagem é coletada (coleção de informação), isto é, são armazenados o número de seqüências válidas, de singlets, e de contigs.
Para o processo de montagem de todas as placas, são realizadas as comparações dos singlets e contigs obtidos com (1) seqüências conhecidas e registradas no NCBI, e (2) um genoma completo conhecido, previamente indicadas no sistema de gerenciamento. Os resultados finais da montagem e das comparações são agrupados para a geração de relatórios da análise genômica (fusão de informação). Todos os resultados são apresentados através da interface web.
O pipeline bioinformático apresenta vários relatórios correspondentes a cada projeto registrado, sendo os mais importantes:
No tempo da escrita deste trabalho conta-se com 87 placas submetidas e processadas, fazendo um total de 7399 leituras, 11 singlets, e 212 contigs na montagem do genoma de cloroplasto de Eucaliptus grandis. Conta-se com 26 placas, fazendo um total de 1899 leituras, 693 singlets, e 194 contigs na análise de ESTs da bactéria Pantoea agglomerans.
As regiões codificantes de proteínas (CDSs) em seqüências de DNA apresentam tipicamente uma organização periódica de três bases não uniforme (TBP) e que ainda não é compreendida completamente (Seção 2.3). Nota-se que vários métodos foram criados para a identificação de CDSs (Seção 2.4) baseados na busca dessa característica.
Neste capítulo, revisamos as definições básicas da análise de Fourier, mapeamento numérico de nucleotídeos, espectros de freqüência de DNA, análise de periodicidade de DNA, e apresentamos os principais métodos de processamento digital de sinais (DSP) que compõem o estado da arte no que se refere à identificação de CDSs através da busca da TBP.
Uma aspecto importante da análise de Fourier deve-se ao fato dela possibilitar uma representação de uma classe ampla de funções em termos de uma combinação linear de funções base senos, cossenos ou exponenciais complexos [15]. Uma outra forma de pensar na análise de Fourier é como uma técnica matemática para transformar nossa visão de informação baseada no tempo (posição ou espaço) naquela baseada na freqüência [44].
A transformada de Fourier é utilizada para decompor um sinal em componentes que representem freqüências, descrevendo o sinal de forma uni-dimensional e global. Existem variações, desta transformada, diretamente relacionadas a ela, que dependem do tipo de função a transformar [38]. Esta transformada invertível representa de forma não ambígua o sinal e define a noção de freqüência global no sinal.
A transformada contínua de Fourier (CFT,
Continuous Fourier transform) é referida para funções contínuas,
que representem qualquer função integrável
como a integral de exponenciais
complexas com freqüência angular
e amplitude complexa
[10],
Analogamente, a transformada discreta de Fourier (DFT, Discrete
Fourier transform) da função
pode ser definida como
A transformada de Fourier tem um inconveniente pois transformar ao domínio da freqüência resulta em uma perda da informação relativa ao tempo. Portanto, é impossível indicar quando um evento particular ocorre [44].
O espectro de freqüência é uma representação de um sinal em termos de freqüência (Seção 4.1.1, sendo esse considerado uma projeção do sinal sobre um conjunto de funções base senoidais. Os espectros de freqüência contêm informação de amplitude e de fase [38].
A convolução é um operador matemático entre duas funções
e
, que
produz uma terceira função, que de certa forma, represente a quantidade de
sobreposição entre
e uma versão invertida e deslocada de
em diferentes
instantes de tempo. A convolução
de
e
, denotada
, é definida como a integral do produto de duas
funções após uma ser invertida e deslocada [15,38].
Para o caso de funções contínuas, a convolução
será dada por
Uma alternativa para a análise bi-dimensional e local de dados é dada pela transformada de Fourier de tempo reduzido (STFT, do inglês Short-time Fourier transform), que introduz uma janela de extensão limitada que permite selecionar uma parte do sinal. A STFT é usada para determinar como a amplitude senoidal e fase de um sinal muda no tempo, dando alguma informação sobre quando e em que freqüências um evento em um sinal ocorre, com uma precisão limitada e determinada pelo tamanho da janela. Esta transformada mapeia o sinal em um plano tempo4.1-freqüência [38,44].
Para um sinal contínuo
define-se a STFT como
Imagine-se
como um deslizamento de uma janela através do sinal,
e para cada deslocamento de
é calculada a transformada de Fourier
(Seção 4.1.1). Esta transformada, que permite uma análise local,
depende criticamente da escolha da janela
. Quando a janela é determinada,
a resolução tempo-freqüência
é fixada sobre o plano tempo-freqüência pois a mesma janela é usada para
analisar todo o sinal [44].
Vale salientar que o módulo da STFT define o espectrograma da função [10], e pode ser construída em duas
dimensões com o tempo no eixo das ordenadas e a freqüência no eixo das
abscissas. A amplitude pode ser dada por uma escala de cores na visualização.
O espectrograma é definido por
Vários métodos foram utilizados para converter dados categóricos ou simbólicos de seqüências de DNA para serem tratados como seqüências numéricas [1,59]. Esta conversão, ou mapeamento, deve-se à dificuldade de uso direto de dados simbólicos nas técnicas de DSP pois elas têm uma base algébrica totalmente ausente no caso dos dados simbólicos. Um mapeamento de símbolos a números não deve impor uma estrutura matemática que não existe em seqüências de DNA [1]. Existem duas abordagens que podem ser utilizadas para representar numericamente uma seqüência de DNA:
No mapeamento binário [8] são criadas sete seqüências numéricas. Cada seqüência numérica corresponde a uma das sete formas de mapear uma seqüências de DNA baseadas nas características próprias das bases, considerando, por exemplo, as ligações de hidrogênio e se as bases nitrogenadas são purinas ou pirimidinas.
Na Tabela 4.1 estão representadas as sete regras
utilizadas em [8] para as atribuições de valores binários para cada
base. Vale salientar que as seqüências obtidas por cada uma dessas regras de
mapeamento são independentes, pois estas referem-se a aspectos diferentes da
seqüência de DNA, mantendo assim invariância à atribuição numérica.
Para o mapeamento por números inteiros [56], reais [40] ou complexos [4] são utilizados números arbitrários ou valores que representam alguma propriedade das bases nitrogenadas como, por exemplo, os potenciais de interação elétron-íon (EIIP, electron-ion interaction potentials) encontrada nas bases. Os autores de [40] analisaram seqüências de DNA em que foram atribuídos valores para cada base como sendo ( A, C, G, T)=(0.1260, 0.1340, 0.0806, 0.1335). A dificuldade com este último mapeamento é, na verdade, a dependência na atribuição de números (inteiros, reais ou complexos) adotada, permitindo que alguma estrutura harmônica relevante seja oculta ou artificialmente criada pela atribuição [1,59]. Considerando, por exemplo, a seqüência periódica ( GTGCGA GTGCGA ...) com a atribuição dos valores ( A, C, G, T)=(1, 0, 0, 0), forma-se uma seqüência numérica de período seis, e para a atribuição de ( A, C, G, T)=(0, 0, 1, 0), forma-se outra de período dois.
Neste trabalho, utilizamos somente as regras 4 a 7 do mapeamento binário para a
atribuição de valores para quatro seqüências,
,
,
e
,
correspondentes às bases nitrogenadas, em que cada seqüências binária4.2especifica a presença ou não da base
A,
C,
G ou
T em uma
dada posição da seqüência de DNA.
Tal abordagem foi considerada também nos trabalhos [1,4,51].
Por exemplo, a seqüência
ATGCTTGACTAGGGCTCAGT e suas correspondentes
seqüências binárias são mostradas na
Tabela 4.2.
Observa-se que um mapeamento fixo inteiro, real ou complexo pode ser obtido
baseado no mapeamento binário. Se
,
,
e
são
valores numéricos arbitrários correspondentes às bases
A,
C,
G
e
T, uma seqüência
de comprimento
pode ser representada como uma
combinação linear de suas seqüências binárias
,
,
e
[4], tal que
(a) Mapeamento binário
(b) Mapeamento inteiro |
| (4.12) |
Como exemplo, nas Figuras 4.2 e 4.3, apresentamos os espectros de freqüência correspondentes a seqüências sintéticas de 600bp: (1) seqüência com periodicidade três de 600bp (Fig. 4.2(a)), (2) seqüência com uma região periódica de 200bp, correspondente às posições 201 a 400 (Fig. 4.2(b)), (3) seqüência com uma região periódica de 100bp, correspondente às posições 251 a 350 (Fig. 4.2(c)), (4) seqüência com uma região periódica de 50bp, correspondente às posições 276 a 325 (Fig. 4.3(d)),
(a) Região periódica (1 a 600)
(b) Região periódica (201 a 400)
(c) Região periódica (251 a 350) |
(d) Região periódica (276 a 325) |
Pela constituição dessas seqüências sintéticas, podemos observar que o valor da energia4.3 associada à freqüência três é, geralmente, maior em comparação às outras freqüências. Note, também, que a transformada de Fourier permite realizar uma análise global da seqüência. Note que quanto menor a CDS, menos nítido é o pico de freqüência em relação ao espectro total. Portanto, os valores das energias associadas à freqüência três, correspondentes às regiões com periodicidade três, serão indistintos na medida que a região periódica seja menor.
Na Figura 4.4 apresentamos os espectros de freqüências para uma seqüência periódica de 600bp onde foram percentualmente inseridos dois tipos de ruídos: (1) ruído inclusivo, que corresponde à escolha aleatória de uma determinada porcentagem de bases para depois serem trocados com a mesma probabilidade por A, C, G e T; (2) ruído privativo, que corresponde também à escolha aleatória de uma porcentagem de bases, mas estas podem ser trocadas exclusivamente por outras. Por exemplo, se a base escolhida for A, esta pode ser trocada com igual probabilidade por C, G ou T. A energia correspondente à freqüência três nos espectros de freqüências diminui quando a porcentagem do ruído é maior (Fig. 4.4(a)), mas no caso do ruído privativo próximo a 100%, a energia nessa freqüência é maior do que as outras freqüências, pois a probabilidade de troca de uma base selecionada, por outra que não seja a mesma, é de 1/3 (Fig. 4.4(b)).
Mostramos alguns exemplos de espectros de freqüências de seqüências de DNA correspondentes a uma CDS de 6885bp (região 86474-93358) (Fig. 4.4(c)), e uma região não-codificante de 1389bp (Fig. 4.4(d)) do genoma de Arabidopsis thaliana com número de acesso GenBank NC_000932. Em todos os exemplos mostrados nesta seção, com exceção das seqüências correspondente à região não-codificante (Fig. 4.4(d)), a energia presente na freqüência três nos espectros de freqüências demonstram a existência da TBP presente nas CDSs (Seção 2.3). Entretanto, a energia associada à periodicidade três depende do tamanho da seqüência analisada [11]. É de esperar-se uma energia alta quando a seqüência analisada possua uma alta periodicidade latente de três bases. Na seção seguinte realizamos um estudo aprofundado da periodicidade nas seqüências de DNA e em particular da TBP.
(a) Sintética com ruído inclusivo
(b) Sintética com ruído privativo
(c) CDS de A. thaliana
(d) Região inter-gênica de A. thaliana
|
Neste trabalho usamos dois tipos de conjuntos de seqüências de DNA (Apêndice A) para avaliar os métodos estudados. O primeiro tipo trata de seqüências criadas sinteticamente, enquanto o segundo corresponde a conjuntos de seqüências reais de eucariotos usados para avaliar programas computacionais de identificação de genes.
Nesta seção, apresentamos para cada tipo de conjunto, as primeiras 23 estimativas inteiras de periodicidades, isto é, estimativas da periodicidade 2 a 24 das regiões codificantes (que simulam TBP) e regiões não-codificantes (regiões inter-gênicas e, no caso dos organismos eucariotos, íntrons). Observamos, para faixas maiores de periodicidade, um comportamento similar nas estimativas destas periodicidades, isto é, a energia associada à freqüência três nas regiões periódicas (CDSs) é sempre maior que as das outras freqüências. Esse fato motiva o desenvolvimento de métodos de identificação de CDSs com base na periodicidade.
Para o cálculo dos valores de periodicidade, nesta seção, utilizamos somente os coeficientes da transformada de Fourier (Seção 4.1.1) de cada região nas seqüências de DNA. Em [20,47] encontra-se uma descrição detalhada dos métodos comuns para o cálculo de periodicidade em seqüências de DNA.
As estimativas de periodicidade das seqüências sintéticas sintética1_0 e sintética2_0 (Apêndice A.1) são representadas nas Figuras 4.5(a) e 4.5(b). A seqüência sintética1_0 contém regiões periódicas de 2 até 6, sendo exatamente nessas periodicidades que as energias são maiores às dos outros não considerados na seqüência sintética. Já para a seqüência sintética2_0, que contém nove regiões periódicas de três bases (que simulam TBP), a energia associada à periodicidade três é maior as das outras regiões. Observemos que, para as regiões que não tem alguma periodicidade (que simulan regiões não-codificantes), nenhum comportamento similar é encontrado nas medidas de periodicidade.
No Apêndice B, estão representadas as periodicidades de algumas das seqüências sintéticas sintética2_XA e sintética2_XB em que as bases pertencentes às regiões periódicas foram alteradas com ruído.
[Seqüência sintética1_0] [Seqüência sintética2_0] [Conjunto de seqüências reais A]
[Conjunto de seqüências reais B]
|
Na Figuras 4.5(c) e 4.5(d) mostramos a representação das periodicidades estimadas para os éxons, íntrons e regiões inter-gênicas para conjuntos de seqüências reais (Apêndice A.2). Observemos que os éxons apresentam uma energia associada às CDSs maior em comparação às outras energias das periodicidades estimadas. Esta estimativa demonstra a existência da TBP presente somente nas CDSs (Seção 2.3).
As pesquisas sobre DSP demonstraram que uma análise de Fourier (e também Wavelet) pode ser de grande ajuda na descrição da estrutura das seqüências de DNA [13,34,62,63]. A seguir, apresentamos uma visão geral dos métodos de DSP utilizadas para a identificação de CDSs.
S. Tiwari, em [51], para uma seqüência de comprimento
, definiu
quatro coeficientes normalizados na freqüência três4.4,
isto é, o coeficiente da STFT na posição
, como
![]() |
(4.14) |
Como exemplo, apresentamos os valores dos coeficientes
para três seqüências
de DNA:
|
[sintética1_0 com janelas de 2 a 400bp]
[sintética1_0 com janela de 21bp]
[sintética2_0 com janelas de 2 a 400bp]
[sintética2_0 com janela de 21bp]
[Gene F56F11.4 com janelas de 2 a 500bp]
[Gene F56F11.4 com janela de 351bp]
|
Em um trabalho subseqüente de D. Anastassiou [4], define-se
| (4.17) |
Para os genes do cromossomo XVI de S. cerevisiae Anastassiou
estimou [4]:
,
,
,
. Na
Figura 4.7 apresentamos os valores dos coeficientes
(Eq. 4.16) para o gene anteriormente tratado. Vemos que o resultado é
significativamente melhor que o método usado em (Eq. 4.15). Pois os
coeficientes correspondentes à região do primeiro éxon do gene F56F11.4
(Tab. 4.3) são comparáveis aos coeficientes dos outros éxons.
No entanto, a desvantagem deste método é que precisa-se de uma outra seqüência
com CDSs conhecidas para a obtenção das constantes
,
,
e
.
[Com janelas de 2 a 500bp]
[Com janela de 351bp]
|
Vaidyanathan [57] propôs a utilização de filtros digitais4.7para a identificação de CDSs utilizando como base a TBP presente nas CDSs. Basicamente, esta técnica consiste nos seguintes passos:
Este método em grande parte elimina o ruído presente nos métodos anteriores, mas a desvantagem é a perda de resolução. Em [57] apresentam-se diferentes filtros e mostram-se resultados similares à identificação de CDSs usando a Equação (4.15).
Os métodos de DSP baseados na transformada de Fourier [4,51] e filtros digitais [57] não apresentam, atualmente, formulações bastante elaboradas devido à dependência do tamanho de janela que deve ser definida previamente para analisar localmente uma dada região de DNA. Quanto maior for o tamanho da janela, maior será o número coeficientes relevantes, e maior o custo computacional gasto (Figs 4.6 e 4.7). Vale salientar que estes métodos consideram somente a energia associada à periodicidade três para a identificação de CDSs.
A definição do tamanho da janela a ser utilizada na análise das seqüências de DNA é crítica para a identificação das CDSs [33], pois compromete fortemente a resolução e o resultado. Com o objetivo de reduzir a dependência ao tamanho, surgiu uma outra classe de métodos para a identificação de CDSs. Estes métodos exploram fortemente o mecanismo de mudança de tamanho da janela, utilizando transformadas em wavelets (tratados na Seção 5.1). Na atualidade, valores ótimos para o tamanho de janela e/ou escala são encontrados através de experimentação [33].
Assim, existem estudos preliminares na utilização de transformadas em wavelets para a identificação de CDSs. Em [40], utilizaram o mapeamento numérico fixo baseado no EIIP (Seção 4.2), atribuindo valores correspondentes aos potenciais das bases ( A, C, G, T)=(0.1260, 0.1340, 0.0806, 0.1335). As wavelets utilizadas foram as Coiflets e Daubechies para decompor o sinal.
Todos os métodos de análise tempo-freqüência, revisados nesta dissertação, são independentes das propriedades estruturais biológicas existentes nas seqüências de DNA. Em [12], os autores utilizaram uma transformada em wavelet adaptativa4.8, chamada bionic para a identificação de CDSs. A wavelet bionic baseia-se no modelo auditivo humano, onde a resolução tempo-freqüência pode ser ajustada adaptativamente e a módulo dos coeficientes associada as freqüências pode ter uma melhor distribuição.
Este método permite tanto a utilização do mapeamento binário fixo, como do mapeamento baseado em critérios de otimização. Nos dois tipos de mapeamento, é utilizado um vetor de pesos associado à seqüência de DNA. O mapeamento baseado no critério de otimização, refere-se ao processamento iterativo das seqüências binárias conjuntamente com o vetor de pesos. Este vetor é modificado pelos módulos dos coeficientes da transformada em wavelets de uma iteração prévia. A maximização da distribuição da energia (os módulos dos coeficientes) é realizada mediante o processamento das seqüências numéricas pela transformada em wavelet bionic. Os maiores módulos dos coeficientes associados às seqüências analisadas foram as correspondentes à freqüência próxima a 0.33Hz [12].
Vários outros estudos foram realizados, como o uso de técnicas de análise espectral, para identificar periodicidades latentes e características de interesse biológico [50]. Em seqüências de DNA foram utilizados transformadas em wavelets para explorar a complexidade da composição de bases [6], e visualização de padrões regulares [18]. Comparações de seqüências de proteínas, baseadas na transformada em wavelets, estão descritas em [52].
As medidas de acurácia no nível dos nucleotídeos, descritas por M. Burset e R. Guigó [9], propõem uma forma de comparação de regiões identificadas, mediante procedimentos computacionais, com CDSs conhecidas biologicamente, isto é, regiões cujas posições dos éxons, nos genes, são conhecidas. Portanto, estas medidas servem para comparar o desempenho dos programas computacionais de identificação de genes (Seção 2.4).
A medição de regiões identificadas contra CDSs conhecidas é feita mediante
contagem de nucleotídeos correspondentes aos
(1) verdadeiros positivos (TP, true positive), que são regiões corretamente identificadas,
(2) falsos positivos (FP, false positive), que são regiões identificadas erroneamente,
(3) verdadeiros negativos (TN, true negative), que são regiões corretamente não identificadas, e
(4) falsos negativos (FN, false negative), que são regiões não identificadas (Fig. 4.8).
Foram propostas duas medidas de acurácia baseadas nas taxas de ocorrências de
sensibilidade e especificidade.
Um programa computacional é considerado exato se sua Sn e Sp são simultaneamente altas. Assim, a medida de exatidão que combina a Sp e Sp é chamada de coeficiente de correlação (CC),
Uma recente avaliação de alguns programas de identificação de genes foi realizada em [37,45]. Outras medidas de acurácia, no nível de éxons e de proteínas, podem ser revisadas em [9]. Vale salientar que todas estas medidas não estão baseadas em componentes de desempenho como o tempo de execução ou requerimentos de memória dos programas computacionais avaliados.
Um script em PERL
para estimação das medidas de acurácia, de conjuntos
de seqüências identificadas, está disponível no endereço
http://www.vision.ime.usp.br/~jmena/DSPgenomics/.
Neste capítulo, revisamos brevemente as definições básicas da análise em wavelets e apresentamos a definição da MMT proposta. Em seguida, descrevemos o novo método desenvolvido para a identificação de CDSs em seqüências de DNA onde a periodicidade de três bases seja latente, de maneira a contornar esse problema. Consideramos este método a principal contribuição da dissertação.
A transformada em wavelets permite uma análise tempo-escala de um sinal, que
consiste na sua representação em termos de sinais simples construídas por
translações e dilatações de uma wavelet de análise
5.1.
A transformada em wavelets contínua de um sinal
é calculada a partir do produto
interno do sinal com o conjugado complexo da wavelet de análise
[10]:
Para sinais discretos, a transformada em wavelets do sinal
, é definida como
![]() |
(5.2) |
A wavelet de análise
é geralmente escolhida para ser bem localizada em
tempo e freqüência. Esta função pode ser real ou complexa, resultando também em
uma transformada real ou complexa. Na análise do sinal, nenhuma escala é
privilegiada pois a mesma função
é utilizada, em diversas escalas. Portanto a transformada
mantém uma resposta fortemente dependente da função
[10].
A transformada em wavelets permite calcular os coeficientes dos espectros de freqüência para cada posição de um sinal específico, isto é, a energia em função de posição e freqüência. Os espectros de freqüência derivados da transformada de Fourier (Seção 4.1.1), mantêm energia como função de freqüência, onde toda a informação espacial é oculta ou perdida. Já no caso da STFT (Seção 4.1.1) esta informação é obtida, mas dependente do tamanho da janela. Esta vantagem sobre a transformada de Fourier e STFT é alcançada através do uso das funções wavelets [44]. Analogamente ao espectrograma (Seção 4.1.4), as magnitudes da transformada em wavelets definem o escalograma da função [44]. O escalograma será explorado pelo método de identificação de CDSs introduzido neste trabalho e tratado na Seção 5.3.
No presente estudo, onde somente estamos interessados na análise de uma freqüência específica5.2, as funções de análise anteriores não são completamente adequadas pois variam as freqüências da exponencial complexa na sua transformação. Aqui definimos uma modificação da função de análise de Morlet para analisar um sinal em uma dada freqüência fixa (freqüência da exponencial complexa constante), e de escala variável.
Segundo (5.3), temos que
Na Figura 5.1 apresentamos três representações de
, e
suas transformadas de Fourier, considerando arbitrariamente
e
no
intervalo
. Os valores das escalas são os correspondentes a 0.5, 1 e
4. Como
, espera-se que a
oscile a cada três pontos.
A Figura 5.2 ilustra graficamente as diferenças entre as
funções de análise de Gabor, Morlet, e Morlet modificado, com valores
arbitrários de
,
e
. Observe-se que, dessas três
funções, na função de análise da modificação de Morlet, a freqüência é mantida
constante.
Finalmente, é importante destacar que, atualmente, desconhecemos se verdadeiramente a MMT é uma transformada em wavelets.
(a)
(b)
(c) |
|
Nesta seção, descrevemos um novo método utilizando a MMT para a identificação de CDSs,
onde a periodicidade de três bases seja latente. O método
divide o processo automático de identificação em quatro blocos
importantes:
(1) mapeamento de seqüências de DNA em quatro seqüências binárias,
(2) aplicação da MMT sobre cada seqüência binária,
(3) projeção dos módulos dos coeficientes normalizados da MMT, e
(4) limiarização dos coeficientes de projeção, para a detecção das
possíveis fronteiras entre as CDSs. Na Figura 5.3 mostramos um
diagrama de blocos do método proposto.
|
Cada seqüência binária representa as posições de cada base nitrogenada na
seqüência de DNA. Com este mapeamento, não mantém-se dependência sobre
alguma atribuição numérica arbitrária. Na Tabela 4.2,
apresentamos um exemplo do mapeamento binário para uma seqüência de DNA.
Denotamos as seqüências binárias associadas a seqüências de DNA
como
,
,
, e
correspondentes às bases
A,
C,
G, e
T, como descrito na Equação (4.10).
A MMT para cada seqüência binária
,
,
e
, é dada por:
A fim de manter uma medida comparável em todas as escalas, os
módulos ao quadrado dos coeficientes da transformação
são multiplicados por um fator de normalização proporcional à escala utilizada.
Esta normalização deve-se ao fato que para escalas maiores os coeficientes
correspondentes às regiões com TBP latente são menores.
Estes coeficientes são denotados como os espectros da MMT, tal que
As Equações (5.14)-(5.17) representam medidas parciais da
energia associada à transformação. Conseqüentemente, a medida espectral total da
seqüência de DNA é dada por:
No método, quando o mapeamento fixo é utilizado para converter uma seqüência de
DNA em quatro seqüências binárias, é intrinsecamente assumido que todas as bases
são independentes pois cada seqüência binária é tratada de forma independente.
Entretanto, seqüências genômicas, incluídas as seqüências de DNA, são criadas e
mantidas por complicados processos biológicos [2], existindo uma
interação entre bases adjacentes. Esta interação é geralmente estimada mediante
correlações de seqüências de DNA [5,28]. Os coeficientes
normalizados totais
, para uma escala
, agrupa os coeficientes
associados às transformações das seqüências binárias mantendo, em parte, uma
interação entre elas.
Os coeficientes do espectrograma da MMT (5.18) são
projetados no eixo das posições, a fim de representar as possíveis CDSs com
TBP. Para uma seqüência de comprimento
, os coeficientes de projeção
que definem o identificador proposto de CDSs, serão representados por uma
somatória dos coeficientes em todas as escalas, como
Estas duas projeções são uma maneira simples de extrair informação da transformada multiescala MMT nos eixos [15]. Tomando um exemplo dos coeficientes de projeção, é razoável concluir que se duas seqüências têm CDSs com TBP similar, então estes coeficientes devem também ser similares.
Uma parte importante na identificação de CDSs é a determinação das fronteiras entre CDSs e regiões não codificantes de proteínas. O processo da limiarização, neste método, corresponde a uma tentativa de estabelecimento dessas fronteiras, em que são substituídos por zero qualquer coeficiente menor que um valor limite, mantendo constantes os coeficientes restantes.
A limiarização sobre
, na Equação (5.19), é uma
maneira de eliminar detalhes ``não importantes'' considerados como ruído, ou
como regiões com TBP com baixa latência. Consideramos um limiar
percentual [58] em que são selecionados uma porcentagem das magnitudes
dos coeficientes de projeção. O conjunto dos menores valores, em termos
absolutos, são substituídos por zero. Portanto, uma aproximação das CDSs são as
regiões isoladas cuja magnitudes
são maiores que zero.
Neste capítulo, discutimos alguns resultados experimentais obtidos com o método proposto para a identificação de CDSs onde a periodicidade de três bases seja latente (Seção 5.3). Apresentam-se experimentos comparativos de identificação de CDSs através da MMT e da STFT, em seqüências sintéticas e reais. Conjuntos de seqüências de DNA (Apêndice A) também foram utilizados na experimentação.
Mostramos nas figuras associadas à análise de cada seqüência, os coeficientes da MMT normalizados (Eq. 5.18), os coeficientes da projeção no eixo das posições da MMT (Eq. 5.19), e os coeficientes normalizados da STFT (Eq. 4.15) com comprimentos de janela de 200bp e 400bp. Mostramos a análise para cada seqüência binária associada às bases A, C, G e T. A união, que indica uma medida total da identificação, corresponde à somatória de todos os coeficientes das transformadas. As linhas pontilhadas verticalmente indicam par a par as posições das CDSs biologicamente conhecidas.
Geralmente, dos coeficientes de projeção no eixo das posições, as magnitudes associadas às CDSs são comparavelmente maiores que das outras regiões na seqüência de DNA por terem TBP latente, salvo exceções as quais serão discutidas nas seguintes seções. Observaremos que essa periodicidade não está presente em todos os coeficientes parciais de projeção.
No método de identificação de CDSs através da MMT utilizamos 40 escalas, exponencialmente espaçadas, no intervalo 0.05 e 0.5. Entretanto, no método de identificação de CDSs através da STFT consideramos arbitrariamente comprimentos de janelas de 200bp e 400bp, correspondentes aos valores aproximados da média e do desvio padrão dos comprimentos nos éxons dos conjuntos A e B (Tabelas A.3 e A.6).
Para comparar os métodos tratados utilizamos a mesma limiarização sobre os coeficientes obtidos depois da projeção, na MMT, ou da somatória dos coeficientes normalizados, na STFT. Os limiares percentuais considerados na limiarização estão no intervalo de 5% a 95%. Assim, as regiões isoladas com magnitudes maiores que zero são consideradas possíveis aproximações das localizações das CDSs.
Utilizamos medidas de acurácia para avaliar o desempenho dos métodos em termos de sensibilidade (Sn, Eq. 4.18), especificidade (Sp, Eq. 4.19) e coeficientes de correlação (CC, Eq. 4.20) nas identificações realizadas para um dado limiar. Estas medidas indicam a qualidade nas identificações de forma objetiva. Portanto algumas delas podem não ser consistentes com percepções biológicas. Medidas subjetivas não foram consideradas na análise dos resultados deste trabalho.
Para toda a análise dos resultados, no caso dos organismos eucariotos, consideramos que em cada seqüência de DNA existe somente um gene, em que as primeiras e as últimas CDSs correspondem às regiões codificantes dos primeiros e dos últimos éxons, respectivamente. Já no caso dos procariotos, as regiões identificadas corresponderão aos possíveis genes, pois os genes destes organismos mantêm somente uma CDS.
No momento todos os procedimentos, dentro do método automático de identificação,
foram implementados usando MATLAB
, estando disponíveis como um toolbox
no endereço http://www.vision.ime.usp.br/~jmena/DSPgenomics/.
Foram utilizadas as seqüências sintéticas sintética1_0 e sintética2_0 descritas no Apêndice A.1 para avaliar a identificação de regiões onde a periodicidade é uniforme.
Observemos que as duas regiões periódicas apresentam altas magnitudes nos coeficientes da transformada. A região que contém periodicidade seis é identificada por ser, em parte, também de periodicidade três. O desempenho da STFT com comprimento de janela de 200bp apresenta uma significativa melhora em relação à de 400bp, pois a periodicidade contida nessas regiões é uniforme.
A definição do comprimento de janela afeta fundamentalmente o desempenho na identificação de CDSs. Utilizando a MMT nessa seqüência obteve-se com um limiar de 85% uma acurácia de 0.87. Entretanto, usando a STFT, obteve-se com um limiar de 85% uma acurácia de 0.95 correspondente ao comprimento de janela de 200bp, e com um limiar de 90% uma acurácia de 0.84 correspondente ao comprimento de janela de 400bp. Isso sugere que para regiões com periodicidade uniforme, e com as mesmas configurações nas transformadas, dificilmente será alcançada a identificação exata das CDSs, mas uma identificação aproximadamente razoável.
Todas as regiões periódicas maiores que 30bp apresentam altas magnitudes nos coeficientes da transformada. O desempenho da MMT e da STFT com comprimento de janela de 200bp apresentam desempenho comparável na identificação dessas regiões. Para comprimentos de janela maiores, a acurácia obtida é menor. Com um limiar de 65% obteve-se uma acurácia de 94% utilizando a MMT e a STFT com comprimento de janela de 200bp. Entretanto, usando a STFT com comprimento de janela de 400bp obteve-se com um limiar de 70% uma acurácia de 0.87.
Isso reforça a discussão anterior, no sentido que, o nível de acurácia máximo que poderia eventualmente alcançar-se está próximo ao 90%. É evidente que para seqüências reais, cuja periodicidade não é uniforme, este valor é o máximo esperado que poderia obter-se utilizando a busca de regiões com TBP.
[Coeficientes MMT normalizados] [Coeficientes da projeção da MMT]
[Coeficientes STFT com janela de 200bp] [Coeficientes STFT com janela de 400bp]
[Desempenho em termos de Sn e Sp] [Desempenho em termos de CC e limiar]
|
[Coeficientes MMT normalizados] [Coeficientes da projeção da MMT]
[Coeficientes STFT com janela de 200bp] [Coeficientes STFT com janela de 400bp]
[Desempenho em termos de Sn e Sp] [Desempenho em termos de CC e limiar]
|
Utilizamos oito seqüências reais de DNA para avaliar a identificação de CDSs onde a TBP seja latente. Todos as seqüências, com exceção do gene F56F11.4, pertencem ao conjunto de seqüências A (Apêndice A.2).
Observemos que as seis CDSs apresentam altas magnitudes nos coeficientes das transformadas. A utilização da MMT para a identificação de CDSs tem desempenho superior à STFT. Utilizando a MMT nessa seqüência obteve-se com um limiar de 85% uma acurácia de 0.86. Entretanto, usando a STFT obteve-se com um limiar de 85% uma acurácia de 0.79, e com um limiar de 80% uma acurácia de 0.61 correspondentes aos comprimentos de janela de 200bp e 400bp.
Observemos que as cinco CDSs apresentam altas magnitudes nos coeficientes das transformadas, mas algumas regiões não codificantes aparentemente tem TBP com baixa latência (primeiro íntron). Vale salientar que esse fenômeno ainda não compreendido completamente.
Observemos que somente uma CDS apresenta alta magnitude nos coeficientes das tranformadas. As outras 34 têm comprimento pequeno ou TBP com baixa latência.
Observemos que as quatro CDSs apresentam altas magnitudes nos coeficientes das transformadas, mas algumas regiões não codificantes aparentemente têm TBP com baixa latência. É importante notar que a TBP nas CDSs não é uniforme, isto é, não mantém a mesma magnitude no seus coeficientes (veja as magnitudes das transformadas associadas ao primeiro éxon).
Observemos que somente as três últimas CDSs apresentam altas magnitudes nos coeficientes das transformadas. A primeira CDS não foi identificada pois o comprimento dela é de 10bp. A segunda CDS, de 161bp, claramente não tem TBP latente. Isso sugere que em uma seqüência de DNA, não toda CDS tem TBP latente e diferenciável das outras regiões.
Por último, na primeira região não codificante, apresenta-se uma sub-região com TBP comparável à da terceira CDS. Possivelmente esta observação deve-se a que a primeira sub-região pertença à uma CDS não anotada.
Observemos que muitas sub-regiões nas regiões não-codificantes apresentam altas magnitudes nos coeficientes das transformadas. Isso reforça a discussão anterior no sentido que possivelmente estas sub-regiões pertençam a CDSs não anotadas ou sejam sub-regiões pertencentes a pseudo-genes6.1 [61]. Este é um fenômeno ainda pouco estudado e ainda não compreendido.
[Coeficientes MMT normalizados] [Coeficientes da projeção da MMT]
[Coeficientes STFT com janela de 200bp] [Coeficientes STFT com janela de 400bp]
[Desempenho em termos de Sn e Sp] [Desempenho em termos de CC e limiar]
|
[Coeficientes MMT normalizados] [Coeficientes da projeção da MMT]
[Coeficientes STFT com janela de 200bp] [Coeficientes STFT com janela de 400bp]
[Desempenho em termos de Sn e Sp] [Desempenho em termos de CC e limiar]
|
[Coeficientes MMT normalizados] [Coeficientes da projeção da MMT]
[Coeficientes STFT com janela de 200bp] [Coeficientes STFT com janela de 400bp]
[Desempenho em termos de Sn e Sp] [Desempenho em termos de CC e limiar]
|
[Coeficientes MMT normalizados] [Coeficientes da projeção da MMT]
[Coeficientes STFT com janela de 200bp] [Coeficientes STFT com janela de 400bp]
[Desempenho em termos de Sn e Sp] [Desempenho em termos de CC e limiar]
|
[Coeficientes MMT normalizados] [Coeficientes da projeção da MMT]
[Coeficientes STFT com janela de 200bp] [Coeficientes STFT com janela de 400bp]
[Desempenho em termos de Sn e Sp] [Desempenho em termos de CC e limiar]
|
[Coeficientes MMT normalizados] [Coeficientes da projeção da MMT]
[Coeficientes STFT com janela de 200bp] [Coeficientes STFT com janela de 400bp]
[Desempenho em termos de Sn e Sp] [Desempenho em termos de CC e limiar]
|
Para seis conjuntos de seqüências de DNA (Apêndice A.2) estimamos as medidas de acurácia (Tabela C.9 a C.14). Mostramos, nas Figuras 6.9 e 6.10, as medidas de desempenho da MMT e da STFT em termos de Sn e Sp, e de CC e limiar para todos os conjuntos tratados.
Para os conjuntos de seqüências A e B, a utilização da MMT, no método, apresenta desempenho superior à STFT com comprimentos de janela de 200bp e 400bp. Para o conjunto A, obteve-se uma acurácia máxima de 0.47, com um limiar de 80%. Por outro lado, para o conjunto B, obteve-se uma acurácia máxima de 0.42, com um limiar de 80%. Níveis de acurácia similares foram obtidos para os conjuntos Am30, e Bm30.
Vale salientar que o método proposto para a identificação de CDSs, através da MMT, apresenta melhor desempenho em seqüências de DNA que possuam CDSs cujos comprimentos sejam maiores que 100bp. Para o conjunto Am100, obteve-se uma acurácia máxima de 0.55, com um limiar de 75%. Por outro lado, para o conjunto Bm100, obteve-se uma acurácia máxima de 0.51, com um limiar de 70%
Finalmente, mostramos os histogramas dos comprimentos dos éxons e dos íntrons para os conjuntos através da MMT (Figs. 6.11 e 6.12) em que obtiveram-se os melhores níveis de acurácia. Notemos que as distribuições nas freqüências dos comprimentos dos éxons e íntrons mantém a mesma forma que as distribuições calculadas para as seqüências reais (Figs. A.1 e A.2). Essa forma nas distribuições é um bom sinal do desempenho do método desenvolvido. Acreditamos que uma análise mais aprofundada do método deve seguir essa abordagem.
(a) Conjunto A
(b) Conjunto Am30
(c) Conjunto Am100 |
(a) Conjunto B
(b) Conjunto Bm30
(c) Conjunto Bm100 |
(a) Conjunto A, identificado com limiar de 75%
(b) Conjunto Am30, identificado com limiar de 80%
(c) Conjunto Am100, identificado com limiar de 75% |
(a) Conjunto B, identificado com limiar de 70%
(b) Conjunto Bm30, identificado com limiar de 70%
(c) Conjunto Bm100, identificado com limiar de 70% |
Atualmente a identificação de genes é um problema complexo, e a identificação de regiões com TBP é unicamente mais um passo na frente para a identificação de CDSs [57]. Assim, neste estudo, um novo método foi introduzido para a identificação computacional de CDSs, de organismos procariotos ou eucariotos, em que a TBP seja latente. Este método, que emprega uma nova transformada, ou seja, a MMT, pode ajudar aos especialistas anotadores de genoma, fornecendo uma estrutura geral para encontrar regiões codificantes em uma dada seqüência de DNA desconhecida.
A principal vantagem do método proposto é a de basear-se unicamente na TBP existente, geralmente, nas CDSs. Não é usada nenhuma outra informação adicional, como conjuntos de treinamento ou seqüências homólogas de outras espécies cujas seqüências e genes já sejam conhecidas [4]. Nesse sentido, o método em parte é flexível, aceitando seqüências de DNA que não sejam bem caracterizadas [39]7.1. Acredita-se que, com o uso dessa informação, pode-se obter um identificador com um nível de acurácia maior. Também é importante observar que este novo método é mais robusto à variação de escala. Tal dependência é um dos maiores problemas dos outros métodos similares propostos até hoje.
Mediante experimentos comparativos dos métodos de identificação de CDSs podemos concluir que a MMT tem um desempenho superior à STFT. Em ambos métodos obtiveram-se melhor acurácia quando o valor de limiarização é próximo de 85%. Isso indica que aproximadamente o 15% dos coeficientes de projeção serão indicadores de TBP. Esta porcentagem está diretamente relacionada com as estatísticas extraídas dos conjuntos de seqüências de organismos eucariotos utilizadas nas experimentações (Veja o apêndice A.2). Deverá ser considerado um valor de limiarização menor para análise de seqüências de organismos procariotos (e.g. 40%, correspondente à porcentagem das bases não pertencentes às CDSs nos organismos procariotos [27]). Finalmente, um nível de acurácia maior é alcançado quando os comprimentos das CDSs, nas seqüências de DNA analisadas, são maiores que 100bp.
Na análise de seqüências de DNA e, em particular, a identificação de CDSs, muitas questões estão em aberto [16,61]. Apesar do grande progresso da identificação de genes e do reconhecimento de padrões baseados na análise de DNA, ainda estamos em uma etapa inicial da bioinformática [48]. A seguir, descrevemos algumas questões importantes, na nossa pesquisa, às quais por enquanto não podemos responder. Estas questões precisam ser pesquisadas a futuro.
Descrevemos as composições das regiões periódicas das seqüências sintéticas usadas nos experimentos apresentados neste trabalho. As posições não indicadas nessas seqüências correspondem às regiões aleatórias com probabilidade de atribuição de 25% para cada uma das bases. Todas as seqüências criadas sinteticamente estão disponíveis no endereço http://www.vision.ime.usp.br/~jmena/DSPgenomics/.
|
|
As seqüências reais utilizadas são as pertencentes a organismos eucariotos cujos limites éxon-íntron foram anotados, com base nas interpretações de evidências biológicas.
Para a análise e avaliação do desempenho do método desenvolvido neste trabalho, criamos sub-conjuntos correspondentes às seqüências com comprimentos mínimos, nos éxons, de 30bp e 100bp. Assim, para o conjunto A, criamos dois sub-conjuntos denominados setAm30 e setAm100 correspondentes aos comprimentos mínimos de 30bp e 100bp nos éxons. Analogamente, para o conjunto B, criamos dois sub-conjuntos denominados setBm30 e setBm100 correspondentes aos comprimentos mínimos de 30bp e 100bp nos éxons.
Algumas estatísticas extraídas desses conjuntos de seqüências são mostradas
nas Tabelas A.3 a A.8. Apresentamos a
quantidade de regiões, número de bases nas regiões, e a média e desvio padrão para
cada tipo de região nas seqüências de DNA. Nas Figuras A.1
e A.2 são mostradas os histogramas
dos comprimentos dos éxons e
dos íntrons para todos os conjuntos de seqüências reais aqui tratados.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
(a) Conjunto A
(b) Conjunto Am30
(c) Conjunto Am100 |
(a) Conjunto B
(b) Conjunto Bm30
(c) Conjunto Bm100 |
As estimativas de periodicidade das seqüências sintéticas sintética2_XA e sintética2_XB (Apêndice A.1) são representadas nas Figuras B.1 e B.2.
Observemos que a magnitude da periodicidade três nas regiões periódicas (que simulam TBP existente nas CDSs) é claramente maior que as magnitudes das não periódicas (íntron e inter-gênica) e, na medida que a porcentagem do ruído aumenta, as magnitudes das periodicidades vão tornando-se indistintas para essas regiões. Entretanto, para a seqüência sintética2_100B, que tem ruído em 100% das bases pertencentes a suas regiões periódicas, existe uma magnitude maior para a periodicidade três em comparação às demais regiões, pois o ruído inserido é privativo. Veja na Figura 4.4(b) um comportamento similar no cálculo dos espectros de freqüência.
[sintética2_20A] [sintética2_20B]
[sintética2_40A] [sintética2_40B]
[sintética2_60A]
[sintética2_60B]
|
[sintética2_80A]
[sintética2_80B]
[sintética2_100A]
[sintética2_100B]
|
Apresentamos medidas de acurácia (Seção 4.6) estimadas para seqüências de DNA (Apêndice A). Foram utilizadas a MMT com 40 escalas exponencialmente espaçadas no intervalo 0.05 a 0.5, e a STFT com cumprimentos de janela de 200bp e 400bp, para a identificação (1) das regiões com periodicidade três, nas seqüências sintéticas; e (2) das regiões com TBP, nas seqüências reais.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Bioinformatics Tools for Assembling and Analysis of Chloroplast Genomes
Jesus P. Mena-Chalco
, Henrique S. Alves
, Helaine Carrer
, Roberto M. Cesar-Jr
Depto. Ciência da Computação, IME-USP. Rua do Matão, 1010. São Paulo-SP 05508-090.
Depto. Ciências Biológicas, ESALQ-USP. Av. Pádua Dias, 11. Piracicaba-SP 13418-900.
Chloroplasts are organelles found only in plant and algae cells. They are responsible for photosynthesis and for the synthesis of key molecules required for the basic architeture and functioning of plant cells. These organelles have their own genetic machinery and together with the nucleus and mitochondrial genomes are responsible for celular coordenation activity. At the moment 29 higher plant plastid genomes (plastomes) have been sequenced (http://ncbi.nlm.nih.gov/). The plastome sequences are conserved among species but the genes arrangements are different for divergent plant groups. The knowledge of the nucleotide sequence of chloroplast genomes is important for evolution studies and for biotechnology applications. The chloroplast organelle being used as a model in this study was isolated from Eucalyptus grandis, an important economical tree for the production of paper and cellulose and in Brazil is located the main germoplasm collection of Eucalyptus outside Australia.
We have sequenced 3500 sequences from an Eucalyptus DNA library. These sequences
represent so far, 50% of the total plastome sequence of Eucalyptus
grandis. These sequences are stored through a special pipeline at the
bioinformatics servers at URL http://malariadb.ime.usp.br:8026/pipeline/.
Once this phase is accomplished, the next step is the search for similar
sequences in other related organisms. Some tentative results towards this
direction have been already obtained.
In this study, we apply digital signal processing (DSP) techniques [1, 2, 3] on the genomic data sequences in order to identify and compare DNA and protein sequences of Eucalyptus grandis to the other available higher plant plastomes. We have chosen different approaches to identify protein coding DNA regions and to compare protein sequences. In particular, traditional Fourier analysis and the wavelet transform will be evaluated [4, 5].
Protein Coding Regions Identification through the Modified Morlet Transform
Jesús P. Mena-Chalco
, Roberto M. Cesar-Jr
Depto. Ciência da Computação, IME-USP. Rua do Matão, 1010. São Paulo-SP 05508-090.
An important topic in biological sequences analysis area is the protein coding regions identification. This identification allows the posterior research for meaning, description or biological categorization of the analyzed organism [1]. Currently, several methods combine pattern recognition with knowledge collected from training datasets of known genes or from comparison with genomic databases. Nonetheless, the accuracy of these methods is still far from satisfactory. New methods of DNA sequences processing and genes identification can be created through search-by-content such sequences [2]. The periodic pattern of DNA in protein coding regions, called three-base periodicity (TBP), has been considered proper of coding regions. This phenomenon was not observed for nonprotein coding. The digital signal processing techniques supply a strong basis for regions identification with TBP [2,3].
In this work we introduce a new method for protein coding regions identification with TBP, based on a wavelet transform, called Modified Morlet Transform (MMT), which does not need to be trained on sequences databases. We use a fixed binary mapping rules to create four binary sequences. Where each one represents the positions of each nitrogenate base in DNA sequence. Next the MMT, with different scales is applied to all binary sequences. The module of each normalized coefficient is projected onto the position axis. Projection onto the scale axis reveal which scale carry more signal energy throughout the positions. The result of the projection position axis represents the protein coding region identificator. These projection coefficients correspond to regions with TBP. Thus, we use thresholding coefficients, based on both shrinking values and inflection points, to exclude positions where the associated energy is lower. At the moment, we consider arbitrary length region criterions for discarding possible very short protein coding regions identification. The performance of the proposed transform was examined by analyzing synthetic and real DNA sequences (RGRC2 and F56F11.4 genes of O. sativa and C. elegans organism, respectively). Preliminary results show that MMT is better than traditional methods by presenting greater sensitivity to TBP and discriminatory capability between protein coding regions.
This document was generated using the LaTeX2HTML translator Version 2002-2-1 (1.71)
Copyright © 1993, 1994, 1995, 1996,
Nikos Drakos,
Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999,
Ross Moore,
Mathematics Department, Macquarie University, Sydney.
The command line arguments were:
latex2html -white -show_section_numbers -local_icons -iso_language PT.BR -short_index -discard -no_math -split 0 -no_navigation msc
The translation was initiated by Jesus Mena-Chalco on 2006-02-07