next up previous contents index
Next: Extração de características Up: Redução de dimensionalidade Previous: Redução de dimensionalidade   Contents   Index

Visão Geral

O termo dimensionalidade é atribuído ao número de características de uma representação de padrões, ou seja, a dimensão do espaço de características ($N$). As duas principais razões para que a dimensionalidade seja a menor possível são: custo de medição e precisão do classificador. Quando o espaço de características contém somente as características mais salientes, o classificador será mais rápido e ocupará menos memória [Jain et al., 2000]. Além disso, conforme discutido na seção 2.3, quando o conjunto de exemplos de treinamento não é muito grande, o problema da dimensionalidade pode ser evitado usando-se um espaço de características pequeno. Isso também propicia a obtenção de menores taxas de erro de classificação.

Em visão computacional, a necessidade redução de dimensionalidade é acentuada, pois a dimensionalidade de imagens é muito grande. O espaço de imagens possui características que podem ser eliminadas para efetuar o reconhecimento de objetos. Uma imagem de largura $w$ e altura $h$ (em pixels) pode ser vista como um padrão no espaço de imagens, o qual possui dimensionalidade $N = h \times w$ (vide seção 3.2.2). Esse pode ser um valor muitíssimo elevado em imagens obtidas por scanners ou câmeras. Além disso, qualquer alteração em translação, rotação, escala, etc. dos objetos contidos nessa imagens fará com que ocorra grandes erros de classificação. Por isso, é necessária a utilização de algoritmos de redução de dimensionalidade que propiciem a obtenção de representações dos padrões (obtidos das imagens) de forma robusta a essas alterações.

Além da necessidade de utilizar a menor dimensionalidade possível, há outro fator analisado pelo teorema do ``patinho feito'' [Watanabe, 1985], que diz ser possível fazer dois padrões arbitrários ficarem similares se esses forem codificados com um número suficientemente grande de características similares. Isso enfatiza a necessidade de uma escolha cuidadosa de características.

Para efetuar redução de dimensionalidade, existem basicamente duas abordagens: extração de características e seleção de características. Em linhas gerais, os algoritmos de extração criam novas características a partir de transformações ou combinações do conjunto de características original. Já os algoritmos de seleção, como o próprio nome diz, selecionam, segundo determinado critério, o melhor subconjunto do conjunto de características original.

Freqüentemente, a extração de características precede a seleção, de forma que, inicialmente, é feita a extração de características a partir dos dados de entrada, seguido por um algoritmo de seleção de características que elimina os atributos mais irrelevantes segundo um determinado critério, reduzindo a dimensionalidade.

A escolha entre seleção e extração de características depende do domínio de aplicação e do conjunto específico de dados de treinamento disponíveis. Em geral, a seleção de características reduz o custo de medição de dados, e as características selecionadas mantêm sua interpretação física original, mantendo as propriedades que possuíam quando foram criadas. Já as características transformadas geradas por extração podem prover uma habilidade de discriminação melhor que o melhor subconjunto das características originais. Entretanto, as novas características (combinações lineares ou não lineares das características originais) podem não possuir um significado físico.

É importante lembrar que, se a redução de dimensionalidade for excessiva, o classificador pode ter seu poder de discriminação reduzido (vide o problema da dimensionalidade na seção 2.3). Por isso, é importante analisar a variação do comportamento do classificador com o número de características, de forma que seja possível estimar a dimensionalidade ideal para determinado classificador e conjunto de dados. A seguir, encontram-se maiores detalhes sobre a extração e a seleção de atributos.


next up previous contents index
Next: Extração de características Up: Redução de dimensionalidade Previous: Redução de dimensionalidade   Contents   Index
Teofilo Emidio de Campos 2001-08-29