Os métodos baseados em Análise dos Componentes Principais (PCA) estão entre os que possibilitam a obtenção dos melhores resultados em termos de reconhecimento de faces frontais. Apesar da qualidade dos resultados obtidos, conforme dito anteriormente, essa técnica tem a desvantagem de ser um tanto cara computacionalmente, pois todos os pixels da imagem são utilizados para se obter sua representação em função da covariância entre essa imagem e todas as outras imagens da base de dados.
Alguns pesquisadores utilizaram eigenfaces e eigenfeatures para efetuar o reconhecimento. O termo eigenfeature foi criado por Baback em [31] e refere-se à utilização de PCA em regiões restritas da imagem, obtendo os componentes principais de pontos característicos da face, como boca (eigenmouth), nariz (eigennose) e olhos (eigeneyes). Segundo Moghddam e Pentland [31], estudos de movimentos dos olhos indicam que essas regiões particulares das faces representam marcas importantes para reconhecimento, especialmente em uma tarefa de tentativa de discriminação para identificação de pessoas.
Em [23] foram obtidos resultados interessantes, em que surpreendentemente os resultados alcançado com a utilização de um quadro (template) abrangendo somente a região dos olhos foram melhores que os resultados com um quadro que cobria toda a face.
No trabalho de Baback [31], os resultados obtidos com eigenfeatures, que incluíram olhos, nariz e boca, foram melhores que o de eigenfaces.
Além desses fatores, em [31] discute-se de uma vantagem potencial do uso de regiões características das faces. Trata-se da eliminação da possibilidade de ocorrência de erros provocados pelo uso ou não de barba, bigode, chapéu, variações no comprimento do cabelo, presença de feridas na face, etc. Esses elementos podem prejudicar o desempenho quando utiliza-se a imagem de toda a face, mas não quando forem utilizadas somente as regiões características.
Neste trabalho de mestrado, foram realizados testes visando verificar os resultados de Brunelli em um sistema de reconhecimento baseado em PCA, mas comparando apenas o desempenho do classificador com imagens de faces versus com imagens contendo os olhos. Esse trabalho foi publicado em [18]. A base de imagens que foi utilizada para esses testes é composta por imagens de dezesseis homens adultos, seis imagens por pessoa. Várias imagens continham pessoas usando óculos, bigode ou barba e com diferentes comprimentos de cabelo. Além disso, as imagens possuem grandes variações na iluminação, escala e na orientação da face. Porém as imagens consideradas não possuem problemas de auto-oclusão dos olhos. Exemplos de imagens de uma pessoa podem ser vistos na figura 11.
Figura:
Exemplo de imagens de um indivíduo da base utilizada.
Dois testes foram realizados: no primeiro utilizando três imagens por pessoa para treinar o sistema e, no segundo, cinco. Em ambos os testes foi utilizada apenas uma imagem de teste por pessoa diferente das de treinamento.
As imagens usadas para construir as eigenfaces foram criadas a partir de recortes da base original para que os cabelos e o fundo da imagem não influenciassem no reconhecimento, pois esses podem apresentar muitas variações. Tais recortes englobavam a região entre a testa e o queixo dos indivíduos. Já para a construção dos eigeneyes, foram utilizados recortes que englobam somente a região os dois olhos. O tamanho desses recortes foi determinado de acordo com uma proporção baseada na distância entre os olhos. A figura 12 mostra um exemplo desses recortes.
Figura:
Processo de obtenção das imagens de face e de olhos: (a) imagem original, de
pixels ; (b) recorte de face; (c) recorte de olhos.
A determinação da posição dos olhos foi feita por um operador humano,
pois segmentação não faz parte do escopo deste trabalho. Nos próximos experimentos, pretende-se utilizar os resultados de um sistema automático de detecção de pontos característicos das faces, conforme descrito na seção 8.
Como as imagens apresentavam grandes variações na orientação da cabeça e na escala, antes de efetuar os recortes das faces e dos olhos, foi realizada a rotação das imagens fazendo com que os olhos ficassem na mesma linha horizontal. Após realizar os recortes, para viabilizar o uso de PCA, foi necessário redimensionar as imagens para que todas ficassem com a mesma resolução. Foi efetuado o redimensionamento utilizando o método de ``vizinho mais próximo'' para determinar o valor dos pixels da imagem de saída.
A resolução escolhida foi de pixels, pois essa engloba faces mesmo nas imagens em que a pessoa está mais afastada da câmera. Além disso, essa é uma resolução que equilibra custo computacional com qualidade das imagens, já que é desejável utilizar as menores imagens possíveis mas sem perder muitos detalhes.
O pré-processamento descrito acima foi realizado em todas as imagens da base, criando assim, um conjunto de imagens de olhos e outro de faces. Posteriormente as imagens de treinamento da base de faces são utilizadas para treinar uma transformada PCA, obtendo-se, dessa forma, os eigenfaces. O mesmo é feito para as imagens de olhos possibilitando a obtenção dos eigeneyes. Alguns eigeneyes e eigenfaces obtidos a partir de uma base treinada com 5 imagens por pessoa são mostrados na figura 13. A seção 4.2 contém maiores detalhes a respeito da transformada PCA.
Figura:
Os quatro primeiros auto-vetores mostrados como imagens e seus respectivos auto-valores, obtidos através da base de faces (acima) e da base de olhos (abaixo)
Os resultados obtidos são bastante satisfatórios como meio de comparação entre faces e olhos para reconhecimento de pessoas. Em todos os testes realizados com imagens que pertenciam ao conjunto de treinamento, a taxa de acerto foi de 100%. Os resultados dos testes realizados com imagens que não pertenciam ao conjunto de treinamento estão ilustrados nas tabelas 1 (com treinamento usando 3 imagens por pessoa) e 2 (com treinamento usando 5 imagens por pessoa). O classificador utilizado foi o de vizinho mais próximo.
Tabela 1:
Desempenho do classificador para reconhecimento de olhos e de faces quando treinado com 3 elementos por pessoa.
# auto-
Olhos
Faces
vetores
%
%
3
25,00
31,25
4
25,00
37,50
5
50,00
37,50
10
56,25
43,75
13
62,50
43,75
15
62,50
43,75
24
62,50
43,75
48
62,50
43,75
Tabela 2:
Desempenho do classificador para reconhecimento de olhos e de faces quando treinado com 5 elementos por pessoa.
# auto-
Olhos
Faces
vetores
%
%
3
40,00
46,67
15
73,33
66,67
Através desses resultados, pode-se notar que, em geral, o reconhecimento com olhos é melhor que com faces. Esse fato é aparentemente inesperado, já que as imagens de faces contém mais informações que as de olhos. Mas, devido à curse of dimensionality, sabe-se que o aumento na dimensionalidade dos dados deve ser compensado por um aumento exponencial do número de exemplos de treinamento para que a taxa de acerto permaneça estável. Isso justifica o fato de que as taxas de reconhecimento aumentam significativamente para ambos os sistemas de classificação quando aumenta-se o tamanho do conjunto de treinamento. Além disso, pode-se notar que, quando treinado com 3 imagens por pessoa, o desempenho do sistema não melhora quando são utilizados mais que 13 auto-vetores, pois 13 é o número suficiente para discriminar os padrões e o restante não adiciona informações relevantes para a classificação. Maiores detalhes sobre curse of dimensionality estão na seção 3.1.3.
Outra razão para a queda do desempenho do sistema que utiliza imagens de toda a face está no fato de que a inclusão das regiões do nariz e da boca podem reduzir o desempenho do classificador, pois a boca não é um objeto rígido como os olhos, e a forma do nariz sofre grandes alterações com variações na orientação da cabeça. Por esses fatores, as imagens de faces são mais distorcidas, o que causa uma maior dificuldade em obter boas taxas de reconhecimento usando tais imagens com um conjunto de treinamento pequeno, já que o nariz e a boca são características que podem ser muito correlacionadas e ruidosas.
Assim, para possibilitar a obtenção de boas taxas de acerto utilizando imagens de toda a face, dever-se-ia aumentar o tamanho do conjunto de treinamento [18].
Next:Testes com Seleção de Up:Primeiros resultados Previous:Primeiros resultados
  Sumário
Teofilo Emidio de Campos
2000-09-18