agrupamento de pixels e autofaces fracionário para reconhecimento de faces
TRANSCRIPT
-
Universidade Federal de Pernambuco
Centro de Informtica
Doutorado em Cincia da Computao
Agrupamento de Pixels e AutofacesFracionrio para Reconhecimento de
Faces
Tiago Buarque Assuno de Carvalho
Tese de Doutorado
Recife
2015
-
Tiago Buarque Assuno de Carvalho
Agrupamento de Pixels e Autofaces Fracionrio paraReconhecimento de Faces
Trabalho apresentado ao Programa de Doutorado em Ci-
ncia da Computao do Centro de Informtica da Univer-
sidade Federal de Pernambuco como requisito parcial para
obteno do grau de Doutor em Cincia da Computao.
Orientador: Tsang Ing Ren
Co-orientador: George Darmiton da Cunha Cavalcanti
Recife
2015
-
Catalogao na fonte
Bibliotecria Joana DArc Leo Salvador CRB4-532
C331a Carvalho, Tiago Buarque Assuno de.
Agrupamento de pixel e auto-faces fracionrio para reconhecimento de faces / Tiago Buarque Assuno de Carvalho. Recife: O Autor, 2015.
156 p.: fig., tab. Orientador: Tsang Ing Ren. Tese (Doutorado) Universidade Federal de Pernambuco. CIN,
Cincia da Computao, 2015. Inclui referncias.
1. Inteligncia artificial. 2. Aprendizado do computador. I. Tsang, Ing Ren (Orientador). II. Titulo.
006.3 CDD (22. ed.) UFPE-MEI 2015-092
-
Tese de Doutorado apresentada por Tiago Buarque Assuno de Carvalho PsGraduao em Cincia da Computao do Centro de Informtica da UniversidadeFederal de Pernambuco, sob o ttulo Agrupamento-de-Pixels e Autofaces-Fracionrio para Reconhecimento de Faces orientada pelo Prof. Tsang Ing Ren eaprovada pela Banca Examinadora formada pelos professores:
__________________________________________
Profa. Teresa Bernarda Ludermir Centro de Informtica / UFPE
___________________________________________ Profa. Renata Maria Cardoso Rodrigues de Souza Centro de Informtica / UFPE ___________________________________________ Prof. Adriano Lorena Incio de Oliveira Centro de Informtica / UFPE
___________________________________________ Prof. Andre Carlos Ponce de Leon Ferreira de Carvalho Instituto de Cincias Matemticas e de Computao / USP
____________________________________________ Prof. Ricardo da Silva Torres Instituto de Computao / UNICAMP
Visto e permitida a impresso.Recife, 23 de abril de 2015.
___________________________________________________Profa. Edna Natividade da Silva BarrosCoordenadora da Ps-Graduao em Cincia da Computao do Centro de Informtica da Universidade Federal de Pernambuco.
-
Resumo
Um dos problemas de reconhecimento de faces consiste em identificar quem a pessoa cuja
imagem do rosto est em uma fotografia. A representao digital desta imagem contm mi-
lhares de pixels, cada um representando a intensidade de iluminao de uma minscula regio
da imagem. O problema de reconhecimento pode ser simplificado se forem extradas pou-
cas dezenas de caractersticas para representar toda a imagem. Neste trabalho so propostas
duas metodologias de extrao de caractersticas. Uma destas metodologias chama-se Agrupa-
mento de Pixels e a outra Autofaces Fracionrias. A partir de cada uma destas metodologias
so propostas tcnicas de extrao de caractersticas. Tais tcnicas tm a mesma aplicao
que a tcnica de referncia Autofaces (Eigenfaces): geram projees lineares das imagens de
face. Cada uma dessas projees dita uma caracterstica extrada, a qual contm informa-
es sobre propriedades visuais da imagem de face. Com a primeira metodologia proposta,
Agrupamento de Pixels, so definidas duas tcnicas de extrao de caractersticas, Pedaos-
por-valor e Pedaos-por-posio. Pedaos-por-valor define regies da face com intensidade
similar. Pedaos-por-posio define regies por relaes de vizinhana. Em ambos os mtodos
extrada uma caracterstica para cada regio. Estas tcnicas obtiveram taxa de reconheci-
mento superior a outros mtodos no estado da arte. Foi demonstrado com um experimento
com dados artificiais que esta tcnica capaz de extrair caractersticas discriminantes mesmo
sendo uma tcnica no-supervisionada. Pedaos-por-valor tambm avaliada na aplicao de
compresso de imagens. Demonstra-se que esta representao mais fiel ao original do que
a compresso JPEG se comprimida ao mximo. A segunda metodologia proposta tambm
no-supervisionada. Inspira-se em Autofaces e na tcnica no estado da arte PCA Fracionrio.
Com esta metodologia so definidas trs tcnicas de extrao de caractersticas. Experimentos
mostram que estas tcnicas extraem caractersticas que levam a uma taxa de reconhecimento
maior do que as tcnicas das quais so derivadas. Um experimento em visualizao de dados
-
RESUMO
prope uma explicao para as vantagens destas tcnicas: aumentam a fronteira de deciso; e
aproximam os exemplos da mesma classe, diminuindo a sobreposio entre classes distintas.
Palavras-chave: Reconhecimento de faces. Autofaces. Extrao de Caractersticas. Agrupa-
mento de Caractersticas.
-
Abstract
One problem in face recognition is to identify who is the person shown in a photography. The
digital representation of such photo, an image, has thousands of pixels, each pixel represent the
light intensity of a tiny image region. The recognition problem is simpler if dozens of features
are extracted to represent all the image. We propose two feature extraction frameworks for
face recognition: Pixel Clustering and Fractional Eigenfaces. Feature extraction techniques are
defined from each framework. Such techniques are applied similarly to the benchmark method
Eigenfaces: they define linear projections of the face images. Each projection is an extracted
feature, which encodes face visual properties. In the proposed Pixel Clustering framework, two
methods are defined, Intensity-patches and Position-patches. Intensity-patches defines regions
in the image that have similar intensity values. Position-patches defines regions according to
neighborhood of pixels. In both methods, a single feature is extracted for each region. These
methods have higher accuracy compared to other state-of-the-art for face recognition techni-
ques. As demonstrated in experiments with artificial data, Intensity-patches is able to extract
discriminant features even though it is an unsupervised method. Value-patches is also used
for image compression and, compared to the JPEG compression, it generates images more si-
milar to the original for high level compression. The second proposed framework is inspired
in the Fractional PCA (FPCA) method, and the Eigenfaces method for face recognition. Th-
ree feature extraction techniques are proposed using this framework: Fractional Eigenfaces,
Improved Fractional Eigenfaces, and Improved Eigenfaces. These methods presented higher
accuracy rates in the face recognition problem compared to FPCA and Eigenfaces. An explana-
tion for their performance is presented using a data visualization experiment: we show that the
decision frontier is enlarged, and samples of the same class are approximated, avoiding class
overlap.
-
ABSTRACT
Keywords: Face recognition. Eigenfaces. Feature extraction. Feature clustering.
-
Lista de Figuras
2.1 Diagrama de tipos de imagens utilizadas no reconhecimento de faces. Em des-
taque o nosso dado de interesse: imagem esttica 2D. 30
2.2 Diagrama de fluxo de um sistema de reconhecimento de faces. Este estudo foca
em tcnicas de extrao de caractersticas holsticas para identificao de faces. 31
2.3 Diagrama de funcionamento da transformada Wavelet 2D, adapatado de (CHIEN;
WU, 2002). 34
2.4 O grfico de disperso para duas classes. Pode-se separar claramente a classe
de azul (acima) da vermelha (em baixo). Aps calcular a direo de maior
varincia com PCA, encontra-se uma direo quase horizontal na qual os dados
projetados se confundem. Uma direo perpendicular a esta mais apropriada
para a separao das classes. Figura adaptada de (BISHOP, 2006). 41
3.1 Fluxograma dos mtodos propostos (AFF, AFFM e AFM) mais Autofaces (AF),
a combinao de um tipo de matriz de relao e um tipo de projeo gera um
mtodo. 72
4.1 Duas imagens para cada base de faces, da esquerda para a direita: Yale e ORL. 76
4.2 Base Yale. Estes grficos sumarizam os resultados da Tabela 4.2 (Seo 4.4).
Estes grficos apresentam a acurcia mdia pelo nmero de caractersticas ex-
tradas para os quatro mtodos avaliados: AF (Autofaces), AFM (Autofaces
Melhorado), AFF (Autofaces Fracionrio) e AFFM (Autofaces Fracionrio
Melhorado). Cada grfico foca em um intervalo de caractersticas extradas. 82
-
LISTA DE FIGURAS
4.3 Base Yale. Mxima acurcia mdia (para 10 execues de holdout) para cada
mtodo e diferentes valores de r. Note que a acurcia para o mtodo AF no
depende de r, mas varia para diferentes valores de r uma vez que os mesmos
conjuntos de treino e teste so mantidos apenas para o mesmo valor de r. 86
4.4 Base ORL. Estes grficos sumarizam os resultados da Tabela 4.4, Seo 4.6.
Estes grficos apresentam a acurcia mdia pelo nmero de caractersticas ex-
tradas para os quatro mtodos avaliados: AF (Autofaces), AFM (Autofaces
Melhorado), AFF (Autofaces Fracionrio) e AFFM (Autofaces Fracionrio
Melhorado). Cada grfico foca em um intervalo de caractersticas extradas. 87
4.5 Base Yale. Diagrama de disperso para as 20 primeiras amostras do conjunto
de treino. Aps a projeo atravs dos quatro mtodos analisados (Seo 4.7):
Autofaces (AF) em cima, esquerda; Autofaces Fracionrio (AFF) em cima, di-
reita; Autofaces Melhorado (AFM) em baixo, esquerda; Autofaces Fracionrio
Melhorado (AFFM) em baixo, direita. Os eixos so os valores das caractersti-
cas extradas (adimensionais) e cada smbolo representa uma classe distinta. 92
4.6 Base ORL. Diagrama de disperso para as primeiras 30 amostras do conjunto
de treino, aps a projeo atravs dos quatro mtodos analisados, ver Seo 4.7:
Autofaces (AF) em cima, esquerda; Autofaces Fracionrio (AFF) em cima, di-
reita; Autofaces Melhorado (AFM) em baixo, esquerda; Autofaces Fracionrio
Melhorado (AFFM) em baixo, direita. Os eixos so os valores das caractersti-
cas extradas (adimensionais) e cada smbolo representa uma classe distinta. 93
5.1 Exemplo de vetor-de-pixel por valor (acima) e vetor-de-pixel por posio (abaixo). 99
5.2 Fluxograma para definio de mtodo de extrao de caractersticas com a me-
todologia proposta de agrupamento de pixels. 101
5.3 Fluxograma dos mtodos de extrao de caractersticas: Pedaos-por-valor
(PV), Pedaos-por-valor Fracionrio (PVF), Pedaos-por-valor Fracionrio Me-
lhorado (PVFM) e Pedaos-por-valor Melhorado (PVM). 109
-
LISTA DE FIGURAS
5.4 As regies de fronteira entre os 42 grupos gerados pelos algoritmo k-mdias
para os vetores-de-pixel por posio. Da esquerda para a direita, os trs tipos
de distncias utilizadas para gerar estas imagens so: Chebychev, city block e
Euclidiana. 110
5.5 Exemplos de regies formadas para pedaos por posio. A rea preta corres-
ponde a uma regio selecionada. 112
5.6 Fluxo para a reconstruo das imagens comprimidas. 115
6.1 As regies da imagens de faces so particionadas utilizando o mtodo Pedaos-
por-Valor (esquerda) e Pedaos-por-Posio (direita), para as bases ORL e
UMIST. 119
6.2 Acurcia mdia do mtodo Pedaos-por-Valor para vrios nmeros de caracte-
rsticas extradas. Em trs bases de dados: Yale, ORL, e UMIST. 121
6.3 Acurcia mdia do mtodo Pedaos-por-Valor para vrios nmero de caracte-
rsticas extradas. Em duas bases de dados: Yale e ORL. So gerados 64, 128 e
256 grupos, mas so selecionadas as caractersticas de maior varincia. 125
6.4 Funes de densidade de probabilidade pra distribuies normais com desvio
padro igual a 5. Da esquerda para a direita, as mdias das distribuies so -5,
0, 5 e 100. 127
6.5 Disperso dos dados artificias utilizando duas variveis escolhidas aleatoria-
mente: uma discriminante no eixo horizontal e a outra de confuso. 129
6.6 Base 10/1.000. Diagramas de disperso da projeo para duas dimenses uti-
lizando PCA, esquerda; e projeo para duas caractersticas utilizando Partes-
por-valor, direita. 130
6.7 ndices de Silhouette no conjunto de treino da base 10/1.000, PCA (esquerda)
e Pedaos-por-Valor (direita). 131
6.8 Base 100/10.000. Diagramas de disperso da projeo para duas dimenses uti-
lizando PCA, esquerda; e projeo para duas caractersticas utilizando Partes-
por-valor, direita. 133
-
LISTA DE FIGURAS
6.9 Base 1/100. Diagramas de disperso da projeo para duas dimenses utili-
zando PCA, esquerda; e projeo para duas caractersticas utilizando Partes-
por-valor, direita. 133
6.10 Base 100/10.000. Diagramas de disperso para projeo para duas dimenses
utilizando PCA. O grfico da esquerda mostra o conjunto de treino, e o da
direita o conjunto de teste. 134
6.11 Imagens originais e imagens comprimidas para as bases ORL (a-f) e Yale (g-l).
As imagens so comprimidas com Pedaos-por-Valor e JPEG. 6.158 p. Signi-
fica 6.158 pedaos (ou grupos). 138
-
Lista de Tabelas
2.1 Taxa de reconhecimento em % para as bases de faces IIS e ORL, adaptada de
(CHIEN; WU, 2002). 36
2.2 Mdia da taxa de reconhecimento (em %) com indicao do desvio padro,
para as bases de faces ORL das imagens sem transformao e nos 5 nveis de
Waveletfaces utilizando o classificador NN, retirada de (CARVALHO, 2008). 37
2.3 Mdia da taxa de reconhecimento (em %) para as bases de faces ORL com
indicao do desvio padro para Autofaces discriminante e Waveletfaces dis-
criminante com 13, 14 e 15 caractersticas extradas utilizando o classificador
NN, retirada de (CARVALHO, 2008). 37
2.4 Taxa de reconhecimento (em %) para as bases de faces ORL com indicao do
desvio padro para Autofaces, Autofaces Discriminante, Waveletfaces e Wave-
letfaces discriminante para os classificadores NN, NFL, NFP e NFS, retirada
de (CARVALHO, 2008). 37
2.5 Comparao entre os principais mtodos de agrupamento de caractersticas. 55
2.6 Distncias mnima e mxima das amostra at o centro. Quando o nmero de
dimenses aumenta a razo entre estas duas distncias tende a 1. 56
2.7 ndice de Silhouette para a base ORL com as imagens no tamanho original e
reduzido. 57
3.1 Nomeando a tcnica de extrao de caracterstica devido matriz de covarin-
cia e mtodo de projeo dos dados. 73
-
LISTA DE TABELAS
4.1 Base ORL. Para cada nmero de caractersticas (k): mdia e desvio padro
da acurrcia (em 10 repeties de holdout) para PCA Fracionrio (Fractional
PCA, FPCA) e Autofaces Fracionrio (AFF), somente FPCA recebe como en-
trada as imagens reduzidas para 1/4 da altura e 1/4 da largura. 80
4.2 Base Yale. Colunas: k, nmero de caractersticas extradas; acurcia mdia e
desvio padro para 100 repeties de holdout, para os mtodos AF, AFM, AFF
e AFFM. A maior acurcia por linha est marcada com (+) e a menor com
(). Uma acurcia mdia considerada significativamente diferente de outrase seus intervalos de 95% de confiana no se sobrepem. 83
4.3 Base Yale. Mxima acurcia mdia (para 10 execues de holdout) para cada
mtodo e diferentes valores de r. Note que a acurcia para o mtodo AF no
depende de r, mas varia para diferentes valores de r uma vez que os mesmos
conjuntos de treino e teste so mantidos apenas para o mesmo valor de r. 85
4.4 Base ORL. Colunas: k, nmero de caractersticas extradas; acurcia mdia e
desvio padro para 100 repeties de holdout, para os mtodos AF, AFM, AFF,
AFFM. A maior acurcia por linha est marcada com (+) e a menor com ().Uma acurcia mdia considerada significativamente diferente de outra se seus
intervalos de 95% de confiana no se sobrepem. 88
4.5 Valor mdio do ndice de isolamento de componentes para projeo 2D. Para
duas bases de imagens de face. O ndice melhor quanto maior seu valor. 91
5.1 Especificao dos mtodos de extrao de caractersticas propostos sobre a me-
todologia proposta de Agrupamento de Pixels. 107
6.1 A acurcia para os mtodos propostos, Pedaos-por-Valor e Pedaos-por-Posio,
comparada com outros mtodos de extrao de caractersticas no estado da
arte. O nmero de dimenses extradas k; acurcia mdia e desvio padro e
intervalo de confiana. 118
-
LISTA DE TABELAS
6.2 Acurcia mdia e desvio padro para vrios classificadores. 100 repeties de
holdout 50/50. 512 caractersticas para Pedaos-por-Valor (PV), Pedaos-por-
Valor Melhorado (PVM), Pedaos-por-Valor Fracionrio (PVF), Pedaos-por-
Valor Fracionrio Melhorado (PVFM). Para Autofaces (AF), Autofaces Melho-
rado (AFM), Autofaces Fracionrio (AFF), Autofaces Fracionrio Melhorado
(AFFM), so extraidas 82 (Yale) e 200 (ORL) caractersticas. 122
6.3 Acurcia mdia e desvio padro para Autofaces e Pedaos-por-Valor se apenas
1, 2, ou 3 classes so utilizadas para gerar as projees. Classificador 1-NN, 10
repeties de holdout 50/50. 124
6.4 Descrio das bases sintticas 1/100, 10/1.000 e 100/10.000. Cada base tem
trs classes, cada classe com 30 amostras. N(,) indica que um conjunto de
caractersticas segue uma distribuio normal com mdia e desvio padro . 127
6.5 Taxas de acerto de cada base para cada tipo de extrao de caractersticas uti-
lizando classificador 1-NN; mdia e desvio padro calculado para 10.000 (dez
mil) repeties de experimento do tipo Hold Out estratificado 50% para treino
e 50% para teste. 128
6.6 Taxas de acerto para classificao na base 10/1.000 para cada tipo de extrao
de caractersticas utilizando classificadores distintos. Mdia e desvio padro
calculado para 100 repeties de experimento do tipo Hold Out estratificado
50% para treino e 50% para teste. 128
6.7 Valor mdio e desvio padro de 100 repeties de holdout para a mdias dos
ndices Silhouette para as bases de dados artificiais, aps projeo com PCA
e Pedaos-por-Valor (PV). Medido separadamente para o conjunto de treino e
teste, e para ambos. 131
6.8 Taxas de acerto para a classificao utilizando as bases artificiais e vrios clas-
sificadores. Comparao entre PCA e Pedaos-por-Valor. 135
6.9 The Structural SIMilarity (SSIM) index , ndice de similaridade estrutural para
as imagens comprimidas com PV e JPEG. 140
-
Lista de Abreviaturas e siglas
AFF Autofaces Fracionrio
AFFM Autofaces Fracionrio Melhorado
AFM Autofaces Melhorado
bpp bits por pixel
BoW Bag of visual words
C4.5 Classificador por rvore de deciso
DC Distributional Word Clustering
FPCA Fractional PCA (PCA Fracionrio)
IG Information Gain
IOC Incremental Orthogonal Centroid
JPEG Joint Photographic Experts Group, formato de arquivo de
imagem
kNN k Nearest Neighbor, classificador pelos k vizinhos mais pr-
ximos, por exemplo, 1-NN, 3-NN
LDA Linear Discriminat Analysis, Anlise do Discriminante Li-
near
LSSIM SSIM Local
NFL Nearest Feature Line, classificador pela linha mais prxima
NFP Nearest Feature Plane, classificador pelo plano mais pr-
ximo
NFS Nearest Feature Space, classificador pelo subespao mais
prximo
-
LISTA DE ABREVIATURAS E SIGLAS
NN Nearest Neighbor, classificador pelo vizinho mais prximo
ORL Base de imagens de face do Olivetti Research Laboratory,
atualmente AT&T
PCA Princial Component Analysis (Anlise dos Componentes
Principais)
PNG Portable Network Graphics, formato de arquivo de imagem
PP Pedaos-por-Posio
PV Pedaos-por-valor
PVF Pedaos-por-valor Fracionrio
PVFM Pedaos-por-valor Fracionrio Melhorado
PVM Pedaos-por-valor Melhorado
SSIM The Structural SIMilarity (SSIM) index , ndice de similari-
dade estrutural
SU symmetric uncertainty
SVM Support Vector Machine, classificador por mquina de vetor
de suporte
UCI University of California Irvine Machine Learning Reposi-
tory
UMIST Base de imagens de face da University of Manchester Insti-
tute of Science and Technology, atualmente The University
of Sheffield
-
Lista de Algoritmos
3.1 Reduo de dimensionalidade com PCA 64
3.2 Reduo de dimensionalidade com FPCA (PCA Fracionrio) 66
3.3 Reduo de dimensionalidade com Autofaces (AF) 67
3.4 Reduo de dimensionalidade com Autofaces Fracionrio (AFF) 69
3.5 Reduo de dimensionalidade com Autofaces Fracionrio Melhorado (AFFM) 70
3.6 Reduo de dimensionalidade com Autofaces Melhorado (AFM) 71
-
Sumrio
1 Introduo 21
1.1 Objetivos 25
1.2 Hipteses e questes da pesquisa 26
1.3 Estrutura da Tese 27
2 Estado da arte 29
2.1 Reconhecimento de faces 29
2.2 Waveletfaces 32
2.2.1 Experimentos do artigo 34
2.2.2 Experimentos replicados 36
2.3 Anlise dos Componentes Principais (PCA) 39
2.3.1 Autofaces 42
2.3.2 Teoria da Matriz de Covarincia Fracionria 44
2.3.3 PCA e as propostas desta tese 45
2.4 Agrupamento de Caractersticas 46
2.4.1 Agrupamento difuso de caractersticas auto construtivo para classifica-
o de textos 47
2.4.2 Seleo baseada em agrupamento em grafo de caractersticas 49
2.4.3 Seleo supervisionada de caractersticas por agrupamento utilizando
informao mtua condicional 50
2.4.4 AutoSegmentos 51
2.4.5 Outros trabalhos 52
2.5 Maldio da dimensionalidade 54
2.6 Concluses 57
-
SUMRIO
3 Autofaces Fracionrio 61
3.1 Mtodos relacionados 63
3.1.1 PCA Fracionrio (FPCA) 64
3.1.2 Autofaces (AF) 65
3.2 Mtodos propostos 68
3.3 Autofaces Fracionrio (AFF) 68
3.4 Autofaces Fracionrio Melhorado (AFFM) 69
3.5 Autofaces Melhorado (AFM) 70
3.6 Concluso 71
4 Experimentos com Autofaces Fracionrio 75
4.1 Configurao para os experimentos 76
4.2 Teste de hiptese por sobreposio de intervalos de confiana 77
4.3 Experimento para PCA Fracionrio e Autofaces Fracionrio 78
4.4 Experimentos para a base de faces Yale 79
4.5 Experimentos para se escolher o parmetro fracionrio r 81
4.6 Experimentos para a base de faces ORL 84
4.7 Visualizao de dados 87
4.8 Concluso 94
5 Agrupamento de Pixels 97
5.1 Vetor-de-pixel 98
5.2 Definindo um mtodo de extrao de caractersticas 99
5.3 Exemplo 101
5.4 Pedaos-por-Valor 102
5.4.1 Vetor-de-pixel por valor 103
5.4.2 Agrupamento 103
5.4.3 Extrao de Caractersticas 104
5.4.4 Nmero de caractersticas extradas igual ao nmero de grupos 105
5.4.5 Nmero de caractersticas extradas menor que nmero de grupos 106
-
SUMRIO
5.4.6 Consideraes 106
5.5 Pedaos-por-valor Fracionrio 107
5.6 Pedaos-por-Posio 108
5.6.1 Vetor-de-pixel por posio 110
5.6.2 Algoritmo de agrupamento 111
5.6.3 Extrao de caractersticas 112
5.6.4 Consideraes 113
5.7 Reconstruo e compresso de imagens 113
5.8 Concluso 116
6 Experimentos com Agrupamento de Pixels 117
6.1 Resultados no estado-da-arte 117
6.2 Escolhendo o nmero de caractersticas extradas 120
6.3 Pedaos-por-Valor Fracionrio e outros classificadores 121
6.4 Inserindo novas classes 123
6.5 Formando mais grupos do que o nmero de caractersticas 125
6.6 Experimento com dados artificiais 126
6.7 Compresso de imagens 135
6.8 Concluso 140
7 Concluses 143
7.1 Concluses sobre as hipteses 144
7.2 Trabalhos Futuros em Autofaces Fracionrio 145
7.3 Trabalhos Futuros em Agrupamento de Pixels 146
7.4 Consideraes finais 149
Referncias 151
-
CAPTULO 1
Introduo
Reconhecimento de faces uma tarefa trivial ao ser humano, mas tem sido um desafio para a
viso computacional. O reconhecimento pode se dar a partir de trs fontes distintas de imagens:
vdeos, imagens estticas 2D e imagens 3D (ZHAO et al., 2003). Nesta tese so abordadas
apenas imagens estticas 2D. Exemplos deste tipo de imagem so fotografias de faces. Embora
muitas das informaes nos pargrafos seguintes tambm possam ser aplicadas aos outros tipos
de imagens de face, a discusso restringe-se a imagens estticas 2D.
Um sistema genrico de reconhecimento de faces possui trs principais etapas: deteco da
face, extrao de caractersticas e reconhecimento (ZHAO et al., 2003). A deteco de faces
consiste em encontrar em qual regio da imagem est a face. A extrao de caractersticas a
etapa que processa a imagem em busca de informaes representativas e teis para classific-
las. Esta etapa depende fortemente da aplicao. Por exemplo, caractersticas para reconhecer
uma pessoa da foto podem no ser to teis para identificar a expresso da face. A etapa
de reconhecimento aquela na qual se utiliza um classificador para realizar ou a tarefa de
verificao ou identificao.
Utiliza-se a seguinte definio de classificador: um mtodo computacional capaz de apren-
der, a partir de exemplos (conjunto de treinamento), a classificar novos exemplos (conjunto de
teste). Cada exemplo pode ser representado por uma coleo de caractersticas extradas das
imagens de face e as classes so definidas pelo problema: nome da pessoa, ou expresso da
face etc. A tarefa de verificao consiste em averiguar se aquela imagem representa o que o
usurio diz representar, exemplos: autenticao de usurio, verifica se a imagem de um usurio
corresponde ou no ao usurio em questo; identificao de sorriso, tenta perceber quando a
pessoa est sorrindo ou no (recurso comum em cmeras fotogrficas). Quando o reconhe-
cimento no especificado entre identificao ou verificao, entende-se que identificao.
Esta tarefa consiste em classificar a face em uma entre vrias opes, exemplos: identificar
21
-
22 CAPTULO 1 INTRODUO
quem a pessoa da foto; identificar a expresso da face (alegre, triste, nervoso, assustado, entre
outras).
Huang et al. (HUANG et al., 2008) propem, para a identificao de faces, a sequncia:
deteco, alinhamento e reconhecimento. Antes de realizar o reconhecimento, detecta-se a po-
sio da face na imagem e alinha-se a face. Na etapa de deteco, eles optaram por utilizar
o algoritmo de Viola & Jones (VIOLA; JONES, 2004, 2001). Portanto Huang et al. focam
apenas nas etapas de alinhamento e reconhecimento. Simonyan et al. (SIMONYAN et al.,
2013) propem uma sequncia um pouco diferente: deteco de face, deteco de pontos im-
portantes da face (olhos, nariz, cantos da boca etc.), registro da face (alinhamento), descritores
da face (extrao de caractersticas) e aprendizado estatstico (reconhecimento). Simonyan et
al. tambm utiliza o algoritmo de Viola & Jones para a deteco e componentes do sistema de
reconhecimento desenvolvidos por outros autores nas demais etapas, focando na extrao de
caractersticas.
Cada um destes elementos (deteco, extrao de caractersticas, reconhecimento) tem um
papel importante em um sistema de reconhecimento de faces. Como realizado pelos autores
comentados acima (HUANG et al., 2008; SIMONYAN et al., 2013) e por outros (ZHAO et
al., 2003; JONES, 2009), as pesquisas focam em resolver problemas em apenas uma etapa.
O foco desta tese a extrao de caractersticas. Para tanto assume que estas etapas de pr-
processamento esto resolvidas: a imagem recebida como entrada est devidamente recortada
e alinhada. E na etapa de reconhecimento utiliza classificadores propostos por outros autores.
Jones (JONES, 2009) analisa vrios artigos desenvolvidos em reconhecimento de faces e
enumera os problemas desta tarefa: iluminao irregular na foto, pose (rotao da cabea),
expresso do rosto, envelhecimento/crescimento da pessoa, alinhamento impreciso. Dentre
estes problemas a pose um problema bastante severo, pois a imagem do perfil de uma face
bem diferente da imagem frontal da mesma face, uma abordagem para corrigir este problema
proposta por Yi et al. (YI; LEI; LI, 2013), um modelo para mapear imagens 2D em um modelo
3D de face. Na presente tese tambm assumido que as imagens no apresentam problemas
severos de pose e alinhamento, e que as tcnicas propostas poderiam ser utilizadas em qualquer
base se estes problemas fossem corrigidos com algum pr-processamento como o proposto por
-
CAPTULO 1 INTRODUO 23
Yi et al.
vlido enfatizar que as imagens de face utilizadas aqui so: estticas, 2D, em tons de
cinza, recortadas e contendo apenas a regio da face, bem centralizadas, sem srios problemas
de pose e rotao da cabea, contendo algum problema de iluminao. Assume-se a represen-
tao de uma imagem como uma matriz onde cada posio da matriz denominada pixel e tem
seu valor em um intervalo, geralmente [0, 255]. Com estas restries, as imagens de face so
dados de alta dimensionalidade em que muitas variveis so correlacionadas. Os dados tm
alta dimensionalidade porque cada pixel da imagem considerado uma caracterstica e mesmo
para imagens pequenas o nmero de pixels muito alto, por exemplo, uma imagem 100100tem 10.000 caractersticas.
A expresso alta dimensionalidade tambm empregada quando o nmero de caractersti-
cas muito maior que o nmero de exemplos de treino (HASTIE; TIBSHIRANI; FRIEDMAN,
2001), o que tambm ocorre com as imagens de face. Esses dados tm muitas caractersticas
correlacionadas porque vrias regies da imagem tm intensidade de pixels semelhantes, por
exemplo os pixels na regio de: pelo, cabelo, olhos, barba etc. Desta maneira a extrao de ca-
ractersticas tem o objetivo no apenas de gerar novas caractersticas discriminantes (capaz de
melhor separar as classes), como tambm reduzir a dimensionalidade do problema, por exem-
plo, de 10.000 para 40 caractersticas (cada caracterstica interpretada como uma dimenso).
Pode-se assumir que os pixels de cada imagem representam regies correspondentes. Por
exemplo, um pixel que representa uma regio na bochecha de uma pessoa deve representar
tambm a regio da bochecha na maioria das imagens. Com as faces alinhadas desta ma-
neira, faz sentido compar-las atravs de uma medida de distncia, como a distncia Euclidiana,
por exemplo. Desta maneira, tambm restringem-se os algoritmos de classificao utilizados.
Utiliza-se principalmente o classificador pelo vizinho mais prximo (1-NN, 1-Nearest Neigh-
bor), o qual atribui para uma nova imagem de face a mesma classe da imagem mais prxima
de acordo com a distncia Euclidiana.
Uma vez delimitados os demais elementos do sistema de reconhecimento de faces, so
propostos algoritmos de extrao de caractersticas para reduzir as dimenses destes dados de
alta dimensionalidade. Tais algoritmos so no-supervisionados, isto , no dependem dos
-
24 CAPTULO 1 INTRODUO
rtulos das classes das amostras de treino. Um dos grupos de algoritmos propostos foram
inspirados no mtodo Waveletfaces (CHIEN; WU, 2002). Aps uma anlise detalhada deste
mtodo percebeu-se que a simples reduo da imagem funciona muito bem como extrao de
caracterstica, no diminuindo o erro de classificao at um certo limite de reduo.
Como reduzir a imagem no impacta a taxa de reconhecimento de faces? Na tentativa de
explicar esse fenmeno proposta nesta tese a metodologia de Agrupamento de Pixels. Esta
metodologia coloca em um mesmo grupo os pixels com intensidade semelhante em todas as
imagens do conjunto de treinamento. Cada grupo define uma regio cuja mdia em cada ima-
gem uma caracterstica extrada. Na literatura foram encontrados trabalhos semelhantes
proposta de agrupamento de pixels, chamadas Agrupamento de Caractersticas. A grande mai-
oria deste trabalhos foca na tarefa de reconhecimento de texto, apenas os trabalhos de Avidan et
al. (AVIDAN, 2002; AVIDAN; BUTMAN, 2004) e Song et al. (SONG; NI; WANG, 2013) uti-
lizam bases de dados de faces. Apenas o trabalho Eigensegments (AVIDAN, 2002) de Avidan
aborda diretamente o problema de identificao de faces. Diferentemente do mtodo proposto
nesta tese, Avidan extrai caractersticas utilizando utilizando Eigenfaces (TURK; PENTLAND,
1991).
Para comparar os mtodos propostos, utilizou-se uma das tcnicas de extrao de caracte-
rsticas mais conhecidas para o reconhecimento de faces, o Autofaces (ou Eigenfaces) (TURK;
PENTLAND, 1991). Este extrator de caractersticas uma verso da Anlise dos Componentes
Principais (PCA, Principal Component Analysis) para dados de alta dimensionalidade. Consi-
derando a Teoria da Matriz de Covarincia Fracionria e as projees mais discriminantes para
a classificao quanto utilizada no mtodo no estado da arte PCA Fracionrio (GAO; ZHOU;
PU, 2013), foi proposto o mtodo de Autofaces Fracionrio. Esta uma contribuio desta tese
j publicada nos anais da IEEE International Conference on Image Processing (CARVALHO
et al., 2014).
-
1.1 OBJETIVOS 25
1.1 Objetivos
O nmero muito alto de dimenses se torna um fator limitante para a tarefa de classificao.
Este fenmeno conhecido como maldio da dimensionalidade (Seo 2.5). Reduzir a di-
mensionalidade dos dados uma forma de aumentar a taxa de classificaes corretas. Existem
diversas maneira de reduzir a dimensionalidade. Um paradigma muito comum atravs de
projees lineares.
Uma amostra (ou padro, ou exemplo) representado por um vetor x. No problema de
reconhecimento de faces, este vetor contm todos os valores de intensidade dos pixels de uma
imagem de face. Um exemplo x com sua dimenso reduzida pode ser calculado projetando o
exemplo original x atravs da multiplicao com a matriz de projeo W :
x =Wx. (1.1)
O mtodo de extrao de caractersticas mais utilizado no reconhecimento de faces, Auto-
faces, realiza uma projeo linear. Da mesma forma fazem Waveletfaces e PCA Fracionrio.
O objetivo geral nesta tese propor novos mtodos de extrao de caractersticas a partir de
mtodos de extrao de caractersticas tais como Autofaces, PCA Fracionrio, Waveletfaces,
alm de mtodos baseados em Agrupamento de Caractersticas,.
Os objetivos especficos so:
restringir a pesquisa a problemas com dados de alta dimensionalidade e que possuem
muitas caractersticas correlacionadas, em particular dados de imagens de faces correta-
mente detectadas e alinhadas;
levantar hipteses de como os mtodos de origem remediam o problema especificado;
propor novos mtodos utilizando as hipteses levantadas;
restringir os mtodos proposto a transformaes lineares (Equao 1.1) como os mtodos
de origem;
validar as hipteses atravs de experimentos com os mtodos propostos;
-
26 CAPTULO 1 INTRODUO
ajustar os mtodos propostos para obter acurcia no reconhecimento de faces maior ou
equivalente acurcia obtida nos mtodos dos quais so derivados.
1.2 Hipteses e questes da pesquisa
Foram consideradas quatro hipteses. As duas primeiras so provenientes do Waveletfaces, as
outras duas da Teoria da Matriz de Covarincia Fracionria. A conexo entre Waveletfaces
e a Teoria da Matriz de Covarincia Fracionria a tcnica de referncia para extrao de
caractersticas para o reconhecimento de faces: Autofaces. As hiptese so listadas a seguir.
1. O mtodo Waveletfaces pode ser interpretado como um mtodo de agrupamento de ca-
ractersticas.
2. possvel definir uma generalizao para Waveletfaces. A partir desta generalizao
possvel definir outros mtodos de extrao de caractersticas.
3. A Matriz de Covarincia Fracionria pode ser utilizada em problemas de extrao de ca-
ractersticas em dados de alta dimensionalidade. Em outras palavras, possvel estender
o PCA Fracionrio para problemas de alta dimensionalidade.
4. possvel isolar a transformao realizada nos dados para se computar a Matriz de Co-
varincia Fracionria. Esta transformao fracionria pode ser utilizada em outras etapas
da extrao de caractersticas alm da construo da Matriz de Covarincia Fracionria.
Waveletfaces pode ser interpretado como uma reduo da imagem. Como a simples reduo
pode ser to conveniente para a classificao? Informao perdida com a reduo da imagem.
E por que esta informao eliminada parece ser quase irrelevante para a classificao? Disto
surge a primeira hiptese: pouca informao perdida pois cada caracterstica extrada a
mdia de caractersticas semelhantes. Waveletfaces pode ser interpretado como um mtodo
de agrupamento de caractersticas. Qual algoritmo de agrupamento geraria estas regies?
possvel construir transformaes lineares como as do Autofaces?
-
1.3 ESTRUTURA DA TESE 27
Se possvel definir Waveletfaces como um mtodo de Agrupamento de Caractersticas,
possvel generalizar um mtodo para extrao de caractersticas do qual Waveletfaces se tor-
naria um caso particular? A partir desta generalizao possvel definir um novo mtodo de
extrao de caractersticas? Estas questes formaram a segunda hiptese da tese. Como respos-
tas a essas questes foram propostos dois mtodos de extrao de caractersticas. Tais mtodos
extraem caractersticas como projees lineares, inspirados na tcnica de referncia Autofaces.
Uma vez que Autofaces (PCA) uma das tcnicas mais utilizadas para extrao de caracters-
ticas para reconhecimento de faces, muito importante compar-la com as tcnicas propostas
nesta tese.
Tambm foi considerada a contribuio do PCA Fracionrio para o reconhecimento de
faces. Tal mtodo, contudo, apresentava a limitao de no conseguir tratar com dados de
alta dimensionalidade. Era necessrio reduzir as imagens de face. Tal procedimento em si j
era uma transformao nos dados, como demonstrado pelo Waveletfaces. Ser que a Teoria da
Matriz de Covarincia Fracionria tambm pode ser aplicada a dados de alta dimensionalidade?
Desta questo surge a terceira hiptese da tese.
No esforo de estender o PCA Fracionrio para problemas de alta dimensionalidade, foi
percebido que a Matriz de Covarincia Fracionria pode ser calculada mais facilmente se os
dados forem pr-processados de uma maneira especfica. Chama-se este pr-processamento de
Transformao Fracionria. Esta transformao no PCA Fracionrio utilizada apenas para se
construir a Matriz de Covarincia Fracionria. E se fossem projetados os dados transformados
e no os dados brutos? Desta questo surge a quarta hiptese desta tese. Na seo seguinte est
uma descrio do restante do contedo da tese.
Na seo seguinte est uma descrio do restante do contedo da tese.
1.3 Estrutura da Tese
O restante da tese est organizada da seguinte forma:
Captulo 2: Inicia com uma breve reviso sobre reconhecimento de faces. Em seguida, apre-
-
28 CAPTULO 1 INTRODUO
senta uma reviso da literatura dos mtodos relacionados a este trabalho. Revisando o
mtodo de Waveletfaces. Depois, revisa os mtodos PCA, Autofaces e teoria da matriz de
covarincia fracionria, fazendo uma lista de notas e comentrios sobre peculiaridades do
mtodo, inclusive relacionadas com o agrupamento de caractersticas. So comentados
alguns mtodos de reduo de dimensionalidade baseados em agrupamento de caracte-
rsticas. Tambm discutida a maldio da dimensionalidade.
Captulo 3: Descreve as propostas dos mtodos Autofaces Fracionrio, extenses do PCA
Fracionrio para dados de alta dimensionalidade. Partindo do PCA, PCA Fracionrio
e do Autofaces (AF), so definidos outros trs mtodos de extrao de caractersticas:
Autofaces Fracionrias (AFF), Autofaces Fracionrio Melhorado (AFFM) e Autofaces
Melhorado (AFM).
Captulo 4: Apresenta uma avaliao experimental das propostas do captulo anterior no re-
conhecimento de faces. Neste captulo so comparados PCA Fracionrio, Autofaces,
Autofaces Fracionrias, Autofaces Fracionrio Melhorado e Autofaces Melhorado.
Captulo 5: Neste captulo proposta a metodologia de Agrupamento de Pixels para redu-
o de dimensionalidade em imagens. Com a metodologia proposta so definidos dois
principais mtodos de reduo de dimensionalidade: Pedaos-por-Valor (PV) e Pedaos-
por-Posio (PP). Alm disto, discutido como pode ser aplicado ao reconhecimento de
faces e compresso de imagens.
Captulo 6: Apresenta uma avaliao experimental das propostas de Agrupamento de Pixels
tanto para o reconhecimento de faces como para a compresso de imagens. Alm de
experimentos com dados artificiais.
Captulo 7: Apresenta as consideraes finais da tese e as propostas de trabalhos futuros.
-
CAPTULO 2
Estado da arte
Neste captulo realizada uma reviso de algumas tcnicas de extrao de caractersticas que
esto relacionadas com esta tese. Waveletfaces a tcnica de extrao de caractersticas para
reconhecimento de faces que foi o ponto inicial deste trabalho. Anlise dos Componentes Prin-
cipais (PCA, Principal Component Analysis) uma tcnica estatstica que extrai caracterstica
mantendo o mximo possvel de varincia dos dados. Este mtodo amplamente utilizado para
o reconhecimento de faces, tambm a base para o mtodo no estado da arte: PCA Fracionrio.
Baseado nas anlises sobre Waveletfaces e PCA, considerando as hipteses levantadas, foram
revisados os mtodos de reduo de dimensionalidade baseados em Agrupamento de Caracte-
rsticas. No final do captulo abordada a maldio da dimensionalidade. Antes de discutir
sobre as tcnicas extrao de caractersticas, realizada uma breve reviso sobre reconheci-
mento de faces.
2.1 Reconhecimento de faces
Reconhecimento de faces uma tarefa que pode ser utilizada em vrias aplicaes, tais como:
jogos eletrnicos; interao com o computador; identificao de passaporte; identificao e
autenticao biomtrica; aplicaes de segurana; controle de usurios em computadores e
dispositivos mveis. Em comparao com outras opes de identificao biomtrica, tais como
ris ou impresses digitais, o reconhecimento de faces apresenta a vantagem de no ser invasivo.
Por no requerer cooperao do usurio, pode ser empregado com mais facilidade.
Estas tcnicas podem ser empregadas em imagens estticas bem controladas, como fotos da
carteira de identidade. Tambm podem ser aplicadas a vdeos sem qualquer controle, como em
uma cmera de vigilncia. Em termos de tarefas, pode-se identificar mais de uma pessoa por
29
-
30 CAPTULO 2 ESTADO DA ARTE
Imagem
Esttica Vdeo
3D 2D
Figura 2.1 Diagrama de tipos de imagens utilizadas no reconhecimento de faces. Em destaque o nossodado de interesse: imagem esttica 2D.
foto, ou ainda reconhecer outros padres, como idade, sexo e raa. Com tantas possibilidades
de aplicaes e tipos de dados, existem especializaes destas tcnicas para problemas espec-
ficos. O objetivo desta seo contextualizar os mtodos estudados e propostos nesta tese em
um sistema de reconhecimento de faces.
O problema de reconhecimento se d em imagens estticas ou imagens de vdeo. As ima-
gens estticas podem ser 2D ou 3D. O tipo de imagens consideradas neste estudo so imagens
estticas 2D, como descrito na Figura 2.1. Um sistema de reconhecimento de faces envolve
trs passos principais segundo Zhao et al. (2003): (1) deteco e segmentao das imagens;
(2) extrao de caractersticas; (3) reconhecimento (identificao ou verificao). Este passos
esto descrito na Figura 2.2. Tais etapas so gerais o suficiente para englobar outros esquemas,
como os propostos por Huang et al. (2008) e Simonyan et al. (2013).
Huang et al. (HUANG et al., 2008) propem, para a identificao de faces, a sequncia:
deteco, alinhamento e reconhecimento. Antes de realizar o reconhecimento, detecta a posio
da face na imagem e alinhar a face. Simonyan et al. (SIMONYAN et al., 2013) propem
uma sequncia um pouco diferente: deteco de face, deteco de pontos importantes da face
(olhos, nariz, cantos da boca etc.), registro da faces (alinhamento), descritores da face (extrao
de caractersticas) e aprendizado estatstico (reconhecimento).
A deteco de faces a etapa que segmenta as imagens de face em uma fotografia. A
-
2.1 RECONHECIMENTO DE FACES 31
ReconhecimentoDe Faces
Deteco deFaces
Extrao deCaractersticas
Imagem Esttica 2D
Identificao Verificao
Holstica
Local
Hbrida
Autofaces
Waveletfaces
Agrupamentode Pixels
AutofacesFracionrio
Figura 2.2 Diagrama de fluxo de um sistema de reconhecimento de faces. Este estudo foca em tcnicasde extrao de caractersticas holsticas para identificao de faces.
etapa de extrao de caracterstica calcula, a partir da imagem segmentada, informaes que
sero utilizadas no reconhecimento. A etapa final, reconhecimento, aquela que fornece a
resposta, que pode ser de dois tipos: identificao ou verificao. Verificao consiste em
conferir se um determinado usurio quem ele realmente diz ser. Identificao consiste em
descobrir a identidade do usurio. Os mtodos estudados nesta tese so mtodos de extrao
de caractersticas, estes so avaliados na tarefa de identificao. As bases de dados utilizadas
recebem como entrada imagens j segmentadas, portanto no necessrio realizar deteco. E
a etapa de identificao realizada por classificadores propostos por outros autores.
Abordagens de extrao de caractersticas para o reconhecimento de faces so divididas em
trs grupos: holstica, local e hbrida (ZHAO et al., 2003). A abordagem holstica a utilizada
neste tese. Nesta abordagem, a imagem da face inteira utilizada como entrada. Na abordagem
local so extradas caractersticas para regies especficas da face, como olhos, boca e nariz. E a
abordagem hbrida configura-se como uma combinao das duas anteriores. Autofaces (Eigen-
faces) (TURK; PENTLAND, 1991) a principal tcnica na abordagem holstica. Outra tcnica
-
32 CAPTULO 2 ESTADO DA ARTE
que ser discutida adiante chama-se Waveletfaces (CHIEN; WU, 2002). Ainda na Figura 2.2
constam as metodologias propostas nesta tese: Agrupamento de Pixel e Autofaces Fracionrio.
2.2 Waveletfaces
No artigo Discriminant Waveletface and Nearest Feature Classifiers for Face Recognition,
Chien e Wu (2002) tm o objetivo de aumentar a taxa de reconhecimento de faces tratando
dois aspectos do problema: extrator de caractersticas e classificador. Do ponto de vista da
classificao, utilizam como referncia o classificador de distncia pelo vizinho mais prximo
1-NN (ou NN, Nearest Neighbor).
Inspirados no classificador NFL (Nearest Feature Line, linha de caracterstica mais pr-
xima), Chien e Wu propem dois outros classificadores NFP (Nearest Feature Plane, plano
de caracterstica mais prxima) e NFS (Nearest Feature Space, espao de caractersticas mais
prximo). Enquanto o NN calcula a distncia de uma amostra de teste a cada amostra de trei-
namento, que um ponto no espao de classificao, e atribui, amostra de teste, a classe do
ponto mais prximo. O NFL forma linhas entre pares de pontos de uma mesma classe e atribui
o padro de teste classe da linha mais prxima do ponto de teste. O NFP define planos para
cada trs pontos de uma classe e atribui o padro de teste classe cujo plano mais prximo.
De forma semelhante, o NFS define um volume para cada quatro pontos de uma classe no
conjunto de treino e atribui o padro de teste classe do volume mais prximo do ponto que
representa o elemento de teste. Todos estes classificadores utilizam a distncia Euclidiana e
definem combinaes lineares das imagens de face de cada classe, criando novos prottipos
artificiais para o conjunto de treinamento.
Para extrao de caractersticas, proposto por Chien e Wu (CHIEN; WU, 2002) o Wa-
veletface discriminante, o qual depende da transformada discreta de Wavelet. A transformada
discreta Wavelet pode ser interpretada com um algoritmo que recebe como entrada um sinal
discreto (um vetor de nmeros) e duas funes, uma de aproximao e outra de detalhes. A
funo de aproximao um filtro espacial passa-baixa e a funo de detalhes um filtro espa-
-
2.2 WAVELETFACES 33
cial passa-alta (GONZALEZ; WOODS, 2006). Aps a convoluo do sinal com cada uma das
funes tm-se duas verses do sinal: uma aproximao, a qual contm as baixas frequncias;
e o uma de detalhes que contm as altas frequncias. Por final, cada uma das duas verses do
sinal so sub-amostradas. Se o sinal de entrada tem n observaes, cada um dos sinais de sada
aps serem sub-amostrados tem n/2 observaes. Observa-se que a sada tem n observaes,
metade de aproximao e metade de detalhes.
Para ser aplicada a imagens digitais representada por matrizes, a transformada Wavelet deve
ser primeiro aplicada s colunas depois s linhas dos resultados da primeira decomposio tambm poderia ser aplicado primeiro s linhas depois s colunas dos resultados. Aps aplicar
a transformada s colunas da imagem mn de entrada, so geradas duas matrizes (m/2)n:uma de aproximao Yl e outra de detalhe Yh, como na Figura 2.3. Para cada uma destas, aplica-
se agora a transformada s linha gerando quatro imagens (m/2) (n/2): de Yl so geradas Ylle Ylh, respectivamente a aproximao da imagem e os detalhes verticais; de Yh so geradas Yhl
e Yhh, respectivamente os detalhes horizontais e diagonais.
Para o Waveletface utiliza-se apenas a aproximao final da imagem Yll . Chien e Wu (2002)
justificam esta escolha por afirmar que a aproximao contm mais energia. Yll chamado o
primeiro nvel da Waveletface, pode-se determinar o segundo nvel achado a aproximao desta
aproximao aplicando a mesma transformao a Yll . Assim tambm so definidos os demais
nveis, terceiro, quarto etc. Em (CHIEN; WU, 2002) a Waveletface padro definida como o
terceiro nvel de aproximao. E o Waveletface discriminante o Waveletface com a dimenso
reduzida pela projeo LDA. Anlise do discriminante linear (Linear Discriminat Analysis,
LDA) encontra uma projeo linear que maximiza a separao das classes.
O par de funes Wavelet de aproximao e de detalhe podem ser vrios, estes so definidos
e acordo com algumas restries (GONZALEZ; WOODS, 2006). As funes Wavelet mais
comuns so as Wavelets de Haar, as mesmas utilizadas por Chien e Wu (2002). A aproximao
Yll de uma imagem utilizando tais funes so equivalentes a reduzir a imagem metade da
altura e metade da largura, em que a intensidade de cada pixel na imagem reduzida a mdia
dos quatro vizinhos. Portanto, o primeiro nvel da Waveletface a imagem reduzida para 1/2 da
altura e 1/2 da largura; o segundo nvel 1/4 da largura e altura; o terceiro nvel, 1/8 da largura
-
34 CAPTULO 2 ESTADO DA ARTE
X
G 2Yh
G 2 Yhh
H 2 Yhl
H 2Yl
G 2 Ylh
H 2 Yll
Decomposiodos vetores
coluna
Decomposiodos vetores
linha
Figura 2.3 Diagrama de funcionamento da transformada Wavelet 2D, adapatado de (CHIEN; WU,2002).
e altura; o nvel k, 1/2k da altura e largura. Muito embora o modelo proposto por Chien e
Wu (2002) utilize a transformada Wavelet para definir que a imagem simplesmente reduzida,
deve-se estar ciente de que apenas isto que acontece na prtica. A proposta principal de Chien
e Wu (2002) no apenas reduzir a imagem atravs da transformada, mas tambm aplicar o
LDA. Pelos experimentos a seguir, ser visto que apenas a reduo da imagem contribuiu para
a melhorar a taxa de reconhecimento de faces, mesmo sem definir as projees discriminantes
atravs do LDA .
2.2.1 Experimentos do artigo
Esta subseo tem o objetivo de discutir alguns dos resultados de Chien e Wu (2002): a simples
reduo das imagens pode melhorar o reconhecimento. Em seu artigo, foram utilizadas duas
-
2.2 WAVELETFACES 35
bases de faces: IIS1 e ORL2. As imagens da base IIS tm dimenses 92104. Foram retiradas30 imagens de face por classe para 128 pessoas (classes), um total de 3.840 imagens. Destas,
6 imagens de cada classe foram utilizadas para treino e as outras 24 para teste. A base ORL
tem 10 imagens por classe e 40 classes, total de 400 imagens. Destas, 5 images de cada classe
foram utilizadas para treino e as demais para teste. A mdia da taxa de acerto foi calculada
para 10 rodadas deste tipo de experimento. Como citado anteriormente, foi utilizada a Wavelet
de Haar.
No primeiro experimento (apenas para a base IIS) os autores comparam Autofaces com
Waveletface no nvel 3 e no nvel 4. Para Waveletfaces no nvel 3 afirma que as imagens so
reduzidas para 12 13 = 156 caractersticas. As taxas de acerto so 91,2% para Autofacescom 156 caractersticas; 91,9% e 88,9% para Waveletface nvel 3 e 4. Tais resultados so
interessantes, pois a simples reduo da imagem apresentou um efeito melhor/equivalente que
o Autofaces para a classificao destes padres faces.
Pela Tabela 2.1, percebe-se que o Waveletfaces obtm taxa de acerto maior do que o Au-
tofaces, para o classificador NN. O mesmo pode ser notado para as verses discriminantes
destes mtodos. Outra informao interessante como os classificadores de distncia NFL,
NFP e NFS so capazes de melhorar a taxa de reconhecimento para o Waveletfaces discrimi-
nante. Para este experimento, o Waveletfaces e o Autofaces tm 156 dimenses para a base
IIS e 12 14 = 168 para ORL. As verses discriminantes dos mtodos tm 60 dimenses.Nesta tabela, o classificador MLP (Multilayer Perceptron, perceptron multicamadas), que um
classificador que segue o paradigma de redes neurais, utilizado. O resultado utilizando MLP
uma boa referncia para verificar eficcia dos classificadores baseados em distncia, pois
um classificador robusto que segue um paradigma de aprendizagem distinto dos classificado-
res baseados em distncia. Os experimentos semelhantes a estes esto descritos na seo que
segue.
1http://smart.iis.sinica.edu.tw/, Institute of Information Science (IIS) que pertence Academia Sinica, Taiwan.2http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html, Olivetti Research Laboratory (ORL).
-
36 CAPTULO 2 ESTADO DA ARTE
Tabela 2.1 Taxa de reconhecimento em % para as bases de faces IIS e ORL, adaptada de (CHIEN; WU,2002).
Mtodo IIS ORLAutofaces + NN 91,2 92,0Autofaces discriminantes + NN 91,4 93,5Waveletfaces + NN 91,9 92,5Waveletfaces discriminante + NN 93,1 94,5Waveletfaces discriminante + MLP - 94,5Waveletfaces discriminante + NFL 95,4 95,0Waveletfaces discriminante + NFP 95,7 95,8Waveletfaces discriminante + NFS 96,4 96,1
2.2.2 Experimentos replicados
Esta subseo tem o objetivo de discutir alguns dos resultados de experimentos replicados,
similares aos de Chien e Wu (2002). Foi necessrio replicar os experimentos para averiguar
algumas informaes experimentais omitidas por Chien e Wu. Tambm pretende verificar o
quanto a reduo boa para o reconhecimento, e se existe realmente vantagem na verso dis-
criminante de Waveletfaces. Aqui foi utilizada apenas a base ORL, pois a base IIS no estava
mais disponvel. Apenas alguns resultados do experimento completo so descritos nesta se-
o, estes resultados so provenientes do relatrio tcnico (CARVALHO, 2008). O primeiro
dos experimentos compara a taxa de acerto para o classificador NN utilizando as imagens sem
processamento e Waveletfaces nos nveis de 1 a 5. Os resultados esto descritos na Tabela 2.2.
Vale ressaltar que o Waveletfaces utiliza as funes Wavelets de Haar, que neste caso, equivale
a reduzir as imagens em metade da altura e metade de largura da wavelefaces do nvel anterior.
Neste experimento, se o nmero de linhas e colunas mpar o pixel extra de cada linha ou
coluna descartado.
Observa-se na Tabela 2.2 que a taxa de acerto aumenta, ainda que muito pouco, quando a
imagem (e o nmero de caractersticas) diminui at o Waveletfaces nvel 3. Observe que esta
diminuio no sempre vantajosa pois o desvio padro tambm aumenta. Para o Waveletfa-
ces nvel 5 a taxa de acerto cai significativamente. Para o Waveletfaces nvel 4 a taxa de acerto
diminui pouco e o desvio padro cresce pouco em relao ao nvel anterior. Portanto este nvel
4 (com 35 dimenses) e no o nvel 3, como em (CHIEN; WU, 2002), foi escolhido para os ex-
-
2.2 WAVELETFACES 37
perimentos que seguem. Outras diferenas em relao ao trabalho de Chien e Wu (2002) que
o nvel 3 tem 1114 = 154 dimenses aqui contra 168 dimenses originalmente utilizadas noartigo, pois nestes experimento as regies de borda com menos de quatro pixel so descartadas.
As verses discriminantes (utilizando LDA) tm 60 dimenses no artigo original e aqui apenas
14, isto porque os experimentos desta subseo so retirados de (CARVALHO, 2008) que tinha
o objetivo de obter maior reduo possvel com um nvel equivalente de reconhecimento.
Tabela 2.2 Mdia da taxa de reconhecimento (em %) com indicao do desvio padro, para as basesde faces ORL das imagens sem transformao e nos 5 nveis de Waveletfaces utilizando o classificadorNN, retirada de (CARVALHO, 2008).
Mtodo altura largura caractersticas acerto mdio desv. pad.Waveletfaces nvel 5 23 6 74,80 2,84Waveletfaces nvel 4 57 35 93,95 1,72Waveletfaces nvel 3 1114 154 94,95 1,70Waveletfaces nvel 2 2328 644 94,70 1,32Waveletfaces nvel 1 4656 2.576 94,65 1,20Imagem sem transformao 92112 10.304 94,25 0,81
Tabela 2.3 Mdia da taxa de reconhecimento (em %) para as bases de faces ORL com indicao dodesvio padro para Autofaces discriminante e Waveletfaces discriminante com 13, 14 e 15 caractersticasextradas utilizando o classificador NN, retirada de (CARVALHO, 2008).
Nmero de caractersticasMtodo 13 14 15Autofaces discriminante 92,50 2,71 92,60 2,57 92,35 2,52Waveletfaces discriminante 93,85 1,87 94,00 1,75 94,00 1,82
Tabela 2.4 Taxa de reconhecimento (em %) para as bases de faces ORL com indicao do desviopadro para Autofaces, Autofaces Discriminante, Waveletfaces e Waveletfaces discriminante para osclassificadores NN, NFL, NFP e NFS, retirada de (CARVALHO, 2008).
Mtodo NN NFL NFP NFSAutoface 93,61,85 94,81,70 94,60,99 94,31,05Autoface discriminante 92,62,57 94,02,17 91,92,40 91,32,17Waveletfaces 93,91,72 95,21,63 95,91,19 96,01,12Waveletfaces discriminante 94,01,75 94,41,76 93,91,34 93,01,40
O restante dos experimentos que seguem tm o objetivo no apenas de comparar Wavelet-
faces e Autofaces, mas tambm suas verses discriminantes. importante verificar as reais
-
38 CAPTULO 2 ESTADO DA ARTE
vantagens do Waveletfaces uma vez que alguns dos mtodos propostos aqui baseiam-se nesta
tcnica. O experimento que segue tem o objetivo de definir o nmero de caractersticas para
a verso discriminante. Na Tabela 2.3 so comparadas as verses discriminantes com 13, 14
e 15 caractersticas extradas com LDA a partir do Waveletfaces nvel 4 e o Autofaces com 35
caractersticas. utilizando o classificador NN. Para ambos os mtodos a verso discriminante
com maior taxa de acerto utiliza 14 caractersticas, portanto as verses discriminantes aqui tm
14 dimenses.
Na Tabela 2.4 comparam-se para os quatro classificadores baseados em distncia (NN, NFL,
NFP, NFS) os quatro mtodos (Autofaces, Waveletfaces e suas verses discriminantes). As
verses discriminantes, que utilizam apenas 14 caractersticas, geralmente apresentam taxa de
acerto menor que as verses cannicas, com 35 caractersticas. O mtodo que apresentou os
melhores resultados de taxa de acerto para todos os mtodos foi o Waveletfaces nvel 4, isto
a imagem reduzida para 1/16 de sua altura de 1/16 de sua largura. Os resultados para este
mtodo utilizando 35 caractersticas so equivalentes aos Waveletfaces discriminantes com 60
caractersticas de (CHIEN; WU, 2002).
Se o Waveletfaces com menos caractersticas (35 caractersticas) capaz de extrair infor-
mao suficiente para equiparar o reconhecimento do Waveletfaces discriminante (60 carac-
tersticas), pode-se conjecturar que no de fato o mtodo discriminante que melhora a taxa
de acerto, o Waveletfaces que extrai caractersticas adequadas para a classificao. Deve-se
tambm notar que os experimentos replicados utilizam muito poucas caractersticas (apenas
14) para o Waveletfaces discriminante, o que pode ser a razo de sua taxa de acerto mais baixa.
Finalmente, percebe-se que a simples reduo da imagem foi bastante adequada como mtodo
de extrao de caractersticas, obtendo acurcia mais alta que o mtodo Autofaces.
Partindo desses experimentos e entendendo que o componente de baixa frequncia da trans-
formada Wavelet de Haar aplicada a uma imagem apenas uma verso reduzida da imagem,
percebe-se que no h grande perda na acurcia do reconhecimento pelo fato de se reduzir as
imagem. A possvel explicao, a qual ser analisado nas prximas sees, que isto se d
pelo fato de agrupar pixels (caractersticas) semelhantes, que alm de no perder informao
evita redundncia ou vis para alguma varivel que se repete muito. Esta a primeira hip-
-
2.3 ANLISE DOS COMPONENTES PRINCIPAIS (PCA) 39
tese da tese. Antes de revisar o estado da arte dos mtodos baseados em Agrupamento de
Caractersticas, feita uma reviso do mtodo de referncia PCA.
2.3 Anlise dos Componentes Principais (PCA)
PCA, do ingls, Principal Component Analysis (Anlise dos Componentes Principais), tambm
conhecida como Transformada Karhunen-Love (THEODORIDIS; KOUTROUMBAS, 2008),
uma tcnica que projeta linearmente os dados para um subespao de menor dimensionali-
dade. Seja xi, i = 1, . . . ,n, o i-simo vetor coluna que representa uma amostra do conjunto de
treinamento. Assume-se que cada varivel tem mdia zero. Pode-se ajustar a mdia para zero
subtraindo o vetor mdio de cada amostra. A amostra projetada para uma dimenso menor
utilizando PCA yi:
yi = AT xi. (2.1)
Cada coluna de A um vetor do subespao onde xi projetado. Cada varivel yi j de yi uma
projeo de xi sobre o vetor da k-sima coluna de A. J que a mdia do conjunto de treino
zero, 1n ni=1 xi = 0, e por cada caracterstica de yi ser uma combinao linear de xi, temos
que a mdia das amostras projetadas tambm zero, 1n ni=1 yi = 0. Sendo assim a matriz de
covarincia estimada a partir dos dados projetados Sy:
Sy =1n
n
i=1
yiyTi =
1n
n
i=1
AT xixTi A = AT SxA, (2.2)
em que Sx = 1n ni=1 xixTi a matriz de covarincia estimada para os dados de entrada. Se as
colunas de A so os autovetores ortonormais de Sx, ento Sy uma matriz diagonal onde
cada elemento da diagonal j, j = 1, . . . ,m, um autovalor de A (m o nmero de dimenses
dos dados originais):
Sy = AT SxA = =
1 0
. . .
0 m
. (2.3)
-
40 CAPTULO 2 ESTADO DA ARTE
Se os elementos fora da diagonal so todos zero, isto significa que a covarincia entre quaisquer
duas variveis distintas entre os dados projetados zero, ento a correlao zero. Conclui-se
que todas as variveis so no correlacionadas aps a projeo linear realizada pelo PCA.
Percebe-se tambm que o autovalor j a varincia da j-sima nova varivel.
Para realizar reduo de dimensionalidade no se utilizam todas as colunas de A, utiliza-se
apenas uma quantidade p < m. Convenciona-se sempre, ao menos que explicitamente infor-
mado, que a primeira coluna de A correspondente ao autovetor de maior autovalor associado
e que a segunda coluna de A corresponde ao autovetor com o segundo maior autovalor associ-
ado e assim por diante. As p primeiras colunas so chamadas de os componentes principais.
Desta forma a reduo de dimensionalidade pelos componentes principais se d projetando
uma amostra xi atravs da matriz Ap que contm apenas as p primeiras colunas de A. Estas
colunas so os autovetores de Sx com os maiores autovalores:
yi = ATp xi. (2.4)
Existem vrias vantagens em utilizar PCA para a reduo de dimensionalidade, das quais
so listadas apenas algumas (THEODORIDIS; KOUTROUMBAS, 2008):
As novas variveis no so correlacionadas. Como discutido sobre a Equao 2.3, as carac-
tersticas extradas so no correlacionadas. Isto indica que nenhuma dessas variveis
pode ser predita por um transformao linear a partir das outras. Isto uma enorme
vantagem pois pode-se selecionar qualquer subconjunto destas variveis sem preocupar-
se com redundncia de informao entre as caractersticas escolhidas (THEODORIDIS;
KOUTROUMBAS, 2008).
Os dados esto o mais espalhados o possvel no espao de dimenso menor. O autovetor de
maior autovalor representa direo de maior varincia no espao original dos dados. O
segundo autovetor restrito a ser ortogonal ao primeiro e representa a direo com a
segunda maior varincia no mesmo espao, e assim por diante (BISHOP, 2006). Por se
escolherem os autovetores com os maiores autovalores, as varincias so maximizadas
nas caractersticas extradas, o que pode ser interpretado como um maior espalhamento
-
2.3 ANLISE DOS COMPONENTES PRINCIPAIS (PCA) 41
Figura 2.4 O grfico de disperso para duas classes. Pode-se separar claramente a classe de azul (acima)da vermelha (em baixo). Aps calcular a direo de maior varincia com PCA, encontra-se uma direoquase horizontal na qual os dados projetados se confundem. Uma direo perpendicular a esta maisapropriada para a separao das classes. Figura adaptada de (BISHOP, 2006).
dos dados. Isto, porm, no significa maior separao entre classes como pode ser visto
na Figura 2.4. No ser aprofundada a discusso sobre se as projees encontrar pelos
PCA so discriminantes, pois PCA vem sendo utilizado para extrao de caractersticas
para classificao a despeito deste fato.
O erro mdio quadrtico de representao minimizado. Se a amostra projetada para ape-
nas p < m dimenses, em que m o nmero de dimenses inicial do problema, uma
amostra xi representado com uma amostra projetada yi. A reconstruo da amostra a
partir da projeo xi =pj=1 yi ja j, em que a j a j-sima coluna de A. Dado isto, o erro
mdio quadrtico entre o padro inicial e sua reconstruo a soma dos m p autovalo-res, isto a soma dos autovalores referentes aos autovetores no utilizados na reduo de
dimensionalidade:1n
n
i=1xi xi2 =
m
j=p+1
j. (2.5)
Deste modo utilizar os autovetores associados s maiores varincias, permite uma re-
construo cujo erro quadrtico mdio minimizado. Com isto espera-se que a maior
parte da informao se mantenha aps a reduo de dimensionalidade. Em (THEODO-
RIDIS; KOUTROUMBAS, 2008) afirmado que no existe outra projeo ortonormal
-
42 CAPTULO 2 ESTADO DA ARTE
que obtenha um erro mdio quadrtico de representao menor que o erro obtido pelo
PCA.
Existem muitas discusses de como determinar o nmero de variveis ideal a ser extrado
com PCA (THEODORIDIS; KOUTROUMBAS, 2008; BISHOP, 2006) mas esta tese no
aborda este tema. Tambm importante notar que, para fins de classificao, pode-se esco-
lher outros autovetores que no aqueles de maior varincia mas isto tambm no faz parte do
escopo desta proposta.
2.3.1 Autofaces
Existem problemas de classificao em que o nmero de variveis maior que o nmero de
amostras, e s vezes muito maior. Estes problemas so chamados de problemas de alta dimen-
sionalidade. o caso da classificao de imagens. Se existem apenas n imagens mas cada
imagem tem m > n caractersticas (geralmente cada pixel uma caracterstica), existe um su-
bespao linear de dimenso no mximo n 1 para representar univocamente estas imagens.Neste caso, ao se aplicar PCA sero encontrados m n+ 1 autovalores zero, isto , variveiscom varincia nula. Para tais variveis o valor o mesmo em todas as amostras no conjunto de
treinamento.
Alm de no ser necessrio calcular todos os autovetores da matriz de covarincia dos da-
dos, existe o problema prtico de que para imagens muito grandes impraticvel calcular PCA
diretamente para esta matriz de covarincia. Pois o custo desse clculo para uma matriz dd O(d3) (BISHOP, 2006). A soluo encontrada uma manipulao algbrica que permite
calcular os mesmo autovalores no nulos (e respectivos autovetores) a partir de uma matriz
mm. Desta forma a soluo torna-se vivel para alguns problemas enquanto reduz o custocomputacional. Esta tcnica tornou-se bastante popular com o nome de Eigenfaces (Autofaces)
(TURK; PENTLAND, 1991). Vale ressaltar que esta tcnica no extrai nenhuma caracterstica
diferente do PCA, apenas permite calcular os componentes principais para dados de alta di-
mensionalidade.
-
2.3 ANLISE DOS COMPONENTES PRINCIPAIS (PCA) 43
Para calcular o PCA, parte-se da matriz de covarincia
Sx =1n
n
i=1
xixTi , (2.6)
que pode ser reescrita como
Sx =1n
XT X , (2.7)
na qual X a matriz nm onde a i-sima linha a amostra xTi . Como anteriormente, assume-seque as variveis tm mdia zero. Sendo u j um dos autovalores de Sx, tem-se
Sxu j = jui, (2.8)1n
XT Xu j = ju j, (2.9)
multiplicando-se esquerda por X ,
1n
XXT (Xu j) = j(Xu j), (2.10)
1n
XXT v j = jv j, (2.11)
em que v j = Xu j. Disto entende-se que v j autovetor d matriz XXT , uma matriz n n emcontraste com XT X que mm. Considerando que m >> n, o custo computacional parase calcular os autovetores de XXT substancialmente menor. Observa-se que XXT tem os
mesmos autovalores no nulos de XT X , ou seja, todas as direes relevantes para o PCA podem
ser extradas desta matriz. trivial calcular vi a partir de ui, mas o que se deseja o contrrio,
assumindo que os vs so ortonormais garante-se o mesmo para os us por esta transformao:
ui =1ni
XT vi. (2.12)
Com isto possvel calcular PCA para dados de alta dimensionalidade com um custo compu-
tacional bem menor. Tornando inclusive vivel alguns casos em que seria impraticvel calcular
os autovetores da matriz de covarincia original dos dados. Porm com um nmero de amostra
-
44 CAPTULO 2 ESTADO DA ARTE
grande, ainda que muito menor que o nmero de dimenses, pode ser impraticvel calcular o
PCA. A soluo para estes casos reduzir o nmero de amostras. Detalhes de implementao
esto disponveis no Captulo 3. A subseo seguinte analisa a teoria da matriz de covarincia
fracionria e sua aplicao ao PCA.
2.3.2 Teoria da Matriz de Covarincia Fracionria
Gao, Zhou e Pu (2013) propuseram a teoria da matriz de covarincia fracionria e aplicaram
esta teoria ao PCA e 2D-PCA. 2D-PCA uma extenso do PCA em que a imagem no precisa
ser transformada em um vetor-coluna como no PCA, mas pode ser tratada diretamente com uma
matriz. 2D-PCA adequado para imagens mas no calcula as mesmas projees que o PCA
ou o Autofaces. Neste artigo, Gao et al. propem duas tcnicas de extrao de caractersticas:
Fractional PCA (FPCA) e o 2D Fractional PCA (2D-FPCA). Os experimentos deste artigo so
realizados em duas bases de imagens de faces que sero comentadas nos captulos seguintes:
ORL (para o FPCA) e Yale (para o 2D-FPCA).
Gao et al. motivam sua proposta pela utilizao de momentos de alta ordem e momentos
fracionrios em processamento de sinais, aps definir a varincia fracionria define a covarin-
cia fracionria como (utilizando a notao do artigo):
Cr( f (X),g(Y ))) = E[( f (X)rEr( f (X)) )(g(Y )rEr(g(Y )))], (2.13)
em que f (X) e g(Y ) so variveis aleatrias; E[.] o operador de Esperana; e r um nmero
real fracionrio chamado de ordem da covarincia fracionria, se r= 1 a covarincia fracionria
equivalente covarincia convencional.
Os autores tambm definem a matriz de covarincia fracionria de ordem r:
Cmmr = (ci j,c ji =Cr(Dimi,Dim j)), i = 1, . . . ,m, j = 1, . . . ,m, (2.14)
em que m o nmero de variveis do problema e Dimk a k-sima varivel (dimenso) do
problema. Para calcular o FPCA sobre um conjunto de n padres utilizada a matriz de cova-
-
2.3 ANLISE DOS COMPONENTES PRINCIPAIS (PCA) 45
rincia fracionria Cmmr ,
Cmmr =n
i=1
X (r)i (
1n
n
j=1
X j
)(r)X (r)i (
1n
n
j=1
X j
)(r)T . (2.15)Ento os dados so projetados diretamente sobre os autovetores com os maiores autovalores
desta matriz. Observa-se que nenhum ajuste nos dados realizado: nem antes de se construir
a matriz os dados so ajustados para ter mdia zero como o PCA; nem na etapa final, na qual
as amostras so projetadas. Os dados projetados so os dados brutos do conjunto de treino ou
teste.
Os experimentos utilizam as bases de imagem ORL (reduzida de 92 112 para 2328)para FPCA, e Yale (cropped) para 2D-FPCA. O mtodo utiliza valores de r no intervalo [0, 1], a
saber, r {0,01;0,1;0,2;0,3;0,4;0,5;0,6;0,7;0,8;0,9;1,0}. No caso r = 1,0 o desempenho exatamente igual tcnica de origem, como esperado. Para cada caso estimada a taxa de
contribuio dos autovalores como a soma ponderada dos p primeiros autovalores. Tambm
medida da taxa de acerto pelo classificador do vizinho mais prximo. A primeira metade das
imagens de cada classe utilizada para treino e a segunda metade para teste (na ordem original
da base). Cada tcnica proposta (FPCA e 2D-FPCA) apresenta sempre taxa de acerto maior ou
igual que a original (PCA e 2D-PCA), principalmente quando pouca dimenses so extradas.
Mais sobre este mtodo, incluindo detalhes de implementao, comentado no Captulo 3. Na
subseo que segue apresentam-se algumas notas sobre outros aspectos do PCA.
2.3.3 PCA e as propostas desta tese
A seguir esto descritas notas e comentrios sobre PCA, principalmente do livro de referncia
do Jolliffe (2002). Estas notas tm relao direta com as tcnicas propostas nesta tese, tanto no
agrupamento de caractersticas como na teoria da matriz de covarincia aplicada ao PCA.
importante notar que no h necessidade de assumir uma distribuio especfica dos da-
dos. Verifica-se ainda que o PCA pode ser calculado a partir da matriz de covarincia, da matriz
de correlao ou a partir de uma transformao linear da matriz de correlao. A escala utili-
-
46 CAPTULO 2 ESTADO DA ARTE
zada para medir as variveis influencia diretamente nas suas varincias, as quais influenciam
os componentes extrados. Se um varivel tem varincia maior que as demais, esta pode domi-
nar um componente, sendo a nova caracterstica projetada apenas uma cpia da caracterstica
original. Isto tem relao direta com a teoria da matriz de covarincia fracionria, que diminui
valores muito alto das variveis.
Tambm pode ocorrer que a matriz de correlao tenha alguma forma especfica a qual
define peculiaridades para os autovetores e autovalores da matriz. Um dos principais casos, e
de bastante interesse para esta tese, quando existe um grupo de variveis cuja correlao
positiva e alta (no prxima a zero) entre todos os membros do grupo. E a correlao entre uma
varivel do grupo e outra fora do grupo prxima a zero.
Neste caso um grupo com q variveis influencia q autovetores da matriz de covarincia. Em
tais autovetores os coeficientes so prximo a zero para as variveis fora do grupo. Apenas um
destes autovetores tem autovalor alto, os demais tm autovalor prximo a zero. O componente
de maior autovalor representa aproximadamente a mdia do grupo, isto , todos os coeficientes
tm o mesmo sinal. Os demais componentes (com autovalor prximo a zero) representam
contrastes entre as variveis do grupo, isto , os componentes tm sinais diversos.
Esta observao est diretamente relacionada com a motivao para o mtodo proposto de
agrupamento de pixels. Jollife tambm afirma que se pode optar por escolher apenas uma vari-
vel por cada grupo, o que uma motivao para os mtodos de agrupamento de caractersticas,
os quais geralmente realizam seleo de caractersticas. A seo que segue discute mtodos de
extrao de caractersticas baseado em agrupamento de caractersticas.
2.4 Agrupamento de Caractersticas
Conforme suposto a partir de anlise detalhada do trabalho sobre Waveletfaces (CHIEN; WU,
2002) e como descrito por Jolliffe sobre o PCA, no caso em que ocorre um grupo de caracte-
rsticas altamente correlacionadas (JOLLIFFE, 2002), existem tcnicas de reduo de dimen-
sionalidade baseadas em agrupamento de caractersticas. Nesta seo so comentadas algumas
-
2.4 AGRUPAMENTO DE CARACTERSTICAS 47
destas tcnicas. As mais recentes, foram revisadas com um pouco mais de cuidado e esto cada
uma em uma subseo separada. Muitas outras tcnicas so comentadas mais brevemente na
subseo final.
2.4.1 Agrupamento difuso de caractersticas auto construtivo para classificao de
textos
A Fuzzy Self-Constructing Feature Clustering Algorithm for Text Classification (JIANG; LIOU;
LEE, 2011) foi proposto por Jiang, Liou e Lee. um algoritmo de agrupamento de caracters-
ticas que gera tanto um particionamento rgido como difuso para a extrao de caractersticas.
Ele possui a peculiaridade de que o nmero de grupos definido automaticamente de acordo
com um parmetro passado.
Como indica o nome do artigo, foi proposto para o problema de classificao de textos.
Neste problema cada documento uma amostra. Este documento transformado em um vetor
numrico. Tal vetor de caractersticas tem tantas dimenses quanto a quantidade de palavras
distintas em todos os documentos no conjunto de treinamento. Para cada documento, o va-
lor da caracterstica equivalente a uma palavra o nmero de ocorrncias desta palavras no
documento.
O algoritmo depende de um tipo particular de representao das variveis (palavras). Cada
palavra representada por um vetor-palavra, com tantas dimenses quando o nmero de clas-
ses. Para a posio equivalente a cada classe, o vetor-palavra contm a probabilidade condici-
onal daquela classe dada a palavra em questo:
P(c j|wi) =nq=1 dqiq jnq=1 dqi
, (2.16)
em que c j a j-sima classe; wi a i-sima palavra; dqi a quantidade de vezes que a palavra
wi aparece no documento dq; e q j 1, se dq pertence classe c j, e zero, caso contrrio.
Esses vetores-palavra so agrupados incrementalmente: calculada a similaridade de cada
novo vetor-palavra para cada grupo j definido. Se essa similaridade no exceder o limiar pas-
sado como parmetro, um novo grupo criado. Seno a palavra adiciona ao grupo mais
-
48 CAPTULO 2 ESTADO DA ARTE
prximo. A funo de similaridade tambm pode ser interpretada como uma funo de perti-
nncia. Esta funo definidas como:
G(x) =p
i=1
exp
[(
ximii
)2], (2.17)
em que G um grupo; p o nmero de classes (o nmero de elementos do vetor-palavra); mi
a mdia do grupo para a i-sima posio dos vetores-palavras; i o desvio padro associado
a mi; exp a funo exponencial.
Aps terminar o agrupamento gera-se uma caracterstica para cada grupo. Isto pode se
dar de trs maneiras distintas (trs mtodos de extrao de caracterstica): suave, rgida ou
mista. Para o particionamento rgido, a caracterstica a mdia das caractersticas daquele
grupo. O particionamento suave extrai uma caracterstica como a mdia ponderada de todas as
caractersticas. utilizado como peso o grau de pertinncia ao grupo, calculado por G(x). O
particionamento misto similar ao suave, mas os pesos so uma combinao linear dos graus
de pertinncia do agrupamento suave e do agrupamento rgido.
O mtodo avaliado em trs bases de dados: 20 Newsgroups, 2/3 treino e 1/3 teste; RCV1,
23.149 documentos para treino e 781.265 para teste; Cade12, 2/3 treino e 1/3 teste. Utiliza as
mtricas de micro-acurcia, micro-preciso, micro-recall e micro-F1. O classificador utilizado
foi o SVM (Support Vector Machine, Mquina de Vetor de Suporte).
O mtodo foi comparado com trs outro mtodos dos quais apenas um segue o paradigma
de agrupamento de caractersticas, DC (Distributional Word Clustering) (DHILLON; MAL-
LELA; KUMAR, 2003). Os outros mtodos com os quais compara seus resultados so: IG
e IOC. IG (Information Gain), seleo de caractersticas muito simples, simplesmente ordena
as caractersticas e escolhe as k melhores (YANG; PEDERSEN, 1997). IOC (Incremental
Orthogonal Centroid), mtodo de extrao de caractersticas por projeo (similar ao PCA)
que otimiza uma funo para encontrar a matriz de projeo (YAN et al., 2006).
Para as mtricas de avaliao propostas, na maioria dos casos supera os outros mtodos
com o qual comparado. O mtodo DC ganha algumas vezes quando mais caractersticas so
extradas. Como ltima nota, os autores afirmam que o mtodo pode ser estendido trivialmente
-
2.4 AGRUPAMENTO DE CARACTERSTICAS 49
para classificao mlti-rtulo.
2.4.2 Seleo baseada em agrupamento em grafo de caractersticas
Song, Ni e Wang propuseram A Fast Clustering-Based Feature Subset Selection Algorithm
for High-Dimensional Data (SONG; NI; WANG, 2013). Este um mtodo de seleo de
caractersticas baseado em agrupamento de caractersticas. O mtodo se baseia em sete defini-
es sobre relevncia e redundncia de uma caracterstica. O funcionamento bsico do mtodo
eliminar caractersticas irrelevantes e retundantes. Utiliza a mtrica de incerteza simtrica
(symmetric uncertainty, SU) entre duas caractersticas quaisquer:
SU(X ,Y ) =2 [H(X)H(X |Y )]
H(X)+H(Y ), (2.18)
em que H(X) a entropia da caracterstica X e H(X |Y ) a entropia condicional da caractersticaX dada a caracterstica Y . O SU tambm pode ser calculado entre uma caracterstica e a varivel
que representa a classe.
O algoritmo funciona da seguinte maneira: (1) remove as caractersticas irrelevantes, aque-
las que tm SU em relao classe abaixo de um limiar passado como parmetro; (2) constri
um grafo completamente conectado (neste grafo os ns so as caractersticas e as arestas so o
SU entre as caractersticas) e encontra a rvore espalhada mnima deste grafo para reduzir o n-
mero de arestas; (3) particiona esta rvore em uma floresta em que cada subrvore um grupo,
de cada grupo seleciona a caracterstica que tem o maior valor de SU em relao classe.
O mtodo avaliado em 35 bases de dados de 3 categorias diferentes: texto, 15; imagens
de face, 6; microarray, 14. Menos de 30 se encaixam na definio de alta dimensionalidade.
Compara a acurcia em quatro classificadores distintos: Naive Bayes, que baseado em pro-
babilidades; rvores de deciso C4.5; classificao pelo vizinho mais prximo (1-NN) com
distncia Euclidiana; e o algoritmo de gerao de regras RIPPER.
O mtodo trabalha apenas com caractersticas discretas. Para aplicao em problemas nos
quais as caractersticas so contnuas, faz-se necessrio discretiz-las. A grande contribuio
do trabalho o algoritmo de agrupamento baseado em grafos o qual incorpora as restries
-
50 CAPTULO 2 ESTADO DA ARTE
de redundncia e relevncia das caractersticas. Os autores afirmam que a complexidade do
algoritmo O(n2).
2.4.3 Seleo supervisionada de caractersticas por agrupamento utilizando
informao mtua condicional
Em Supervised feature selection by clustering using conditional mutual information-based dis-
tances (SOTOCA; PLA, 2010), Sotoca & Pla propem uma medida de distncia, baseada em
informao mtua, entre os vetores de caractersticas. O objetivo agrupar as caractersticas
utilizando um algoritmo hierrquico. De cada grupo, selecionada a caracterstica que tem a
maior informao mtua em relao classe. Elimina caractersticas irrelevantes: para selecio-
nar m caractersticas, forma m+1 grupos eliminando aquele grupo que tem a menor informao
em relao a classe. As caractersticas do conjunto eliminado so chamadas caractersticas re-
siduais ou caractersticas de rudo aleatrio. Sua proposta de agrupamento de caractersticas
inspirada do trabalho de Pereira et al. (PEREIRA; TISHBY; LEE, 1993).
Sotoca & Pla provam que a medida de distncia proposta por ele minimiza o erro de classi-
ficao Bayesiano. Tal afirmao contestada por Vinh & Bailey em (VINH; BAILEY, 2013).
Os contestadores afirmam que o mtodo proposto s garante seus resultados se todas as carac-
tersticas so independentes dada a classe. Estas tambm so as condies adequadas para o
classificador Naive Bayes; na palavras deles, quando o classificador bayesiano se sai bem a o
mtodo proposto se sai bem.
Alm do que foi mostrado por Vinh & Bailey, existem outros pontos que podem ser con-
testados no trabalho de Sotoca & Pla. Os autores assumem nas suas provas que utilizar um
conjunto reduzido de caractersticas sempre vai levar a um erro Bayesiano maior do que se uti-
lizar todas as caractersticas. Este fato no vlido para classificadores de distncia, Sotoca e
Pla mostram isto quando faz a pr-seleo das caractersticas na base Gisette. Se fosse razovel
assumir tal fato, no faria sentido eliminar as caractersticas residuais.
Nos experimentos utilizam trs clasificadores: kNN3 (3-NN) classificao pela maioria da
votao dos trs vizinhos mais prximos de acordo com a distncia Euclidiana, C4.5 (rvore
-
2.4 AGRUPAMENTO DE CARACTERSTICAS 51
de deciso) e SVM (Support Vector Machine, mquina de vetor de suporte). Utilizam bases de
dados de imagens multi-espectrais, alm de bases de alta dimensionalidade do UCI. Comparam
os resultados com trs tcnicas de seleo de caractersticas baseada apenas na ordenao,
mas que utilizam medidas relacionadas com a proposta como informao mtua. O mtodo
apresenta acurcia maior que os demais com que comparado.
2.4.4 AutoSegmentos
Em EigenSegments: A spatio-temporal decomposition of an ensemble of images (AVIDAN,
2002), Avidan discute PCA para alta dimensionalidade. Apresentam uma proposta, a qual diz
ser baseada em Anlise de Fator: calcular PCA para um grupo de caractersticas correlacio-
nadas. Para identificar os grupos correlacionados, diz que pode utilizar qualquer mtodo de
Anlise de Fator. Nos experi