agrupamento de pixels e autofaces fracionário para reconhecimento de faces

Universidade Federal de Pernambuco

Centro de Informtica

Doutorado em Cincia da Computao

Agrupamento de Pixels e AutofacesFracionrio para Reconhecimento de

Faces

Tiago Buarque Assuno de Carvalho

Tese de Doutorado

Recife

2015

Tiago Buarque Assuno de Carvalho

Agrupamento de Pixels e Autofaces Fracionrio paraReconhecimento de Faces

Trabalho apresentado ao Programa de Doutorado em Ci-

ncia da Computao do Centro de Informtica da Univer-

sidade Federal de Pernambuco como requisito parcial para

obteno do grau de Doutor em Cincia da Computao.

Orientador: Tsang Ing Ren

Co-orientador: George Darmiton da Cunha Cavalcanti

Recife

2015

Catalogao na fonte

Bibliotecria Joana DArc Leo Salvador CRB4-532

C331a Carvalho, Tiago Buarque Assuno de.

Agrupamento de pixel e auto-faces fracionrio para reconhecimento de faces / Tiago Buarque Assuno de Carvalho. Recife: O Autor, 2015.

156 p.: fig., tab. Orientador: Tsang Ing Ren. Tese (Doutorado) Universidade Federal de Pernambuco. CIN,

Cincia da Computao, 2015. Inclui referncias.

1. Inteligncia artificial. 2. Aprendizado do computador. I. Tsang, Ing Ren (Orientador). II. Titulo.

006.3 CDD (22. ed.) UFPE-MEI 2015-092

Tese de Doutorado apresentada por Tiago Buarque Assuno de Carvalho PsGraduao em Cincia da Computao do Centro de Informtica da UniversidadeFederal de Pernambuco, sob o ttulo Agrupamento-de-Pixels e Autofaces-Fracionrio para Reconhecimento de Faces orientada pelo Prof. Tsang Ing Ren eaprovada pela Banca Examinadora formada pelos professores:

__________________________________________

Profa. Teresa Bernarda Ludermir Centro de Informtica / UFPE

___________________________________________ Profa. Renata Maria Cardoso Rodrigues de Souza Centro de Informtica / UFPE ___________________________________________ Prof. Adriano Lorena Incio de Oliveira Centro de Informtica / UFPE

___________________________________________ Prof. Andre Carlos Ponce de Leon Ferreira de Carvalho Instituto de Cincias Matemticas e de Computao / USP

____________________________________________ Prof. Ricardo da Silva Torres Instituto de Computao / UNICAMP

Visto e permitida a impresso.Recife, 23 de abril de 2015.

___________________________________________________Profa. Edna Natividade da Silva BarrosCoordenadora da Ps-Graduao em Cincia da Computao do Centro de Informtica da Universidade Federal de Pernambuco.

Resumo

Um dos problemas de reconhecimento de faces consiste em identificar quem a pessoa cuja

imagem do rosto est em uma fotografia. A representao digital desta imagem contm mi-

lhares de pixels, cada um representando a intensidade de iluminao de uma minscula regio

da imagem. O problema de reconhecimento pode ser simplificado se forem extradas pou-

cas dezenas de caractersticas para representar toda a imagem. Neste trabalho so propostas

duas metodologias de extrao de caractersticas. Uma destas metodologias chama-se Agrupa-

mento de Pixels e a outra Autofaces Fracionrias. A partir de cada uma destas metodologias

so propostas tcnicas de extrao de caractersticas. Tais tcnicas tm a mesma aplicao

que a tcnica de referncia Autofaces (Eigenfaces): geram projees lineares das imagens de

face. Cada uma dessas projees dita uma caracterstica extrada, a qual contm informa-

es sobre propriedades visuais da imagem de face. Com a primeira metodologia proposta,

Agrupamento de Pixels, so definidas duas tcnicas de extrao de caractersticas, Pedaos-

por-valor e Pedaos-por-posio. Pedaos-por-valor define regies da face com intensidade

similar. Pedaos-por-posio define regies por relaes de vizinhana. Em ambos os mtodos

extrada uma caracterstica para cada regio. Estas tcnicas obtiveram taxa de reconheci-

mento superior a outros mtodos no estado da arte. Foi demonstrado com um experimento

com dados artificiais que esta tcnica capaz de extrair caractersticas discriminantes mesmo

sendo uma tcnica no-supervisionada. Pedaos-por-valor tambm avaliada na aplicao de

compresso de imagens. Demonstra-se que esta representao mais fiel ao original do que

a compresso JPEG se comprimida ao mximo. A segunda metodologia proposta tambm

no-supervisionada. Inspira-se em Autofaces e na tcnica no estado da arte PCA Fracionrio.

Com esta metodologia so definidas trs tcnicas de extrao de caractersticas. Experimentos

mostram que estas tcnicas extraem caractersticas que levam a uma taxa de reconhecimento

maior do que as tcnicas das quais so derivadas. Um experimento em visualizao de dados

RESUMO

prope uma explicao para as vantagens destas tcnicas: aumentam a fronteira de deciso; e

aproximam os exemplos da mesma classe, diminuindo a sobreposio entre classes distintas.

Palavras-chave: Reconhecimento de faces. Autofaces. Extrao de Caractersticas. Agrupa-

mento de Caractersticas.

Abstract

One problem in face recognition is to identify who is the person shown in a photography. The

digital representation of such photo, an image, has thousands of pixels, each pixel represent the

light intensity of a tiny image region. The recognition problem is simpler if dozens of features

are extracted to represent all the image. We propose two feature extraction frameworks for

face recognition: Pixel Clustering and Fractional Eigenfaces. Feature extraction techniques are

defined from each framework. Such techniques are applied similarly to the benchmark method

Eigenfaces: they define linear projections of the face images. Each projection is an extracted

feature, which encodes face visual properties. In the proposed Pixel Clustering framework, two

methods are defined, Intensity-patches and Position-patches. Intensity-patches defines regions

in the image that have similar intensity values. Position-patches defines regions according to

neighborhood of pixels. In both methods, a single feature is extracted for each region. These

methods have higher accuracy compared to other state-of-the-art for face recognition techni-

ques. As demonstrated in experiments with artificial data, Intensity-patches is able to extract

discriminant features even though it is an unsupervised method. Value-patches is also used

for image compression and, compared to the JPEG compression, it generates images more si-

milar to the original for high level compression. The second proposed framework is inspired

in the Fractional PCA (FPCA) method, and the Eigenfaces method for face recognition. Th-

ree feature extraction techniques are proposed using this framework: Fractional Eigenfaces,

Improved Fractional Eigenfaces, and Improved Eigenfaces. These methods presented higher

accuracy rates in the face recognition problem compared to FPCA and Eigenfaces. An explana-

tion for their performance is presented using a data visualization experiment: we show that the

decision frontier is enlarged, and samples of the same class are approximated, avoiding class

overlap.

ABSTRACT

Keywords: Face recognition. Eigenfaces. Feature extraction. Feature clustering.

Lista de Figuras

2.1 Diagrama de tipos de imagens utilizadas no reconhecimento de faces. Em des-

taque o nosso dado de interesse: imagem esttica 2D. 30

2.2 Diagrama de fluxo de um sistema de reconhecimento de faces. Este estudo foca

em tcnicas de extrao de caractersticas holsticas para identificao de faces. 31

2.3 Diagrama de funcionamento da transformada Wavelet 2D, adapatado de (CHIEN;

WU, 2002). 34

2.4 O grfico de disperso para duas classes. Pode-se separar claramente a classe

de azul (acima) da vermelha (em baixo). Aps calcular a direo de maior

varincia com PCA, encontra-se uma direo quase horizontal na qual os dados

projetados se confundem. Uma direo perpendicular a esta mais apropriada

para a separao das classes. Figura adaptada de (BISHOP, 2006). 41

3.1 Fluxograma dos mtodos propostos (AFF, AFFM e AFM) mais Autofaces (AF),

a combinao de um tipo de matriz de relao e um tipo de projeo gera um

mtodo. 72

4.1 Duas imagens para cada base de faces, da esquerda para a direita: Yale e ORL. 76

4.2 Base Yale. Estes grficos sumarizam os resultados da Tabela 4.2 (Seo 4.4).

Estes grficos apresentam a acurcia mdia pelo nmero de caractersticas ex-

tradas para os quatro mtodos avaliados: AF (Autofaces), AFM (Autofaces

Melhorado), AFF (Autofaces Fracionrio) e AFFM (Autofaces Fracionrio

Melhorado). Cada grfico foca em um intervalo de caractersticas extradas. 82

LISTA DE FIGURAS

4.3 Base Yale. Mxima acurcia mdia (para 10 execues de holdout) para cada

mtodo e diferentes valores de r. Note que a acurcia para o mtodo AF no

depende de r, mas varia para diferentes valores de r uma vez que os mesmos

conjuntos de treino e teste so mantidos apenas para o mesmo valor de r. 86

4.4 Base ORL. Estes grficos sumarizam os resultados da Tabela 4.4, Seo 4.6.

Estes grficos apresentam a acurcia mdia pelo nmero de caractersticas ex-

tradas para os quatro mtodos avaliados: AF (Autofaces), AFM (Autofaces

Melhorado), AFF (Autofaces Fracionrio) e AFFM (Autofaces Fracionrio

Melhorado). Cada grfico foca em um intervalo de caractersticas extradas. 87

4.5 Base Yale. Diagrama de disperso para as 20 primeiras amostras do conjunto

de treino. Aps a projeo atravs dos quatro mtodos analisados (Seo 4.7):

Autofaces (AF) em cima, esquerda; Autofaces Fracionrio (AFF) em cima, di-

reita; Autofaces Melhorado (AFM) em baixo, esquerda; Autofaces Fracionrio

Melhorado (AFFM) em baixo, direita. Os eixos so os valores das caractersti-

cas extradas (adimensionais) e cada smbolo representa uma classe distinta. 92

4.6 Base ORL. Diagrama de disperso para as primeiras 30 amostras do conjunto

de treino, aps a projeo atravs dos quatro mtodos analisados, ver Seo 4.7:

Autofaces (AF) em cima, esquerda; Autofaces Fracionrio (AFF) em cima, di-

reita; Autofaces Melhorado (AFM) em baixo, esquerda; Autofaces Fracionrio

Melhorado (AFFM) em baixo, direita. Os eixos so os valores das caractersti-

cas extradas (adimensionais) e cada smbolo representa uma classe distinta. 93

5.1 Exemplo de vetor-de-pixel por valor (acima) e vetor-de-pixel por posio (abaixo). 99

5.2 Fluxograma para definio de mtodo de extrao de caractersticas com a me-

todologia proposta de agrupamento de pixels. 101

5.3 Fluxograma dos mtodos de extrao de caractersticas: Pedaos-por-valor

(PV), Pedaos-por-valor Fracionrio (PVF), Pedaos-por-valor Fracionrio Me-

lhorado (PVFM) e Pedaos-por-valor Melhorado (PVM). 109

LISTA DE FIGURAS

5.4 As regies de fronteira entre os 42 grupos gerados pelos algoritmo k-mdias

para os vetores-de-pixel por posio. Da esquerda para a direita, os trs tipos

de distncias utilizadas para gerar estas imagens so: Chebychev, city block e

Euclidiana. 110

5.5 Exemplos de regies formadas para pedaos por posio. A rea preta corres-

ponde a uma regio selecionada. 112

5.6 Fluxo para a reconstruo das imagens comprimidas. 115

6.1 As regies da imagens de faces so particionadas utilizando o mtodo Pedaos-

por-Valor (esquerda) e Pedaos-por-Posio (direita), para as bases ORL e

UMIST. 119

6.2 Acurcia mdia do mtodo Pedaos-por-Valor para vrios nmeros de caracte-

rsticas extradas. Em trs bases de dados: Yale, ORL, e UMIST. 121

6.3 Acurcia mdia do mtodo Pedaos-por-Valor para vrios nmero de caracte-

rsticas extradas. Em duas bases de dados: Yale e ORL. So gerados 64, 128 e

256 grupos, mas so selecionadas as caractersticas de maior varincia. 125

6.4 Funes de densidade de probabilidade pra distribuies normais com desvio

padro igual a 5. Da esquerda para a direita, as mdias das distribuies so -5,

0, 5 e 100. 127

6.5 Disperso dos dados artificias utilizando duas variveis escolhidas aleatoria-

mente: uma discriminante no eixo horizontal e a outra de confuso. 129

6.6 Base 10/1.000. Diagramas de disperso da projeo para duas dimenses uti-

lizando PCA, esquerda; e projeo para duas caractersticas utilizando Partes-

por-valor, direita. 130

6.7 ndices de Silhouette no conjunto de treino da base 10/1.000, PCA (esquerda)

e Pedaos-por-Valor (direita). 131

6.8 Base 100/10.000. Diagramas de disperso da projeo para duas dimenses uti-

lizando PCA, esquerda; e projeo para duas caractersticas utilizando Partes-


LISTA DE FIGURAS

6.9 Base 1/100. Diagramas de disperso da projeo para duas dimenses utili-

zando PCA, esquerda; e projeo para duas caractersticas utilizando Partes-


6.10 Base 100/10.000. Diagramas de disperso para projeo para duas dimenses

utilizando PCA. O grfico da esquerda mostra o conjunto de treino, e o da

direita o conjunto de teste. 134

6.11 Imagens originais e imagens comprimidas para as bases ORL (a-f) e Yale (g-l).

As imagens so comprimidas com Pedaos-por-Valor e JPEG. 6.158 p. Signi-

fica 6.158 pedaos (ou grupos). 138

Lista de Tabelas

2.1 Taxa de reconhecimento em % para as bases de faces IIS e ORL, adaptada de

(CHIEN; WU, 2002). 36

2.2 Mdia da taxa de reconhecimento (em %) com indicao do desvio padro,

para as bases de faces ORL das imagens sem transformao e nos 5 nveis de

Waveletfaces utilizando o classificador NN, retirada de (CARVALHO, 2008). 37

2.3 Mdia da taxa de reconhecimento (em %) para as bases de faces ORL com

indicao do desvio padro para Autofaces discriminante e Waveletfaces dis-

criminante com 13, 14 e 15 caractersticas extradas utilizando o classificador

NN, retirada de (CARVALHO, 2008). 37

2.4 Taxa de reconhecimento (em %) para as bases de faces ORL com indicao do

desvio padro para Autofaces, Autofaces Discriminante, Waveletfaces e Wave-

letfaces discriminante para os classificadores NN, NFL, NFP e NFS, retirada

de (CARVALHO, 2008). 37

2.5 Comparao entre os principais mtodos de agrupamento de caractersticas. 55

2.6 Distncias mnima e mxima das amostra at o centro. Quando o nmero de

dimenses aumenta a razo entre estas duas distncias tende a 1. 56

2.7 ndice de Silhouette para a base ORL com as imagens no tamanho original e

reduzido. 57

3.1 Nomeando a tcnica de extrao de caracterstica devido matriz de covarin-

cia e mtodo de projeo dos dados. 73

LISTA DE TABELAS

4.1 Base ORL. Para cada nmero de caractersticas (k): mdia e desvio padro

da acurrcia (em 10 repeties de holdout) para PCA Fracionrio (Fractional

PCA, FPCA) e Autofaces Fracionrio (AFF), somente FPCA recebe como en-

trada as imagens reduzidas para 1/4 da altura e 1/4 da largura. 80

4.2 Base Yale. Colunas: k, nmero de caractersticas extradas; acurcia mdia e

desvio padro para 100 repeties de holdout, para os mtodos AF, AFM, AFF

e AFFM. A maior acurcia por linha est marcada com (+) e a menor com

(). Uma acurcia mdia considerada significativamente diferente de outrase seus intervalos de 95% de confiana no se sobrepem. 83

4.3 Base Yale. Mxima acurcia mdia (para 10 execues de holdout) para cada

mtodo e diferentes valores de r. Note que a acurcia para o mtodo AF no

depende de r, mas varia para diferentes valores de r uma vez que os mesmos

conjuntos de treino e teste so mantidos apenas para o mesmo valor de r. 85

4.4 Base ORL. Colunas: k, nmero de caractersticas extradas; acurcia mdia e

desvio padro para 100 repeties de holdout, para os mtodos AF, AFM, AFF,

AFFM. A maior acurcia por linha est marcada com (+) e a menor com ().Uma acurcia mdia considerada significativamente diferente de outra se seus

intervalos de 95% de confiana no se sobrepem. 88

4.5 Valor mdio do ndice de isolamento de componentes para projeo 2D. Para

duas bases de imagens de face. O ndice melhor quanto maior seu valor. 91

5.1 Especificao dos mtodos de extrao de caractersticas propostos sobre a me-

todologia proposta de Agrupamento de Pixels. 107

6.1 A acurcia para os mtodos propostos, Pedaos-por-Valor e Pedaos-por-Posio,

comparada com outros mtodos de extrao de caractersticas no estado da

arte. O nmero de dimenses extradas k; acurcia mdia e desvio padro e

intervalo de confiana. 118

LISTA DE TABELAS

6.2 Acurcia mdia e desvio padro para vrios classificadores. 100 repeties de

holdout 50/50. 512 caractersticas para Pedaos-por-Valor (PV), Pedaos-por-

Valor Melhorado (PVM), Pedaos-por-Valor Fracionrio (PVF), Pedaos-por-

Valor Fracionrio Melhorado (PVFM). Para Autofaces (AF), Autofaces Melho-

rado (AFM), Autofaces Fracionrio (AFF), Autofaces Fracionrio Melhorado

(AFFM), so extraidas 82 (Yale) e 200 (ORL) caractersticas. 122

6.3 Acurcia mdia e desvio padro para Autofaces e Pedaos-por-Valor se apenas

1, 2, ou 3 classes so utilizadas para gerar as projees. Classificador 1-NN, 10

repeties de holdout 50/50. 124

6.4 Descrio das bases sintticas 1/100, 10/1.000 e 100/10.000. Cada base tem

trs classes, cada classe com 30 amostras. N(,) indica que um conjunto de

caractersticas segue uma distribuio normal com mdia e desvio padro . 127

6.5 Taxas de acerto de cada base para cada tipo de extrao de caractersticas uti-

lizando classificador 1-NN; mdia e desvio padro calculado para 10.000 (dez

mil) repeties de experimento do tipo Hold Out estratificado 50% para treino

e 50% para teste. 128

6.6 Taxas de acerto para classificao na base 10/1.000 para cada tipo de extrao

de caractersticas utilizando classificadores distintos. Mdia e desvio padro

calculado para 100 repeties de experimento do tipo Hold Out estratificado

50% para treino e 50% para teste. 128

6.7 Valor mdio e desvio padro de 100 repeties de holdout para a mdias dos

ndices Silhouette para as bases de dados artificiais, aps projeo com PCA

e Pedaos-por-Valor (PV). Medido separadamente para o conjunto de treino e

teste, e para ambos. 131

6.8 Taxas de acerto para a classificao utilizando as bases artificiais e vrios clas-

sificadores. Comparao entre PCA e Pedaos-por-Valor. 135

6.9 The Structural SIMilarity (SSIM) index , ndice de similaridade estrutural para

as imagens comprimidas com PV e JPEG. 140

Lista de Abreviaturas e siglas

AFF Autofaces Fracionrio

AFFM Autofaces Fracionrio Melhorado

AFM Autofaces Melhorado

bpp bits por pixel

BoW Bag of visual words

C4.5 Classificador por rvore de deciso

DC Distributional Word Clustering

FPCA Fractional PCA (PCA Fracionrio)

IG Information Gain

IOC Incremental Orthogonal Centroid

JPEG Joint Photographic Experts Group, formato de arquivo de

imagem

kNN k Nearest Neighbor, classificador pelos k vizinhos mais pr-

ximos, por exemplo, 1-NN, 3-NN

LDA Linear Discriminat Analysis, Anlise do Discriminante Li-

near

LSSIM SSIM Local

NFL Nearest Feature Line, classificador pela linha mais prxima

NFP Nearest Feature Plane, classificador pelo plano mais pr-

ximo

NFS Nearest Feature Space, classificador pelo subespao mais

prximo

LISTA DE ABREVIATURAS E SIGLAS

NN Nearest Neighbor, classificador pelo vizinho mais prximo

ORL Base de imagens de face do Olivetti Research Laboratory,

atualmente AT&T

PCA Princial Component Analysis (Anlise dos Componentes

Principais)

PNG Portable Network Graphics, formato de arquivo de imagem

PP Pedaos-por-Posio

PV Pedaos-por-valor

PVF Pedaos-por-valor Fracionrio

PVFM Pedaos-por-valor Fracionrio Melhorado

PVM Pedaos-por-valor Melhorado

SSIM The Structural SIMilarity (SSIM) index , ndice de similari-

dade estrutural

SU symmetric uncertainty

SVM Support Vector Machine, classificador por mquina de vetor

de suporte

UCI University of California Irvine Machine Learning Reposi-

tory

UMIST Base de imagens de face da University of Manchester Insti-

tute of Science and Technology, atualmente The University

of Sheffield

Lista de Algoritmos

3.1 Reduo de dimensionalidade com PCA 64

3.2 Reduo de dimensionalidade com FPCA (PCA Fracionrio) 66

3.3 Reduo de dimensionalidade com Autofaces (AF) 67

3.4 Reduo de dimensionalidade com Autofaces Fracionrio (AFF) 69

3.5 Reduo de dimensionalidade com Autofaces Fracionrio Melhorado (AFFM) 70

3.6 Reduo de dimensionalidade com Autofaces Melhorado (AFM) 71

Sumrio

1 Introduo 21

1.1 Objetivos 25

1.2 Hipteses e questes da pesquisa 26

1.3 Estrutura da Tese 27

2 Estado da arte 29

2.1 Reconhecimento de faces 29

2.2 Waveletfaces 32

2.2.1 Experimentos do artigo 34

2.2.2 Experimentos replicados 36

2.3 Anlise dos Componentes Principais (PCA) 39

2.3.1 Autofaces 42

2.3.2 Teoria da Matriz de Covarincia Fracionria 44

2.3.3 PCA e as propostas desta tese 45

2.4 Agrupamento de Caractersticas 46

2.4.1 Agrupamento difuso de caractersticas auto construtivo para classifica-

o de textos 47

2.4.2 Seleo baseada em agrupamento em grafo de caractersticas 49

2.4.3 Seleo supervisionada de caractersticas por agrupamento utilizando

informao mtua condicional 50

2.4.4 AutoSegmentos 51

2.4.5 Outros trabalhos 52

2.5 Maldio da dimensionalidade 54

2.6 Concluses 57

SUMRIO

3 Autofaces Fracionrio 61

3.1 Mtodos relacionados 63

3.1.1 PCA Fracionrio (FPCA) 64

3.1.2 Autofaces (AF) 65

3.2 Mtodos propostos 68

3.3 Autofaces Fracionrio (AFF) 68

3.4 Autofaces Fracionrio Melhorado (AFFM) 69

3.5 Autofaces Melhorado (AFM) 70

3.6 Concluso 71

4 Experimentos com Autofaces Fracionrio 75

4.1 Configurao para os experimentos 76

4.2 Teste de hiptese por sobreposio de intervalos de confiana 77

4.3 Experimento para PCA Fracionrio e Autofaces Fracionrio 78

4.4 Experimentos para a base de faces Yale 79

4.5 Experimentos para se escolher o parmetro fracionrio r 81

4.6 Experimentos para a base de faces ORL 84

4.7 Visualizao de dados 87

4.8 Concluso 94

5 Agrupamento de Pixels 97

5.1 Vetor-de-pixel 98

5.2 Definindo um mtodo de extrao de caractersticas 99

5.3 Exemplo 101

5.4 Pedaos-por-Valor 102

5.4.1 Vetor-de-pixel por valor 103

5.4.2 Agrupamento 103

5.4.3 Extrao de Caractersticas 104

5.4.4 Nmero de caractersticas extradas igual ao nmero de grupos 105

5.4.5 Nmero de caractersticas extradas menor que nmero de grupos 106

SUMRIO

5.4.6 Consideraes 106

5.5 Pedaos-por-valor Fracionrio 107

5.6 Pedaos-por-Posio 108

5.6.1 Vetor-de-pixel por posio 110

5.6.2 Algoritmo de agrupamento 111

5.6.3 Extrao de caractersticas 112

5.6.4 Consideraes 113

5.7 Reconstruo e compresso de imagens 113

5.8 Concluso 116

6 Experimentos com Agrupamento de Pixels 117

6.1 Resultados no estado-da-arte 117

6.2 Escolhendo o nmero de caractersticas extradas 120

6.3 Pedaos-por-Valor Fracionrio e outros classificadores 121

6.4 Inserindo novas classes 123

6.5 Formando mais grupos do que o nmero de caractersticas 125

6.6 Experimento com dados artificiais 126

6.7 Compresso de imagens 135

6.8 Concluso 140

7 Concluses 143

7.1 Concluses sobre as hipteses 144

7.2 Trabalhos Futuros em Autofaces Fracionrio 145

7.3 Trabalhos Futuros em Agrupamento de Pixels 146

7.4 Consideraes finais 149

Referncias 151

CAPTULO 1

Introduo

Reconhecimento de faces uma tarefa trivial ao ser humano, mas tem sido um desafio para a

viso computacional. O reconhecimento pode se dar a partir de trs fontes distintas de imagens:

vdeos, imagens estticas 2D e imagens 3D (ZHAO et al., 2003). Nesta tese so abordadas

apenas imagens estticas 2D. Exemplos deste tipo de imagem so fotografias de faces. Embora

muitas das informaes nos pargrafos seguintes tambm possam ser aplicadas aos outros tipos

de imagens de face, a discusso restringe-se a imagens estticas 2D.

Um sistema genrico de reconhecimento de faces possui trs principais etapas: deteco da

face, extrao de caractersticas e reconhecimento (ZHAO et al., 2003). A deteco de faces

consiste em encontrar em qual regio da imagem est a face. A extrao de caractersticas a

etapa que processa a imagem em busca de informaes representativas e teis para classific-

las. Esta etapa depende fortemente da aplicao. Por exemplo, caractersticas para reconhecer

uma pessoa da foto podem no ser to teis para identificar a expresso da face. A etapa

de reconhecimento aquela na qual se utiliza um classificador para realizar ou a tarefa de

verificao ou identificao.

Utiliza-se a seguinte definio de classificador: um mtodo computacional capaz de apren-

der, a partir de exemplos (conjunto de treinamento), a classificar novos exemplos (conjunto de

teste). Cada exemplo pode ser representado por uma coleo de caractersticas extradas das

imagens de face e as classes so definidas pelo problema: nome da pessoa, ou expresso da

face etc. A tarefa de verificao consiste em averiguar se aquela imagem representa o que o

usurio diz representar, exemplos: autenticao de usurio, verifica se a imagem de um usurio

corresponde ou no ao usurio em questo; identificao de sorriso, tenta perceber quando a

pessoa est sorrindo ou no (recurso comum em cmeras fotogrficas). Quando o reconhe-

cimento no especificado entre identificao ou verificao, entende-se que identificao.

Esta tarefa consiste em classificar a face em uma entre vrias opes, exemplos: identificar

21

22 CAPTULO 1 INTRODUO

quem a pessoa da foto; identificar a expresso da face (alegre, triste, nervoso, assustado, entre

outras).

Huang et al. (HUANG et al., 2008) propem, para a identificao de faces, a sequncia:

deteco, alinhamento e reconhecimento. Antes de realizar o reconhecimento, detecta-se a po-

sio da face na imagem e alinha-se a face. Na etapa de deteco, eles optaram por utilizar

o algoritmo de Viola & Jones (VIOLA; JONES, 2004, 2001). Portanto Huang et al. focam

apenas nas etapas de alinhamento e reconhecimento. Simonyan et al. (SIMONYAN et al.,

2013) propem uma sequncia um pouco diferente: deteco de face, deteco de pontos im-

portantes da face (olhos, nariz, cantos da boca etc.), registro da face (alinhamento), descritores

da face (extrao de caractersticas) e aprendizado estatstico (reconhecimento). Simonyan et

al. tambm utiliza o algoritmo de Viola & Jones para a deteco e componentes do sistema de

reconhecimento desenvolvidos por outros autores nas demais etapas, focando na extrao de

caractersticas.

Cada um destes elementos (deteco, extrao de caractersticas, reconhecimento) tem um

papel importante em um sistema de reconhecimento de faces. Como realizado pelos autores

comentados acima (HUANG et al., 2008; SIMONYAN et al., 2013) e por outros (ZHAO et

al., 2003; JONES, 2009), as pesquisas focam em resolver problemas em apenas uma etapa.

O foco desta tese a extrao de caractersticas. Para tanto assume que estas etapas de pr-

processamento esto resolvidas: a imagem recebida como entrada est devidamente recortada

e alinhada. E na etapa de reconhecimento utiliza classificadores propostos por outros autores.

Jones (JONES, 2009) analisa vrios artigos desenvolvidos em reconhecimento de faces e

enumera os problemas desta tarefa: iluminao irregular na foto, pose (rotao da cabea),

expresso do rosto, envelhecimento/crescimento da pessoa, alinhamento impreciso. Dentre

estes problemas a pose um problema bastante severo, pois a imagem do perfil de uma face

bem diferente da imagem frontal da mesma face, uma abordagem para corrigir este problema

proposta por Yi et al. (YI; LEI; LI, 2013), um modelo para mapear imagens 2D em um modelo

3D de face. Na presente tese tambm assumido que as imagens no apresentam problemas

severos de pose e alinhamento, e que as tcnicas propostas poderiam ser utilizadas em qualquer

base se estes problemas fossem corrigidos com algum pr-processamento como o proposto por

CAPTULO 1 INTRODUO 23

Yi et al.

vlido enfatizar que as imagens de face utilizadas aqui so: estticas, 2D, em tons de

cinza, recortadas e contendo apenas a regio da face, bem centralizadas, sem srios problemas

de pose e rotao da cabea, contendo algum problema de iluminao. Assume-se a represen-

tao de uma imagem como uma matriz onde cada posio da matriz denominada pixel e tem

seu valor em um intervalo, geralmente [0, 255]. Com estas restries, as imagens de face so

dados de alta dimensionalidade em que muitas variveis so correlacionadas. Os dados tm

alta dimensionalidade porque cada pixel da imagem considerado uma caracterstica e mesmo

para imagens pequenas o nmero de pixels muito alto, por exemplo, uma imagem 100100tem 10.000 caractersticas.

A expresso alta dimensionalidade tambm empregada quando o nmero de caractersti-

cas muito maior que o nmero de exemplos de treino (HASTIE; TIBSHIRANI; FRIEDMAN,

2001), o que tambm ocorre com as imagens de face. Esses dados tm muitas caractersticas

correlacionadas porque vrias regies da imagem tm intensidade de pixels semelhantes, por

exemplo os pixels na regio de: pelo, cabelo, olhos, barba etc. Desta maneira a extrao de ca-

ractersticas tem o objetivo no apenas de gerar novas caractersticas discriminantes (capaz de

melhor separar as classes), como tambm reduzir a dimensionalidade do problema, por exem-

plo, de 10.000 para 40 caractersticas (cada caracterstica interpretada como uma dimenso).

Pode-se assumir que os pixels de cada imagem representam regies correspondentes. Por

exemplo, um pixel que representa uma regio na bochecha de uma pessoa deve representar

tambm a regio da bochecha na maioria das imagens. Com as faces alinhadas desta ma-

neira, faz sentido compar-las atravs de uma medida de distncia, como a distncia Euclidiana,

por exemplo. Desta maneira, tambm restringem-se os algoritmos de classificao utilizados.

Utiliza-se principalmente o classificador pelo vizinho mais prximo (1-NN, 1-Nearest Neigh-

bor), o qual atribui para uma nova imagem de face a mesma classe da imagem mais prxima

de acordo com a distncia Euclidiana.

Uma vez delimitados os demais elementos do sistema de reconhecimento de faces, so

propostos algoritmos de extrao de caractersticas para reduzir as dimenses destes dados de

alta dimensionalidade. Tais algoritmos so no-supervisionados, isto , no dependem dos


rtulos das classes das amostras de treino. Um dos grupos de algoritmos propostos foram

inspirados no mtodo Waveletfaces (CHIEN; WU, 2002). Aps uma anlise detalhada deste

mtodo percebeu-se que a simples reduo da imagem funciona muito bem como extrao de

caracterstica, no diminuindo o erro de classificao at um certo limite de reduo.

Como reduzir a imagem no impacta a taxa de reconhecimento de faces? Na tentativa de

explicar esse fenmeno proposta nesta tese a metodologia de Agrupamento de Pixels. Esta

metodologia coloca em um mesmo grupo os pixels com intensidade semelhante em todas as

imagens do conjunto de treinamento. Cada grupo define uma regio cuja mdia em cada ima-

gem uma caracterstica extrada. Na literatura foram encontrados trabalhos semelhantes

proposta de agrupamento de pixels, chamadas Agrupamento de Caractersticas. A grande mai-

oria deste trabalhos foca na tarefa de reconhecimento de texto, apenas os trabalhos de Avidan et

al. (AVIDAN, 2002; AVIDAN; BUTMAN, 2004) e Song et al. (SONG; NI; WANG, 2013) uti-

lizam bases de dados de faces. Apenas o trabalho Eigensegments (AVIDAN, 2002) de Avidan

aborda diretamente o problema de identificao de faces. Diferentemente do mtodo proposto

nesta tese, Avidan extrai caractersticas utilizando utilizando Eigenfaces (TURK; PENTLAND,

1991).

Para comparar os mtodos propostos, utilizou-se uma das tcnicas de extrao de caracte-

rsticas mais conhecidas para o reconhecimento de faces, o Autofaces (ou Eigenfaces) (TURK;

PENTLAND, 1991). Este extrator de caractersticas uma verso da Anlise dos Componentes

Principais (PCA, Principal Component Analysis) para dados de alta dimensionalidade. Consi-

derando a Teoria da Matriz de Covarincia Fracionria e as projees mais discriminantes para

a classificao quanto utilizada no mtodo no estado da arte PCA Fracionrio (GAO; ZHOU;

PU, 2013), foi proposto o mtodo de Autofaces Fracionrio. Esta uma contribuio desta tese

j publicada nos anais da IEEE International Conference on Image Processing (CARVALHO

et al., 2014).

1.1 OBJETIVOS 25

1.1 Objetivos

O nmero muito alto de dimenses se torna um fator limitante para a tarefa de classificao.

Este fenmeno conhecido como maldio da dimensionalidade (Seo 2.5). Reduzir a di-

mensionalidade dos dados uma forma de aumentar a taxa de classificaes corretas. Existem

diversas maneira de reduzir a dimensionalidade. Um paradigma muito comum atravs de

projees lineares.

Uma amostra (ou padro, ou exemplo) representado por um vetor x. No problema de

reconhecimento de faces, este vetor contm todos os valores de intensidade dos pixels de uma

imagem de face. Um exemplo x com sua dimenso reduzida pode ser calculado projetando o

exemplo original x atravs da multiplicao com a matriz de projeo W :

x =Wx. (1.1)

O mtodo de extrao de caractersticas mais utilizado no reconhecimento de faces, Auto-

faces, realiza uma projeo linear. Da mesma forma fazem Waveletfaces e PCA Fracionrio.

O objetivo geral nesta tese propor novos mtodos de extrao de caractersticas a partir de

mtodos de extrao de caractersticas tais como Autofaces, PCA Fracionrio, Waveletfaces,

alm de mtodos baseados em Agrupamento de Caractersticas,.

Os objetivos especficos so:

restringir a pesquisa a problemas com dados de alta dimensionalidade e que possuem

muitas caractersticas correlacionadas, em particular dados de imagens de faces correta-

mente detectadas e alinhadas;

levantar hipteses de como os mtodos de origem remediam o problema especificado;

propor novos mtodos utilizando as hipteses levantadas;

restringir os mtodos proposto a transformaes lineares (Equao 1.1) como os mtodos

de origem;

validar as hipteses atravs de experimentos com os mtodos propostos;


ajustar os mtodos propostos para obter acurcia no reconhecimento de faces maior ou

equivalente acurcia obtida nos mtodos dos quais so derivados.

1.2 Hipteses e questes da pesquisa

Foram consideradas quatro hipteses. As duas primeiras so provenientes do Waveletfaces, as

outras duas da Teoria da Matriz de Covarincia Fracionria. A conexo entre Waveletfaces

e a Teoria da Matriz de Covarincia Fracionria a tcnica de referncia para extrao de

caractersticas para o reconhecimento de faces: Autofaces. As hiptese so listadas a seguir.

1. O mtodo Waveletfaces pode ser interpretado como um mtodo de agrupamento de ca-

ractersticas.

2. possvel definir uma generalizao para Waveletfaces. A partir desta generalizao

possvel definir outros mtodos de extrao de caractersticas.

3. A Matriz de Covarincia Fracionria pode ser utilizada em problemas de extrao de ca-

ractersticas em dados de alta dimensionalidade. Em outras palavras, possvel estender

o PCA Fracionrio para problemas de alta dimensionalidade.

4. possvel isolar a transformao realizada nos dados para se computar a Matriz de Co-

varincia Fracionria. Esta transformao fracionria pode ser utilizada em outras etapas

da extrao de caractersticas alm da construo da Matriz de Covarincia Fracionria.

Waveletfaces pode ser interpretado como uma reduo da imagem. Como a simples reduo

pode ser to conveniente para a classificao? Informao perdida com a reduo da imagem.

E por que esta informao eliminada parece ser quase irrelevante para a classificao? Disto

surge a primeira hiptese: pouca informao perdida pois cada caracterstica extrada a

mdia de caractersticas semelhantes. Waveletfaces pode ser interpretado como um mtodo

de agrupamento de caractersticas. Qual algoritmo de agrupamento geraria estas regies?

possvel construir transformaes lineares como as do Autofaces?

1.3 ESTRUTURA DA TESE 27

Se possvel definir Waveletfaces como um mtodo de Agrupamento de Caractersticas,

possvel generalizar um mtodo para extrao de caractersticas do qual Waveletfaces se tor-

naria um caso particular? A partir desta generalizao possvel definir um novo mtodo de

extrao de caractersticas? Estas questes formaram a segunda hiptese da tese. Como respos-

tas a essas questes foram propostos dois mtodos de extrao de caractersticas. Tais mtodos

extraem caractersticas como projees lineares, inspirados na tcnica de referncia Autofaces.

Uma vez que Autofaces (PCA) uma das tcnicas mais utilizadas para extrao de caracters-

ticas para reconhecimento de faces, muito importante compar-la com as tcnicas propostas

nesta tese.

Tambm foi considerada a contribuio do PCA Fracionrio para o reconhecimento de

faces. Tal mtodo, contudo, apresentava a limitao de no conseguir tratar com dados de

alta dimensionalidade. Era necessrio reduzir as imagens de face. Tal procedimento em si j

era uma transformao nos dados, como demonstrado pelo Waveletfaces. Ser que a Teoria da

Matriz de Covarincia Fracionria tambm pode ser aplicada a dados de alta dimensionalidade?

Desta questo surge a terceira hiptese da tese.

No esforo de estender o PCA Fracionrio para problemas de alta dimensionalidade, foi

percebido que a Matriz de Covarincia Fracionria pode ser calculada mais facilmente se os

dados forem pr-processados de uma maneira especfica. Chama-se este pr-processamento de

Transformao Fracionria. Esta transformao no PCA Fracionrio utilizada apenas para se

construir a Matriz de Covarincia Fracionria. E se fossem projetados os dados transformados

e no os dados brutos? Desta questo surge a quarta hiptese desta tese. Na seo seguinte est

uma descrio do restante do contedo da tese.

Na seo seguinte est uma descrio do restante do contedo da tese.

1.3 Estrutura da Tese

O restante da tese est organizada da seguinte forma:

Captulo 2: Inicia com uma breve reviso sobre reconhecimento de faces. Em seguida, apre-


senta uma reviso da literatura dos mtodos relacionados a este trabalho. Revisando o

mtodo de Waveletfaces. Depois, revisa os mtodos PCA, Autofaces e teoria da matriz de

covarincia fracionria, fazendo uma lista de notas e comentrios sobre peculiaridades do

mtodo, inclusive relacionadas com o agrupamento de caractersticas. So comentados

alguns mtodos de reduo de dimensionalidade baseados em agrupamento de caracte-

rsticas. Tambm discutida a maldio da dimensionalidade.

Captulo 3: Descreve as propostas dos mtodos Autofaces Fracionrio, extenses do PCA

Fracionrio para dados de alta dimensionalidade. Partindo do PCA, PCA Fracionrio

e do Autofaces (AF), so definidos outros trs mtodos de extrao de caractersticas:

Autofaces Fracionrias (AFF), Autofaces Fracionrio Melhorado (AFFM) e Autofaces

Melhorado (AFM).

Captulo 4: Apresenta uma avaliao experimental das propostas do captulo anterior no re-

conhecimento de faces. Neste captulo so comparados PCA Fracionrio, Autofaces,

Autofaces Fracionrias, Autofaces Fracionrio Melhorado e Autofaces Melhorado.

Captulo 5: Neste captulo proposta a metodologia de Agrupamento de Pixels para redu-

o de dimensionalidade em imagens. Com a metodologia proposta so definidos dois

principais mtodos de reduo de dimensionalidade: Pedaos-por-Valor (PV) e Pedaos-

por-Posio (PP). Alm disto, discutido como pode ser aplicado ao reconhecimento de

faces e compresso de imagens.

Captulo 6: Apresenta uma avaliao experimental das propostas de Agrupamento de Pixels

tanto para o reconhecimento de faces como para a compresso de imagens. Alm de

experimentos com dados artificiais.

Captulo 7: Apresenta as consideraes finais da tese e as propostas de trabalhos futuros.

CAPTULO 2

Estado da arte

Neste captulo realizada uma reviso de algumas tcnicas de extrao de caractersticas que

esto relacionadas com esta tese. Waveletfaces a tcnica de extrao de caractersticas para

reconhecimento de faces que foi o ponto inicial deste trabalho. Anlise dos Componentes Prin-

cipais (PCA, Principal Component Analysis) uma tcnica estatstica que extrai caracterstica

mantendo o mximo possvel de varincia dos dados. Este mtodo amplamente utilizado para

o reconhecimento de faces, tambm a base para o mtodo no estado da arte: PCA Fracionrio.

Baseado nas anlises sobre Waveletfaces e PCA, considerando as hipteses levantadas, foram

revisados os mtodos de reduo de dimensionalidade baseados em Agrupamento de Caracte-

rsticas. No final do captulo abordada a maldio da dimensionalidade. Antes de discutir

sobre as tcnicas extrao de caractersticas, realizada uma breve reviso sobre reconheci-

mento de faces.

2.1 Reconhecimento de faces

Reconhecimento de faces uma tarefa que pode ser utilizada em vrias aplicaes, tais como:

jogos eletrnicos; interao com o computador; identificao de passaporte; identificao e

autenticao biomtrica; aplicaes de segurana; controle de usurios em computadores e

dispositivos mveis. Em comparao com outras opes de identificao biomtrica, tais como

ris ou impresses digitais, o reconhecimento de faces apresenta a vantagem de no ser invasivo.

Por no requerer cooperao do usurio, pode ser empregado com mais facilidade.

Estas tcnicas podem ser empregadas em imagens estticas bem controladas, como fotos da

carteira de identidade. Tambm podem ser aplicadas a vdeos sem qualquer controle, como em

uma cmera de vigilncia. Em termos de tarefas, pode-se identificar mais de uma pessoa por

29

30 CAPTULO 2 ESTADO DA ARTE

Imagem

Esttica Vdeo

3D 2D

Figura 2.1 Diagrama de tipos de imagens utilizadas no reconhecimento de faces. Em destaque o nossodado de interesse: imagem esttica 2D.

foto, ou ainda reconhecer outros padres, como idade, sexo e raa. Com tantas possibilidades

de aplicaes e tipos de dados, existem especializaes destas tcnicas para problemas espec-

ficos. O objetivo desta seo contextualizar os mtodos estudados e propostos nesta tese em

um sistema de reconhecimento de faces.

O problema de reconhecimento se d em imagens estticas ou imagens de vdeo. As ima-

gens estticas podem ser 2D ou 3D. O tipo de imagens consideradas neste estudo so imagens

estticas 2D, como descrito na Figura 2.1. Um sistema de reconhecimento de faces envolve

trs passos principais segundo Zhao et al. (2003): (1) deteco e segmentao das imagens;

(2) extrao de caractersticas; (3) reconhecimento (identificao ou verificao). Este passos

esto descrito na Figura 2.2. Tais etapas so gerais o suficiente para englobar outros esquemas,

como os propostos por Huang et al. (2008) e Simonyan et al. (2013).

Huang et al. (HUANG et al., 2008) propem, para a identificao de faces, a sequncia:

deteco, alinhamento e reconhecimento. Antes de realizar o reconhecimento, detecta a posio

da face na imagem e alinhar a face. Simonyan et al. (SIMONYAN et al., 2013) propem

uma sequncia um pouco diferente: deteco de face, deteco de pontos importantes da face

(olhos, nariz, cantos da boca etc.), registro da faces (alinhamento), descritores da face (extrao

de caractersticas) e aprendizado estatstico (reconhecimento).

A deteco de faces a etapa que segmenta as imagens de face em uma fotografia. A

2.1 RECONHECIMENTO DE FACES 31

ReconhecimentoDe Faces

Deteco deFaces

Extrao deCaractersticas

Imagem Esttica 2D

Identificao Verificao

Holstica

Local

Hbrida

Autofaces

Waveletfaces

Agrupamentode Pixels

AutofacesFracionrio

Figura 2.2 Diagrama de fluxo de um sistema de reconhecimento de faces. Este estudo foca em tcnicasde extrao de caractersticas holsticas para identificao de faces.

etapa de extrao de caracterstica calcula, a partir da imagem segmentada, informaes que

sero utilizadas no reconhecimento. A etapa final, reconhecimento, aquela que fornece a

resposta, que pode ser de dois tipos: identificao ou verificao. Verificao consiste em

conferir se um determinado usurio quem ele realmente diz ser. Identificao consiste em

descobrir a identidade do usurio. Os mtodos estudados nesta tese so mtodos de extrao

de caractersticas, estes so avaliados na tarefa de identificao. As bases de dados utilizadas

recebem como entrada imagens j segmentadas, portanto no necessrio realizar deteco. E

a etapa de identificao realizada por classificadores propostos por outros autores.

Abordagens de extrao de caractersticas para o reconhecimento de faces so divididas em

trs grupos: holstica, local e hbrida (ZHAO et al., 2003). A abordagem holstica a utilizada

neste tese. Nesta abordagem, a imagem da face inteira utilizada como entrada. Na abordagem

local so extradas caractersticas para regies especficas da face, como olhos, boca e nariz. E a

abordagem hbrida configura-se como uma combinao das duas anteriores. Autofaces (Eigen-

faces) (TURK; PENTLAND, 1991) a principal tcnica na abordagem holstica. Outra tcnica


que ser discutida adiante chama-se Waveletfaces (CHIEN; WU, 2002). Ainda na Figura 2.2

constam as metodologias propostas nesta tese: Agrupamento de Pixel e Autofaces Fracionrio.

2.2 Waveletfaces

No artigo Discriminant Waveletface and Nearest Feature Classifiers for Face Recognition,

Chien e Wu (2002) tm o objetivo de aumentar a taxa de reconhecimento de faces tratando

dois aspectos do problema: extrator de caractersticas e classificador. Do ponto de vista da

classificao, utilizam como referncia o classificador de distncia pelo vizinho mais prximo

1-NN (ou NN, Nearest Neighbor).

Inspirados no classificador NFL (Nearest Feature Line, linha de caracterstica mais pr-

xima), Chien e Wu propem dois outros classificadores NFP (Nearest Feature Plane, plano

de caracterstica mais prxima) e NFS (Nearest Feature Space, espao de caractersticas mais

prximo). Enquanto o NN calcula a distncia de uma amostra de teste a cada amostra de trei-

namento, que um ponto no espao de classificao, e atribui, amostra de teste, a classe do

ponto mais prximo. O NFL forma linhas entre pares de pontos de uma mesma classe e atribui

o padro de teste classe da linha mais prxima do ponto de teste. O NFP define planos para

cada trs pontos de uma classe e atribui o padro de teste classe cujo plano mais prximo.

De forma semelhante, o NFS define um volume para cada quatro pontos de uma classe no

conjunto de treino e atribui o padro de teste classe do volume mais prximo do ponto que

representa o elemento de teste. Todos estes classificadores utilizam a distncia Euclidiana e

definem combinaes lineares das imagens de face de cada classe, criando novos prottipos

artificiais para o conjunto de treinamento.

Para extrao de caractersticas, proposto por Chien e Wu (CHIEN; WU, 2002) o Wa-

veletface discriminante, o qual depende da transformada discreta de Wavelet. A transformada

discreta Wavelet pode ser interpretada com um algoritmo que recebe como entrada um sinal

discreto (um vetor de nmeros) e duas funes, uma de aproximao e outra de detalhes. A

funo de aproximao um filtro espacial passa-baixa e a funo de detalhes um filtro espa-

2.2 WAVELETFACES 33

cial passa-alta (GONZALEZ; WOODS, 2006). Aps a convoluo do sinal com cada uma das

funes tm-se duas verses do sinal: uma aproximao, a qual contm as baixas frequncias;

e o uma de detalhes que contm as altas frequncias. Por final, cada uma das duas verses do

sinal so sub-amostradas. Se o sinal de entrada tem n observaes, cada um dos sinais de sada

aps serem sub-amostrados tem n/2 observaes. Observa-se que a sada tem n observaes,

metade de aproximao e metade de detalhes.

Para ser aplicada a imagens digitais representada por matrizes, a transformada Wavelet deve

ser primeiro aplicada s colunas depois s linhas dos resultados da primeira decomposio tambm poderia ser aplicado primeiro s linhas depois s colunas dos resultados. Aps aplicar

a transformada s colunas da imagem mn de entrada, so geradas duas matrizes (m/2)n:uma de aproximao Yl e outra de detalhe Yh, como na Figura 2.3. Para cada uma destas, aplica-

se agora a transformada s linha gerando quatro imagens (m/2) (n/2): de Yl so geradas Ylle Ylh, respectivamente a aproximao da imagem e os detalhes verticais; de Yh so geradas Yhl

e Yhh, respectivamente os detalhes horizontais e diagonais.

Para o Waveletface utiliza-se apenas a aproximao final da imagem Yll . Chien e Wu (2002)

justificam esta escolha por afirmar que a aproximao contm mais energia. Yll chamado o

primeiro nvel da Waveletface, pode-se determinar o segundo nvel achado a aproximao desta

aproximao aplicando a mesma transformao a Yll . Assim tambm so definidos os demais

nveis, terceiro, quarto etc. Em (CHIEN; WU, 2002) a Waveletface padro definida como o

terceiro nvel de aproximao. E o Waveletface discriminante o Waveletface com a dimenso

reduzida pela projeo LDA. Anlise do discriminante linear (Linear Discriminat Analysis,

LDA) encontra uma projeo linear que maximiza a separao das classes.

O par de funes Wavelet de aproximao e de detalhe podem ser vrios, estes so definidos

e acordo com algumas restries (GONZALEZ; WOODS, 2006). As funes Wavelet mais

comuns so as Wavelets de Haar, as mesmas utilizadas por Chien e Wu (2002). A aproximao

Yll de uma imagem utilizando tais funes so equivalentes a reduzir a imagem metade da

altura e metade da largura, em que a intensidade de cada pixel na imagem reduzida a mdia

dos quatro vizinhos. Portanto, o primeiro nvel da Waveletface a imagem reduzida para 1/2 da

altura e 1/2 da largura; o segundo nvel 1/4 da largura e altura; o terceiro nvel, 1/8 da largura


X

G 2Yh

G 2 Yhh

H 2 Yhl

H 2Yl

G 2 Ylh

H 2 Yll

Decomposiodos vetores

coluna

Decomposiodos vetores

linha

Figura 2.3 Diagrama de funcionamento da transformada Wavelet 2D, adapatado de (CHIEN; WU,2002).

e altura; o nvel k, 1/2k da altura e largura. Muito embora o modelo proposto por Chien e

Wu (2002) utilize a transformada Wavelet para definir que a imagem simplesmente reduzida,

deve-se estar ciente de que apenas isto que acontece na prtica. A proposta principal de Chien

e Wu (2002) no apenas reduzir a imagem atravs da transformada, mas tambm aplicar o

LDA. Pelos experimentos a seguir, ser visto que apenas a reduo da imagem contribuiu para

a melhorar a taxa de reconhecimento de faces, mesmo sem definir as projees discriminantes

atravs do LDA .

2.2.1 Experimentos do artigo

Esta subseo tem o objetivo de discutir alguns dos resultados de Chien e Wu (2002): a simples

reduo das imagens pode melhorar o reconhecimento. Em seu artigo, foram utilizadas duas

2.2 WAVELETFACES 35

bases de faces: IIS1 e ORL2. As imagens da base IIS tm dimenses 92104. Foram retiradas30 imagens de face por classe para 128 pessoas (classes), um total de 3.840 imagens. Destas,

6 imagens de cada classe foram utilizadas para treino e as outras 24 para teste. A base ORL

tem 10 imagens por classe e 40 classes, total de 400 imagens. Destas, 5 images de cada classe

foram utilizadas para treino e as demais para teste. A mdia da taxa de acerto foi calculada

para 10 rodadas deste tipo de experimento. Como citado anteriormente, foi utilizada a Wavelet

de Haar.

No primeiro experimento (apenas para a base IIS) os autores comparam Autofaces com

Waveletface no nvel 3 e no nvel 4. Para Waveletfaces no nvel 3 afirma que as imagens so

reduzidas para 12 13 = 156 caractersticas. As taxas de acerto so 91,2% para Autofacescom 156 caractersticas; 91,9% e 88,9% para Waveletface nvel 3 e 4. Tais resultados so

interessantes, pois a simples reduo da imagem apresentou um efeito melhor/equivalente que

o Autofaces para a classificao destes padres faces.

Pela Tabela 2.1, percebe-se que o Waveletfaces obtm taxa de acerto maior do que o Au-

tofaces, para o classificador NN. O mesmo pode ser notado para as verses discriminantes

destes mtodos. Outra informao interessante como os classificadores de distncia NFL,

NFP e NFS so capazes de melhorar a taxa de reconhecimento para o Waveletfaces discrimi-

nante. Para este experimento, o Waveletfaces e o Autofaces tm 156 dimenses para a base

IIS e 12 14 = 168 para ORL. As verses discriminantes dos mtodos tm 60 dimenses.Nesta tabela, o classificador MLP (Multilayer Perceptron, perceptron multicamadas), que um

classificador que segue o paradigma de redes neurais, utilizado. O resultado utilizando MLP

uma boa referncia para verificar eficcia dos classificadores baseados em distncia, pois

um classificador robusto que segue um paradigma de aprendizagem distinto dos classificado-

res baseados em distncia. Os experimentos semelhantes a estes esto descritos na seo que

segue.

1http://smart.iis.sinica.edu.tw/, Institute of Information Science (IIS) que pertence Academia Sinica, Taiwan.2http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html, Olivetti Research Laboratory (ORL).


Tabela 2.1 Taxa de reconhecimento em % para as bases de faces IIS e ORL, adaptada de (CHIEN; WU,2002).

Mtodo IIS ORLAutofaces + NN 91,2 92,0Autofaces discriminantes + NN 91,4 93,5Waveletfaces + NN 91,9 92,5Waveletfaces discriminante + NN 93,1 94,5Waveletfaces discriminante + MLP - 94,5Waveletfaces discriminante + NFL 95,4 95,0Waveletfaces discriminante + NFP 95,7 95,8Waveletfaces discriminante + NFS 96,4 96,1

2.2.2 Experimentos replicados

Esta subseo tem o objetivo de discutir alguns dos resultados de experimentos replicados,

similares aos de Chien e Wu (2002). Foi necessrio replicar os experimentos para averiguar

algumas informaes experimentais omitidas por Chien e Wu. Tambm pretende verificar o

quanto a reduo boa para o reconhecimento, e se existe realmente vantagem na verso dis-

criminante de Waveletfaces. Aqui foi utilizada apenas a base ORL, pois a base IIS no estava

mais disponvel. Apenas alguns resultados do experimento completo so descritos nesta se-

o, estes resultados so provenientes do relatrio tcnico (CARVALHO, 2008). O primeiro

dos experimentos compara a taxa de acerto para o classificador NN utilizando as imagens sem

processamento e Waveletfaces nos nveis de 1 a 5. Os resultados esto descritos na Tabela 2.2.

Vale ressaltar que o Waveletfaces utiliza as funes Wavelets de Haar, que neste caso, equivale

a reduzir as imagens em metade da altura e metade de largura da wavelefaces do nvel anterior.

Neste experimento, se o nmero de linhas e colunas mpar o pixel extra de cada linha ou

coluna descartado.

Observa-se na Tabela 2.2 que a taxa de acerto aumenta, ainda que muito pouco, quando a

imagem (e o nmero de caractersticas) diminui at o Waveletfaces nvel 3. Observe que esta

diminuio no sempre vantajosa pois o desvio padro tambm aumenta. Para o Waveletfa-

ces nvel 5 a taxa de acerto cai significativamente. Para o Waveletfaces nvel 4 a taxa de acerto

diminui pouco e o desvio padro cresce pouco em relao ao nvel anterior. Portanto este nvel

4 (com 35 dimenses) e no o nvel 3, como em (CHIEN; WU, 2002), foi escolhido para os ex-

2.2 WAVELETFACES 37

perimentos que seguem. Outras diferenas em relao ao trabalho de Chien e Wu (2002) que

o nvel 3 tem 1114 = 154 dimenses aqui contra 168 dimenses originalmente utilizadas noartigo, pois nestes experimento as regies de borda com menos de quatro pixel so descartadas.

As verses discriminantes (utilizando LDA) tm 60 dimenses no artigo original e aqui apenas

14, isto porque os experimentos desta subseo so retirados de (CARVALHO, 2008) que tinha

o objetivo de obter maior reduo possvel com um nvel equivalente de reconhecimento.

Tabela 2.2 Mdia da taxa de reconhecimento (em %) com indicao do desvio padro, para as basesde faces ORL das imagens sem transformao e nos 5 nveis de Waveletfaces utilizando o classificadorNN, retirada de (CARVALHO, 2008).

Mtodo altura largura caractersticas acerto mdio desv. pad.Waveletfaces nvel 5 23 6 74,80 2,84Waveletfaces nvel 4 57 35 93,95 1,72Waveletfaces nvel 3 1114 154 94,95 1,70Waveletfaces nvel 2 2328 644 94,70 1,32Waveletfaces nvel 1 4656 2.576 94,65 1,20Imagem sem transformao 92112 10.304 94,25 0,81

Tabela 2.3 Mdia da taxa de reconhecimento (em %) para as bases de faces ORL com indicao dodesvio padro para Autofaces discriminante e Waveletfaces discriminante com 13, 14 e 15 caractersticasextradas utilizando o classificador NN, retirada de (CARVALHO, 2008).

Nmero de caractersticasMtodo 13 14 15Autofaces discriminante 92,50 2,71 92,60 2,57 92,35 2,52Waveletfaces discriminante 93,85 1,87 94,00 1,75 94,00 1,82

Tabela 2.4 Taxa de reconhecimento (em %) para as bases de faces ORL com indicao do desviopadro para Autofaces, Autofaces Discriminante, Waveletfaces e Waveletfaces discriminante para osclassificadores NN, NFL, NFP e NFS, retirada de (CARVALHO, 2008).

Mtodo NN NFL NFP NFSAutoface 93,61,85 94,81,70 94,60,99 94,31,05Autoface discriminante 92,62,57 94,02,17 91,92,40 91,32,17Waveletfaces 93,91,72 95,21,63 95,91,19 96,01,12Waveletfaces discriminante 94,01,75 94,41,76 93,91,34 93,01,40

O restante dos experimentos que seguem tm o objetivo no apenas de comparar Wavelet-

faces e Autofaces, mas tambm suas verses discriminantes. importante verificar as reais


vantagens do Waveletfaces uma vez que alguns dos mtodos propostos aqui baseiam-se nesta

tcnica. O experimento que segue tem o objetivo de definir o nmero de caractersticas para

a verso discriminante. Na Tabela 2.3 so comparadas as verses discriminantes com 13, 14

e 15 caractersticas extradas com LDA a partir do Waveletfaces nvel 4 e o Autofaces com 35

caractersticas. utilizando o classificador NN. Para ambos os mtodos a verso discriminante

com maior taxa de acerto utiliza 14 caractersticas, portanto as verses discriminantes aqui tm

14 dimenses.

Na Tabela 2.4 comparam-se para os quatro classificadores baseados em distncia (NN, NFL,

NFP, NFS) os quatro mtodos (Autofaces, Waveletfaces e suas verses discriminantes). As

verses discriminantes, que utilizam apenas 14 caractersticas, geralmente apresentam taxa de

acerto menor que as verses cannicas, com 35 caractersticas. O mtodo que apresentou os

melhores resultados de taxa de acerto para todos os mtodos foi o Waveletfaces nvel 4, isto

a imagem reduzida para 1/16 de sua altura de 1/16 de sua largura. Os resultados para este

mtodo utilizando 35 caractersticas so equivalentes aos Waveletfaces discriminantes com 60

caractersticas de (CHIEN; WU, 2002).

Se o Waveletfaces com menos caractersticas (35 caractersticas) capaz de extrair infor-

mao suficiente para equiparar o reconhecimento do Waveletfaces discriminante (60 carac-

tersticas), pode-se conjecturar que no de fato o mtodo discriminante que melhora a taxa

de acerto, o Waveletfaces que extrai caractersticas adequadas para a classificao. Deve-se

tambm notar que os experimentos replicados utilizam muito poucas caractersticas (apenas

14) para o Waveletfaces discriminante, o que pode ser a razo de sua taxa de acerto mais baixa.

Finalmente, percebe-se que a simples reduo da imagem foi bastante adequada como mtodo

de extrao de caractersticas, obtendo acurcia mais alta que o mtodo Autofaces.

Partindo desses experimentos e entendendo que o componente de baixa frequncia da trans-

formada Wavelet de Haar aplicada a uma imagem apenas uma verso reduzida da imagem,

percebe-se que no h grande perda na acurcia do reconhecimento pelo fato de se reduzir as

imagem. A possvel explicao, a qual ser analisado nas prximas sees, que isto se d

pelo fato de agrupar pixels (caractersticas) semelhantes, que alm de no perder informao

evita redundncia ou vis para alguma varivel que se repete muito. Esta a primeira hip-

2.3 ANLISE DOS COMPONENTES PRINCIPAIS (PCA) 39

tese da tese. Antes de revisar o estado da arte dos mtodos baseados em Agrupamento de

Caractersticas, feita uma reviso do mtodo de referncia PCA.

2.3 Anlise dos Componentes Principais (PCA)

PCA, do ingls, Principal Component Analysis (Anlise dos Componentes Principais), tambm

conhecida como Transformada Karhunen-Love (THEODORIDIS; KOUTROUMBAS, 2008),

uma tcnica que projeta linearmente os dados para um subespao de menor dimensionali-

dade. Seja xi, i = 1, . . . ,n, o i-simo vetor coluna que representa uma amostra do conjunto de

treinamento. Assume-se que cada varivel tem mdia zero. Pode-se ajustar a mdia para zero

subtraindo o vetor mdio de cada amostra. A amostra projetada para uma dimenso menor

utilizando PCA yi:

yi = AT xi. (2.1)

Cada coluna de A um vetor do subespao onde xi projetado. Cada varivel yi j de yi uma

projeo de xi sobre o vetor da k-sima coluna de A. J que a mdia do conjunto de treino

zero, 1n ni=1 xi = 0, e por cada caracterstica de yi ser uma combinao linear de xi, temos

que a mdia das amostras projetadas tambm zero, 1n ni=1 yi = 0. Sendo assim a matriz de

covarincia estimada a partir dos dados projetados Sy:

Sy =1n

n

i=1

yiyTi =

1n

n

i=1

AT xixTi A = AT SxA, (2.2)

em que Sx = 1n ni=1 xixTi a matriz de covarincia estimada para os dados de entrada. Se as

colunas de A so os autovetores ortonormais de Sx, ento Sy uma matriz diagonal onde

cada elemento da diagonal j, j = 1, . . . ,m, um autovalor de A (m o nmero de dimenses

dos dados originais):

Sy = AT SxA = =

1 0

. . .

0 m

. (2.3)


Se os elementos fora da diagonal so todos zero, isto significa que a covarincia entre quaisquer

duas variveis distintas entre os dados projetados zero, ento a correlao zero. Conclui-se

que todas as variveis so no correlacionadas aps a projeo linear realizada pelo PCA.

Percebe-se tambm que o autovalor j a varincia da j-sima nova varivel.

Para realizar reduo de dimensionalidade no se utilizam todas as colunas de A, utiliza-se

apenas uma quantidade p < m. Convenciona-se sempre, ao menos que explicitamente infor-

mado, que a primeira coluna de A correspondente ao autovetor de maior autovalor associado

e que a segunda coluna de A corresponde ao autovetor com o segundo maior autovalor associ-

ado e assim por diante. As p primeiras colunas so chamadas de os componentes principais.

Desta forma a reduo de dimensionalidade pelos componentes principais se d projetando

uma amostra xi atravs da matriz Ap que contm apenas as p primeiras colunas de A. Estas

colunas so os autovetores de Sx com os maiores autovalores:

yi = ATp xi. (2.4)

Existem vrias vantagens em utilizar PCA para a reduo de dimensionalidade, das quais

so listadas apenas algumas (THEODORIDIS; KOUTROUMBAS, 2008):

As novas variveis no so correlacionadas. Como discutido sobre a Equao 2.3, as carac-

tersticas extradas so no correlacionadas. Isto indica que nenhuma dessas variveis

pode ser predita por um transformao linear a partir das outras. Isto uma enorme

vantagem pois pode-se selecionar qualquer subconjunto destas variveis sem preocupar-

se com redundncia de informao entre as caractersticas escolhidas (THEODORIDIS;

KOUTROUMBAS, 2008).

Os dados esto o mais espalhados o possvel no espao de dimenso menor. O autovetor de

maior autovalor representa direo de maior varincia no espao original dos dados. O

segundo autovetor restrito a ser ortogonal ao primeiro e representa a direo com a

segunda maior varincia no mesmo espao, e assim por diante (BISHOP, 2006). Por se

escolherem os autovetores com os maiores autovalores, as varincias so maximizadas

nas caractersticas extradas, o que pode ser interpretado como um maior espalhamento


Figura 2.4 O grfico de disperso para duas classes. Pode-se separar claramente a classe de azul (acima)da vermelha (em baixo). Aps calcular a direo de maior varincia com PCA, encontra-se uma direoquase horizontal na qual os dados projetados se confundem. Uma direo perpendicular a esta maisapropriada para a separao das classes. Figura adaptada de (BISHOP, 2006).

dos dados. Isto, porm, no significa maior separao entre classes como pode ser visto

na Figura 2.4. No ser aprofundada a discusso sobre se as projees encontrar pelos

PCA so discriminantes, pois PCA vem sendo utilizado para extrao de caractersticas

para classificao a despeito deste fato.

O erro mdio quadrtico de representao minimizado. Se a amostra projetada para ape-

nas p < m dimenses, em que m o nmero de dimenses inicial do problema, uma

amostra xi representado com uma amostra projetada yi. A reconstruo da amostra a

partir da projeo xi =pj=1 yi ja j, em que a j a j-sima coluna de A. Dado isto, o erro

mdio quadrtico entre o padro inicial e sua reconstruo a soma dos m p autovalo-res, isto a soma dos autovalores referentes aos autovetores no utilizados na reduo de

dimensionalidade:1n

n

i=1xi xi2 =

m

j=p+1

j. (2.5)

Deste modo utilizar os autovetores associados s maiores varincias, permite uma re-

construo cujo erro quadrtico mdio minimizado. Com isto espera-se que a maior

parte da informao se mantenha aps a reduo de dimensionalidade. Em (THEODO-

RIDIS; KOUTROUMBAS, 2008) afirmado que no existe outra projeo ortonormal


que obtenha um erro mdio quadrtico de representao menor que o erro obtido pelo

PCA.

Existem muitas discusses de como determinar o nmero de variveis ideal a ser extrado

com PCA (THEODORIDIS; KOUTROUMBAS, 2008; BISHOP, 2006) mas esta tese no

aborda este tema. Tambm importante notar que, para fins de classificao, pode-se esco-

lher outros autovetores que no aqueles de maior varincia mas isto tambm no faz parte do

escopo desta proposta.

2.3.1 Autofaces

Existem problemas de classificao em que o nmero de variveis maior que o nmero de

amostras, e s vezes muito maior. Estes problemas so chamados de problemas de alta dimen-

sionalidade. o caso da classificao de imagens. Se existem apenas n imagens mas cada

imagem tem m > n caractersticas (geralmente cada pixel uma caracterstica), existe um su-

bespao linear de dimenso no mximo n 1 para representar univocamente estas imagens.Neste caso, ao se aplicar PCA sero encontrados m n+ 1 autovalores zero, isto , variveiscom varincia nula. Para tais variveis o valor o mesmo em todas as amostras no conjunto de

treinamento.

Alm de no ser necessrio calcular todos os autovetores da matriz de covarincia dos da-

dos, existe o problema prtico de que para imagens muito grandes impraticvel calcular PCA

diretamente para esta matriz de covarincia. Pois o custo desse clculo para uma matriz dd O(d3) (BISHOP, 2006). A soluo encontrada uma manipulao algbrica que permite

calcular os mesmo autovalores no nulos (e respectivos autovetores) a partir de uma matriz

mm. Desta forma a soluo torna-se vivel para alguns problemas enquanto reduz o custocomputacional. Esta tcnica tornou-se bastante popular com o nome de Eigenfaces (Autofaces)

(TURK; PENTLAND, 1991). Vale ressaltar que esta tcnica no extrai nenhuma caracterstica

diferente do PCA, apenas permite calcular os componentes principais para dados de alta di-

mensionalidade.


Para calcular o PCA, parte-se da matriz de covarincia

Sx =1n

n

i=1

xixTi , (2.6)

que pode ser reescrita como

Sx =1n

XT X , (2.7)

na qual X a matriz nm onde a i-sima linha a amostra xTi . Como anteriormente, assume-seque as variveis tm mdia zero. Sendo u j um dos autovalores de Sx, tem-se

Sxu j = jui, (2.8)1n

XT Xu j = ju j, (2.9)

multiplicando-se esquerda por X ,

1n

XXT (Xu j) = j(Xu j), (2.10)

1n

XXT v j = jv j, (2.11)

em que v j = Xu j. Disto entende-se que v j autovetor d matriz XXT , uma matriz n n emcontraste com XT X que mm. Considerando que m >> n, o custo computacional parase calcular os autovetores de XXT substancialmente menor. Observa-se que XXT tem os

mesmos autovalores no nulos de XT X , ou seja, todas as direes relevantes para o PCA podem

ser extradas desta matriz. trivial calcular vi a partir de ui, mas o que se deseja o contrrio,

assumindo que os vs so ortonormais garante-se o mesmo para os us por esta transformao:

ui =1ni

XT vi. (2.12)

Com isto possvel calcular PCA para dados de alta dimensionalidade com um custo compu-

tacional bem menor. Tornando inclusive vivel alguns casos em que seria impraticvel calcular

os autovetores da matriz de covarincia original dos dados. Porm com um nmero de amostra


grande, ainda que muito menor que o nmero de dimenses, pode ser impraticvel calcular o

PCA. A soluo para estes casos reduzir o nmero de amostras. Detalhes de implementao

esto disponveis no Captulo 3. A subseo seguinte analisa a teoria da matriz de covarincia

fracionria e sua aplicao ao PCA.

2.3.2 Teoria da Matriz de Covarincia Fracionria

Gao, Zhou e Pu (2013) propuseram a teoria da matriz de covarincia fracionria e aplicaram

esta teoria ao PCA e 2D-PCA. 2D-PCA uma extenso do PCA em que a imagem no precisa

ser transformada em um vetor-coluna como no PCA, mas pode ser tratada diretamente com uma

matriz. 2D-PCA adequado para imagens mas no calcula as mesmas projees que o PCA

ou o Autofaces. Neste artigo, Gao et al. propem duas tcnicas de extrao de caractersticas:

Fractional PCA (FPCA) e o 2D Fractional PCA (2D-FPCA). Os experimentos deste artigo so

realizados em duas bases de imagens de faces que sero comentadas nos captulos seguintes:

ORL (para o FPCA) e Yale (para o 2D-FPCA).

Gao et al. motivam sua proposta pela utilizao de momentos de alta ordem e momentos

fracionrios em processamento de sinais, aps definir a varincia fracionria define a covarin-

cia fracionria como (utilizando a notao do artigo):

Cr( f (X),g(Y ))) = E[( f (X)rEr( f (X)) )(g(Y )rEr(g(Y )))], (2.13)

em que f (X) e g(Y ) so variveis aleatrias; E[.] o operador de Esperana; e r um nmero

real fracionrio chamado de ordem da covarincia fracionria, se r= 1 a covarincia fracionria

equivalente covarincia convencional.

Os autores tambm definem a matriz de covarincia fracionria de ordem r:

Cmmr = (ci j,c ji =Cr(Dimi,Dim j)), i = 1, . . . ,m, j = 1, . . . ,m, (2.14)

em que m o nmero de variveis do problema e Dimk a k-sima varivel (dimenso) do

problema. Para calcular o FPCA sobre um conjunto de n padres utilizada a matriz de cova-


rincia fracionria Cmmr ,

Cmmr =n

i=1

X (r)i (

1n

n

j=1

X j

)(r)X (r)i (

1n

n

j=1

X j

)(r)T . (2.15)Ento os dados so projetados diretamente sobre os autovetores com os maiores autovalores

desta matriz. Observa-se que nenhum ajuste nos dados realizado: nem antes de se construir

a matriz os dados so ajustados para ter mdia zero como o PCA; nem na etapa final, na qual

as amostras so projetadas. Os dados projetados so os dados brutos do conjunto de treino ou

teste.

Os experimentos utilizam as bases de imagem ORL (reduzida de 92 112 para 2328)para FPCA, e Yale (cropped) para 2D-FPCA. O mtodo utiliza valores de r no intervalo [0, 1], a

saber, r {0,01;0,1;0,2;0,3;0,4;0,5;0,6;0,7;0,8;0,9;1,0}. No caso r = 1,0 o desempenho exatamente igual tcnica de origem, como esperado. Para cada caso estimada a taxa de

contribuio dos autovalores como a soma ponderada dos p primeiros autovalores. Tambm

medida da taxa de acerto pelo classificador do vizinho mais prximo. A primeira metade das

imagens de cada classe utilizada para treino e a segunda metade para teste (na ordem original

da base). Cada tcnica proposta (FPCA e 2D-FPCA) apresenta sempre taxa de acerto maior ou

igual que a original (PCA e 2D-PCA), principalmente quando pouca dimenses so extradas.

Mais sobre este mtodo, incluindo detalhes de implementao, comentado no Captulo 3. Na

subseo que segue apresentam-se algumas notas sobre outros aspectos do PCA.

2.3.3 PCA e as propostas desta tese

A seguir esto descritas notas e comentrios sobre PCA, principalmente do livro de referncia

do Jolliffe (2002). Estas notas tm relao direta com as tcnicas propostas nesta tese, tanto no

agrupamento de caractersticas como na teoria da matriz de covarincia aplicada ao PCA.

importante notar que no h necessidade de assumir uma distribuio especfica dos da-

dos. Verifica-se ainda que o PCA pode ser calculado a partir da matriz de covarincia, da matriz

de correlao ou a partir de uma transformao linear da matriz de correlao. A escala utili-


zada para medir as variveis influencia diretamente nas suas varincias, as quais influenciam

os componentes extrados. Se um varivel tem varincia maior que as demais, esta pode domi-

nar um componente, sendo a nova caracterstica projetada apenas uma cpia da caracterstica

original. Isto tem relao direta com a teoria da matriz de covarincia fracionria, que diminui

valores muito alto das variveis.

Tambm pode ocorrer que a matriz de correlao tenha alguma forma especfica a qual

define peculiaridades para os autovetores e autovalores da matriz. Um dos principais casos, e

de bastante interesse para esta tese, quando existe um grupo de variveis cuja correlao

positiva e alta (no prxima a zero) entre todos os membros do grupo. E a correlao entre uma

varivel do grupo e outra fora do grupo prxima a zero.

Neste caso um grupo com q variveis influencia q autovetores da matriz de covarincia. Em

tais autovetores os coeficientes so prximo a zero para as variveis fora do grupo. Apenas um

destes autovetores tem autovalor alto, os demais tm autovalor prximo a zero. O componente

de maior autovalor representa aproximadamente a mdia do grupo, isto , todos os coeficientes

tm o mesmo sinal. Os demais componentes (com autovalor prximo a zero) representam

contrastes entre as variveis do grupo, isto , os componentes tm sinais diversos.

Esta observao est diretamente relacionada com a motivao para o mtodo proposto de

agrupamento de pixels. Jollife tambm afirma que se pode optar por escolher apenas uma vari-

vel por cada grupo, o que uma motivao para os mtodos de agrupamento de caractersticas,

os quais geralmente realizam seleo de caractersticas. A seo que segue discute mtodos de

extrao de caractersticas baseado em agrupamento de caractersticas.

2.4 Agrupamento de Caractersticas

Conforme suposto a partir de anlise detalhada do trabalho sobre Waveletfaces (CHIEN; WU,

2002) e como descrito por Jolliffe sobre o PCA, no caso em que ocorre um grupo de caracte-

rsticas altamente correlacionadas (JOLLIFFE, 2002), existem tcnicas de reduo de dimen-

sionalidade baseadas em agrupamento de caractersticas. Nesta seo so comentadas algumas

2.4 AGRUPAMENTO DE CARACTERSTICAS 47

destas tcnicas. As mais recentes, foram revisadas com um pouco mais de cuidado e esto cada

uma em uma subseo separada. Muitas outras tcnicas so comentadas mais brevemente na

subseo final.

2.4.1 Agrupamento difuso de caractersticas auto construtivo para classificao de

textos

A Fuzzy Self-Constructing Feature Clustering Algorithm for Text Classification (JIANG; LIOU;

LEE, 2011) foi proposto por Jiang, Liou e Lee. um algoritmo de agrupamento de caracters-

ticas que gera tanto um particionamento rgido como difuso para a extrao de caractersticas.

Ele possui a peculiaridade de que o nmero de grupos definido automaticamente de acordo

com um parmetro passado.

Como indica o nome do artigo, foi proposto para o problema de classificao de textos.

Neste problema cada documento uma amostra. Este documento transformado em um vetor

numrico. Tal vetor de caractersticas tem tantas dimenses quanto a quantidade de palavras

distintas em todos os documentos no conjunto de treinamento. Para cada documento, o va-

lor da caracterstica equivalente a uma palavra o nmero de ocorrncias desta palavras no

documento.

O algoritmo depende de um tipo particular de representao das variveis (palavras). Cada

palavra representada por um vetor-palavra, com tantas dimenses quando o nmero de clas-

ses. Para a posio equivalente a cada classe, o vetor-palavra contm a probabilidade condici-

onal daquela classe dada a palavra em questo:

P(c j|wi) =nq=1 dqiq jnq=1 dqi

, (2.16)

em que c j a j-sima classe; wi a i-sima palavra; dqi a quantidade de vezes que a palavra

wi aparece no documento dq; e q j 1, se dq pertence classe c j, e zero, caso contrrio.

Esses vetores-palavra so agrupados incrementalmente: calculada a similaridade de cada

novo vetor-palavra para cada grupo j definido. Se essa similaridade no exceder o limiar pas-

sado como parmetro, um novo grupo criado. Seno a palavra adiciona ao grupo mais


prximo. A funo de similaridade tambm pode ser interpretada como uma funo de perti-

nncia. Esta funo definidas como:

G(x) =p

i=1

exp

[(

ximii

)2], (2.17)

em que G um grupo; p o nmero de classes (o nmero de elementos do vetor-palavra); mi

a mdia do grupo para a i-sima posio dos vetores-palavras; i o desvio padro associado

a mi; exp a funo exponencial.

Aps terminar o agrupamento gera-se uma caracterstica para cada grupo. Isto pode se

dar de trs maneiras distintas (trs mtodos de extrao de caracterstica): suave, rgida ou

mista. Para o particionamento rgido, a caracterstica a mdia das caractersticas daquele

grupo. O particionamento suave extrai uma caracterstica como a mdia ponderada de todas as

caractersticas. utilizado como peso o grau de pertinncia ao grupo, calculado por G(x). O

particionamento misto similar ao suave, mas os pesos so uma combinao linear dos graus

de pertinncia do agrupamento suave e do agrupamento rgido.

O mtodo avaliado em trs bases de dados: 20 Newsgroups, 2/3 treino e 1/3 teste; RCV1,

23.149 documentos para treino e 781.265 para teste; Cade12, 2/3 treino e 1/3 teste. Utiliza as

mtricas de micro-acurcia, micro-preciso, micro-recall e micro-F1. O classificador utilizado

foi o SVM (Support Vector Machine, Mquina de Vetor de Suporte).

O mtodo foi comparado com trs outro mtodos dos quais apenas um segue o paradigma

de agrupamento de caractersticas, DC (Distributional Word Clustering) (DHILLON; MAL-

LELA; KUMAR, 2003). Os outros mtodos com os quais compara seus resultados so: IG

e IOC. IG (Information Gain), seleo de caractersticas muito simples, simplesmente ordena

as caractersticas e escolhe as k melhores (YANG; PEDERSEN, 1997). IOC (Incremental

Orthogonal Centroid), mtodo de extrao de caractersticas por projeo (similar ao PCA)

que otimiza uma funo para encontrar a matriz de projeo (YAN et al., 2006).

Para as mtricas de avaliao propostas, na maioria dos casos supera os outros mtodos

com o qual comparado. O mtodo DC ganha algumas vezes quando mais caractersticas so

extradas. Como ltima nota, os autores afirmam que o mtodo pode ser estendido trivialmente


para classificao mlti-rtulo.

2.4.2 Seleo baseada em agrupamento em grafo de caractersticas

Song, Ni e Wang propuseram A Fast Clustering-Based Feature Subset Selection Algorithm

for High-Dimensional Data (SONG; NI; WANG, 2013). Este um mtodo de seleo de

caractersticas baseado em agrupamento de caractersticas. O mtodo se baseia em sete defini-

es sobre relevncia e redundncia de uma caracterstica. O funcionamento bsico do mtodo

eliminar caractersticas irrelevantes e retundantes. Utiliza a mtrica de incerteza simtrica

(symmetric uncertainty, SU) entre duas caractersticas quaisquer:

SU(X ,Y ) =2 [H(X)H(X |Y )]

H(X)+H(Y ), (2.18)

em que H(X) a entropia da caracterstica X e H(X |Y ) a entropia condicional da caractersticaX dada a caracterstica Y . O SU tambm pode ser calculado entre uma caracterstica e a varivel

que representa a classe.

O algoritmo funciona da seguinte maneira: (1) remove as caractersticas irrelevantes, aque-

las que tm SU em relao classe abaixo de um limiar passado como parmetro; (2) constri

um grafo completamente conectado (neste grafo os ns so as caractersticas e as arestas so o

SU entre as caractersticas) e encontra a rvore espalhada mnima deste grafo para reduzir o n-

mero de arestas; (3) particiona esta rvore em uma floresta em que cada subrvore um grupo,

de cada grupo seleciona a caracterstica que tem o maior valor de SU em relao classe.

O mtodo avaliado em 35 bases de dados de 3 categorias diferentes: texto, 15; imagens

de face, 6; microarray, 14. Menos de 30 se encaixam na definio de alta dimensionalidade.

Compara a acurcia em quatro classificadores distintos: Naive Bayes, que baseado em pro-

babilidades; rvores de deciso C4.5; classificao pelo vizinho mais prximo (1-NN) com

distncia Euclidiana; e o algoritmo de gerao de regras RIPPER.

O mtodo trabalha apenas com caractersticas discretas. Para aplicao em problemas nos

quais as caractersticas so contnuas, faz-se necessrio discretiz-las. A grande contribuio

do trabalho o algoritmo de agrupamento baseado em grafos o qual incorpora as restries


de redundncia e relevncia das caractersticas. Os autores afirmam que a complexidade do

algoritmo O(n2).

2.4.3 Seleo supervisionada de caractersticas por agrupamento utilizando

informao mtua condicional

Em Supervised feature selection by clustering using conditional mutual information-based dis-

tances (SOTOCA; PLA, 2010), Sotoca & Pla propem uma medida de distncia, baseada em

informao mtua, entre os vetores de caractersticas. O objetivo agrupar as caractersticas

utilizando um algoritmo hierrquico. De cada grupo, selecionada a caracterstica que tem a

maior informao mtua em relao classe. Elimina caractersticas irrelevantes: para selecio-

nar m caractersticas, forma m+1 grupos eliminando aquele grupo que tem a menor informao

em relao a classe. As caractersticas do conjunto eliminado so chamadas caractersticas re-

siduais ou caractersticas de rudo aleatrio. Sua proposta de agrupamento de caractersticas

inspirada do trabalho de Pereira et al. (PEREIRA; TISHBY; LEE, 1993).

Sotoca & Pla provam que a medida de distncia proposta por ele minimiza o erro de classi-

ficao Bayesiano. Tal afirmao contestada por Vinh & Bailey em (VINH; BAILEY, 2013).

Os contestadores afirmam que o mtodo proposto s garante seus resultados se todas as carac-

tersticas so independentes dada a classe. Estas tambm so as condies adequadas para o

classificador Naive Bayes; na palavras deles, quando o classificador bayesiano se sai bem a o

mtodo proposto se sai bem.

Alm do que foi mostrado por Vinh & Bailey, existem outros pontos que podem ser con-

testados no trabalho de Sotoca & Pla. Os autores assumem nas suas provas que utilizar um

conjunto reduzido de caractersticas sempre vai levar a um erro Bayesiano maior do que se uti-

lizar todas as caractersticas. Este fato no vlido para classificadores de distncia, Sotoca e

Pla mostram isto quando faz a pr-seleo das caractersticas na base Gisette. Se fosse razovel

assumir tal fato, no faria sentido eliminar as caractersticas residuais.

Nos experimentos utilizam trs clasificadores: kNN3 (3-NN) classificao pela maioria da

votao dos trs vizinhos mais prximos de acordo com a distncia Euclidiana, C4.5 (rvore


de deciso) e SVM (Support Vector Machine, mquina de vetor de suporte). Utilizam bases de

dados de imagens multi-espectrais, alm de bases de alta dimensionalidade do UCI. Comparam

os resultados com trs tcnicas de seleo de caractersticas baseada apenas na ordenao,

mas que utilizam medidas relacionadas com a proposta como informao mtua. O mtodo

apresenta acurcia maior que os demais com que comparado.

2.4.4 AutoSegmentos

Em EigenSegments: A spatio-temporal decomposition of an ensemble of images (AVIDAN,

2002), Avidan discute PCA para alta dimensionalidade. Apresentam uma proposta, a qual diz

ser baseada em Anlise de Fator: calcular PCA para um grupo de caractersticas correlacio-

nadas. Para identificar os grupos correlacionados, diz que pode utilizar qualquer mtodo de

Anlise de Fator. Nos experi

agrupamento de pixels e autofaces fracionário para reconhecimento de faces

Documents