agrupamento de pixels e autofaces fracionário para reconhecimento de faces

Upload: luciano-serafim

Post on 07-Jan-2016

18 views

Category:

Documents


0 download

TRANSCRIPT

  • Universidade Federal de Pernambuco

    Centro de Informtica

    Doutorado em Cincia da Computao

    Agrupamento de Pixels e AutofacesFracionrio para Reconhecimento de

    Faces

    Tiago Buarque Assuno de Carvalho

    Tese de Doutorado

    Recife

    2015

  • Tiago Buarque Assuno de Carvalho

    Agrupamento de Pixels e Autofaces Fracionrio paraReconhecimento de Faces

    Trabalho apresentado ao Programa de Doutorado em Ci-

    ncia da Computao do Centro de Informtica da Univer-

    sidade Federal de Pernambuco como requisito parcial para

    obteno do grau de Doutor em Cincia da Computao.

    Orientador: Tsang Ing Ren

    Co-orientador: George Darmiton da Cunha Cavalcanti

    Recife

    2015

  • Catalogao na fonte

    Bibliotecria Joana DArc Leo Salvador CRB4-532

    C331a Carvalho, Tiago Buarque Assuno de.

    Agrupamento de pixel e auto-faces fracionrio para reconhecimento de faces / Tiago Buarque Assuno de Carvalho. Recife: O Autor, 2015.

    156 p.: fig., tab. Orientador: Tsang Ing Ren. Tese (Doutorado) Universidade Federal de Pernambuco. CIN,

    Cincia da Computao, 2015. Inclui referncias.

    1. Inteligncia artificial. 2. Aprendizado do computador. I. Tsang, Ing Ren (Orientador). II. Titulo.

    006.3 CDD (22. ed.) UFPE-MEI 2015-092

  • Tese de Doutorado apresentada por Tiago Buarque Assuno de Carvalho PsGraduao em Cincia da Computao do Centro de Informtica da UniversidadeFederal de Pernambuco, sob o ttulo Agrupamento-de-Pixels e Autofaces-Fracionrio para Reconhecimento de Faces orientada pelo Prof. Tsang Ing Ren eaprovada pela Banca Examinadora formada pelos professores:

    __________________________________________

    Profa. Teresa Bernarda Ludermir Centro de Informtica / UFPE

    ___________________________________________ Profa. Renata Maria Cardoso Rodrigues de Souza Centro de Informtica / UFPE ___________________________________________ Prof. Adriano Lorena Incio de Oliveira Centro de Informtica / UFPE

    ___________________________________________ Prof. Andre Carlos Ponce de Leon Ferreira de Carvalho Instituto de Cincias Matemticas e de Computao / USP

    ____________________________________________ Prof. Ricardo da Silva Torres Instituto de Computao / UNICAMP

    Visto e permitida a impresso.Recife, 23 de abril de 2015.

    ___________________________________________________Profa. Edna Natividade da Silva BarrosCoordenadora da Ps-Graduao em Cincia da Computao do Centro de Informtica da Universidade Federal de Pernambuco.

  • Resumo

    Um dos problemas de reconhecimento de faces consiste em identificar quem a pessoa cuja

    imagem do rosto est em uma fotografia. A representao digital desta imagem contm mi-

    lhares de pixels, cada um representando a intensidade de iluminao de uma minscula regio

    da imagem. O problema de reconhecimento pode ser simplificado se forem extradas pou-

    cas dezenas de caractersticas para representar toda a imagem. Neste trabalho so propostas

    duas metodologias de extrao de caractersticas. Uma destas metodologias chama-se Agrupa-

    mento de Pixels e a outra Autofaces Fracionrias. A partir de cada uma destas metodologias

    so propostas tcnicas de extrao de caractersticas. Tais tcnicas tm a mesma aplicao

    que a tcnica de referncia Autofaces (Eigenfaces): geram projees lineares das imagens de

    face. Cada uma dessas projees dita uma caracterstica extrada, a qual contm informa-

    es sobre propriedades visuais da imagem de face. Com a primeira metodologia proposta,

    Agrupamento de Pixels, so definidas duas tcnicas de extrao de caractersticas, Pedaos-

    por-valor e Pedaos-por-posio. Pedaos-por-valor define regies da face com intensidade

    similar. Pedaos-por-posio define regies por relaes de vizinhana. Em ambos os mtodos

    extrada uma caracterstica para cada regio. Estas tcnicas obtiveram taxa de reconheci-

    mento superior a outros mtodos no estado da arte. Foi demonstrado com um experimento

    com dados artificiais que esta tcnica capaz de extrair caractersticas discriminantes mesmo

    sendo uma tcnica no-supervisionada. Pedaos-por-valor tambm avaliada na aplicao de

    compresso de imagens. Demonstra-se que esta representao mais fiel ao original do que

    a compresso JPEG se comprimida ao mximo. A segunda metodologia proposta tambm

    no-supervisionada. Inspira-se em Autofaces e na tcnica no estado da arte PCA Fracionrio.

    Com esta metodologia so definidas trs tcnicas de extrao de caractersticas. Experimentos

    mostram que estas tcnicas extraem caractersticas que levam a uma taxa de reconhecimento

    maior do que as tcnicas das quais so derivadas. Um experimento em visualizao de dados

  • RESUMO

    prope uma explicao para as vantagens destas tcnicas: aumentam a fronteira de deciso; e

    aproximam os exemplos da mesma classe, diminuindo a sobreposio entre classes distintas.

    Palavras-chave: Reconhecimento de faces. Autofaces. Extrao de Caractersticas. Agrupa-

    mento de Caractersticas.

  • Abstract

    One problem in face recognition is to identify who is the person shown in a photography. The

    digital representation of such photo, an image, has thousands of pixels, each pixel represent the

    light intensity of a tiny image region. The recognition problem is simpler if dozens of features

    are extracted to represent all the image. We propose two feature extraction frameworks for

    face recognition: Pixel Clustering and Fractional Eigenfaces. Feature extraction techniques are

    defined from each framework. Such techniques are applied similarly to the benchmark method

    Eigenfaces: they define linear projections of the face images. Each projection is an extracted

    feature, which encodes face visual properties. In the proposed Pixel Clustering framework, two

    methods are defined, Intensity-patches and Position-patches. Intensity-patches defines regions

    in the image that have similar intensity values. Position-patches defines regions according to

    neighborhood of pixels. In both methods, a single feature is extracted for each region. These

    methods have higher accuracy compared to other state-of-the-art for face recognition techni-

    ques. As demonstrated in experiments with artificial data, Intensity-patches is able to extract

    discriminant features even though it is an unsupervised method. Value-patches is also used

    for image compression and, compared to the JPEG compression, it generates images more si-

    milar to the original for high level compression. The second proposed framework is inspired

    in the Fractional PCA (FPCA) method, and the Eigenfaces method for face recognition. Th-

    ree feature extraction techniques are proposed using this framework: Fractional Eigenfaces,

    Improved Fractional Eigenfaces, and Improved Eigenfaces. These methods presented higher

    accuracy rates in the face recognition problem compared to FPCA and Eigenfaces. An explana-

    tion for their performance is presented using a data visualization experiment: we show that the

    decision frontier is enlarged, and samples of the same class are approximated, avoiding class

    overlap.

  • ABSTRACT

    Keywords: Face recognition. Eigenfaces. Feature extraction. Feature clustering.

  • Lista de Figuras

    2.1 Diagrama de tipos de imagens utilizadas no reconhecimento de faces. Em des-

    taque o nosso dado de interesse: imagem esttica 2D. 30

    2.2 Diagrama de fluxo de um sistema de reconhecimento de faces. Este estudo foca

    em tcnicas de extrao de caractersticas holsticas para identificao de faces. 31

    2.3 Diagrama de funcionamento da transformada Wavelet 2D, adapatado de (CHIEN;

    WU, 2002). 34

    2.4 O grfico de disperso para duas classes. Pode-se separar claramente a classe

    de azul (acima) da vermelha (em baixo). Aps calcular a direo de maior

    varincia com PCA, encontra-se uma direo quase horizontal na qual os dados

    projetados se confundem. Uma direo perpendicular a esta mais apropriada

    para a separao das classes. Figura adaptada de (BISHOP, 2006). 41

    3.1 Fluxograma dos mtodos propostos (AFF, AFFM e AFM) mais Autofaces (AF),

    a combinao de um tipo de matriz de relao e um tipo de projeo gera um

    mtodo. 72

    4.1 Duas imagens para cada base de faces, da esquerda para a direita: Yale e ORL. 76

    4.2 Base Yale. Estes grficos sumarizam os resultados da Tabela 4.2 (Seo 4.4).

    Estes grficos apresentam a acurcia mdia pelo nmero de caractersticas ex-

    tradas para os quatro mtodos avaliados: AF (Autofaces), AFM (Autofaces

    Melhorado), AFF (Autofaces Fracionrio) e AFFM (Autofaces Fracionrio

    Melhorado). Cada grfico foca em um intervalo de caractersticas extradas. 82

  • LISTA DE FIGURAS

    4.3 Base Yale. Mxima acurcia mdia (para 10 execues de holdout) para cada

    mtodo e diferentes valores de r. Note que a acurcia para o mtodo AF no

    depende de r, mas varia para diferentes valores de r uma vez que os mesmos

    conjuntos de treino e teste so mantidos apenas para o mesmo valor de r. 86

    4.4 Base ORL. Estes grficos sumarizam os resultados da Tabela 4.4, Seo 4.6.

    Estes grficos apresentam a acurcia mdia pelo nmero de caractersticas ex-

    tradas para os quatro mtodos avaliados: AF (Autofaces), AFM (Autofaces

    Melhorado), AFF (Autofaces Fracionrio) e AFFM (Autofaces Fracionrio

    Melhorado). Cada grfico foca em um intervalo de caractersticas extradas. 87

    4.5 Base Yale. Diagrama de disperso para as 20 primeiras amostras do conjunto

    de treino. Aps a projeo atravs dos quatro mtodos analisados (Seo 4.7):

    Autofaces (AF) em cima, esquerda; Autofaces Fracionrio (AFF) em cima, di-

    reita; Autofaces Melhorado (AFM) em baixo, esquerda; Autofaces Fracionrio

    Melhorado (AFFM) em baixo, direita. Os eixos so os valores das caractersti-

    cas extradas (adimensionais) e cada smbolo representa uma classe distinta. 92

    4.6 Base ORL. Diagrama de disperso para as primeiras 30 amostras do conjunto

    de treino, aps a projeo atravs dos quatro mtodos analisados, ver Seo 4.7:

    Autofaces (AF) em cima, esquerda; Autofaces Fracionrio (AFF) em cima, di-

    reita; Autofaces Melhorado (AFM) em baixo, esquerda; Autofaces Fracionrio

    Melhorado (AFFM) em baixo, direita. Os eixos so os valores das caractersti-

    cas extradas (adimensionais) e cada smbolo representa uma classe distinta. 93

    5.1 Exemplo de vetor-de-pixel por valor (acima) e vetor-de-pixel por posio (abaixo). 99

    5.2 Fluxograma para definio de mtodo de extrao de caractersticas com a me-

    todologia proposta de agrupamento de pixels. 101

    5.3 Fluxograma dos mtodos de extrao de caractersticas: Pedaos-por-valor

    (PV), Pedaos-por-valor Fracionrio (PVF), Pedaos-por-valor Fracionrio Me-

    lhorado (PVFM) e Pedaos-por-valor Melhorado (PVM). 109

  • LISTA DE FIGURAS

    5.4 As regies de fronteira entre os 42 grupos gerados pelos algoritmo k-mdias

    para os vetores-de-pixel por posio. Da esquerda para a direita, os trs tipos

    de distncias utilizadas para gerar estas imagens so: Chebychev, city block e

    Euclidiana. 110

    5.5 Exemplos de regies formadas para pedaos por posio. A rea preta corres-

    ponde a uma regio selecionada. 112

    5.6 Fluxo para a reconstruo das imagens comprimidas. 115

    6.1 As regies da imagens de faces so particionadas utilizando o mtodo Pedaos-

    por-Valor (esquerda) e Pedaos-por-Posio (direita), para as bases ORL e

    UMIST. 119

    6.2 Acurcia mdia do mtodo Pedaos-por-Valor para vrios nmeros de caracte-

    rsticas extradas. Em trs bases de dados: Yale, ORL, e UMIST. 121

    6.3 Acurcia mdia do mtodo Pedaos-por-Valor para vrios nmero de caracte-

    rsticas extradas. Em duas bases de dados: Yale e ORL. So gerados 64, 128 e

    256 grupos, mas so selecionadas as caractersticas de maior varincia. 125

    6.4 Funes de densidade de probabilidade pra distribuies normais com desvio

    padro igual a 5. Da esquerda para a direita, as mdias das distribuies so -5,

    0, 5 e 100. 127

    6.5 Disperso dos dados artificias utilizando duas variveis escolhidas aleatoria-

    mente: uma discriminante no eixo horizontal e a outra de confuso. 129

    6.6 Base 10/1.000. Diagramas de disperso da projeo para duas dimenses uti-

    lizando PCA, esquerda; e projeo para duas caractersticas utilizando Partes-

    por-valor, direita. 130

    6.7 ndices de Silhouette no conjunto de treino da base 10/1.000, PCA (esquerda)

    e Pedaos-por-Valor (direita). 131

    6.8 Base 100/10.000. Diagramas de disperso da projeo para duas dimenses uti-

    lizando PCA, esquerda; e projeo para duas caractersticas utilizando Partes-

    por-valor, direita. 133

  • LISTA DE FIGURAS

    6.9 Base 1/100. Diagramas de disperso da projeo para duas dimenses utili-

    zando PCA, esquerda; e projeo para duas caractersticas utilizando Partes-

    por-valor, direita. 133

    6.10 Base 100/10.000. Diagramas de disperso para projeo para duas dimenses

    utilizando PCA. O grfico da esquerda mostra o conjunto de treino, e o da

    direita o conjunto de teste. 134

    6.11 Imagens originais e imagens comprimidas para as bases ORL (a-f) e Yale (g-l).

    As imagens so comprimidas com Pedaos-por-Valor e JPEG. 6.158 p. Signi-

    fica 6.158 pedaos (ou grupos). 138

  • Lista de Tabelas

    2.1 Taxa de reconhecimento em % para as bases de faces IIS e ORL, adaptada de

    (CHIEN; WU, 2002). 36

    2.2 Mdia da taxa de reconhecimento (em %) com indicao do desvio padro,

    para as bases de faces ORL das imagens sem transformao e nos 5 nveis de

    Waveletfaces utilizando o classificador NN, retirada de (CARVALHO, 2008). 37

    2.3 Mdia da taxa de reconhecimento (em %) para as bases de faces ORL com

    indicao do desvio padro para Autofaces discriminante e Waveletfaces dis-

    criminante com 13, 14 e 15 caractersticas extradas utilizando o classificador

    NN, retirada de (CARVALHO, 2008). 37

    2.4 Taxa de reconhecimento (em %) para as bases de faces ORL com indicao do

    desvio padro para Autofaces, Autofaces Discriminante, Waveletfaces e Wave-

    letfaces discriminante para os classificadores NN, NFL, NFP e NFS, retirada

    de (CARVALHO, 2008). 37

    2.5 Comparao entre os principais mtodos de agrupamento de caractersticas. 55

    2.6 Distncias mnima e mxima das amostra at o centro. Quando o nmero de

    dimenses aumenta a razo entre estas duas distncias tende a 1. 56

    2.7 ndice de Silhouette para a base ORL com as imagens no tamanho original e

    reduzido. 57

    3.1 Nomeando a tcnica de extrao de caracterstica devido matriz de covarin-

    cia e mtodo de projeo dos dados. 73

  • LISTA DE TABELAS

    4.1 Base ORL. Para cada nmero de caractersticas (k): mdia e desvio padro

    da acurrcia (em 10 repeties de holdout) para PCA Fracionrio (Fractional

    PCA, FPCA) e Autofaces Fracionrio (AFF), somente FPCA recebe como en-

    trada as imagens reduzidas para 1/4 da altura e 1/4 da largura. 80

    4.2 Base Yale. Colunas: k, nmero de caractersticas extradas; acurcia mdia e

    desvio padro para 100 repeties de holdout, para os mtodos AF, AFM, AFF

    e AFFM. A maior acurcia por linha est marcada com (+) e a menor com

    (). Uma acurcia mdia considerada significativamente diferente de outrase seus intervalos de 95% de confiana no se sobrepem. 83

    4.3 Base Yale. Mxima acurcia mdia (para 10 execues de holdout) para cada

    mtodo e diferentes valores de r. Note que a acurcia para o mtodo AF no

    depende de r, mas varia para diferentes valores de r uma vez que os mesmos

    conjuntos de treino e teste so mantidos apenas para o mesmo valor de r. 85

    4.4 Base ORL. Colunas: k, nmero de caractersticas extradas; acurcia mdia e

    desvio padro para 100 repeties de holdout, para os mtodos AF, AFM, AFF,

    AFFM. A maior acurcia por linha est marcada com (+) e a menor com ().Uma acurcia mdia considerada significativamente diferente de outra se seus

    intervalos de 95% de confiana no se sobrepem. 88

    4.5 Valor mdio do ndice de isolamento de componentes para projeo 2D. Para

    duas bases de imagens de face. O ndice melhor quanto maior seu valor. 91

    5.1 Especificao dos mtodos de extrao de caractersticas propostos sobre a me-

    todologia proposta de Agrupamento de Pixels. 107

    6.1 A acurcia para os mtodos propostos, Pedaos-por-Valor e Pedaos-por-Posio,

    comparada com outros mtodos de extrao de caractersticas no estado da

    arte. O nmero de dimenses extradas k; acurcia mdia e desvio padro e

    intervalo de confiana. 118

  • LISTA DE TABELAS

    6.2 Acurcia mdia e desvio padro para vrios classificadores. 100 repeties de

    holdout 50/50. 512 caractersticas para Pedaos-por-Valor (PV), Pedaos-por-

    Valor Melhorado (PVM), Pedaos-por-Valor Fracionrio (PVF), Pedaos-por-

    Valor Fracionrio Melhorado (PVFM). Para Autofaces (AF), Autofaces Melho-

    rado (AFM), Autofaces Fracionrio (AFF), Autofaces Fracionrio Melhorado

    (AFFM), so extraidas 82 (Yale) e 200 (ORL) caractersticas. 122

    6.3 Acurcia mdia e desvio padro para Autofaces e Pedaos-por-Valor se apenas

    1, 2, ou 3 classes so utilizadas para gerar as projees. Classificador 1-NN, 10

    repeties de holdout 50/50. 124

    6.4 Descrio das bases sintticas 1/100, 10/1.000 e 100/10.000. Cada base tem

    trs classes, cada classe com 30 amostras. N(,) indica que um conjunto de

    caractersticas segue uma distribuio normal com mdia e desvio padro . 127

    6.5 Taxas de acerto de cada base para cada tipo de extrao de caractersticas uti-

    lizando classificador 1-NN; mdia e desvio padro calculado para 10.000 (dez

    mil) repeties de experimento do tipo Hold Out estratificado 50% para treino

    e 50% para teste. 128

    6.6 Taxas de acerto para classificao na base 10/1.000 para cada tipo de extrao

    de caractersticas utilizando classificadores distintos. Mdia e desvio padro

    calculado para 100 repeties de experimento do tipo Hold Out estratificado

    50% para treino e 50% para teste. 128

    6.7 Valor mdio e desvio padro de 100 repeties de holdout para a mdias dos

    ndices Silhouette para as bases de dados artificiais, aps projeo com PCA

    e Pedaos-por-Valor (PV). Medido separadamente para o conjunto de treino e

    teste, e para ambos. 131

    6.8 Taxas de acerto para a classificao utilizando as bases artificiais e vrios clas-

    sificadores. Comparao entre PCA e Pedaos-por-Valor. 135

    6.9 The Structural SIMilarity (SSIM) index , ndice de similaridade estrutural para

    as imagens comprimidas com PV e JPEG. 140

  • Lista de Abreviaturas e siglas

    AFF Autofaces Fracionrio

    AFFM Autofaces Fracionrio Melhorado

    AFM Autofaces Melhorado

    bpp bits por pixel

    BoW Bag of visual words

    C4.5 Classificador por rvore de deciso

    DC Distributional Word Clustering

    FPCA Fractional PCA (PCA Fracionrio)

    IG Information Gain

    IOC Incremental Orthogonal Centroid

    JPEG Joint Photographic Experts Group, formato de arquivo de

    imagem

    kNN k Nearest Neighbor, classificador pelos k vizinhos mais pr-

    ximos, por exemplo, 1-NN, 3-NN

    LDA Linear Discriminat Analysis, Anlise do Discriminante Li-

    near

    LSSIM SSIM Local

    NFL Nearest Feature Line, classificador pela linha mais prxima

    NFP Nearest Feature Plane, classificador pelo plano mais pr-

    ximo

    NFS Nearest Feature Space, classificador pelo subespao mais

    prximo

  • LISTA DE ABREVIATURAS E SIGLAS

    NN Nearest Neighbor, classificador pelo vizinho mais prximo

    ORL Base de imagens de face do Olivetti Research Laboratory,

    atualmente AT&T

    PCA Princial Component Analysis (Anlise dos Componentes

    Principais)

    PNG Portable Network Graphics, formato de arquivo de imagem

    PP Pedaos-por-Posio

    PV Pedaos-por-valor

    PVF Pedaos-por-valor Fracionrio

    PVFM Pedaos-por-valor Fracionrio Melhorado

    PVM Pedaos-por-valor Melhorado

    SSIM The Structural SIMilarity (SSIM) index , ndice de similari-

    dade estrutural

    SU symmetric uncertainty

    SVM Support Vector Machine, classificador por mquina de vetor

    de suporte

    UCI University of California Irvine Machine Learning Reposi-

    tory

    UMIST Base de imagens de face da University of Manchester Insti-

    tute of Science and Technology, atualmente The University

    of Sheffield

  • Lista de Algoritmos

    3.1 Reduo de dimensionalidade com PCA 64

    3.2 Reduo de dimensionalidade com FPCA (PCA Fracionrio) 66

    3.3 Reduo de dimensionalidade com Autofaces (AF) 67

    3.4 Reduo de dimensionalidade com Autofaces Fracionrio (AFF) 69

    3.5 Reduo de dimensionalidade com Autofaces Fracionrio Melhorado (AFFM) 70

    3.6 Reduo de dimensionalidade com Autofaces Melhorado (AFM) 71

  • Sumrio

    1 Introduo 21

    1.1 Objetivos 25

    1.2 Hipteses e questes da pesquisa 26

    1.3 Estrutura da Tese 27

    2 Estado da arte 29

    2.1 Reconhecimento de faces 29

    2.2 Waveletfaces 32

    2.2.1 Experimentos do artigo 34

    2.2.2 Experimentos replicados 36

    2.3 Anlise dos Componentes Principais (PCA) 39

    2.3.1 Autofaces 42

    2.3.2 Teoria da Matriz de Covarincia Fracionria 44

    2.3.3 PCA e as propostas desta tese 45

    2.4 Agrupamento de Caractersticas 46

    2.4.1 Agrupamento difuso de caractersticas auto construtivo para classifica-

    o de textos 47

    2.4.2 Seleo baseada em agrupamento em grafo de caractersticas 49

    2.4.3 Seleo supervisionada de caractersticas por agrupamento utilizando

    informao mtua condicional 50

    2.4.4 AutoSegmentos 51

    2.4.5 Outros trabalhos 52

    2.5 Maldio da dimensionalidade 54

    2.6 Concluses 57

  • SUMRIO

    3 Autofaces Fracionrio 61

    3.1 Mtodos relacionados 63

    3.1.1 PCA Fracionrio (FPCA) 64

    3.1.2 Autofaces (AF) 65

    3.2 Mtodos propostos 68

    3.3 Autofaces Fracionrio (AFF) 68

    3.4 Autofaces Fracionrio Melhorado (AFFM) 69

    3.5 Autofaces Melhorado (AFM) 70

    3.6 Concluso 71

    4 Experimentos com Autofaces Fracionrio 75

    4.1 Configurao para os experimentos 76

    4.2 Teste de hiptese por sobreposio de intervalos de confiana 77

    4.3 Experimento para PCA Fracionrio e Autofaces Fracionrio 78

    4.4 Experimentos para a base de faces Yale 79

    4.5 Experimentos para se escolher o parmetro fracionrio r 81

    4.6 Experimentos para a base de faces ORL 84

    4.7 Visualizao de dados 87

    4.8 Concluso 94

    5 Agrupamento de Pixels 97

    5.1 Vetor-de-pixel 98

    5.2 Definindo um mtodo de extrao de caractersticas 99

    5.3 Exemplo 101

    5.4 Pedaos-por-Valor 102

    5.4.1 Vetor-de-pixel por valor 103

    5.4.2 Agrupamento 103

    5.4.3 Extrao de Caractersticas 104

    5.4.4 Nmero de caractersticas extradas igual ao nmero de grupos 105

    5.4.5 Nmero de caractersticas extradas menor que nmero de grupos 106

  • SUMRIO

    5.4.6 Consideraes 106

    5.5 Pedaos-por-valor Fracionrio 107

    5.6 Pedaos-por-Posio 108

    5.6.1 Vetor-de-pixel por posio 110

    5.6.2 Algoritmo de agrupamento 111

    5.6.3 Extrao de caractersticas 112

    5.6.4 Consideraes 113

    5.7 Reconstruo e compresso de imagens 113

    5.8 Concluso 116

    6 Experimentos com Agrupamento de Pixels 117

    6.1 Resultados no estado-da-arte 117

    6.2 Escolhendo o nmero de caractersticas extradas 120

    6.3 Pedaos-por-Valor Fracionrio e outros classificadores 121

    6.4 Inserindo novas classes 123

    6.5 Formando mais grupos do que o nmero de caractersticas 125

    6.6 Experimento com dados artificiais 126

    6.7 Compresso de imagens 135

    6.8 Concluso 140

    7 Concluses 143

    7.1 Concluses sobre as hipteses 144

    7.2 Trabalhos Futuros em Autofaces Fracionrio 145

    7.3 Trabalhos Futuros em Agrupamento de Pixels 146

    7.4 Consideraes finais 149

    Referncias 151

  • CAPTULO 1

    Introduo

    Reconhecimento de faces uma tarefa trivial ao ser humano, mas tem sido um desafio para a

    viso computacional. O reconhecimento pode se dar a partir de trs fontes distintas de imagens:

    vdeos, imagens estticas 2D e imagens 3D (ZHAO et al., 2003). Nesta tese so abordadas

    apenas imagens estticas 2D. Exemplos deste tipo de imagem so fotografias de faces. Embora

    muitas das informaes nos pargrafos seguintes tambm possam ser aplicadas aos outros tipos

    de imagens de face, a discusso restringe-se a imagens estticas 2D.

    Um sistema genrico de reconhecimento de faces possui trs principais etapas: deteco da

    face, extrao de caractersticas e reconhecimento (ZHAO et al., 2003). A deteco de faces

    consiste em encontrar em qual regio da imagem est a face. A extrao de caractersticas a

    etapa que processa a imagem em busca de informaes representativas e teis para classific-

    las. Esta etapa depende fortemente da aplicao. Por exemplo, caractersticas para reconhecer

    uma pessoa da foto podem no ser to teis para identificar a expresso da face. A etapa

    de reconhecimento aquela na qual se utiliza um classificador para realizar ou a tarefa de

    verificao ou identificao.

    Utiliza-se a seguinte definio de classificador: um mtodo computacional capaz de apren-

    der, a partir de exemplos (conjunto de treinamento), a classificar novos exemplos (conjunto de

    teste). Cada exemplo pode ser representado por uma coleo de caractersticas extradas das

    imagens de face e as classes so definidas pelo problema: nome da pessoa, ou expresso da

    face etc. A tarefa de verificao consiste em averiguar se aquela imagem representa o que o

    usurio diz representar, exemplos: autenticao de usurio, verifica se a imagem de um usurio

    corresponde ou no ao usurio em questo; identificao de sorriso, tenta perceber quando a

    pessoa est sorrindo ou no (recurso comum em cmeras fotogrficas). Quando o reconhe-

    cimento no especificado entre identificao ou verificao, entende-se que identificao.

    Esta tarefa consiste em classificar a face em uma entre vrias opes, exemplos: identificar

    21

  • 22 CAPTULO 1 INTRODUO

    quem a pessoa da foto; identificar a expresso da face (alegre, triste, nervoso, assustado, entre

    outras).

    Huang et al. (HUANG et al., 2008) propem, para a identificao de faces, a sequncia:

    deteco, alinhamento e reconhecimento. Antes de realizar o reconhecimento, detecta-se a po-

    sio da face na imagem e alinha-se a face. Na etapa de deteco, eles optaram por utilizar

    o algoritmo de Viola & Jones (VIOLA; JONES, 2004, 2001). Portanto Huang et al. focam

    apenas nas etapas de alinhamento e reconhecimento. Simonyan et al. (SIMONYAN et al.,

    2013) propem uma sequncia um pouco diferente: deteco de face, deteco de pontos im-

    portantes da face (olhos, nariz, cantos da boca etc.), registro da face (alinhamento), descritores

    da face (extrao de caractersticas) e aprendizado estatstico (reconhecimento). Simonyan et

    al. tambm utiliza o algoritmo de Viola & Jones para a deteco e componentes do sistema de

    reconhecimento desenvolvidos por outros autores nas demais etapas, focando na extrao de

    caractersticas.

    Cada um destes elementos (deteco, extrao de caractersticas, reconhecimento) tem um

    papel importante em um sistema de reconhecimento de faces. Como realizado pelos autores

    comentados acima (HUANG et al., 2008; SIMONYAN et al., 2013) e por outros (ZHAO et

    al., 2003; JONES, 2009), as pesquisas focam em resolver problemas em apenas uma etapa.

    O foco desta tese a extrao de caractersticas. Para tanto assume que estas etapas de pr-

    processamento esto resolvidas: a imagem recebida como entrada est devidamente recortada

    e alinhada. E na etapa de reconhecimento utiliza classificadores propostos por outros autores.

    Jones (JONES, 2009) analisa vrios artigos desenvolvidos em reconhecimento de faces e

    enumera os problemas desta tarefa: iluminao irregular na foto, pose (rotao da cabea),

    expresso do rosto, envelhecimento/crescimento da pessoa, alinhamento impreciso. Dentre

    estes problemas a pose um problema bastante severo, pois a imagem do perfil de uma face

    bem diferente da imagem frontal da mesma face, uma abordagem para corrigir este problema

    proposta por Yi et al. (YI; LEI; LI, 2013), um modelo para mapear imagens 2D em um modelo

    3D de face. Na presente tese tambm assumido que as imagens no apresentam problemas

    severos de pose e alinhamento, e que as tcnicas propostas poderiam ser utilizadas em qualquer

    base se estes problemas fossem corrigidos com algum pr-processamento como o proposto por

  • CAPTULO 1 INTRODUO 23

    Yi et al.

    vlido enfatizar que as imagens de face utilizadas aqui so: estticas, 2D, em tons de

    cinza, recortadas e contendo apenas a regio da face, bem centralizadas, sem srios problemas

    de pose e rotao da cabea, contendo algum problema de iluminao. Assume-se a represen-

    tao de uma imagem como uma matriz onde cada posio da matriz denominada pixel e tem

    seu valor em um intervalo, geralmente [0, 255]. Com estas restries, as imagens de face so

    dados de alta dimensionalidade em que muitas variveis so correlacionadas. Os dados tm

    alta dimensionalidade porque cada pixel da imagem considerado uma caracterstica e mesmo

    para imagens pequenas o nmero de pixels muito alto, por exemplo, uma imagem 100100tem 10.000 caractersticas.

    A expresso alta dimensionalidade tambm empregada quando o nmero de caractersti-

    cas muito maior que o nmero de exemplos de treino (HASTIE; TIBSHIRANI; FRIEDMAN,

    2001), o que tambm ocorre com as imagens de face. Esses dados tm muitas caractersticas

    correlacionadas porque vrias regies da imagem tm intensidade de pixels semelhantes, por

    exemplo os pixels na regio de: pelo, cabelo, olhos, barba etc. Desta maneira a extrao de ca-

    ractersticas tem o objetivo no apenas de gerar novas caractersticas discriminantes (capaz de

    melhor separar as classes), como tambm reduzir a dimensionalidade do problema, por exem-

    plo, de 10.000 para 40 caractersticas (cada caracterstica interpretada como uma dimenso).

    Pode-se assumir que os pixels de cada imagem representam regies correspondentes. Por

    exemplo, um pixel que representa uma regio na bochecha de uma pessoa deve representar

    tambm a regio da bochecha na maioria das imagens. Com as faces alinhadas desta ma-

    neira, faz sentido compar-las atravs de uma medida de distncia, como a distncia Euclidiana,

    por exemplo. Desta maneira, tambm restringem-se os algoritmos de classificao utilizados.

    Utiliza-se principalmente o classificador pelo vizinho mais prximo (1-NN, 1-Nearest Neigh-

    bor), o qual atribui para uma nova imagem de face a mesma classe da imagem mais prxima

    de acordo com a distncia Euclidiana.

    Uma vez delimitados os demais elementos do sistema de reconhecimento de faces, so

    propostos algoritmos de extrao de caractersticas para reduzir as dimenses destes dados de

    alta dimensionalidade. Tais algoritmos so no-supervisionados, isto , no dependem dos

  • 24 CAPTULO 1 INTRODUO

    rtulos das classes das amostras de treino. Um dos grupos de algoritmos propostos foram

    inspirados no mtodo Waveletfaces (CHIEN; WU, 2002). Aps uma anlise detalhada deste

    mtodo percebeu-se que a simples reduo da imagem funciona muito bem como extrao de

    caracterstica, no diminuindo o erro de classificao at um certo limite de reduo.

    Como reduzir a imagem no impacta a taxa de reconhecimento de faces? Na tentativa de

    explicar esse fenmeno proposta nesta tese a metodologia de Agrupamento de Pixels. Esta

    metodologia coloca em um mesmo grupo os pixels com intensidade semelhante em todas as

    imagens do conjunto de treinamento. Cada grupo define uma regio cuja mdia em cada ima-

    gem uma caracterstica extrada. Na literatura foram encontrados trabalhos semelhantes

    proposta de agrupamento de pixels, chamadas Agrupamento de Caractersticas. A grande mai-

    oria deste trabalhos foca na tarefa de reconhecimento de texto, apenas os trabalhos de Avidan et

    al. (AVIDAN, 2002; AVIDAN; BUTMAN, 2004) e Song et al. (SONG; NI; WANG, 2013) uti-

    lizam bases de dados de faces. Apenas o trabalho Eigensegments (AVIDAN, 2002) de Avidan

    aborda diretamente o problema de identificao de faces. Diferentemente do mtodo proposto

    nesta tese, Avidan extrai caractersticas utilizando utilizando Eigenfaces (TURK; PENTLAND,

    1991).

    Para comparar os mtodos propostos, utilizou-se uma das tcnicas de extrao de caracte-

    rsticas mais conhecidas para o reconhecimento de faces, o Autofaces (ou Eigenfaces) (TURK;

    PENTLAND, 1991). Este extrator de caractersticas uma verso da Anlise dos Componentes

    Principais (PCA, Principal Component Analysis) para dados de alta dimensionalidade. Consi-

    derando a Teoria da Matriz de Covarincia Fracionria e as projees mais discriminantes para

    a classificao quanto utilizada no mtodo no estado da arte PCA Fracionrio (GAO; ZHOU;

    PU, 2013), foi proposto o mtodo de Autofaces Fracionrio. Esta uma contribuio desta tese

    j publicada nos anais da IEEE International Conference on Image Processing (CARVALHO

    et al., 2014).

  • 1.1 OBJETIVOS 25

    1.1 Objetivos

    O nmero muito alto de dimenses se torna um fator limitante para a tarefa de classificao.

    Este fenmeno conhecido como maldio da dimensionalidade (Seo 2.5). Reduzir a di-

    mensionalidade dos dados uma forma de aumentar a taxa de classificaes corretas. Existem

    diversas maneira de reduzir a dimensionalidade. Um paradigma muito comum atravs de

    projees lineares.

    Uma amostra (ou padro, ou exemplo) representado por um vetor x. No problema de

    reconhecimento de faces, este vetor contm todos os valores de intensidade dos pixels de uma

    imagem de face. Um exemplo x com sua dimenso reduzida pode ser calculado projetando o

    exemplo original x atravs da multiplicao com a matriz de projeo W :

    x =Wx. (1.1)

    O mtodo de extrao de caractersticas mais utilizado no reconhecimento de faces, Auto-

    faces, realiza uma projeo linear. Da mesma forma fazem Waveletfaces e PCA Fracionrio.

    O objetivo geral nesta tese propor novos mtodos de extrao de caractersticas a partir de

    mtodos de extrao de caractersticas tais como Autofaces, PCA Fracionrio, Waveletfaces,

    alm de mtodos baseados em Agrupamento de Caractersticas,.

    Os objetivos especficos so:

    restringir a pesquisa a problemas com dados de alta dimensionalidade e que possuem

    muitas caractersticas correlacionadas, em particular dados de imagens de faces correta-

    mente detectadas e alinhadas;

    levantar hipteses de como os mtodos de origem remediam o problema especificado;

    propor novos mtodos utilizando as hipteses levantadas;

    restringir os mtodos proposto a transformaes lineares (Equao 1.1) como os mtodos

    de origem;

    validar as hipteses atravs de experimentos com os mtodos propostos;

  • 26 CAPTULO 1 INTRODUO

    ajustar os mtodos propostos para obter acurcia no reconhecimento de faces maior ou

    equivalente acurcia obtida nos mtodos dos quais so derivados.

    1.2 Hipteses e questes da pesquisa

    Foram consideradas quatro hipteses. As duas primeiras so provenientes do Waveletfaces, as

    outras duas da Teoria da Matriz de Covarincia Fracionria. A conexo entre Waveletfaces

    e a Teoria da Matriz de Covarincia Fracionria a tcnica de referncia para extrao de

    caractersticas para o reconhecimento de faces: Autofaces. As hiptese so listadas a seguir.

    1. O mtodo Waveletfaces pode ser interpretado como um mtodo de agrupamento de ca-

    ractersticas.

    2. possvel definir uma generalizao para Waveletfaces. A partir desta generalizao

    possvel definir outros mtodos de extrao de caractersticas.

    3. A Matriz de Covarincia Fracionria pode ser utilizada em problemas de extrao de ca-

    ractersticas em dados de alta dimensionalidade. Em outras palavras, possvel estender

    o PCA Fracionrio para problemas de alta dimensionalidade.

    4. possvel isolar a transformao realizada nos dados para se computar a Matriz de Co-

    varincia Fracionria. Esta transformao fracionria pode ser utilizada em outras etapas

    da extrao de caractersticas alm da construo da Matriz de Covarincia Fracionria.

    Waveletfaces pode ser interpretado como uma reduo da imagem. Como a simples reduo

    pode ser to conveniente para a classificao? Informao perdida com a reduo da imagem.

    E por que esta informao eliminada parece ser quase irrelevante para a classificao? Disto

    surge a primeira hiptese: pouca informao perdida pois cada caracterstica extrada a

    mdia de caractersticas semelhantes. Waveletfaces pode ser interpretado como um mtodo

    de agrupamento de caractersticas. Qual algoritmo de agrupamento geraria estas regies?

    possvel construir transformaes lineares como as do Autofaces?

  • 1.3 ESTRUTURA DA TESE 27

    Se possvel definir Waveletfaces como um mtodo de Agrupamento de Caractersticas,

    possvel generalizar um mtodo para extrao de caractersticas do qual Waveletfaces se tor-

    naria um caso particular? A partir desta generalizao possvel definir um novo mtodo de

    extrao de caractersticas? Estas questes formaram a segunda hiptese da tese. Como respos-

    tas a essas questes foram propostos dois mtodos de extrao de caractersticas. Tais mtodos

    extraem caractersticas como projees lineares, inspirados na tcnica de referncia Autofaces.

    Uma vez que Autofaces (PCA) uma das tcnicas mais utilizadas para extrao de caracters-

    ticas para reconhecimento de faces, muito importante compar-la com as tcnicas propostas

    nesta tese.

    Tambm foi considerada a contribuio do PCA Fracionrio para o reconhecimento de

    faces. Tal mtodo, contudo, apresentava a limitao de no conseguir tratar com dados de

    alta dimensionalidade. Era necessrio reduzir as imagens de face. Tal procedimento em si j

    era uma transformao nos dados, como demonstrado pelo Waveletfaces. Ser que a Teoria da

    Matriz de Covarincia Fracionria tambm pode ser aplicada a dados de alta dimensionalidade?

    Desta questo surge a terceira hiptese da tese.

    No esforo de estender o PCA Fracionrio para problemas de alta dimensionalidade, foi

    percebido que a Matriz de Covarincia Fracionria pode ser calculada mais facilmente se os

    dados forem pr-processados de uma maneira especfica. Chama-se este pr-processamento de

    Transformao Fracionria. Esta transformao no PCA Fracionrio utilizada apenas para se

    construir a Matriz de Covarincia Fracionria. E se fossem projetados os dados transformados

    e no os dados brutos? Desta questo surge a quarta hiptese desta tese. Na seo seguinte est

    uma descrio do restante do contedo da tese.

    Na seo seguinte est uma descrio do restante do contedo da tese.

    1.3 Estrutura da Tese

    O restante da tese est organizada da seguinte forma:

    Captulo 2: Inicia com uma breve reviso sobre reconhecimento de faces. Em seguida, apre-

  • 28 CAPTULO 1 INTRODUO

    senta uma reviso da literatura dos mtodos relacionados a este trabalho. Revisando o

    mtodo de Waveletfaces. Depois, revisa os mtodos PCA, Autofaces e teoria da matriz de

    covarincia fracionria, fazendo uma lista de notas e comentrios sobre peculiaridades do

    mtodo, inclusive relacionadas com o agrupamento de caractersticas. So comentados

    alguns mtodos de reduo de dimensionalidade baseados em agrupamento de caracte-

    rsticas. Tambm discutida a maldio da dimensionalidade.

    Captulo 3: Descreve as propostas dos mtodos Autofaces Fracionrio, extenses do PCA

    Fracionrio para dados de alta dimensionalidade. Partindo do PCA, PCA Fracionrio

    e do Autofaces (AF), so definidos outros trs mtodos de extrao de caractersticas:

    Autofaces Fracionrias (AFF), Autofaces Fracionrio Melhorado (AFFM) e Autofaces

    Melhorado (AFM).

    Captulo 4: Apresenta uma avaliao experimental das propostas do captulo anterior no re-

    conhecimento de faces. Neste captulo so comparados PCA Fracionrio, Autofaces,

    Autofaces Fracionrias, Autofaces Fracionrio Melhorado e Autofaces Melhorado.

    Captulo 5: Neste captulo proposta a metodologia de Agrupamento de Pixels para redu-

    o de dimensionalidade em imagens. Com a metodologia proposta so definidos dois

    principais mtodos de reduo de dimensionalidade: Pedaos-por-Valor (PV) e Pedaos-

    por-Posio (PP). Alm disto, discutido como pode ser aplicado ao reconhecimento de

    faces e compresso de imagens.

    Captulo 6: Apresenta uma avaliao experimental das propostas de Agrupamento de Pixels

    tanto para o reconhecimento de faces como para a compresso de imagens. Alm de

    experimentos com dados artificiais.

    Captulo 7: Apresenta as consideraes finais da tese e as propostas de trabalhos futuros.

  • CAPTULO 2

    Estado da arte

    Neste captulo realizada uma reviso de algumas tcnicas de extrao de caractersticas que

    esto relacionadas com esta tese. Waveletfaces a tcnica de extrao de caractersticas para

    reconhecimento de faces que foi o ponto inicial deste trabalho. Anlise dos Componentes Prin-

    cipais (PCA, Principal Component Analysis) uma tcnica estatstica que extrai caracterstica

    mantendo o mximo possvel de varincia dos dados. Este mtodo amplamente utilizado para

    o reconhecimento de faces, tambm a base para o mtodo no estado da arte: PCA Fracionrio.

    Baseado nas anlises sobre Waveletfaces e PCA, considerando as hipteses levantadas, foram

    revisados os mtodos de reduo de dimensionalidade baseados em Agrupamento de Caracte-

    rsticas. No final do captulo abordada a maldio da dimensionalidade. Antes de discutir

    sobre as tcnicas extrao de caractersticas, realizada uma breve reviso sobre reconheci-

    mento de faces.

    2.1 Reconhecimento de faces

    Reconhecimento de faces uma tarefa que pode ser utilizada em vrias aplicaes, tais como:

    jogos eletrnicos; interao com o computador; identificao de passaporte; identificao e

    autenticao biomtrica; aplicaes de segurana; controle de usurios em computadores e

    dispositivos mveis. Em comparao com outras opes de identificao biomtrica, tais como

    ris ou impresses digitais, o reconhecimento de faces apresenta a vantagem de no ser invasivo.

    Por no requerer cooperao do usurio, pode ser empregado com mais facilidade.

    Estas tcnicas podem ser empregadas em imagens estticas bem controladas, como fotos da

    carteira de identidade. Tambm podem ser aplicadas a vdeos sem qualquer controle, como em

    uma cmera de vigilncia. Em termos de tarefas, pode-se identificar mais de uma pessoa por

    29

  • 30 CAPTULO 2 ESTADO DA ARTE

    Imagem

    Esttica Vdeo

    3D 2D

    Figura 2.1 Diagrama de tipos de imagens utilizadas no reconhecimento de faces. Em destaque o nossodado de interesse: imagem esttica 2D.

    foto, ou ainda reconhecer outros padres, como idade, sexo e raa. Com tantas possibilidades

    de aplicaes e tipos de dados, existem especializaes destas tcnicas para problemas espec-

    ficos. O objetivo desta seo contextualizar os mtodos estudados e propostos nesta tese em

    um sistema de reconhecimento de faces.

    O problema de reconhecimento se d em imagens estticas ou imagens de vdeo. As ima-

    gens estticas podem ser 2D ou 3D. O tipo de imagens consideradas neste estudo so imagens

    estticas 2D, como descrito na Figura 2.1. Um sistema de reconhecimento de faces envolve

    trs passos principais segundo Zhao et al. (2003): (1) deteco e segmentao das imagens;

    (2) extrao de caractersticas; (3) reconhecimento (identificao ou verificao). Este passos

    esto descrito na Figura 2.2. Tais etapas so gerais o suficiente para englobar outros esquemas,

    como os propostos por Huang et al. (2008) e Simonyan et al. (2013).

    Huang et al. (HUANG et al., 2008) propem, para a identificao de faces, a sequncia:

    deteco, alinhamento e reconhecimento. Antes de realizar o reconhecimento, detecta a posio

    da face na imagem e alinhar a face. Simonyan et al. (SIMONYAN et al., 2013) propem

    uma sequncia um pouco diferente: deteco de face, deteco de pontos importantes da face

    (olhos, nariz, cantos da boca etc.), registro da faces (alinhamento), descritores da face (extrao

    de caractersticas) e aprendizado estatstico (reconhecimento).

    A deteco de faces a etapa que segmenta as imagens de face em uma fotografia. A

  • 2.1 RECONHECIMENTO DE FACES 31

    ReconhecimentoDe Faces

    Deteco deFaces

    Extrao deCaractersticas

    Imagem Esttica 2D

    Identificao Verificao

    Holstica

    Local

    Hbrida

    Autofaces

    Waveletfaces

    Agrupamentode Pixels

    AutofacesFracionrio

    Figura 2.2 Diagrama de fluxo de um sistema de reconhecimento de faces. Este estudo foca em tcnicasde extrao de caractersticas holsticas para identificao de faces.

    etapa de extrao de caracterstica calcula, a partir da imagem segmentada, informaes que

    sero utilizadas no reconhecimento. A etapa final, reconhecimento, aquela que fornece a

    resposta, que pode ser de dois tipos: identificao ou verificao. Verificao consiste em

    conferir se um determinado usurio quem ele realmente diz ser. Identificao consiste em

    descobrir a identidade do usurio. Os mtodos estudados nesta tese so mtodos de extrao

    de caractersticas, estes so avaliados na tarefa de identificao. As bases de dados utilizadas

    recebem como entrada imagens j segmentadas, portanto no necessrio realizar deteco. E

    a etapa de identificao realizada por classificadores propostos por outros autores.

    Abordagens de extrao de caractersticas para o reconhecimento de faces so divididas em

    trs grupos: holstica, local e hbrida (ZHAO et al., 2003). A abordagem holstica a utilizada

    neste tese. Nesta abordagem, a imagem da face inteira utilizada como entrada. Na abordagem

    local so extradas caractersticas para regies especficas da face, como olhos, boca e nariz. E a

    abordagem hbrida configura-se como uma combinao das duas anteriores. Autofaces (Eigen-

    faces) (TURK; PENTLAND, 1991) a principal tcnica na abordagem holstica. Outra tcnica

  • 32 CAPTULO 2 ESTADO DA ARTE

    que ser discutida adiante chama-se Waveletfaces (CHIEN; WU, 2002). Ainda na Figura 2.2

    constam as metodologias propostas nesta tese: Agrupamento de Pixel e Autofaces Fracionrio.

    2.2 Waveletfaces

    No artigo Discriminant Waveletface and Nearest Feature Classifiers for Face Recognition,

    Chien e Wu (2002) tm o objetivo de aumentar a taxa de reconhecimento de faces tratando

    dois aspectos do problema: extrator de caractersticas e classificador. Do ponto de vista da

    classificao, utilizam como referncia o classificador de distncia pelo vizinho mais prximo

    1-NN (ou NN, Nearest Neighbor).

    Inspirados no classificador NFL (Nearest Feature Line, linha de caracterstica mais pr-

    xima), Chien e Wu propem dois outros classificadores NFP (Nearest Feature Plane, plano

    de caracterstica mais prxima) e NFS (Nearest Feature Space, espao de caractersticas mais

    prximo). Enquanto o NN calcula a distncia de uma amostra de teste a cada amostra de trei-

    namento, que um ponto no espao de classificao, e atribui, amostra de teste, a classe do

    ponto mais prximo. O NFL forma linhas entre pares de pontos de uma mesma classe e atribui

    o padro de teste classe da linha mais prxima do ponto de teste. O NFP define planos para

    cada trs pontos de uma classe e atribui o padro de teste classe cujo plano mais prximo.

    De forma semelhante, o NFS define um volume para cada quatro pontos de uma classe no

    conjunto de treino e atribui o padro de teste classe do volume mais prximo do ponto que

    representa o elemento de teste. Todos estes classificadores utilizam a distncia Euclidiana e

    definem combinaes lineares das imagens de face de cada classe, criando novos prottipos

    artificiais para o conjunto de treinamento.

    Para extrao de caractersticas, proposto por Chien e Wu (CHIEN; WU, 2002) o Wa-

    veletface discriminante, o qual depende da transformada discreta de Wavelet. A transformada

    discreta Wavelet pode ser interpretada com um algoritmo que recebe como entrada um sinal

    discreto (um vetor de nmeros) e duas funes, uma de aproximao e outra de detalhes. A

    funo de aproximao um filtro espacial passa-baixa e a funo de detalhes um filtro espa-

  • 2.2 WAVELETFACES 33

    cial passa-alta (GONZALEZ; WOODS, 2006). Aps a convoluo do sinal com cada uma das

    funes tm-se duas verses do sinal: uma aproximao, a qual contm as baixas frequncias;

    e o uma de detalhes que contm as altas frequncias. Por final, cada uma das duas verses do

    sinal so sub-amostradas. Se o sinal de entrada tem n observaes, cada um dos sinais de sada

    aps serem sub-amostrados tem n/2 observaes. Observa-se que a sada tem n observaes,

    metade de aproximao e metade de detalhes.

    Para ser aplicada a imagens digitais representada por matrizes, a transformada Wavelet deve

    ser primeiro aplicada s colunas depois s linhas dos resultados da primeira decomposio tambm poderia ser aplicado primeiro s linhas depois s colunas dos resultados. Aps aplicar

    a transformada s colunas da imagem mn de entrada, so geradas duas matrizes (m/2)n:uma de aproximao Yl e outra de detalhe Yh, como na Figura 2.3. Para cada uma destas, aplica-

    se agora a transformada s linha gerando quatro imagens (m/2) (n/2): de Yl so geradas Ylle Ylh, respectivamente a aproximao da imagem e os detalhes verticais; de Yh so geradas Yhl

    e Yhh, respectivamente os detalhes horizontais e diagonais.

    Para o Waveletface utiliza-se apenas a aproximao final da imagem Yll . Chien e Wu (2002)

    justificam esta escolha por afirmar que a aproximao contm mais energia. Yll chamado o

    primeiro nvel da Waveletface, pode-se determinar o segundo nvel achado a aproximao desta

    aproximao aplicando a mesma transformao a Yll . Assim tambm so definidos os demais

    nveis, terceiro, quarto etc. Em (CHIEN; WU, 2002) a Waveletface padro definida como o

    terceiro nvel de aproximao. E o Waveletface discriminante o Waveletface com a dimenso

    reduzida pela projeo LDA. Anlise do discriminante linear (Linear Discriminat Analysis,

    LDA) encontra uma projeo linear que maximiza a separao das classes.

    O par de funes Wavelet de aproximao e de detalhe podem ser vrios, estes so definidos

    e acordo com algumas restries (GONZALEZ; WOODS, 2006). As funes Wavelet mais

    comuns so as Wavelets de Haar, as mesmas utilizadas por Chien e Wu (2002). A aproximao

    Yll de uma imagem utilizando tais funes so equivalentes a reduzir a imagem metade da

    altura e metade da largura, em que a intensidade de cada pixel na imagem reduzida a mdia

    dos quatro vizinhos. Portanto, o primeiro nvel da Waveletface a imagem reduzida para 1/2 da

    altura e 1/2 da largura; o segundo nvel 1/4 da largura e altura; o terceiro nvel, 1/8 da largura

  • 34 CAPTULO 2 ESTADO DA ARTE

    X

    G 2Yh

    G 2 Yhh

    H 2 Yhl

    H 2Yl

    G 2 Ylh

    H 2 Yll

    Decomposiodos vetores

    coluna

    Decomposiodos vetores

    linha

    Figura 2.3 Diagrama de funcionamento da transformada Wavelet 2D, adapatado de (CHIEN; WU,2002).

    e altura; o nvel k, 1/2k da altura e largura. Muito embora o modelo proposto por Chien e

    Wu (2002) utilize a transformada Wavelet para definir que a imagem simplesmente reduzida,

    deve-se estar ciente de que apenas isto que acontece na prtica. A proposta principal de Chien

    e Wu (2002) no apenas reduzir a imagem atravs da transformada, mas tambm aplicar o

    LDA. Pelos experimentos a seguir, ser visto que apenas a reduo da imagem contribuiu para

    a melhorar a taxa de reconhecimento de faces, mesmo sem definir as projees discriminantes

    atravs do LDA .

    2.2.1 Experimentos do artigo

    Esta subseo tem o objetivo de discutir alguns dos resultados de Chien e Wu (2002): a simples

    reduo das imagens pode melhorar o reconhecimento. Em seu artigo, foram utilizadas duas

  • 2.2 WAVELETFACES 35

    bases de faces: IIS1 e ORL2. As imagens da base IIS tm dimenses 92104. Foram retiradas30 imagens de face por classe para 128 pessoas (classes), um total de 3.840 imagens. Destas,

    6 imagens de cada classe foram utilizadas para treino e as outras 24 para teste. A base ORL

    tem 10 imagens por classe e 40 classes, total de 400 imagens. Destas, 5 images de cada classe

    foram utilizadas para treino e as demais para teste. A mdia da taxa de acerto foi calculada

    para 10 rodadas deste tipo de experimento. Como citado anteriormente, foi utilizada a Wavelet

    de Haar.

    No primeiro experimento (apenas para a base IIS) os autores comparam Autofaces com

    Waveletface no nvel 3 e no nvel 4. Para Waveletfaces no nvel 3 afirma que as imagens so

    reduzidas para 12 13 = 156 caractersticas. As taxas de acerto so 91,2% para Autofacescom 156 caractersticas; 91,9% e 88,9% para Waveletface nvel 3 e 4. Tais resultados so

    interessantes, pois a simples reduo da imagem apresentou um efeito melhor/equivalente que

    o Autofaces para a classificao destes padres faces.

    Pela Tabela 2.1, percebe-se que o Waveletfaces obtm taxa de acerto maior do que o Au-

    tofaces, para o classificador NN. O mesmo pode ser notado para as verses discriminantes

    destes mtodos. Outra informao interessante como os classificadores de distncia NFL,

    NFP e NFS so capazes de melhorar a taxa de reconhecimento para o Waveletfaces discrimi-

    nante. Para este experimento, o Waveletfaces e o Autofaces tm 156 dimenses para a base

    IIS e 12 14 = 168 para ORL. As verses discriminantes dos mtodos tm 60 dimenses.Nesta tabela, o classificador MLP (Multilayer Perceptron, perceptron multicamadas), que um

    classificador que segue o paradigma de redes neurais, utilizado. O resultado utilizando MLP

    uma boa referncia para verificar eficcia dos classificadores baseados em distncia, pois

    um classificador robusto que segue um paradigma de aprendizagem distinto dos classificado-

    res baseados em distncia. Os experimentos semelhantes a estes esto descritos na seo que

    segue.

    1http://smart.iis.sinica.edu.tw/, Institute of Information Science (IIS) que pertence Academia Sinica, Taiwan.2http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html, Olivetti Research Laboratory (ORL).

  • 36 CAPTULO 2 ESTADO DA ARTE

    Tabela 2.1 Taxa de reconhecimento em % para as bases de faces IIS e ORL, adaptada de (CHIEN; WU,2002).

    Mtodo IIS ORLAutofaces + NN 91,2 92,0Autofaces discriminantes + NN 91,4 93,5Waveletfaces + NN 91,9 92,5Waveletfaces discriminante + NN 93,1 94,5Waveletfaces discriminante + MLP - 94,5Waveletfaces discriminante + NFL 95,4 95,0Waveletfaces discriminante + NFP 95,7 95,8Waveletfaces discriminante + NFS 96,4 96,1

    2.2.2 Experimentos replicados

    Esta subseo tem o objetivo de discutir alguns dos resultados de experimentos replicados,

    similares aos de Chien e Wu (2002). Foi necessrio replicar os experimentos para averiguar

    algumas informaes experimentais omitidas por Chien e Wu. Tambm pretende verificar o

    quanto a reduo boa para o reconhecimento, e se existe realmente vantagem na verso dis-

    criminante de Waveletfaces. Aqui foi utilizada apenas a base ORL, pois a base IIS no estava

    mais disponvel. Apenas alguns resultados do experimento completo so descritos nesta se-

    o, estes resultados so provenientes do relatrio tcnico (CARVALHO, 2008). O primeiro

    dos experimentos compara a taxa de acerto para o classificador NN utilizando as imagens sem

    processamento e Waveletfaces nos nveis de 1 a 5. Os resultados esto descritos na Tabela 2.2.

    Vale ressaltar que o Waveletfaces utiliza as funes Wavelets de Haar, que neste caso, equivale

    a reduzir as imagens em metade da altura e metade de largura da wavelefaces do nvel anterior.

    Neste experimento, se o nmero de linhas e colunas mpar o pixel extra de cada linha ou

    coluna descartado.

    Observa-se na Tabela 2.2 que a taxa de acerto aumenta, ainda que muito pouco, quando a

    imagem (e o nmero de caractersticas) diminui at o Waveletfaces nvel 3. Observe que esta

    diminuio no sempre vantajosa pois o desvio padro tambm aumenta. Para o Waveletfa-

    ces nvel 5 a taxa de acerto cai significativamente. Para o Waveletfaces nvel 4 a taxa de acerto

    diminui pouco e o desvio padro cresce pouco em relao ao nvel anterior. Portanto este nvel

    4 (com 35 dimenses) e no o nvel 3, como em (CHIEN; WU, 2002), foi escolhido para os ex-

  • 2.2 WAVELETFACES 37

    perimentos que seguem. Outras diferenas em relao ao trabalho de Chien e Wu (2002) que

    o nvel 3 tem 1114 = 154 dimenses aqui contra 168 dimenses originalmente utilizadas noartigo, pois nestes experimento as regies de borda com menos de quatro pixel so descartadas.

    As verses discriminantes (utilizando LDA) tm 60 dimenses no artigo original e aqui apenas

    14, isto porque os experimentos desta subseo so retirados de (CARVALHO, 2008) que tinha

    o objetivo de obter maior reduo possvel com um nvel equivalente de reconhecimento.

    Tabela 2.2 Mdia da taxa de reconhecimento (em %) com indicao do desvio padro, para as basesde faces ORL das imagens sem transformao e nos 5 nveis de Waveletfaces utilizando o classificadorNN, retirada de (CARVALHO, 2008).

    Mtodo altura largura caractersticas acerto mdio desv. pad.Waveletfaces nvel 5 23 6 74,80 2,84Waveletfaces nvel 4 57 35 93,95 1,72Waveletfaces nvel 3 1114 154 94,95 1,70Waveletfaces nvel 2 2328 644 94,70 1,32Waveletfaces nvel 1 4656 2.576 94,65 1,20Imagem sem transformao 92112 10.304 94,25 0,81

    Tabela 2.3 Mdia da taxa de reconhecimento (em %) para as bases de faces ORL com indicao dodesvio padro para Autofaces discriminante e Waveletfaces discriminante com 13, 14 e 15 caractersticasextradas utilizando o classificador NN, retirada de (CARVALHO, 2008).

    Nmero de caractersticasMtodo 13 14 15Autofaces discriminante 92,50 2,71 92,60 2,57 92,35 2,52Waveletfaces discriminante 93,85 1,87 94,00 1,75 94,00 1,82

    Tabela 2.4 Taxa de reconhecimento (em %) para as bases de faces ORL com indicao do desviopadro para Autofaces, Autofaces Discriminante, Waveletfaces e Waveletfaces discriminante para osclassificadores NN, NFL, NFP e NFS, retirada de (CARVALHO, 2008).

    Mtodo NN NFL NFP NFSAutoface 93,61,85 94,81,70 94,60,99 94,31,05Autoface discriminante 92,62,57 94,02,17 91,92,40 91,32,17Waveletfaces 93,91,72 95,21,63 95,91,19 96,01,12Waveletfaces discriminante 94,01,75 94,41,76 93,91,34 93,01,40

    O restante dos experimentos que seguem tm o objetivo no apenas de comparar Wavelet-

    faces e Autofaces, mas tambm suas verses discriminantes. importante verificar as reais

  • 38 CAPTULO 2 ESTADO DA ARTE

    vantagens do Waveletfaces uma vez que alguns dos mtodos propostos aqui baseiam-se nesta

    tcnica. O experimento que segue tem o objetivo de definir o nmero de caractersticas para

    a verso discriminante. Na Tabela 2.3 so comparadas as verses discriminantes com 13, 14

    e 15 caractersticas extradas com LDA a partir do Waveletfaces nvel 4 e o Autofaces com 35

    caractersticas. utilizando o classificador NN. Para ambos os mtodos a verso discriminante

    com maior taxa de acerto utiliza 14 caractersticas, portanto as verses discriminantes aqui tm

    14 dimenses.

    Na Tabela 2.4 comparam-se para os quatro classificadores baseados em distncia (NN, NFL,

    NFP, NFS) os quatro mtodos (Autofaces, Waveletfaces e suas verses discriminantes). As

    verses discriminantes, que utilizam apenas 14 caractersticas, geralmente apresentam taxa de

    acerto menor que as verses cannicas, com 35 caractersticas. O mtodo que apresentou os

    melhores resultados de taxa de acerto para todos os mtodos foi o Waveletfaces nvel 4, isto

    a imagem reduzida para 1/16 de sua altura de 1/16 de sua largura. Os resultados para este

    mtodo utilizando 35 caractersticas so equivalentes aos Waveletfaces discriminantes com 60

    caractersticas de (CHIEN; WU, 2002).

    Se o Waveletfaces com menos caractersticas (35 caractersticas) capaz de extrair infor-

    mao suficiente para equiparar o reconhecimento do Waveletfaces discriminante (60 carac-

    tersticas), pode-se conjecturar que no de fato o mtodo discriminante que melhora a taxa

    de acerto, o Waveletfaces que extrai caractersticas adequadas para a classificao. Deve-se

    tambm notar que os experimentos replicados utilizam muito poucas caractersticas (apenas

    14) para o Waveletfaces discriminante, o que pode ser a razo de sua taxa de acerto mais baixa.

    Finalmente, percebe-se que a simples reduo da imagem foi bastante adequada como mtodo

    de extrao de caractersticas, obtendo acurcia mais alta que o mtodo Autofaces.

    Partindo desses experimentos e entendendo que o componente de baixa frequncia da trans-

    formada Wavelet de Haar aplicada a uma imagem apenas uma verso reduzida da imagem,

    percebe-se que no h grande perda na acurcia do reconhecimento pelo fato de se reduzir as

    imagem. A possvel explicao, a qual ser analisado nas prximas sees, que isto se d

    pelo fato de agrupar pixels (caractersticas) semelhantes, que alm de no perder informao

    evita redundncia ou vis para alguma varivel que se repete muito. Esta a primeira hip-

  • 2.3 ANLISE DOS COMPONENTES PRINCIPAIS (PCA) 39

    tese da tese. Antes de revisar o estado da arte dos mtodos baseados em Agrupamento de

    Caractersticas, feita uma reviso do mtodo de referncia PCA.

    2.3 Anlise dos Componentes Principais (PCA)

    PCA, do ingls, Principal Component Analysis (Anlise dos Componentes Principais), tambm

    conhecida como Transformada Karhunen-Love (THEODORIDIS; KOUTROUMBAS, 2008),

    uma tcnica que projeta linearmente os dados para um subespao de menor dimensionali-

    dade. Seja xi, i = 1, . . . ,n, o i-simo vetor coluna que representa uma amostra do conjunto de

    treinamento. Assume-se que cada varivel tem mdia zero. Pode-se ajustar a mdia para zero

    subtraindo o vetor mdio de cada amostra. A amostra projetada para uma dimenso menor

    utilizando PCA yi:

    yi = AT xi. (2.1)

    Cada coluna de A um vetor do subespao onde xi projetado. Cada varivel yi j de yi uma

    projeo de xi sobre o vetor da k-sima coluna de A. J que a mdia do conjunto de treino

    zero, 1n ni=1 xi = 0, e por cada caracterstica de yi ser uma combinao linear de xi, temos

    que a mdia das amostras projetadas tambm zero, 1n ni=1 yi = 0. Sendo assim a matriz de

    covarincia estimada a partir dos dados projetados Sy:

    Sy =1n

    n

    i=1

    yiyTi =

    1n

    n

    i=1

    AT xixTi A = AT SxA, (2.2)

    em que Sx = 1n ni=1 xixTi a matriz de covarincia estimada para os dados de entrada. Se as

    colunas de A so os autovetores ortonormais de Sx, ento Sy uma matriz diagonal onde

    cada elemento da diagonal j, j = 1, . . . ,m, um autovalor de A (m o nmero de dimenses

    dos dados originais):

    Sy = AT SxA = =

    1 0

    . . .

    0 m

    . (2.3)

  • 40 CAPTULO 2 ESTADO DA ARTE

    Se os elementos fora da diagonal so todos zero, isto significa que a covarincia entre quaisquer

    duas variveis distintas entre os dados projetados zero, ento a correlao zero. Conclui-se

    que todas as variveis so no correlacionadas aps a projeo linear realizada pelo PCA.

    Percebe-se tambm que o autovalor j a varincia da j-sima nova varivel.

    Para realizar reduo de dimensionalidade no se utilizam todas as colunas de A, utiliza-se

    apenas uma quantidade p < m. Convenciona-se sempre, ao menos que explicitamente infor-

    mado, que a primeira coluna de A correspondente ao autovetor de maior autovalor associado

    e que a segunda coluna de A corresponde ao autovetor com o segundo maior autovalor associ-

    ado e assim por diante. As p primeiras colunas so chamadas de os componentes principais.

    Desta forma a reduo de dimensionalidade pelos componentes principais se d projetando

    uma amostra xi atravs da matriz Ap que contm apenas as p primeiras colunas de A. Estas

    colunas so os autovetores de Sx com os maiores autovalores:

    yi = ATp xi. (2.4)

    Existem vrias vantagens em utilizar PCA para a reduo de dimensionalidade, das quais

    so listadas apenas algumas (THEODORIDIS; KOUTROUMBAS, 2008):

    As novas variveis no so correlacionadas. Como discutido sobre a Equao 2.3, as carac-

    tersticas extradas so no correlacionadas. Isto indica que nenhuma dessas variveis

    pode ser predita por um transformao linear a partir das outras. Isto uma enorme

    vantagem pois pode-se selecionar qualquer subconjunto destas variveis sem preocupar-

    se com redundncia de informao entre as caractersticas escolhidas (THEODORIDIS;

    KOUTROUMBAS, 2008).

    Os dados esto o mais espalhados o possvel no espao de dimenso menor. O autovetor de

    maior autovalor representa direo de maior varincia no espao original dos dados. O

    segundo autovetor restrito a ser ortogonal ao primeiro e representa a direo com a

    segunda maior varincia no mesmo espao, e assim por diante (BISHOP, 2006). Por se

    escolherem os autovetores com os maiores autovalores, as varincias so maximizadas

    nas caractersticas extradas, o que pode ser interpretado como um maior espalhamento

  • 2.3 ANLISE DOS COMPONENTES PRINCIPAIS (PCA) 41

    Figura 2.4 O grfico de disperso para duas classes. Pode-se separar claramente a classe de azul (acima)da vermelha (em baixo). Aps calcular a direo de maior varincia com PCA, encontra-se uma direoquase horizontal na qual os dados projetados se confundem. Uma direo perpendicular a esta maisapropriada para a separao das classes. Figura adaptada de (BISHOP, 2006).

    dos dados. Isto, porm, no significa maior separao entre classes como pode ser visto

    na Figura 2.4. No ser aprofundada a discusso sobre se as projees encontrar pelos

    PCA so discriminantes, pois PCA vem sendo utilizado para extrao de caractersticas

    para classificao a despeito deste fato.

    O erro mdio quadrtico de representao minimizado. Se a amostra projetada para ape-

    nas p < m dimenses, em que m o nmero de dimenses inicial do problema, uma

    amostra xi representado com uma amostra projetada yi. A reconstruo da amostra a

    partir da projeo xi =pj=1 yi ja j, em que a j a j-sima coluna de A. Dado isto, o erro

    mdio quadrtico entre o padro inicial e sua reconstruo a soma dos m p autovalo-res, isto a soma dos autovalores referentes aos autovetores no utilizados na reduo de

    dimensionalidade:1n

    n

    i=1xi xi2 =

    m

    j=p+1

    j. (2.5)

    Deste modo utilizar os autovetores associados s maiores varincias, permite uma re-

    construo cujo erro quadrtico mdio minimizado. Com isto espera-se que a maior

    parte da informao se mantenha aps a reduo de dimensionalidade. Em (THEODO-

    RIDIS; KOUTROUMBAS, 2008) afirmado que no existe outra projeo ortonormal

  • 42 CAPTULO 2 ESTADO DA ARTE

    que obtenha um erro mdio quadrtico de representao menor que o erro obtido pelo

    PCA.

    Existem muitas discusses de como determinar o nmero de variveis ideal a ser extrado

    com PCA (THEODORIDIS; KOUTROUMBAS, 2008; BISHOP, 2006) mas esta tese no

    aborda este tema. Tambm importante notar que, para fins de classificao, pode-se esco-

    lher outros autovetores que no aqueles de maior varincia mas isto tambm no faz parte do

    escopo desta proposta.

    2.3.1 Autofaces

    Existem problemas de classificao em que o nmero de variveis maior que o nmero de

    amostras, e s vezes muito maior. Estes problemas so chamados de problemas de alta dimen-

    sionalidade. o caso da classificao de imagens. Se existem apenas n imagens mas cada

    imagem tem m > n caractersticas (geralmente cada pixel uma caracterstica), existe um su-

    bespao linear de dimenso no mximo n 1 para representar univocamente estas imagens.Neste caso, ao se aplicar PCA sero encontrados m n+ 1 autovalores zero, isto , variveiscom varincia nula. Para tais variveis o valor o mesmo em todas as amostras no conjunto de

    treinamento.

    Alm de no ser necessrio calcular todos os autovetores da matriz de covarincia dos da-

    dos, existe o problema prtico de que para imagens muito grandes impraticvel calcular PCA

    diretamente para esta matriz de covarincia. Pois o custo desse clculo para uma matriz dd O(d3) (BISHOP, 2006). A soluo encontrada uma manipulao algbrica que permite

    calcular os mesmo autovalores no nulos (e respectivos autovetores) a partir de uma matriz

    mm. Desta forma a soluo torna-se vivel para alguns problemas enquanto reduz o custocomputacional. Esta tcnica tornou-se bastante popular com o nome de Eigenfaces (Autofaces)

    (TURK; PENTLAND, 1991). Vale ressaltar que esta tcnica no extrai nenhuma caracterstica

    diferente do PCA, apenas permite calcular os componentes principais para dados de alta di-

    mensionalidade.

  • 2.3 ANLISE DOS COMPONENTES PRINCIPAIS (PCA) 43

    Para calcular o PCA, parte-se da matriz de covarincia

    Sx =1n

    n

    i=1

    xixTi , (2.6)

    que pode ser reescrita como

    Sx =1n

    XT X , (2.7)

    na qual X a matriz nm onde a i-sima linha a amostra xTi . Como anteriormente, assume-seque as variveis tm mdia zero. Sendo u j um dos autovalores de Sx, tem-se

    Sxu j = jui, (2.8)1n

    XT Xu j = ju j, (2.9)

    multiplicando-se esquerda por X ,

    1n

    XXT (Xu j) = j(Xu j), (2.10)

    1n

    XXT v j = jv j, (2.11)

    em que v j = Xu j. Disto entende-se que v j autovetor d matriz XXT , uma matriz n n emcontraste com XT X que mm. Considerando que m >> n, o custo computacional parase calcular os autovetores de XXT substancialmente menor. Observa-se que XXT tem os

    mesmos autovalores no nulos de XT X , ou seja, todas as direes relevantes para o PCA podem

    ser extradas desta matriz. trivial calcular vi a partir de ui, mas o que se deseja o contrrio,

    assumindo que os vs so ortonormais garante-se o mesmo para os us por esta transformao:

    ui =1ni

    XT vi. (2.12)

    Com isto possvel calcular PCA para dados de alta dimensionalidade com um custo compu-

    tacional bem menor. Tornando inclusive vivel alguns casos em que seria impraticvel calcular

    os autovetores da matriz de covarincia original dos dados. Porm com um nmero de amostra

  • 44 CAPTULO 2 ESTADO DA ARTE

    grande, ainda que muito menor que o nmero de dimenses, pode ser impraticvel calcular o

    PCA. A soluo para estes casos reduzir o nmero de amostras. Detalhes de implementao

    esto disponveis no Captulo 3. A subseo seguinte analisa a teoria da matriz de covarincia

    fracionria e sua aplicao ao PCA.

    2.3.2 Teoria da Matriz de Covarincia Fracionria

    Gao, Zhou e Pu (2013) propuseram a teoria da matriz de covarincia fracionria e aplicaram

    esta teoria ao PCA e 2D-PCA. 2D-PCA uma extenso do PCA em que a imagem no precisa

    ser transformada em um vetor-coluna como no PCA, mas pode ser tratada diretamente com uma

    matriz. 2D-PCA adequado para imagens mas no calcula as mesmas projees que o PCA

    ou o Autofaces. Neste artigo, Gao et al. propem duas tcnicas de extrao de caractersticas:

    Fractional PCA (FPCA) e o 2D Fractional PCA (2D-FPCA). Os experimentos deste artigo so

    realizados em duas bases de imagens de faces que sero comentadas nos captulos seguintes:

    ORL (para o FPCA) e Yale (para o 2D-FPCA).

    Gao et al. motivam sua proposta pela utilizao de momentos de alta ordem e momentos

    fracionrios em processamento de sinais, aps definir a varincia fracionria define a covarin-

    cia fracionria como (utilizando a notao do artigo):

    Cr( f (X),g(Y ))) = E[( f (X)rEr( f (X)) )(g(Y )rEr(g(Y )))], (2.13)

    em que f (X) e g(Y ) so variveis aleatrias; E[.] o operador de Esperana; e r um nmero

    real fracionrio chamado de ordem da covarincia fracionria, se r= 1 a covarincia fracionria

    equivalente covarincia convencional.

    Os autores tambm definem a matriz de covarincia fracionria de ordem r:

    Cmmr = (ci j,c ji =Cr(Dimi,Dim j)), i = 1, . . . ,m, j = 1, . . . ,m, (2.14)

    em que m o nmero de variveis do problema e Dimk a k-sima varivel (dimenso) do

    problema. Para calcular o FPCA sobre um conjunto de n padres utilizada a matriz de cova-

  • 2.3 ANLISE DOS COMPONENTES PRINCIPAIS (PCA) 45

    rincia fracionria Cmmr ,

    Cmmr =n

    i=1

    X (r)i (

    1n

    n

    j=1

    X j

    )(r)X (r)i (

    1n

    n

    j=1

    X j

    )(r)T . (2.15)Ento os dados so projetados diretamente sobre os autovetores com os maiores autovalores

    desta matriz. Observa-se que nenhum ajuste nos dados realizado: nem antes de se construir

    a matriz os dados so ajustados para ter mdia zero como o PCA; nem na etapa final, na qual

    as amostras so projetadas. Os dados projetados so os dados brutos do conjunto de treino ou

    teste.

    Os experimentos utilizam as bases de imagem ORL (reduzida de 92 112 para 2328)para FPCA, e Yale (cropped) para 2D-FPCA. O mtodo utiliza valores de r no intervalo [0, 1], a

    saber, r {0,01;0,1;0,2;0,3;0,4;0,5;0,6;0,7;0,8;0,9;1,0}. No caso r = 1,0 o desempenho exatamente igual tcnica de origem, como esperado. Para cada caso estimada a taxa de

    contribuio dos autovalores como a soma ponderada dos p primeiros autovalores. Tambm

    medida da taxa de acerto pelo classificador do vizinho mais prximo. A primeira metade das

    imagens de cada classe utilizada para treino e a segunda metade para teste (na ordem original

    da base). Cada tcnica proposta (FPCA e 2D-FPCA) apresenta sempre taxa de acerto maior ou

    igual que a original (PCA e 2D-PCA), principalmente quando pouca dimenses so extradas.

    Mais sobre este mtodo, incluindo detalhes de implementao, comentado no Captulo 3. Na

    subseo que segue apresentam-se algumas notas sobre outros aspectos do PCA.

    2.3.3 PCA e as propostas desta tese

    A seguir esto descritas notas e comentrios sobre PCA, principalmente do livro de referncia

    do Jolliffe (2002). Estas notas tm relao direta com as tcnicas propostas nesta tese, tanto no

    agrupamento de caractersticas como na teoria da matriz de covarincia aplicada ao PCA.

    importante notar que no h necessidade de assumir uma distribuio especfica dos da-

    dos. Verifica-se ainda que o PCA pode ser calculado a partir da matriz de covarincia, da matriz

    de correlao ou a partir de uma transformao linear da matriz de correlao. A escala utili-

  • 46 CAPTULO 2 ESTADO DA ARTE

    zada para medir as variveis influencia diretamente nas suas varincias, as quais influenciam

    os componentes extrados. Se um varivel tem varincia maior que as demais, esta pode domi-

    nar um componente, sendo a nova caracterstica projetada apenas uma cpia da caracterstica

    original. Isto tem relao direta com a teoria da matriz de covarincia fracionria, que diminui

    valores muito alto das variveis.

    Tambm pode ocorrer que a matriz de correlao tenha alguma forma especfica a qual

    define peculiaridades para os autovetores e autovalores da matriz. Um dos principais casos, e

    de bastante interesse para esta tese, quando existe um grupo de variveis cuja correlao

    positiva e alta (no prxima a zero) entre todos os membros do grupo. E a correlao entre uma

    varivel do grupo e outra fora do grupo prxima a zero.

    Neste caso um grupo com q variveis influencia q autovetores da matriz de covarincia. Em

    tais autovetores os coeficientes so prximo a zero para as variveis fora do grupo. Apenas um

    destes autovetores tem autovalor alto, os demais tm autovalor prximo a zero. O componente

    de maior autovalor representa aproximadamente a mdia do grupo, isto , todos os coeficientes

    tm o mesmo sinal. Os demais componentes (com autovalor prximo a zero) representam

    contrastes entre as variveis do grupo, isto , os componentes tm sinais diversos.

    Esta observao est diretamente relacionada com a motivao para o mtodo proposto de

    agrupamento de pixels. Jollife tambm afirma que se pode optar por escolher apenas uma vari-

    vel por cada grupo, o que uma motivao para os mtodos de agrupamento de caractersticas,

    os quais geralmente realizam seleo de caractersticas. A seo que segue discute mtodos de

    extrao de caractersticas baseado em agrupamento de caractersticas.

    2.4 Agrupamento de Caractersticas

    Conforme suposto a partir de anlise detalhada do trabalho sobre Waveletfaces (CHIEN; WU,

    2002) e como descrito por Jolliffe sobre o PCA, no caso em que ocorre um grupo de caracte-

    rsticas altamente correlacionadas (JOLLIFFE, 2002), existem tcnicas de reduo de dimen-

    sionalidade baseadas em agrupamento de caractersticas. Nesta seo so comentadas algumas

  • 2.4 AGRUPAMENTO DE CARACTERSTICAS 47

    destas tcnicas. As mais recentes, foram revisadas com um pouco mais de cuidado e esto cada

    uma em uma subseo separada. Muitas outras tcnicas so comentadas mais brevemente na

    subseo final.

    2.4.1 Agrupamento difuso de caractersticas auto construtivo para classificao de

    textos

    A Fuzzy Self-Constructing Feature Clustering Algorithm for Text Classification (JIANG; LIOU;

    LEE, 2011) foi proposto por Jiang, Liou e Lee. um algoritmo de agrupamento de caracters-

    ticas que gera tanto um particionamento rgido como difuso para a extrao de caractersticas.

    Ele possui a peculiaridade de que o nmero de grupos definido automaticamente de acordo

    com um parmetro passado.

    Como indica o nome do artigo, foi proposto para o problema de classificao de textos.

    Neste problema cada documento uma amostra. Este documento transformado em um vetor

    numrico. Tal vetor de caractersticas tem tantas dimenses quanto a quantidade de palavras

    distintas em todos os documentos no conjunto de treinamento. Para cada documento, o va-

    lor da caracterstica equivalente a uma palavra o nmero de ocorrncias desta palavras no

    documento.

    O algoritmo depende de um tipo particular de representao das variveis (palavras). Cada

    palavra representada por um vetor-palavra, com tantas dimenses quando o nmero de clas-

    ses. Para a posio equivalente a cada classe, o vetor-palavra contm a probabilidade condici-

    onal daquela classe dada a palavra em questo:

    P(c j|wi) =nq=1 dqiq jnq=1 dqi

    , (2.16)

    em que c j a j-sima classe; wi a i-sima palavra; dqi a quantidade de vezes que a palavra

    wi aparece no documento dq; e q j 1, se dq pertence classe c j, e zero, caso contrrio.

    Esses vetores-palavra so agrupados incrementalmente: calculada a similaridade de cada

    novo vetor-palavra para cada grupo j definido. Se essa similaridade no exceder o limiar pas-

    sado como parmetro, um novo grupo criado. Seno a palavra adiciona ao grupo mais

  • 48 CAPTULO 2 ESTADO DA ARTE

    prximo. A funo de similaridade tambm pode ser interpretada como uma funo de perti-

    nncia. Esta funo definidas como:

    G(x) =p

    i=1

    exp

    [(

    ximii

    )2], (2.17)

    em que G um grupo; p o nmero de classes (o nmero de elementos do vetor-palavra); mi

    a mdia do grupo para a i-sima posio dos vetores-palavras; i o desvio padro associado

    a mi; exp a funo exponencial.

    Aps terminar o agrupamento gera-se uma caracterstica para cada grupo. Isto pode se

    dar de trs maneiras distintas (trs mtodos de extrao de caracterstica): suave, rgida ou

    mista. Para o particionamento rgido, a caracterstica a mdia das caractersticas daquele

    grupo. O particionamento suave extrai uma caracterstica como a mdia ponderada de todas as

    caractersticas. utilizado como peso o grau de pertinncia ao grupo, calculado por G(x). O

    particionamento misto similar ao suave, mas os pesos so uma combinao linear dos graus

    de pertinncia do agrupamento suave e do agrupamento rgido.

    O mtodo avaliado em trs bases de dados: 20 Newsgroups, 2/3 treino e 1/3 teste; RCV1,

    23.149 documentos para treino e 781.265 para teste; Cade12, 2/3 treino e 1/3 teste. Utiliza as

    mtricas de micro-acurcia, micro-preciso, micro-recall e micro-F1. O classificador utilizado

    foi o SVM (Support Vector Machine, Mquina de Vetor de Suporte).

    O mtodo foi comparado com trs outro mtodos dos quais apenas um segue o paradigma

    de agrupamento de caractersticas, DC (Distributional Word Clustering) (DHILLON; MAL-

    LELA; KUMAR, 2003). Os outros mtodos com os quais compara seus resultados so: IG

    e IOC. IG (Information Gain), seleo de caractersticas muito simples, simplesmente ordena

    as caractersticas e escolhe as k melhores (YANG; PEDERSEN, 1997). IOC (Incremental

    Orthogonal Centroid), mtodo de extrao de caractersticas por projeo (similar ao PCA)

    que otimiza uma funo para encontrar a matriz de projeo (YAN et al., 2006).

    Para as mtricas de avaliao propostas, na maioria dos casos supera os outros mtodos

    com o qual comparado. O mtodo DC ganha algumas vezes quando mais caractersticas so

    extradas. Como ltima nota, os autores afirmam que o mtodo pode ser estendido trivialmente

  • 2.4 AGRUPAMENTO DE CARACTERSTICAS 49

    para classificao mlti-rtulo.

    2.4.2 Seleo baseada em agrupamento em grafo de caractersticas

    Song, Ni e Wang propuseram A Fast Clustering-Based Feature Subset Selection Algorithm

    for High-Dimensional Data (SONG; NI; WANG, 2013). Este um mtodo de seleo de

    caractersticas baseado em agrupamento de caractersticas. O mtodo se baseia em sete defini-

    es sobre relevncia e redundncia de uma caracterstica. O funcionamento bsico do mtodo

    eliminar caractersticas irrelevantes e retundantes. Utiliza a mtrica de incerteza simtrica

    (symmetric uncertainty, SU) entre duas caractersticas quaisquer:

    SU(X ,Y ) =2 [H(X)H(X |Y )]

    H(X)+H(Y ), (2.18)

    em que H(X) a entropia da caracterstica X e H(X |Y ) a entropia condicional da caractersticaX dada a caracterstica Y . O SU tambm pode ser calculado entre uma caracterstica e a varivel

    que representa a classe.

    O algoritmo funciona da seguinte maneira: (1) remove as caractersticas irrelevantes, aque-

    las que tm SU em relao classe abaixo de um limiar passado como parmetro; (2) constri

    um grafo completamente conectado (neste grafo os ns so as caractersticas e as arestas so o

    SU entre as caractersticas) e encontra a rvore espalhada mnima deste grafo para reduzir o n-

    mero de arestas; (3) particiona esta rvore em uma floresta em que cada subrvore um grupo,

    de cada grupo seleciona a caracterstica que tem o maior valor de SU em relao classe.

    O mtodo avaliado em 35 bases de dados de 3 categorias diferentes: texto, 15; imagens

    de face, 6; microarray, 14. Menos de 30 se encaixam na definio de alta dimensionalidade.

    Compara a acurcia em quatro classificadores distintos: Naive Bayes, que baseado em pro-

    babilidades; rvores de deciso C4.5; classificao pelo vizinho mais prximo (1-NN) com

    distncia Euclidiana; e o algoritmo de gerao de regras RIPPER.

    O mtodo trabalha apenas com caractersticas discretas. Para aplicao em problemas nos

    quais as caractersticas so contnuas, faz-se necessrio discretiz-las. A grande contribuio

    do trabalho o algoritmo de agrupamento baseado em grafos o qual incorpora as restries

  • 50 CAPTULO 2 ESTADO DA ARTE

    de redundncia e relevncia das caractersticas. Os autores afirmam que a complexidade do

    algoritmo O(n2).

    2.4.3 Seleo supervisionada de caractersticas por agrupamento utilizando

    informao mtua condicional

    Em Supervised feature selection by clustering using conditional mutual information-based dis-

    tances (SOTOCA; PLA, 2010), Sotoca & Pla propem uma medida de distncia, baseada em

    informao mtua, entre os vetores de caractersticas. O objetivo agrupar as caractersticas

    utilizando um algoritmo hierrquico. De cada grupo, selecionada a caracterstica que tem a

    maior informao mtua em relao classe. Elimina caractersticas irrelevantes: para selecio-

    nar m caractersticas, forma m+1 grupos eliminando aquele grupo que tem a menor informao

    em relao a classe. As caractersticas do conjunto eliminado so chamadas caractersticas re-

    siduais ou caractersticas de rudo aleatrio. Sua proposta de agrupamento de caractersticas

    inspirada do trabalho de Pereira et al. (PEREIRA; TISHBY; LEE, 1993).

    Sotoca & Pla provam que a medida de distncia proposta por ele minimiza o erro de classi-

    ficao Bayesiano. Tal afirmao contestada por Vinh & Bailey em (VINH; BAILEY, 2013).

    Os contestadores afirmam que o mtodo proposto s garante seus resultados se todas as carac-

    tersticas so independentes dada a classe. Estas tambm so as condies adequadas para o

    classificador Naive Bayes; na palavras deles, quando o classificador bayesiano se sai bem a o

    mtodo proposto se sai bem.

    Alm do que foi mostrado por Vinh & Bailey, existem outros pontos que podem ser con-

    testados no trabalho de Sotoca & Pla. Os autores assumem nas suas provas que utilizar um

    conjunto reduzido de caractersticas sempre vai levar a um erro Bayesiano maior do que se uti-

    lizar todas as caractersticas. Este fato no vlido para classificadores de distncia, Sotoca e

    Pla mostram isto quando faz a pr-seleo das caractersticas na base Gisette. Se fosse razovel

    assumir tal fato, no faria sentido eliminar as caractersticas residuais.

    Nos experimentos utilizam trs clasificadores: kNN3 (3-NN) classificao pela maioria da

    votao dos trs vizinhos mais prximos de acordo com a distncia Euclidiana, C4.5 (rvore

  • 2.4 AGRUPAMENTO DE CARACTERSTICAS 51

    de deciso) e SVM (Support Vector Machine, mquina de vetor de suporte). Utilizam bases de

    dados de imagens multi-espectrais, alm de bases de alta dimensionalidade do UCI. Comparam

    os resultados com trs tcnicas de seleo de caractersticas baseada apenas na ordenao,

    mas que utilizam medidas relacionadas com a proposta como informao mtua. O mtodo

    apresenta acurcia maior que os demais com que comparado.

    2.4.4 AutoSegmentos

    Em EigenSegments: A spatio-temporal decomposition of an ensemble of images (AVIDAN,

    2002), Avidan discute PCA para alta dimensionalidade. Apresentam uma proposta, a qual diz

    ser baseada em Anlise de Fator: calcular PCA para um grupo de caractersticas correlacio-

    nadas. Para identificar os grupos correlacionados, diz que pode utilizar qualquer mtodo de

    Anlise de Fator. Nos experi