hemir da cunha santiago - ufpe

Pós-Graduação em Ciência da Computação

HEMIR DA CUNHA SANTIAGO

RECONHECIMENTO DE EXPRESSÕES FACIAIS

UTILIZANDO ESTIMAÇÃO DE MOVIMENTO

Universidade Federal de Pernambuco

[email protected]

www.cin.ufpe.br/~posgraduacao

RECIFE

2017


RECONHECIMENTO DE EXPRESSÕES FACIAIS

UTILIZANDO ESTIMAÇÃO DE MOVIMENTO

Tese apresentada ao Programa de Pós-

Graduação em Ciência da Computação da

Universidade Federal de Pernambuco, como

requisito parcial para a obtenção do título de

Doutor em Ciência da Computação.

Orientador: Prof. Dr. Tsang Ing Ren

Recife

2017

Catalogação na fonte

Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217

S235r Santiago, Hemir da Cunha

Reconhecimento de expressões faciais utilizando estimação de movimento / Hemir da Cunha Santiago. – 2017.

140 f.: il., fig., tab. Orientador: Tsang Ing Ren. Tese (Doutorado) – Universidade Federal de Pernambuco. CIn, Ciência da

Computação, Recife, 2017. Inclui referências.

1. Inteligência artificial. 2. Processamento de imagens. I. Ren, Tsang Ing (orientador). II. Título. 006.31 CDD (23. ed.) UFPE- MEI 2017-82

Hemir da Cunha Santiago

Reconhecimento de Expressões Faciais Utilizando Estimação de Movimento

Tese de Doutorado apresentada ao Programa

de Pós-Graduação em Ciência da

Computação da Universidade Federal de

Pernambuco, como requisito parcial para a

obtenção do título de Doutora em Ciência da

Computação

Aprovado em: 07/02/2017.

__________________________________________________ Orientador: Prof. Dr. Tsang Ing Ren

BANCA EXAMINADORA

________________________________________________

Prof. Dr. Cleber Zanchettin

Centro de Informática / UFPE

________________________________________________

Prof. Dr. Carlos Alexandre Barros de Mello

Centro de Informática / UFPE

_________________________________________________

Prof. Dr. Francisco Madeiro Bernardino Júnior

Escola Politécnica de Pernambuco / UPE

_______________________________________________________

Prof. Dr. Hae Yong Kim

Departamento de Engenharia de Sistemas e Eletrônicos/USP

_________________________________________________________________

Prof. Dr. Robson Cavalcanti Lins

Departamento de Estatística e Informática / UNICAP

AGRADECIMENTOS

Agradeço a todos os amigos e colegas que me ajudaram na realização deste trabalhoe também aos que me incentivaram e me apoiaram durante o curso de doutorado. Par-ticularmente, agradeço ao amigo e colega de trabalho Guilherme Melo, pelas conversas ediscussões que tiveram contribuição significativa neste trabalho.

Em especial, agradeço ao professor Dr. Tsang Ing Ren, meu orientador, pela sua dedica-ção, pela sua orientação, pela sua paciência e por tudo o que eu pude aprender com ele nasáreas de Processamento de Imagens, Inteligência Computacional e na vida acadêmica.

Faço um agradecimento especial também aos meus pais, Dalva e Hemir, que sempreacreditaram em mim, pelo incentivo ao estudo e à formação profissional.

Também agradeço à minha esposa Cristina pelo apoio, pela paciência e por ser extre-mamente solidária nos momentos mais importantes para que eu conseguisse cumprir osprazos regimentais do curso.

Finalmente, agradeço ao meu pequeno filho Benjamin que por muitas vezes abriu mãoda atenção do seu pai quando este precisou se dedicar às atividades deste doutorado.


"A vida do homem não é nada mais do que um simplespiscar de olhos, um curto momento... Nesse pouco

tempo, as pessoas nascem, riem, choram, lutam, sãoferidas, sentem alegria, tristeza, odeiam alguém, amam

alguém... Tudo em um só momento."

— Masami Kurumada

RESUMO

As expressões faciais fornecem informações sobre a resposta emocional e exercem um pa-

pel fundamental na interação humana e como forma de comunicação não-verbal. Contudo,

o reconhecimento das expressões ainda é algo considerado complexo para o computador.

Neste trabalho, propomos um novo extrator de características que utiliza a estimação de

movimento para o reconhecimento de expressões faciais. Nesta abordagem, o movimento

facial entre duas expressões é codificado usando uma estimação dos deslocamentos de re-

giões entre duas imagens, que podem ser da mesma face ou de faces similares. A imagem

da expressão facial é comparada a outra imagem mais similar em cada expressão facial da

base de treinamento, a maior similaridade é obtida usando a medida de Similaridade Estru-

tural (SSIM - Structural Similarity Index). Após a identificação das imagens mais similares

na base de treinamento, são calculados os vetores de movimento entre a imagem cuja ex-

pressão facial será reconhecida e a outra mais similar em uma das expressões da base. Para

calcular os vetores de movimento é proposto o algoritmo MARSA (Modified Adaptive Reduc-

tion of the Search Area). Todos os vetores de movimento são comparados às coordenadas com

as maiores ocorrências dentre todos os vetores de movimento obtidos durante a fase de trei-

namento, a partir dessa comparação são gerados os vetores de características que servem

de dados de entrada para uma SVM (Support Vector Machine), que irá realizar a classificação

da expressão facial. Diversas bases de imagens e vídeos de faces, reproduzindo expressões

faciais, foram utilizadas para os experimentos. O critério adotado para a escolha das ba-

ses foi a frequência com que são utilizadas em outros trabalhos do estado da arte, portanto

foram escolhidas: Cohn-Kanade (CK), Extended Cohn-Kanade (CK+), Japanese Female Facial Ex-

pression (JAFFE), MMI e CMU Pose, Illumination, and Expression (CMU-PIE). Os resultados

experimentais demostram taxas de reconhecimento das expressões faciais compatíveis a

outros trabalhos recentes da literatura, comprovando a eficiência do método apresentado.

Palavras-chave: Extração de característica. Casamento de blocos. Estimação de movimento.

Reconhecimento de expressões faciais.

ABSTRACT

Facial expressions provide information on the emotional response and play an essential

role in human interaction and as a form of non-verbal communication. However, the recog-

nition of expressions is still something considered complex for the computer. In this work,

it is proposed a novel feature extractor that uses motion estimation for Facial Expression

Recognition (FER). In this approach, the facial movement between two expressions is co-

ded using an estimation of the region displacements between two images, which may be of

the same face or the like. The facial expression image is compared to another more similar

image in each facial expression of the training base, the best match is obtained using the

Structural Similarity Index (SSIM). After identifying the most similar images in the training

base, the motion vectors are calculated between the reference image and the other more si-

milar in one of the expressions of the base. To calculate the motion vectors is proposed the

MARSA (Modified Adaptive Reduction of the Search Area) algorithm. All motion vectors

are compared to the coordinates with the highest occurrences of all motion vectors obtai-

ned during the training phase, from this comparison the feature vectors are generated that

serve as input data for a SVM (Support Vector Machine), which will perform the classifi-

cation of facial expression. Several databases of images and videos of faces reproducing

facial expressions were used for the experiments, the adopted criteria for selection of the

bases was the frequency which they are used in the state of the art, then were chosen: Cohn-

Kanade (CK), Extended Cohn-Kanade (CK+), Japanese Female Facial Expression (JAFFE), MMI,

and CMU Pose, Illumination, and Expression (CMU-PIE). The experimental results demons-

trate that the recognition rates of facial expressions are compatible to recent literature works

proving the efficiency of the presented method.

Keywords: Feature extraction. Block matching. Motion Estimation. Facial Expression Re-

cognition.

LISTA DE FIGURAS

1.1 Comparação entre técnicas padrões de reconhecimento e Deep Learning. Fonte:[1] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.1 Um sistema genérico de reconhecimento de expressões faciais. Fonte: autor. . 262.2 Faces da base de imagens JAFFE. Fonte: [2]. . . . . . . . . . . . . . . . . . . . . 282.3 Exemplo de sequência da base CK partindo da expressão neutra (esquerda)

para a expressão medo (direita). Fonte: [3]. . . . . . . . . . . . . . . . . . . . . 282.5 Exemplo de sequência da base CK+ partindo da expressão neutra (esquerda)

para a expressão de desprezo (direita). Fonte: [4]. . . . . . . . . . . . . . . . . 282.4 Faces da base de imagens CK. ”sem imagem” indica que o indivíduo não

possui imagem para aquela expressão na base. Fonte: [3]. . . . . . . . . . . . . 292.6 Exemplo de sequência da base MMI partindo da expressão neutra (esquerda)

para a expressão de nojo (direita). Fonte: [5]. . . . . . . . . . . . . . . . . . . . 292.7 Frames da base de vídeos MMI. ”sem imagem” indica que o indivíduo não

possui imagem para aquela expressão na base. Fonte: [5]. . . . . . . . . . . . . 302.8 Exemplo de imagens da base CMU-PIE, da esquerda para a direita e de cima

para baixo as imagens das câmeras: 05, 07, 09, 27 e 29. Fonte: [6]. . . . . . . . 312.9 Linha do tempo das bases de imagens de faces. As bases sublinhadas foram

utilizadas nos experimentos deste trabalho. Fonte: autor. . . . . . . . . . . . . 322.10 Um sistema genérico de detecção de faces. Fonte: autor. . . . . . . . . . . . . . 332.11 Exemplos de detecção de faces e carros. Fonte: [7]. . . . . . . . . . . . . . . . . 342.12 Cima: modelo do CANDIDE-1. Baixo: modelo do CANDIDE-2. Fonte: [8]. . . 352.13 Saída do detector de Viola e Jones em algumas imagens de testes. Fonte: [9]. . 372.14 Sequência de testes do descritor CNN em cascata: da esquerda pada a di-

reita, como as janelas de detecção são reduzidas e calibradas em cada estágio.Fonte: [10]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.15 Linha do tempo das técnicas de detecção de faces. A técnica sublinhada foiutilizada nos experimentos deste trabalho. Fonte: autor. . . . . . . . . . . . . . 38

2.16 Distribuição de brilho ao longo de uma linha vertical cruzando a íris. Fonte:[11]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.17 13 linhas verticais para obtenção das informações faciais. Fonte: [11]. . . . . . 402.18 Modelos de componentes faciais multi-estado de uma face na posição frontal.

Fonte: [12]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.19 Pontos faciais na visão frontal (esquerda) e na visão lateral (direita). Fonte: [13]. 422.20 Posições típicas dos pontos fiduciais: (a) 34 pontos (b) 19 pontos. Fonte: [14]. 432.21 Modelo dos pontos-chave faciais. Fonte: [15]. . . . . . . . . . . . . . . . . . . . 432.22 (a) Características extraídas dos olhos, das sobrancelhas e do queixo (b) Ca-

racterísticas extraídas da boca e dos lábios. Fonte: [16]. . . . . . . . . . . . . . 442.23 Um exemplo do método de particionamento de regiões faciais: a imagem da

face dividida em 1, 4, 16 e 64 sub-regiões faciais. Fonte: [17]. . . . . . . . . . . 452.24 Exemplo de 49 pontos faciais de referência localizados por ASM (active shape

model). Fonte: [18]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462.25 Linha do tempo das técnicas de extração baseadas em características geomé-

tricas. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462.26 Amostras de imagens extraídas da base de imagens JAFFE e respectivas ca-

racterísticas extraídas (olhos e boca). Fonte: [19]. . . . . . . . . . . . . . . . . . 472.27 Exemplo de características Haar-like sobrepostas em uma imagem de face.

Fonte: [20]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 482.28 (Esquerda) Uma face dividida em 6 × 7 sub-regiões. (Direita) Quadrados

pretos indicam peso 0, cinza escuros 1, cinza claros 2 e brancos 4. Fonte: [21]. 492.29 Resultados da detecção de bordas usando o algoritmo de Canny. Fonte: [22]. . 502.30 Descritor de face LSDP. Fonte da Imagem: [23] . . . . . . . . . . . . . . . . . . 502.31 Ilustração de uma decomposição 4 escalas de Curvelet. Fonte da Imagem: [24] 522.32 Representações de planos de bits de imagem de face. Fonte da Imagem: [25] . 532.33 Linha do tempo das técnicas de extração de características de aparência. Fonte:

autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542.34 Amostras de saídas do sistema para um segmento de 10 segundos de vídeo,

contendo as AUs: 1, 2, 6 e 9. Com início, ápice e fim das AUs. Fonte: [26]. . . 562.35 Linha do tempo das técnicas de classificação utilizadas no reconhecimento de

expressões faciais. O trabalho sublinhado descreve o classificador utilizadonos experimentos desta tese. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . 59

3.1 Sistema desenvolvido para o reconhecimento de expressões faciais. Fonte:autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.2 Imagens da base Cohn-Kanade Extendida (CK+) convertidas para níveis decinza. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

3.3 Imagens da base Cohn-Kanade (CK) e respectivas faces recortadas utilizandoa localização dos olhos implementada pelos filtros ASEF. Fonte: autor. . . . . 64

3.4 Treinamento dos filtros ASEF. Fonte: [27] . . . . . . . . . . . . . . . . . . . . . 653.5 A imagem do centro representa a imagem-referência. As demais imagens

representam as melhores comparações em cada expressão facial da base deimagens Cohn-Kanade. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . 67

3.6 Exemplo de como os MVs são calculados entre a imagem-referência e a ima-gem mais similar em cada expressão da base Cohn-Kanade. Fonte: autor. . . 69

3.7 Representação de como é obtido o vetor de movimento entre duas imagens.Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3.8 Procedimento para classificação de informação de bloco. Fonte: [28] (modifi-cada pelo autor). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

3.9 Regiões da face selecionadas para a extração de características faciais, consi-derando a proporcionalidade da distância entre os olhos e entre cada olho ea boca. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

3.10 Regiões da face selecionadas para a extração de características faciais. Umaimagem de cada base (da esquerda para a direita): CK, JAFFE, MMI, CK+ eCMU-PIE. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

3.11 O algoritmo Modificado de Redução Adaptativa da Área de Busca (MARSA).Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3.12 As cinco fases do treinamento. Fonte: autor. . . . . . . . . . . . . . . . . . . . . 783.13 Busca da imagem mais similar em cada expressão facial. Fonte: autor. . . . . 793.14 Representação do MV. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . 793.15 Framework de testes. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . . 823.16 Visão do hiperplano separador de classes na SVM linear. Fonte: autor. . . . . 843.17 Visão geral do classificador em aprendizado supervisionado. Fonte: autor. . . 853.18 Conjunto de dados não linear. Fonte: autor. . . . . . . . . . . . . . . . . . . . . 85

4.1 Validação Cruzada 10-folds. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . 894.2 Taxas de reconhecimento para cada expressão facial da base JAFFE. Fonte:

autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 934.3 Quantidade de HOVs X Respectivas taxas médias de acertos no reconheci-

mento de expressões faciais na base de imagens JAFFE. Fonte: autor. . . . . . 944.4 Taxas de reconhecimento para cada expressão facial da base CK. Fonte: autor. 994.5 Quantidade de HOVs X Respectivas taxas médias de acertos no reconheci-

mento de expressões faciais na base de imagens CK. Fonte: autor. . . . . . . . 1004.6 Taxas de reconhecimento para cada expressão facial da base CK+. Fonte: autor.1064.7 Quantidade de HOVs X Respectivas taxas médias de acertos no reconheci-

mento de expressões faciais na base de imagens CK+. Fonte: autor. . . . . . . 1064.8 Taxas de reconhecimento para cada expressão facial da base MMI. Fonte: autor.1114.9 Quantidade de HOVs X Respectivas taxas médias de acertos no reconheci-

mento de expressões faciais na base de imagens e vídeos MMI. Fonte: autor. . 1124.10 Imagens de faces segmentadas da base CMU-PIE. Fonte: autor. . . . . . . . . 1154.11 Taxas de reconhecimento para cada expressão facial da base CMU-PIE. Fonte:

autor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1174.12 Quantidade de coordenadas de maiores ocorrências nos vetores de movi-

mento x Respectivas taxas de reconhecimento da expressões faciais na basede imagens CMU-PIE. Fonte: autor. . . . . . . . . . . . . . . . . . . . . . . . . 117

LISTA DE TABELAS

1.1 Exemplos de aplicações de reconhecimento de expressões faciais . . . . . . . 19

3.1 Para cada imagem, um MV para cada expressão da base de treinamento. . . . 793.2 Representação dos HOVs de cada expressão facial da base de treinamento. . 803.3 Cálculo do HOV para a base de imagens alegria. . . . . . . . . . . . . . . . . . 803.4 Cálculo do EDV para cada imagem da base de treinamento. . . . . . . . . . . 813.5 Cálculo do FV para uma imagem da base de treino. . . . . . . . . . . . . . . . 81

4.1 Tempos de detecção e recorte da face usando os filtros ASEF para cada basee para cada imagem utilizada nos experimentos. . . . . . . . . . . . . . . . . . 90

4.2 Tempos de busca da imagem de maior semelhança usando a função SSIMpara cada base e para cada imagem utilizada nos experimentos. . . . . . . . . 90

4.3 Matriz de confusão do reconhecimento de expressões faciais na base JAFFE,utilizando 1 HOV. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

4.4 Matriz de confusão do reconhecimento de expressões faciais na base JAFFE,utilizando 2 HOVs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91




4.8 Matriz de confusão do reconhecimento de expressões faciais na base JAFFE,utilizando 10 HOVs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92



4.11 Taxas médias de reconhecimento dos algoritmos de estimação de movimentopara tamanhos diferentes de blocos, utilizando a base JAFFE. . . . . . . . . . . 95

4.12 Tempos de processamento dos algoritmos de estimação de movimento paratamanhos diferentes de blocos, utilizando a base JAFFE. . . . . . . . . . . . . . 96

4.13 Matriz de confusão do reconhecimento de expressões faciais na base CK, uti-lizando 1 HOV. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

4.14 Matriz de confusão do reconhecimento de expressões faciais na base CK, uti-lizando 2 HOVs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97




4.18 Matriz de confusão do reconhecimento de expressões faciais na base CK, uti-lizando 10 HOVs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98



4.21 Taxas médias de reconhecimento dos algoritmos de estimação de movimentopara tamanhos diferentes de blocos, utilizando a base CK. . . . . . . . . . . . 101

4.22 Tempos de processamento dos algoritmos de estimação de movimento paratamanhos diferentes de blocos, utilizando a base CK. . . . . . . . . . . . . . . 102

4.23 Matriz de confusão do reconhecimento de expressões faciais na base CK+,utilizando 1 HOV. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

4.24 Matriz de confusão do reconhecimento de expressões faciais na base CK+,utilizando 2 HOVs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103




4.28 Matriz de confusão do reconhecimento de expressões faciais na base CK+,utilizando 10 HOVs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104



4.31 Taxas médias de reconhecimento dos algoritmos de estimação de movimentopara tamanhos diferentes de blocos, utilizando a base CK+. . . . . . . . . . . . 107

4.32 Tempos de processamento dos algoritmos de estimação de movimento paratamanhos diferentes de blocos, utilizando a base CK+. . . . . . . . . . . . . . . 108

4.33 Matriz de confusão do reconhecimento de expressões faciais na base MMI,utilizando 1 HOV. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

4.34 Matriz de confusão do reconhecimento de expressões faciais na base MMI,utilizando 2 HOVs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109




4.38 Matriz de confusão do reconhecimento de expressões faciais na base MMI,utilizando 10 HOVs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110



4.41 Taxas médias de reconhecimento dos algoritmos de estimação de movimentopara tamanhos diferentes de blocos, utilizando a base MMI. . . . . . . . . . . 113

4.42 Tempos de processamento dos algoritmos de estimação de movimento paratamanhos diferentes de blocos, utilizando a base MMI. . . . . . . . . . . . . . 114

4.43 Matriz de confusão do reconhecimento de expressões faciais na base CMU-PIE, utilizando 1 HOV. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

4.44 Matriz de confusão do reconhecimento de expressões faciais na base CMU-PIE, utilizando 2 HOVs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115




4.48 Matriz de confusão do reconhecimento de expressões faciais na base CMU-PIE, utilizando 10 HOVs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116



4.51 Taxas médias de reconhecimento dos algoritmos de estimação de movimentopara tamanhos diferentes de blocos, utilizando a base CMU-PIE. . . . . . . . . 119

4.52 Tempos de processamento dos algoritmos de estimação de movimento paratamanhos diferentes de blocos, utilizando a base CMU-PIE. . . . . . . . . . . . 119

4.53 Comparação com outros métodos da literatura, utilizando a base de imagensJAFFE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

4.54 Comparação com outros métodos da literatura, utilizando a base de imagensCK. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

4.55 Comparação com outros métodos da literatura, utilizando a base de imagensCK+. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

4.56 Comparação com outros métodos da literatura, utilizando a base de vídeosMMI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

4.57 Comparação com outros métodos da literatura, utilizando a base de imagensCMU-PIE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.1 Reconhecimento de Expressões Faciais . . . . . . . . . . . . . . . . . . . . . . . . 181.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.2.1 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221.3 Organização da Tese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 REVISÃO DA LITERATURA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.1 Sistemas de Reconhecimento de Expressões Faciais . . . . . . . . . . . . . . . . 252.1.1 Bases de Imagens de Faces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.1.2 Detecção e Rastreamento da Face . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.1.3 Extração de Características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.1.4 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543 MÉTODO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603.1 Pré-processamento para as Bases de Expressões Faciais . . . . . . . . . . . . . . 633.1.1 Filtros de Correlação ASEF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643.2 Busca da Maior Semelhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663.2.1 SSIM - Structural Similarity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673.3 Extração de Características . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683.3.1 Algoritmo de Busca Exaustiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 713.3.2 Algoritmo de Redução Adaptativa da Área de Busca . . . . . . . . . . . . . . . . 723.3.3 Algoritmo Modificado de Redução Adaptativa da Área de Busca . . . . . . . . . 753.4 Transformação de Características . . . . . . . . . . . . . . . . . . . . . . . . . . . 773.4.1 Treinamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 783.4.2 Testes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 823.5 Classificação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 833.5.1 SVM - Support Vector Machine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 834 EXPERIMENTOS E RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 874.1 Etapas de Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 894.2 Reconhecimento de Expressões Faciais Utilizando a Base JAFFE . . . . . . . . . 904.2.1 Comparação dos algoritmos de estimação de movimento por casamento de blo-

cos na base JAFFE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.3 Reconhecimento de Expressões Faciais Utilizando a Base CK . . . . . . . . . . 96

4.3.1 Comparação dos algoritmos de estimação de movimento por casamento de blo-cos na base CK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

4.3.2 A Segunda Versão da Base Cohn-Kanade: CK+ . . . . . . . . . . . . . . . . . . . . 1024.4 Reconhecimento de Expressões Faciais Utilizando a Base MMI . . . . . . . . . 1084.4.1 Comparação dos algoritmos de estimação de movimento por casamento de blo-

cos na base MMI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1124.5 Reconhecimento de Expressões Faciais Utilizando a Base CMU-PIE . . . . . . 1144.5.1 Comparação dos algoritmos de estimação de movimento por casamento de blo-

cos na base CMU-PIE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1184.6 Comparação com Outros Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . 1195 CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1275.1 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

CAPÍTULO 1

INTRODUÇÃO

"Se cheguei até aqui foi porque me apoiei nos

ombros de gigantes."

— Isaac Newton

AEmoção representa um estado psicológico da mente humana. Pesquisas em diversas

áreas defendem opiniões distintas sobre o processo de desenvolvimento da emo-

ção [29]. Alguns filósofos acreditam que a emoção é resultado de mudanças (positivas ou

negativas) em situações pessoais ou no ambiente. Entretanto, alguns biólogos consideram

os sistemas nervoso e hormonal como principais responsáveis pelo desenvolvimento das

emoções. Embora não haja um consenso sobre o que causa a emoção, é fato que a sua

excitação é geralmente acompanhada de alguma manifestação em nossa aparência, como

alterações na expressão facial, voz, gesto, postura e outras condições fisiológicas [29].

As expressões faciais fornecem informações relevantes sobre o estado emocional do in-

divíduo e exercem um papel fundamental na interação humana e como forma de comunica-

ção não-verbal. Elas podem complementar a comunicação verbal, ou até mesmo transmitir

uma mensagem completa por si só. Pesquisas afirmam que a parte verbal ou palavras fa-

ladas de uma mensagem contribuem apenas com 7% para o efeito da mensagem como um

todo, a parte vocal (entonação) contribui em 38%, enquanto a expressão facial de quem fala

contribui com 55% para o efeito da mensagem falada [30].

O reconhecimento da emoção a partir da expressão facial frequentemente induz a infe-

18

rências imprecisas, particularmente por duas razões. Primeiro, a expressão pode não cor-

responder verdadeiramente à excitação de uma determinada emoção. Segundo, medições

de expressões requerem ferramentas de alta precisão. O primeiro problema é insolúvel pois

depende dos indivíduos, sobre os quais as experiências são realizadas, que podem suprimir

sua emoção, ou mesmo fingir falsas emoções. Presumindo que os indivíduos envolvidos

nos experimentos são propícios à pesquisa sobre o reconhecimento de expressões faciais,

apenas o segundo problema é considerado, pois pode ser resolvido por sistemas automati-

zados de reconhecimento.

Os seres humanos em geral realizam o reconhecimento das expressões faciais baseados

em características identificadas em certas regiões da face, especificamente nas regiões dos

olhos e da boca. Da mesma forma, um sistema computacional deve ser capaz de detectar

essas regiões e de extrair as características necessárias para identificar a expressão facial

sendo manifestada. Na aprendizagem de máquina, no reconhecimento de padrões e no

processamento de imagens, a extração de características começa a partir de um conjunto

inicial de dados e cria valores derivados que devem ser informativos e não redundantes.

As características podem ser estruturas específicas na imagem, como pontos, bordas ou ob-

jetos. Outros exemplos estão relacionados com: o movimento identificado entre imagens

pertencentes a uma sequência, as formas definidas por curvas e limites entre regiões dife-

rentes na imagem, e as cores ou texturas de determinadas regiões. É possível perceber que

o conceito de característica é bastante genérico, portanto a escolha de características em um

sistema de visão computacional pode depender do problema em questão.

1.1 Reconhecimento de Expressões Faciais

Atualmente, imagens de faces são cada vez mais utilizadas como forma de reconheci-

mento de emoções. A informação da face é uma poderosa ferramenta para aplicações como

segurança, entretenimento, entre outras. Existe uma grande variedade de aplicações tais

como sistemas de reconhecimento de faces humanas, sistemas de vigilância e sistemas de

vídeo conferência, que têm como pré-requisito a localização da face e a extração de suas

características. Por isso, a comunidade científica tem dedicado esforços para ampliar os es-

tudos e encontrar melhores técnicas para o problema de localizar uma face e extrair suas

características. De acordo com Wong et al. [31], detectar faces humanas e extrair as carac-

terísticas faciais de uma imagem sem restrição é um grande desafio. Uma série de fatores

19

dificulta a detecção, tais como as cores da pele, uso de óculos, barba ou bigode e, em es-

pecial, as expressões faciais. Isso faz com que a extração de características faciais torne-se

difícil e desafiadora. Várias pesquisas sobre técnicas de reconhecimento de expressões fa-

ciais estão sendo desenvolvidas com o propósito de obter soluções para esses problemas.

Essas técnicas são muito úteis, pois não exigem a interação do usuário ou o conhecimento

dele.

A Tabela 1.1 apresenta algumas aplicações do reconhecimento de expressões faciais.

Tabela 1.1: Exemplos de aplicações de reconhecimento de expressões faciais

ÁREAS APLICAÇÕES ESPECÍFICAS

Entretenimento Jogos de videogame cujos personagens reagem a determinadas expressões do jogador.

Educação Avaliação de interesse do aluno em aulas presenciais e de ensino à distância.

Saúde Monitoramento de pacientes em hospitais.

Vigilância Fiscalização de vídeo avançada, monitorando pessoas com expressões suspeitas.

As expressões faciais são geradas a partir de contrações de músculos faciais, que re-

sultam na deformação de características faciais, tais como pálpebras, sobrancelhas, nariz

e boca, e também resultam em mudanças nas suas posições relativas. A partir destas de-

formações, modelos de representações podem ser definidos, onde imagens com deforma-

ções semelhantes podem pertencer a um determinado modelo. Este processo caracteriza-se

como reconhecimento de expressão facial. A forma para representar uma determinada ex-

pressão facial é analisar as suas distinções ou variações entre a imagem da expressão e a

sua imagem correspondente sob uma expressão normal. Portanto, alguns métodos de re-

conhecimento de expressão facial são baseados em uma sequência de imagens ou imagens

de um vídeo. Contudo, apenas imagens estáticas estão disponíveis para alguns tipos de

aplicações.

O movimento da face é uma característica que pode ser extraída. Alguns trabalhos

apresentam abordagens baseadas em estimação de movimento por casamento de blocos

(block-matching) para reconhecimento de expressões faciais [32], [33]. Karpouzis et al. [32]

propuseram um sistema que compara a evidência de ativação muscular da face humana a

dados obtidos a partir de um modelo 3D de uma cabeça. O algoritmo de estimação de mo-

vimento utilizado no trabalho de Karpouzis et al. é o 3SS (Three-Step Exhaustive Search) [34].

Shermina e Vasudevan [33] propuseram um sistema de reconhecimento de faces baseado

em oclusão e expressão parcial, usando EMD (Empirical Mode Decomposition) e Redes Neu-

rais Artificiais para a extração de características. O algoritmo de estimação de movimento

20

utilizado durante o processo de reconhecimento da expressão é o FS (Full Search) [34].

Recentemente, os sistemas automáticos de reconhecimento de emoções baseados em ex-

tração de características têm apresentado melhorias na precisão da classificação, devido em

parte aos avanços em métodos de seleção de características. No entanto, muitos desses mé-

todos capturam apenas relações lineares ou, alternativamente, requerem o uso de dados

rotulados. Por isso, as técnicas de Deep Learning [35] têm se tornado cada vez mais popu-

lares na áreas de visão e inteligência computacional. Essas técnicas podem superar essas

limitações dos métodos baseados em extração de características através da captura explícita

de complexas interações de características não-lineares em dados multimodais. Isso vem

ocorrendo devido principalmente à descoberta recente de algoritmos de aprendizado mais

efetivos em um contexto não-supervisionado [36]. A Figura 1.1 ilustra uma comparação

entre as técnicas de reconhecimento baseadas em extração de características e as técnicas

de Deep Learning, os níveis das características são relativos às suas complexidades, desde a

detecção de curvas e linhas (nível-baixo) até a detecção de faces ou a classificação de ativi-

dades humanas (nível-alto), por exemplo.

Figura 1.1: Comparação entre técnicas padrões de reconhecimento e Deep Learning. Fonte: [1]

Nesta Tese é apresentada uma nova técnica de extração de característica, baseada em

estimação de movimento por casamento de blocos (block-matching), utilizada no reconheci-

mento padrão tradicional, obtendo taxas de reconhecimento de expressões faciais compatí-

veis com as técnicas de reconhecimento que utilizam o padrão moderno e com as técnicas

21

de Deep Learning. Contudo, com uma abordagem menos complexa.

Na fase de treinamento, o movimento entre duas expressões da mesma face (ou faces

similares) é estimado. Para cada imagem de face da base de treinamento é buscada uma

outra imagem de maior similaridade em cada expressão facial do banco de imagens (por

exemplo: raiva, nojo, medo, felicidade, tristeza, surpresa), então é calculado um vetor de

movimento entre as duas imagens.

Após o cálculo dos vetores de movimento de todas as imagens em todas as expressões,

são calculadas as coordenadas que ocorreram mais vezes nesses vetores, elas são armaze-

nadas nos chamados ’vetores de maiores ocorrências’. A fase de treinamento é encerrada

após a obtenção desses vetores. Na fase de testes, a imagem que terá a expressão facial

reconhecida é comparada com todas as imagens utilizadas no treinamento, a imagem mais

similar dentro de cada expressão facial da base, também calculada a partir da métrica SSIM,

é utilizada para o cálculo do vetor de movimento. Então, os vetores de movimento são com-

parados aos vetores de maiores ocorrências calculados para cada expressão facial durante

a fase de treinamento, a partir dessa comparação são gerados os vetores de características

usados para o reconhecimento da expressão facial.

Finalmente, foi realizada uma análise da precisão do método apresentado neste trabalho

através de diversos experimentos com cinco bases de imagens comumente utilizadas no

estado da arte: Cohn-Kanade (CK) [3], Cohn-Kanade Extendida (CK+) [4], Japanese female facial

expression (JAFFE) [2], MMI [5] e CMU Pose, Illumination, and Expression (CMU-PIE) [6]. Para

a classificação da expressão facial foi utilizada a SVM (Support Vector Machine) [37]. Os

resultados experimentais mostram a eficiência da técnica proposta, sendo compatíveis ou

superiores a trabalhos recentes da literatura.

1.2 Objetivos

O objetivo desta Tese é apresentar um novo método de extração de característica para o

reconhecimento de movimento aplicável em expressões faciais, que obtenha maiores taxas

de acertos na classificação das expressões, e que seja mais simples, em termos de implemen-

tação, do que os métodos vigentes na literatura recente.

22

1.2.1 Objetivos Específicos

• Desenvolver um extrator de características que possa ser utilizado em bases de ima-

gens estáticas e vídeos;

• Desenvolver um método capaz de ser treinado para reconhecer expressões faciais uti-

lizando algoritmos de estimação de movimentos por casamento de blocos;

• Desenvolver um método capaz de reconhecer outros tipos de movimento.

1.3 Organização da Tese

O conteúdo desta Tese está dividido em cinco capítulos. As referências encontram-se

nas páginas finais. A seguir, um resumo dos próximos capítulos:

Capítulo 2. Revisão da literatura recente na área de reconhecimento de expressões faciais,

descrevendo trabalhos de detecção de faces em imagens, extração de características e

classificadores de expressões.

Capítulo 3. Descrição da metodologia utilizada para o desenvolvimento deste trabalho.

Toda a arquitetura do processo de reconhecimento de expressões faciais é descrita de-

talhadamente, desde o pré-processamento até o processo de classificação.

Capítulo 4. Apresentação dos resultados obtidos nos experimentos realizados usando as

bases de imagens Cohn-Kanade (CK), Extended Cohn-Kanade (CK+), Japanese female facial

expression (JAFFE), MMI e CMU Pose, Illumination, and Expression (CMU-PIE). Tam-

bém são apresentados diversos dados estatísticos, como tempo de pré-processamento,

comparação de desempenho entre algoritmos diferentes de estimação de movimento,

resultados obtidos com a alteração de valores de diversos parâmetros no sistema pro-

posto, etc. Esses resultados são analisados e algumas considerações são expostas.

Capítulo 5. Discussões e conclusões obtidas dos experimentos realizados no Capítulo 4.

Também são apresentados os trabalhos futuros.

CAPÍTULO 2

REVISÃO DA LITERATURA

"Há riqueza bastante no mundo para as ne-

cessidades do homem, mas não para a sua am-

bição"

— Mahatma Gandhi

OEstudo das expressões faciais remete à era dos filósofos gregos (século IV A.C.), que

tentavam determinar a personalidade e o caráter de um indivíduo baseados na sua

aparência e visual, especialmente a partir de sua expressão facial [29].

Uma abordagem científica foi realizada por Paul Ekman [38], na década de setenta, que

realizou um estudo sobre a representação da expressão facial em diferentes culturas. Na

época, acreditava-se que as pessoas utilizavam seus músculos faciais de acordo com um

conjunto de convenções sociais e expressões aprendidas, de forma similar ao que ocorre

com os idiomas, onde cada região tem sua própria interpretação das expressões faciais. Ek-

man tirou fotos de homens e mulheres realizando diversas expressões faciais e viajou para

Brasil, Argentina e Japão com essas fotografias. Para a sua surpresa, as pessoas dos diferen-

tes países que participaram de seu experimento, concordaram com o que significava cada

uma das expressões nas fotografias. Ele então estendeu seus experimentos do mundo de-

senvolvido para as florestas em Papua-Nova Guiné, para as vilas mais remotas, e descobriu

que mesmo com os habitantes dessas vilas não havia dificuldade para identificar as expres-

sões nas fotografias. Essa descoberta foi um marco importante no estudo das expressões

24

faciais.

Outra contribuição importante do trabalho de Ekman [38] foi a criação do Facial Ac-

tion Coding System (FACS), um sistema para descrever expressões faciais humanas. É um

padrão para categorizar sistematicamente a expressão física das emoções, e tem sido útil

a psicólogos e a animadores. Usando FACS, rotuladores humanos podem manualmente

rotular quase qualquer expressão facial anatomicamente possível, desconstruindo-as em

Action Units (AU - Unidades de Ação) específicas e seus segmentos temporais que causa-

ram a expressão. Como as AUs são independentes de qualquer interpretação, elas podem

ser usadas em processos de decisões gerais incluindo reconhecimento de emoções básicas,

ou comandos pré-programados em um ambiente inteligente. O manual FACs tem mais de

1000 páginas e fornece as AUs, bem como as interpretações do Dr. Ekman do seu signi-

ficado. As AUs são utilizadas em alguns sistemas automatizados de reconhecimento de

expressões faciais [12], [13].

A necessidade de um sistema de reconhecimento de expressões faciais robusto tem se

tornado cada vez mais evidente com o avanço recente nas áreas de robótica e softwares au-

tomatizados. Os seres humanos em geral são responsivos aos estados emocionais uns dos

outros, portanto espera-se que computadores e sistemas automatizados também adquiram

essa habilidade. Através do avanço do estudo da interação homem-máquina, pesquisa-

dores têm conseguido melhorar significativamente essa interação com o uso de sensores.

Consoles de videogames como o Kinect [39] e Wii [40] podem detectar o movimento humano

e reagir de acordo, conectando os mundos físico e virtual. Sensores de detecção de sono em

automóveis podem identificar quando um motorista está sonolento e agir para reduzir o

risco de acidentes [41]. Robôs inteligentes vêm sendo desenvolvidos para fazer companhia

aos seres humanos [42]. A análise das expressões faciais é bastante útil para essas aplica-

ções.

Na Seção 2.1 é discutido o processo genérico de reconhecimento de expressões faciais

e são apresentados trabalhos e abordagens recentes sobre a análise de expressões faciais.

Na Subseção 2.1.1 são apresentadas algumas bases de imagens de faces, na Subseção 2.1.2

são apresentados alguns trabalhos sobre detecção de faces em imagens, a Subseção 2.1.3

revisa alguns trabalhos sobre extração de características e a Subseção 2.1.4 apresenta alguns

classificadores utilizados para a identificação das expressões.

25

2.1 Sistemas de Reconhecimento de Expressões Faciais

O foco de qualquer algoritmo de reconhecimento de faces é mitigar as mudanças relaci-

onadas à expressão [43]. O que pode ajudar a projetar um agente que percebe uma emoção

em uma pessoa e projeta uma expressão apropriada como resposta [44]. A habilidade de re-

conhecer o estado afetivo de um humano através de uma máquina inteligente irá capacitá-la

a interpretar, entender e responder às emoções, aos humores e às intenções, de forma similar

ao que acontece entre as pessoas [45]. O objetivo principal dos sistemas de reconhecimento

de expressões faciais é automaticamente analisar e reconhecer os movimentos faciais e as

mudanças de características faciais a partir de informações visuais [46].

Todo sistema de reconhecimento de expressões faciais deve executar alguns passos an-

tes da classificação da expressão em uma emoção específica. Primeiro é preciso definir a

base de imagens ou vídeos que será utilizada para treinar e testar o sistema. Cada base pos-

sui características específicas, como posição da face nas imagens, iluminação ambiente etc.

Um sistema de reconhecimento de expressões pode apresentar desempenhos diferentes, em

termos de precisão no reconhecimento das expressões, para cada tipo de base. Após a de-

finição da base, é preciso encontrar a face do indivíduo na imagem ou no vídeo que serve

de entrada para o sistema. Então, o sistema precisa rastrear as mudanças nos músculos fa-

ciais ou na aparência para detectar onde a expressão está sendo mostrada. Provavelmente

haverá obstáculos que podem encobrir a face parcial ou totalmente, o que dificulta tanto

o processo de localização quanto o de rastreamento da região da face onde a expressão é

mostrada. Uma vez que a face é detectada, o sistema deve procurar por características,

como lábios, sobrancelhas e movimentos das bochechas, para a classificação da expressão a

partir de características específicas que são detectadas e possa ocorrer uma decisão sobre a

emoção sendo mostrada.

Contudo, o sistema ’aprende’ a partir de uma base de imagens que é utilizada no seu

treinamento para o reconhecimento de expressões independente da idade, sexo, etnia ou

cor da pele do indivíduo. Resumidamente, os sistemas de reconhecimento de expressões

faciais podem ser divididos nos quatro módulos mostrados na Figura 2.1.

26

Figura 2.1: Um sistema genérico de reconhecimento de expressões faciais. Fonte: autor.

O sistema de reconhecimento de expressões faciais apresentado nesta Tese selecionou as

bases de imagens JAFFE, CK, CK+ e CMU-PIE e a base de vídeos MMI, conforme menci-

onado no Capítulo 1, para treinamento e testes. Para a detecção de faces nas imagens são

utilizados os filtros de correlação ASEF (Average of Synthetic Exact Filters) [27]. A técnica de

extração de características apresentada neste trabalho é baseada na mudança da aparência

da face com o movimento entre as expressões faciais, esse movimento é calculado a partir

de algoritmos de estimação por casamento de blocos. O classificador utilizado no último

módulo é o Support Vector Machine (SVM) [37].

A seguir, é apresentada a revisão da literatura para cada um dos quatro módulos do

sistema genérico mostrado na Figura 2.1.

2.1.1 Bases de Imagens de Faces

A escolha da base de imagens é uma etapa importante para o desenvolvimento de qual-

quer sistema de reconhecimento de expressões faciais. Se todos os pesquisadores pudessem

utilizar uma mesma base de imagens, tornaria mais fácil a realização de testes e compara-

ções entre os diversos sistemas desenvolvidos. Após a seleção da base, os pesquisadores

utilizam uma abordagem baseada em características para rastrear aquelas que são perma-

nentes ou transitórias. Existem rastreadores específicos para as características permanentes

da face, como olhos e lábios, por exemplo. Enquanto os métodos de detecção de bordas são

utilizados para as características transitórias da face, como as rugas, por exemplo. Entre-

tanto, tudo depende da disponibilidade de uma boa base de imagens.

A base FERET (Facial Recognition Technology) [47] é uma base de imagens de faces, divi-

dida em dois grupos: desenvolvimento e isolado. O grupo de desenvolvimento está dis-

ponível para os pesquisadores de diversas áreas e o grupo isolado é reservado para testes

de algoritmos de reconhecimento facial. O procedimento de avaliação FERET é um teste

de algoritmos de reconhecimento facial administrado de forma independente. O teste foi

desenvolvido para: (1) permitir a comparação direta entre diferentes algoritmos, (2) identi-

27

ficar as abordagens mais promissoras, (3) avaliar o estado da arte em reconhecimento facial,

(4) identificar futuras direções de pesquisa, e (5) auxiliar no avanço do estado da arte em

reconhecimento facial.

As imagens da base FERET foram coletadas em 15 sessões, entre agosto de 1993 e julho

de 1996. Ela contém 1.564 conjuntos de imagens para um total de 14.126 imagens que in-

cluem 1.199 indivíduos e 365 conjuntos duplicados de imagens. Um conjunto duplicado é o

segundo conjunto de imagens de uma pessoa que já está na base, mas teve novas fotos tira-

das em um dia diferente. Para alguns indivíduos, houve um intervalo de dois anos entre o

primeiro e o segundo conjunto de fotografias. Essa passagem de tempo foi importante pois

possibilitou aos pesquisadores, pela primeira vez, o estudo das mudanças na aparência do

indivíduo após um ano ou mais [47].

A base Japanese female facial expression (JAFFE) [2] está entre as bases de imagens de fa-

ces mais utilizadas em experimentos de sistemas de reconhecimento de expressões faciais.

Esta base possui 213 imagens de sete expressões faciais: raiva, nojo, medo, alegria, neutra,

tristeza e surpresa, com aproximadamente o mesmo número de imagens para cada catego-

ria de expressão facial. Cada imagem possui resolução de 256 × 256 pixels. Dez modelos

japonesas posaram paras as fotos, para cada uma das modelos há em média três imagens

diferentes da mesma expressão facial. Outra característica desta base é a pouca variação en-

tre as diferentes expressões faciais, o que dificulta o reconhecimento. A Figura 2.2 mostra

alguns exemplos dessa base, que foi utilizada nos experimentos do sistema proposto nesta

tese.

Outra base de imagens de expressões faciais bastante utilizada foi apresentada por Ka-

nade et al. [3]. A base foi nomeada como CMU-Pittsburgh AU-Coded Facial Expression, mas

é popularmente conhecida por Cohn-Kanade (CK). Ela foi criada para pesquisa em aná-

lise automática de faces e está disponível em duas versões. A primeira versão inclui 486

sequências de 97 indivíduos. Cada sequência começa com a expressão neutra e segue até

o ápice da expressão. Todas as sequências são codificadas de acordo com o FACS (Facial

Action Coding System) [38] e foram rotuladas com a emoção representada. Contudo, a ex-

pressão que identifica a sequência se refere à expressão que foi solicitada ao indivíduo e

não necessariamente à expressão que foi representada. As sequências de imagens partindo

da expressão neutra para a expressão-alvo foram digitalizadas em imagens com resoluções

de 640 × 480, 640 × 490 e 720 × 480 pixels, todas em níveis de cinza (ver Figura 2.3). Para

28

Figura 2.2: Faces da base de imagens JAFFE. Fonte: [2].

alguns indivíduos não há imagem para uma determinada expressão facial. A Figura 2.4

mostra alguns exemplos dessa base, utilizada nos experimentos do sistema proposto nesta

tese.

Figura 2.3: Exemplo de sequência da base CK partindo da expressão neutra (esquerda) para a expressão medo

(direita). Fonte: [3].

A base de imagens Cohn-Kanade (CK) possui ainda uma segunda versão, conhecida

como CK+ [4], que inclui tanto expressões representadas quanto expressões espontâneas.

Para as expressões representadas, o número de sequências é 22% maior do que a primeira

versão e a quantidade de indivíduos é 27% maior. Também foi representada uma expressão

facial a mais: desprezo (contempt). Na Figura 2.5 é mostrado um exemplo de sequência de

imagens para a expressão de desprezo. A base CK+ possui sequências de imagens coloridas.

Figura 2.5: Exemplo de sequência da base CK+ partindo da expressão neutra (esquerda) para a expressão de

desprezo (direita). Fonte: [4].

29

Figura 2.4: Faces da base de imagens CK. ”sem imagem” indica que o indivíduo não possui imagem para

aquela expressão na base. Fonte: [3].

A base de vídeos de expressões faciais MMI [5] é um projeto em andamento, seus ide-

alizadores têm como objetivo disponibilizar uma grande quantidade de dados visuais de

expressões faciais para a comunidade científica. A base MMI foi concebida no ano de 2002

como recurso para a construção e avaliação de algoritmos de expressões faciais, ela tenta

solucionar um problema comum às outras bases de expressões faciais que é a falta de um

padrão temporal completo das expressões, ou seja, da ausência de expressão (expressão

neutra), passando pela transição da expressão até o seu ápice, voltando novamente para

uma face sem expressão (neutra) (ver Figura 2.6).

Figura 2.6: Exemplo de sequência da base MMI partindo da expressão neutra (esquerda) para a expressão de

nojo (direita). Fonte: [5].

Enquanto as outras bases focam nas seis expressões básicas, a base MMI contém além

delas outras expressões com uma única unidade de ação (AU) FACS ativada, com todas

as AUs existentes e com muitos outros descritores de ação. Essa base é composta de 2.900

vídeos e imagens de alta resolução de 75 indivíduos. Ela é totalmente rotulada para a pre-

30

sença de AUs nos vídeos, e parcialmente codificada em nível de frame, indicando para cada

frame se uma AU está na expressão neutra, em transição ou ápice da expressão. A base MMI

está totalmente disponível para a comunidade. A Figura 2.7 mostra alguns exemplos dessa

base, também utilizada nos experimentos do sistema proposto nesta tese.

Figura 2.7: Frames da base de vídeos MMI. ”sem imagem” indica que o indivíduo não possui imagem para

aquela expressão na base. Fonte: [5].

A base de imagens CMU Pose, Illumination, and Expression (CMU-PIE) [6] possui mais

de 40.000 imagens de face de 68 pessoas. Usando o CMU (Carnegie Mellon University) 3D

Room, cada indivíduo foi fotografado em 13 poses diferentes, sob 43 condições de ilumi-

nação diferentes e com quatro expressões diferentes: neutra, sorrindo, fechando os olhos e

falando. Essas são provavelmente as quatro expressões faciais que mais ocorrem no cotidi-

ano das pessoas. As imagens da base têm resolução de 640× 486 pixels, disponibilizadas no

padrão de cores RGB. A Figura 2.8 mostra alguns exemplos dessa base, também utilizada

nos experimentos do sistema proposto nesta tese.

31

Figura 2.8: Exemplo de imagens da base CMU-PIE, da esquerda para a direita e de cima para baixo as imagens

das câmeras: 05, 07, 09, 27 e 29. Fonte: [6].

Sebe et al. [48] construíram uma base de imagens de faces com expressões espontâneas.

Eles pesquisaram sobre os principais problemas que estão associados com a captura de ex-

pressões espontâneas e observaram que as pessoas manifestam as mesmas expressões em

diferentes intensidades em diferentes ocasiões. Eles também perceberam que se as pessoas

estão cientes de que estão sendo filmadas ou fotografadas, as suas expressões perdem a

autenticidade. Então, eles propuseram uma solução: foi preparado um ambiente onde as

pessoas podiam assistir vídeos que induziam emoções. Suas expressões faciais foram fil-

madas com uma câmera escondida. Após o término da gravação as pessoas assinaram um

termo de consentimento para que seus vídeos e imagens capturados pudessem ser utiliza-

dos para propósito de pesquisa. Aqueles que assinaram o termo foram questionados sobre

qual emoção sentiram durante diversos momentos da filmagem.

Sebe et al. construíram uma grande base de imagens e vídeos de faces com os rótulos das

expressões que as pessoas vivenciaram. Contudo, eles descobriram que era muito difícil in-

duzir certas expressões, como tristeza e medo, por exemplo. Eles também obtiveram alguns

dados incorretos onde pessoas pareciam tristes, mas estavam sentindo alegria. Isso ocorreu

porque alguns filmes eram muito emotivos, mas tinham finais felizes. Curiosamente, eles

também descobriram que estudantes e jovens em geral estavam mais dispostos a dar seus

consentimentos para o uso de suas imagens em pesquisas do que professores mais velhos.

Para ilustrar a evolução das bases de imagens de faces, a Figura 2.9 mostra uma linha

do tempo com as bases citadas nesta seção. 1

1O critério para seleção das bases utilizadas nos experimentos foi a maior ocorrência nos trabalhos recentes da literatura.

32

Figura 2.9: Linha do tempo das bases de imagens de faces. As bases sublinhadas foram utilizadas nos experi-

mentos deste trabalho. Fonte: autor.

2.1.2 Detecção e Rastreamento da Face

Após a seleção da base de imagens, o primeiro passo na análise de expressões faciais é

detectar a face em uma imagem ou frame e então rastreá-la ao longo dos diferentes frames de

um vídeo. Os algoritmos de detecção e rastreamento de faces são baseados nas técnicas de

extração de características que buscam por uma determinada representação dentro de uma

imagem.

A detecção de faces possibilita a localização de faces em uma imagem arbitrária, sendo

utilizada para a detecção automática de faces em uma imagem digital ou em um frame de

um vídeo que serve como entrada em um sistema. Avanços recentes nas técnicas de pro-

cessamento de imagens tornaram possível a detecção de faces em tempo real, o que tornou

possível o seu uso em tecnologias biométricas, vídeos de vigilância e interação homem-

máquina. A detecção de faces é uma tarefa desafiadora que requer métodos de alta efici-

ência, confiáveis e rápidos. O método proposto deve ser capaz de detectar regiões da face

com um alto grau de acuracidade e erros mínimos [49]. Um sistema de detecção de faces

consiste basicamente de três fases: aquisição da imagem, pré-processamento da imagem e

classificação da imagem, como mostrado na Figura 2.10.

33

Figura 2.10: Um sistema genérico de detecção de faces. Fonte: autor.

Em 1991, Kanade e Lucas [50] apresentaram um dos métodos mais populares desenvol-

vidos para rastrear faces: o rastreador Kanade-Lucas-Tomasi. Anteriormente, Kanade e Lucas

haviam desenvolvido um algoritmo de extração de característica [51] que compara duas

imagens e assume que o segundo frame em uma sequência é uma translação do primeiro

devido à pouca variação de movimento entre os frames. Esta versão do algoritmo funcio-

nava satisfatoriamente sob supervisão humana, mas ainda ocorriam alguns erros que foram

solucionados na versão atualizada desenvolvida em [50]. O novo algoritmo funciona sem

a necessidade de supervisão, é mais rápido e simples do que a sua versão básica [51], re-

presentando a característica como uma função de três variáveis: x, y e t, onde x, y são as

coordenadas espaciais e t define o tempo. A técnica se mostrou eficiente para a determina-

ção de movimento e de forma nos experimentos realizados.

Em 2000, Kanade continuou sua pesquisa sobre métodos de detecção de objetos e pu-

blicou com Schneiderman [7] um método estatístico para detecção de objetos 3D. Eles re-

presentaram os dados estatísticos para a aparência do objeto e do ’não-objeto’ usando um

produto de histogramas, que também foram utilizados para representar uma grande va-

riedade de atributos visuais. Foram realizados experimentos para detectar faces humanas

e carros. O método proposto obteve sucesso na detecção de ambos. Kanade e Schneider-

man documentaram os desafios de detectar um objeto com características uniformes. Por

exemplo, carros têm diferentes tamanhos, formas, cores e tipos que são algumas das maio-

res diferenças e também possuem diferenças menores como tipos de faróis, luzes traseiras,

adesivos etc. De forma similar, as faces humanas também possuem diferentes atributos,

como etnia ou cor de pele. Um detector de objetos deve acumular todas essas propriedades

para ser capaz de detectar um determinado objeto em toda essa variedade de combinações.

34

Mesmo sem ser um fator de diferenciação em um objeto, o objeto a ser detectado pode pos-

suir diferentes ângulos de visualização. Por exemplo, a face humana vista de perfil ou de

frente é bastante diferente. O método apresentado por Kanade e Schneiderman lida com

isso utilizando uma abordagem baseada em visualização com vários detectores, em dife-

rentes posições, que detectam objetos em diferentes orientações.

A técnica apresentada em [7] foi capaz de detectar de 78% a 92% das faces de perfil e

95% das faces com vista frontal a partir de uma base com 208 imagens, com 441 faces, esco-

lhidas aleatoriamente na Internet. Em uma base com 213 carros e uma grande variedade de

cenários, cores, clima, condições de iluminação, tamanhos e modelos, o modelo proposto

foi capaz de detectar de 83% a 92% dos carros. A variação na detecção é baseada no parâ-

metro definido pela razão da probabilidade de uma forma detectada ser um ’não-objeto’ ou

um objeto. A Figura 2.11 mostra alguns exemplos da detecção obtida em [7].

Figura 2.11: Exemplos de detecção de faces e carros. Fonte: [7].

Em 2001, foi apresentado outro método utilizado para detecção de faces chamado mo-

delo de CANDIDE [8], que foi desenvolvido especificamente para codificação de faces hu-

manas baseada em modelo. O modelo de CANDIDE é construído usando um conjunto de

polígonos e teve a sua primeira versão apresentada no ano de 1987. Posteriormente, foram

desenvolvidos três diferentes modelos - CANDIDE 1, 2 e 3, cada um é uma atualização do

anterior, sendo o CANDIDE 3 o mais utilizado pela maioria dos pesquisadores. O CAN-

DIDE é controlado por unidades de ação global que rotacionam em três eixos e unidades

de ação local que consideram as faces com diferentes expressões. Unidade de ação é a ação

35

que pode ser realizada com um único músculo de ativação, por exemplo: fechar os olhos

ou piscar. O modelo original do CANDIDE tem 75 vértices e 100 triângulos, o CANDIDE-

1 foi atualizado para 79 vértices, 108 triângulos e 11 unidades de ação, o CANDIDE-2 foi

atualizado para 160 vértices e 238 triângulos e seis unidades de ação, ele também pode de-

tectar os ombros. A Figura 2.12 mostra os modelos de cada método (CANDIDE-1 e 2). O

CANDIDE-3 [8] introduz um novo tipo de unidade: a unidade de forma, foram definidas

12 unidades de forma, que permitem a detecção de diferentes formas de cabeças. As formas

das cabeças incluem a altura da cabeça, o tamanho dos olhos, a posição vertical dos olhos

etc. A lista completa das unidades de forma, unidades de ação, vértices, e como todos estão

relacionados com as versões anteriores do CANDIDE, pode ser encontrada em [8].

Figura 2.12: Cima: modelo do CANDIDE-1. Baixo: modelo do CANDIDE-2. Fonte: [8].

Em 2004, Viola e Jones [9] desenvolveram um método de aprendizado para detectar fa-

ces na posição frontal. Esse método é baseado no algoritmo de aprendizado AdaBoost [52]

e se mostrou veloz e preciso. Eles computaram uma nova representação de imagem cha-

mada ”imagem integral”, que permite um processamento ainda mais veloz das caracte-

rísticas usadas pelo detector apresentado, a partir de uma ’imagem-fonte’ usando poucas

operações por pixel baseadas em um conjunto de características que eles queriam detectar.

Essas características podem ser computadas em qualquer escala ou localização em tempo

36

constante. Após a detecção das características, Viola e Jones construíram uma classificador

simples e eficiente para selecionar um número pequeno de características importantes a

partir de uma grande biblioteca de potenciais características usando o AdaBoost. Entretanto,

o espaço de características era muito grande, muito maior do que o número de pixels. Para

garantir uma classificação veloz, foi proposto um processo de aprendizado que exclui a

grande maioria de características disponíveis. Foi utilizado o AdaBoost para restringir cada

classificador a depender de uma única característica. Então o processo de classificação se

tornou um processo de detecção de características visuais, que também é bastante veloz e

preciso.

Para tornar o seu método ainda mais rápido, Viola e Jones [9] combinaram classifica-

dores mais complexos em uma estrutura em cascata. Esses classificadores em sequência

aumentam a velocidade do detector focando a ’atenção’ do sistema de reconhecimento em

regiões promissoras da imagem. Por exemplo, um classificador de detecção de faces pode

facilmente filtrar 50% da imagem enquanto preserva mais de 99% das faces (de acordo com

os resultados dos experimentos realizados), assim a limitação da área para detecção de faces

torna o processo mais fácil e rápido para o sistema. No total, a cascata do método proposto

possui 38 classificadores e cada um deles é mais complexo do que o anterior. A área da ima-

gem que não for rejeitada por um classificador será analisada pelo próximo e a área que for

rejeitada não será analisada pelos demais classificadores. A classificação em cascata tornou

o detector final bastante veloz. A Figura 2.13 mostra exemplos da precisão da detecção de

faces obtida.

37

Figura 2.13: Saída do detector de Viola e Jones em algumas imagens de testes. Fonte: [9].

Em 2010, Suri e Verma [53] implementaram um detector de faces robusto com um novo

conceito chamado histogramas integrais de Haar com CMBLBP (circular multi block local bi-

nary operator). Eles propuseram uma mudança simples na regra de Haar: a definição de

uma região circular de codificação em vez de blocos de um retângulo por operador binário.

No método proposto, o valor do pixel central é subtraído do valor dos pixels da vizinhança.

Então a informação é apresentada sem perda, como uma distribuição conjunta do valor do

pixel central e as diferenças. O problema de escalonamento do LBP circular é reduzido pela

propriedade de multi bloco, o sistema pode detectar diversas estruturas na imagem (como

bordas, linhas, pontos e quinas). O detector proposto funciona em aplicações de tempo real.

Os resultados mostraram que é um detector rápido e com boa acuracidade mesmo com fa-

ces de vários tamanhos, variação de iluminação, variação de ângulo, diferentes expressões

faciais, rotação e mudança de escala.

Em 2015, Li et al. [10] apresentaram uma técnica para solucionar dois problemas con-

flitantes: o primeiro trata da detecção de faces no mundo real em imagens com variações

visuais na pose, expressão ou iluminação, utilizando um modelo discriminativo avançado

que possa distinguir de forma precisa as faces nos cenários. Consequentemente, modelos

efetivos para esse problema tendem a ser custosos computacionalmente. Para solucionar o

segundo problema, foi apresentada uma arquitetura em cascata construída em redes neu-

rais convolucionais (CNNs) com uma capacidade discriminativa poderosa, mantendo a alta

38

desempenho. A CNN em cascata proposta opera em múltiplas resoluções, rapidamente re-

jeita regiões de cenário nos estágios rápidos de baixa resolução, e cuidadosamente avalia

um número pequeno de candidatos no último estágio de alta resolução. Para aprimorar a

efetividade da localização, e reduzir o número de candidatos nos estágios finais, foi intro-

duzido um estágio com CNN baseada em calibração após cada um dos estágios de detecção

na cascata. A saída de cada estágio de calibração é usada para ajustar a posição da janela

de detecção que será a entrada do estágio seguinte. A Figura 2.14 mostra um exemplo de

como o detector CNN em cascata funciona.

Figura 2.14: Sequência de testes do descritor CNN em cascata: da esquerda pada a direita, como as janelas de

detecção são reduzidas e calibradas em cada estágio. Fonte: [10].

Para ilustrar a evolução das técnicas de detecção e rastreamento de faces, a Figura 2.15

mostra uma linha do tempo com as abordagens citadas nesta seção.

Figura 2.15: Linha do tempo das técnicas de detecção de faces. A técnica sublinhada foi utilizada nos experi-

mentos deste trabalho. Fonte: autor.

2.1.3 Extração de Características

Após a detecção da face na imagem ou vídeo, uma técnica de extração de característica

facial computa características relevantes e distintas da face com o propósito de diminuir a

quantidade de dados a serem processados. A escolha da característica a ser extraída está re-

39

lacionada à qualidade do reconhecimento e ao esforço computacional, algumas abordagens

para extrair esses pontos faciais a partir de imagens digitais e sequências de vídeos de faces

foram propostas, resultando em duas categorias de técnicas: baseadas em características

geométricas e baseadas em aparência [54].

Características Geométricas

As técnicas baseadas em características geométricas medem os deslocamentos de certas

partes da face, como sobrancelhas e cantos da boca. Os pontos de características faciais

são armazenados em um vetor de características que representa a geometria da face. As

abordagens baseadas em característica calculam a distância entre as unidades de ação fa-

ciais extraídas. As características faciais relevantes são extraídas usando posições relativas

e tamanhos dos componentes da face. Independente do tipo de característica, os sistemas

de reconhecimento de expressões faciais podem ser divididos pelo tipo de entrada que po-

dem ser imagens estáticas ou sequências de imagens. A principal atribuição da medição

de características geométricas é a análise da região facial, particularmente encontrando e

rastreando pontos cruciais na região da face [54]. A seguir, são citados alguns trabalhos do

estado da arte sobre técnicas baseadas em características geométricas.

Em 1992, uma tecnologia de reconhecimento de expressões faciais em tempo real é apre-

sentada no método de Kobayashi e Hara [11]. Uma câmera dentro de olho esquerdo de um

robô é posicionada a um metro de distância do indivíduo, capturando a imagem da face

do mesmo. O principal objetivo do trabalho de Kobayashi e Hara foi o desenvolvimento

de tecnologias de reconhecimento de expressões faciais em tempo real e a reprodução des-

sas expressões faciais em um robô. Primeiramente, a íris deve ser detectada na imagem.

A posição de cada íris é encontrada na face da imagem usando uma técnica de correlação

cruzada de distribuição de brilho, como se pode visualizar na Figura 2.16.

Figura 2.16: Distribuição de brilho ao longo de uma linha vertical cruzando a íris. Fonte: [11].

40

Kobayashi e Hara utilizaram uma técnica de distribuição de brilho para encontrar a

informação facial. Os movimentos dos FCPs (Facial Characteristics Points) mostram as mu-

danças nas linhas de borda das expressões faciais. Portanto, foi definida a distribuição de

brilho de 13 linhas verticais passando por esses pontos FCP. Esses pontos foram definidos

como sobrancelhas, olhos e boca, como pode ser visto na Figura 2.17. As faces foram nor-

malizadas a fim de compensar a diferença no tamanho de cada face, fazendo com que a

distância entre os centros das íris ficasse em 20 pixels. Com os valores da distância entre os

olhos e a posição central das íris obtidos, o tamanho das linhas verticais foi definido empiri-

camente, a fim de enquadrar as regiões das sobrancelhas, olhos e boca. Com as informações

da face coletadas, uma rede neural com aprendizagem back-propagation foi utilizada para o

treinamento. Utilizou-se um banco de 30 indivíduos com imagens recortadas na face nor-

mal (sem expressão ou neutra) e nas outras expressões faciais. Dos 30 indivíduos, 15 foram

usados como treinamento. O reconhecimento em tempo real é feito iniciando a imagem

na expressão normal e finalizando em uma das seis expressões básicas (feliz, triste, raiva,

medo, surpreso, nojo). O resultado do reconhecimento chegou a uma taxa média de 85,0%.

Figura 2.17: 13 linhas verticais para obtenção das informações faciais. Fonte: [11].

Em 2001, Tian et al. [12] desenvolveram um sistema para analisar expressões baseado nas

características permanentes e transitórias da face. O sistema pode reconhecer seis unidades

de ação da parte superior da face e dez unidades de ação da parte inferior com mais de 96%

de taxa de acerto. O sistema proposto não necessita de alinhamento das imagens e pode

lidar com movimentos da cabeça. Para o sistema de reconhecimento de características, foi

desenvolvido um modelo componente multi-estados da face, por exemplo: um modelo de

41

lábios de três estados pode descrever o estado de lábios abertos, o estado de lábios fechados

ou o estado de lábios cerrados. Similarmente, olhos, testa, bochechas, todos têm diferentes

modelos multi-estados. A Figura 2.18 mostra alguns exemplos de modelos para o lábio

e o olho. Para características transitórias, rugas, por exemplo, é utilizado um detector de

bordas em uma região determinada. O sistema foi testado com a base Cohn-Kanade [3].

Figura 2.18: Modelos de componentes faciais multi-estado de uma face na posição frontal. Fonte: [12].

Em 2004, o método de Pantic [13] define um modelo de face baseado em pontos com-

posto de duas visões faciais, a visão frontal e a visão lateral. Os modelos de visão frontal e

lateral, quando considerados separadamente, não possuem informações redundantes sobre

as características faciais. Contudo, quando utilizados de forma conjugada, eles revelam in-

formações redundantes sobre a expressão facial. As características definidas pelos modelos

frontal e lateral são extraídas automaticamente. As deformações das características ocorri-

das no modelo frontal revelam mudanças na aparência dos olhos, sobrancelhas, nariz, boca

e queixo. Já as deformações ocorridas no modelo lateral revelam mudanças na aparência

da testa, nariz, boca, mandíbula e queixo. É possível estabelecer relações únicas entre as

características dos modelos e as unidades de ação (AUs). O modelo de face de visão fron-

42

tal é composto de 30 características, sendo 25 delas definidas em correspondência com um

conjunto de 19 pontos faciais e o resto são algumas formas específicas da boca e do queixo.

O modelo de face lateral é composto de 10 pontos de perfil. Esses pontos correspondem aos

picos e vales da curvatura da função de contorno do perfil. Os modelos frontal e lateral são

mostrados na Figura 2.19.

Figura 2.19: Pontos faciais na visão frontal (esquerda) e na visão lateral (direita). Fonte: [13].

A fase de classificação do método de Pantic [13] é feita comparando as descrições das

AUs codificadas da expressão mostrada a cada uma das descrições das AUs da expressão

que caracteriza uma categoria específica de emoção. A taxa média de acerto do método é

de 86%.

Em 2008, o trabalho de Koutlas e Dimitrios [14] investigou o despenho do Banco de Fil-

tros de Gabor multi-escala e multi-orientação construído de forma a evitar informação re-

dundante. Uma abordagem baseada em região foi empregada usando tamanhos diferentes

de vizinhança nas localização dos 34 pontos fiduciais. Além disso, um conjunto reduzido

de 19 pontos fiduciais foi usado para modelar a geometria da face. O uso de PCA (Principal

Component Analysis) foi avaliado. A metodologia proposta foi avaliada a partir da classifi-

cação das seis emoções básicas propostas por Ekman [38], considerando a expressão neutra

como a sétima emoção.

43

Figura 2.20: Posições típicas dos pontos fiduciais: (a) 34 pontos (b) 19 pontos. Fonte: [14].

Os autores utilizaram a base JAFFE [2] para os experimentos do método proposto. Con-

siderando as seis expressões básicas, a taxa média de acerto obtida foi de 92,3% usando

34 pontos fiduciais e de 90,1% usando 19 pontos fiduciais. Quando a expressão neutra foi

incluída, as taxas caíram para 87,8% usando 34 pontos fiduciais e 86,9% usando 19 pontos

fiduciais.

Em 2010, os autores em [15] apresentaram um sistema que utiliza 28 pontos-chave de

características faciais em detecção de imagens e filtros Gabor Wavelet com cinco frequências

e oito orientações. Os pontos-chave faciais são caraterísticas importantes para um número

de tarefas diferentes no reconhecimento automático de expressões faciais. Esses pontos

são usados para derivar as outras características faciais. Os modelos de forma mostrados

na Figura 2.21 são usados para relacionar as características faciais para cara conjunto de

pontos-chave. Existem quatro pontos na testa, seis pontos na sobrancelha, seis pontos no

olho, três pontos no nariz, oito pontos na boca e um ponto no queixo. Consequentemente,

as posições detectadas na imagem podem ser usadas para dividir a face em 28 regiões onde

cada um dos pontos pode ser localizado.

Figura 2.21: Modelo dos pontos-chave faciais. Fonte: [15].

44

Os filtros de Gabor podem ser usados para reconhecimento de objetos e de expressões

faciais. No trabalho de Ou et al. [15] os filtros foram aplicados a vários problemas de re-

conhecimento de imagens para extração de características devido às suas propriedades de

localização nos domínios espacial e de frequência. Para testar o método proposto, foi utili-

zada a base Cohn-Kanade [3] e as seis expressões faciais básicas: raiva, medo, nojo, alegria,

tristeza e surpresa. A taxa média de acerto foi de 80%.

Em 2011, os autores em [16] utilizaram análise quantitativa para encontrar as caracte-

rísticas de movimento mais efetivas entre os pontos de características faciais selecionados,

a Figura 2.22 mostra alguns dos pontos selecionados. As características são extraídas com

base em estudos psicológicos e também em métodos quantitativos para melhorar a precisão

dos reconhecimentos. A normalização das faces é uma etapa importante, pois é onde ocorre

a remoção do efeito de distância do objeto a partir da câmera e os movimentos rígidos da

cabeça do indivíduo. A distância entre os cantos dos olhos é definida como o parâmetro

principal de medida. Portanto, todos os pontos de características são normalizados ba-

seados nessa distância. Além disso, o modelo proposto utiliza lógica fuzzy e algoritmos

genéticos para classificar as expressões. Os algoritmos genéticos são um atributo exclusivo

do modelo proposto, eles são usados para funções de pertinência e aumento da precisão.

Figura 2.22: (a) Características extraídas dos olhos, das sobrancelhas e do queixo (b) Características extraídas

da boca e dos lábios. Fonte: [16].

Em 2014, os autores em [17] apresentaram uma nova técnica multi-view de reconheci-

mento de expressões faciais. Nessa abordagem, cada imagem de face é dividida em um

conjunto de sub-regiões, como mostrado na Figura 2.23, a extração de características é rea-

45

lizada em cada uma dessas sub-regiões. Para gerenciar as expressões, a estratégia proposta

usa um novo modelo Group Sparse Reduced-Rank Regression (GSRRR) para descrever o rela-

cionamento entre vetores faciais multi-view e o rótulo do vetor de classificação da expressão.

Para resolver o problema de otimização do GSRRR um algoritmo efetivo é proposto utili-

zando a abordagem do Augmented Legrangian Multiplier (ALM) [17].

Figura 2.23: Um exemplo do método de particionamento de regiões faciais: a imagem da face dividida em 1, 4,

16 e 64 sub-regiões faciais. Fonte: [17].

Para testar o método proposto, foi utilizada a base CMU-PIE [6]. Para cada indivíduo da

base, existem seis expressões faciais: nojo, neutra, grito, sorriso, olhos cerrados e surpresa.

Para cada indivíduo, foram consideradas sete visualizações para os experimentos: 0º, 15º,

30º, 45º, 60º, 75º e 90º. A taxa média de acerto foi de 81,7%.

Em 2016, Zheng et al. [18] propuseram um novo método de aprendizado transdutivo

de transferência subespaço, onde um conjunto de imagens de face rotuladas de um do-

mínio fonte são combinadas com um conjunto de imagens de faces auxiliares sem rótulos

do domínio alvo para aprender em conjunto um subespaço discriminativo e fazer a predi-

ção dos rótulos das classes de imagens faciais sem rótulos, onde um modelo de regressão

de mínimos quadrados regularizados transdutivo de transferência (TTRLSR - transductive

transfer regularized least-squares regression) é proposto para este fim. Então, baseado no con-

junto de imagens faciais auxiliares, um classificador SVM (Support Vector Machine) [37] foi

treinado para a classificação de expressões de outras imagens faciais no domínio alvo. Além

disso, foi investigado o uso de cores de características faciais para avaliar a desempenho do

reconhecimento do método de reconhecimento de expressões faciais proposto, onde carac-

46

terísticas de CSIFT (color scale invariant feature transform) associadas com 49 pontos faciais de

referência são extraídas para descrever cada cor da imagem de face. A Figura 2.24 mostra

a localização dos pontos em uma imagem de face.

Figura 2.24: Exemplo de 49 pontos faciais de referência localizados por ASM (active shape model). Fonte: [18].

Finalmente, foram realizados experimentos nas bases de expressões faciais BU-3DFE

[55] e CMU-PIE [6] para avaliar a desempenho do reconhecimento de expressões, cruzando

as bases e as posições da face, do método proposto.

Para ilustrar a evolução das técnicas de extração baseadas em características geométri-

cas, a Figura 2.25 mostra uma linha do tempo com as abordagens citadas nesta seção.

Figura 2.25: Linha do tempo das técnicas de extração baseadas em características geométricas. Fonte: autor.

Características de Aparência

As técnicas baseadas em características de aparência descrevem a mudança na textura

da face, quando uma ação particular é realizada, como protuberâncias, testa, rugas, regiões

ao redor dos olhos e da boca. Esse tipo de técnica utiliza toda a região da face usando trans-

formações e abordagens estatísticas para encontrar os vetores de características básicas que

47

representam a face [54]. A seguir, são citadas algumas técnicas baseadas em características

de aparência.

Em 2006, Lin [19] propôs uma modificação do método PCA (Principal Component Analy-

sis) [56] para realizar o reconhecimento de expressões faciais. Um framework de uma rede

HRBFN (hierarchical radial basis function network) também é proposto para classificar as ex-

pressões faciais baseado na extração de características locais, usando a técnica PCA, dos

lábios e olhos das imagens. Os dados obtidos são decompostos em conjuntos pequenos de

características. O objetivo do trabalho proposto foi desenvolver uma abordagem mais efici-

ente para identificar a expressão correta para a imagem em análise entre as sete expressões

faciais básicas (felicidade, raiva, surpresa, medo, nojo, tristeza e neutra). O desempenho do

sistema desenvolvido foi avaliada na base de imagens faciais pública JAFFE [2]. A Figura

2.26 mostra exemplos de imagens da base e características extraídas.

Figura 2.26: Amostras de imagens extraídas da base de imagens JAFFE e respectivas características extraídas

(olhos e boca). Fonte: [19].

Foi concluído que imagens locais de lábios e olhos podem ser tratadas como pistas para

as expressões faciais. Nos experimentos realizados para o método proposto, a taxa média

de acerto obtida foi de 92,09% quando usadas apenas as características de olhos e lábios, e

82,73% quando usado apenas um estágio da HRBFN.

Em 2007, Yang et al. [20] apresentaram uma nova abordagem de unidades de ação fa-

ciais (AUs) e reconhecimento de expressões baseada em características dinâmicas codifica-

48

das. Para capturar as características dinâmicas dos eventos faciais, as características harr-

like dinâmicas foram projetadas para representar as variações temporais dos eventos faciais.

Além disso, as características faciais harr-like dinâmicas foram codificadas em característi-

cas de padrão binário, que são úteis para construir classificadores fracos para impulsionar

a aprendizagem. Por fim, o Adaboost é executado para aprender um conjunto de caracterís-

ticas dinâmicas codificadas discriminantes para unidades de ação faciais e reconhecimento

de expressões faciais. Portanto, o framework proposto tem três componentes: extração de ca-

racterísticas dinâmicas, codificação de características dinâmicas e aprendizado Adaboosting.

Figura 2.27: Exemplo de características Haar-like sobrepostas em uma imagem de face. Fonte: [20].

O método proposto teve a sua eficiência avaliada através de experimentos que foram re-

alizados na base de imagens Cohn-Kanade Facial Expression (CK) [3], a taxa média de acertos

foi de 96,62% para seis classes de expressões: raiva, medo, alegria, nojo, tristeza e surpresa.

Em 2009, Shan et al. [21] apresentaram um trabalho onde de forma empírica avaliaram a

representação facial baseada em estatísticas de características locais, LBP (Local Binary Pat-

terns), para o reconhecimento de expressões faciais independente de pessoa. Métodos dife-

rentes de aprendizagem de máquina foram examinados em algumas bases de imagens. Os

diversos experimentos mostraram que as características LBP são efetivas e eficientes para

o reconhecimento de expressões faciais. Também foi formulado o Boosted-LBP para extrair

as características LBP mais discriminantes, a melhor desempenho de reconhecimento foi

obtida usando os classificadores SVM (Support Vector Machine) [37] com as características

Boosted-LBP. Além disso, foram investigadas as características LBP para reconhecimento de

expressões faciais em baixa resolução, que é um problema crítico mas raramente investi-

gado nos trabalhos existentes.

A correlação de templates foi utilizada para classificar as expressões faciais devido à

simplicidade da técnica. No treinamento, os histogramas das imagens de expressões em

uma determinada classe foram usadas para o cálculo de uma imagem média, que serviu

49

de template para essa classe. Foi observado que algumas regiões locais da face contém mais

informações relevantes para a classificação da expressão do que outras. Por exemplo, ca-

racterísticas faciais que contribuem mais para expressões faciais se concentram nas regiões

dos olhos e boca. Portanto, um peso pode ser definido para cada sub-região baseado em

sua importância. O conjunto de pesos que foi utilizado no método proposto é mostrado

na Figura 2.28, os pesos foram definido de forma empírica, baseados em observação dos

experimentos.

Figura 2.28: (Esquerda) Uma face dividida em 6 × 7 sub-regiões. (Direita) Quadrados pretos indicam peso 0,

cinza escuros 1, cinza claros 2 e brancos 4. Fonte: [21].

As características LBP obtiveram desempenho estável e robusto em várias imagens de

baixa resolução, e tiveram um desempenho promissor em sequências de vídeos comprimi-

das de baixa resolução capturadas em ambientes do mundo real. O método proposto foi

aplicado para o reconhecimento de seis e sete classes na base Cohn-Kanade Facial Expres-

sion (CK) [3], obtendo taxas médias de acerto de 84,5% e 79,1%, respectivamente. As bases

MMI [5] e JAFFE [2] também foram usadas nos experimentos, obtendo taxas médias de

acerto de 86,9% e 81%, respectivamente, em ambas as expressões foram classificadas em

sete classes.

Em 2011, os Thai et al. [22] propuseram uma nova abordagem para o reconhecimento de

expressões faciais usando Canny, PCA (Principal Component Analysis) e RNA (Redes Neurais

Artificiais). Primeiramente, na fase de pré-processamento, Canny é usado para detecção da

região local nas imagens de faces, como mostrado na Figura 2.29. Então cada característica

de região local será baseada no PCA. Na última etapa do método, uma RNA é aplicada para

a classificação da expressão facial.

50

Figura 2.29: Resultados da detecção de bordas usando o algoritmo de Canny. Fonte: [22].

O método proposto foi aplicado para o reconhecimento das seis expressões básicas na

base de imagens JAFFE [2]. A taxa média de acerto foi de 85,7%.

Em 2012, Castillo et al. [23] propuseram um novo descritor de características: o Padrão

Direcional de Sinal Local (LSDP - Local Sign Directional Pattern), para reconhecimento de

expressões. O método LSDP codifica a informação direcional das texturas da face, isto é, a

estrutura da textura, em uma forma compacta, produzindo um código mais discriminante

do que outros métodos do estado da arte. A estrutura de cada micro-padrão é codificada

usando suas direções e sinal proeminentes, o que permite distinguir entre padrões de estru-

turas similares que têm diferentes transições de intensidade. Para tal, a face é dividida em

regiões, a partir das quais são extraídas distribuições de características LSDP. Essas carac-

terísticas são concatenadas em um vetor de características e usadas como um descritor de

face. Cada face é representada por um histograma LSDP, como mostrado na Figura 2.30.

Figura 2.30: Descritor de face LSDP. Fonte da Imagem: [23]

O método proposto teve a sua eficiência avaliada através de experimentos que foram re-

alizados nas bases de imagens CK [3] e JAFFE [2]. Como classificador para reconhecimento

da expressão facial, foi adotada a SVM (Support Vector Machine). Na base CK, a taxa média

de acertos foi de 94, 8%± 3, 1% para sete classes de expressões, e de 99, 2%± 0, 8% para seis

classes de expressões. Na base JAFFE, a taxa média de acertos foi de 89, 2% ± 2, 8% para

sete classes de expressões, e de 92, 3%± 1, 6% para seis classes de expressões.

51

Em 2013, Chakrabarti e Dutta [57] apresentaram um método para o reconhecimento de

expressões faciais chamado Eigenspace [58] que é uma modificação da abordagem original

do Eigenface [56]. Ele começa a partir da visão humana como ponto de referência padrão,

fazendo uso da base de imagens JAFFE [2], e identifica a expressão mostrada por uma face

em uma imagem de teste. Para demonstrar a viabilidade do uso de Eigenspaces para o re-

conhecimento de expressões faciais, o método de reconstrução PCA [19] foi utilizado com

o método snapsort para reduzir a dimensionalidade. As imagens da base foram divididas

em seis classes baseadas nas seis expressões faciais universais que elas representam e então

o Eigenspace de cada classe foi calculado. A imagem de teste foi projetada no Eigenspace

de cada classe, uma de cada vez. Então a distância Euclidiana/similaridade do Eigenspace

de cada imagem de teste projetada com o Eigenspace de cada uma das expressões da base.

A imagem de teste é classificada como pertencendo à classe com a qual apresenta a maior

similaridade. Antes de iniciar a entrada das imagens de treino e testes para a reconstrução

PCA, a parte facial da imagem é extraída deixando de fora as partes marginais da face, como

cabelo, ouvidos, etc. Isso reduz as partes irrelevantes da imagem da face que não represen-

tam nenhuma expressão e também compensam os movimentos da cabeça do indivíduo na

imagem.

No método original Eigenface, a face média de cada classe é determinada e cada imagem

de teste é comparada com essas faces médias. Essa abordagem apresentou uma taxa média

de acerto de 65,8% que é menor do que a taxa do método modificado proposto Eigenspace,

onde a taxa média de acerto é de 84,16%.

Em 2014, os autores em [24] apresentaram algoritmos baseados em características lo-

cais que exploram a forma como um localizador de ponto-chave extrai pontos relevantes

na região da face e como descritores de superfícies locais multi-escala podem separar par-

ticularidades ao redor dos pontos-chaves localizados. A transformada discreta de curvelet

decompõe cada imagem em um conjunto de frequências e partes de decomposição de ân-

gulos, como mostra a Figura 2.31. Para isso ocorrer, o coeficiente de curvelet é determinado

usando Fast Discrete Curvelet Transform (FDCT), a equação utilizada é mostrada em [24].

Então, um conjunto de ’chaves-foco’ são obtidas. Por meio de contraste das chaves-foco

no conjunto, pontos-chaves dominantes são escolhidos com foco ao redor da magnitude

dos componentes de decomposição. Uma vez que os pontos chaves dominantes são reco-

nhecidos, os descritores de superfícies locais multi-escala são separados ao redor de cada

52

ponto-chave. O passo principal é extrair os sub patches. Testes demonstraram que sub patches

com dimensões 5 × 5 são ideais. Os patches são reorganizados utilizando trocas circulares.

Finalmente, um vetor de características é gerado.

Figura 2.31: Ilustração de uma decomposição 4 escalas de Curvelet. Fonte da Imagem: [24]

O método proposto foi aplicado para o reconhecimento nas bases de imagens FRGC

v2 [59], que possui scans de faces 3D, e BU-3DFE [55], obtendo taxas médias de acerto de

97,83% e 98,21%, respectivamente.

Em 2015, Ahmed et al. [25] apresentaram um novo método para o reconhecimento de

expressões faciais que utiliza descrição de imagem local específica para plano de bits em

uma fusão de nível de pontuação ponderada. A motivação é utilizar uma parte do plano

de bits para destacar a sua contribuição particular para a aparência holística da face, que

é então usada em uma fusão de nível de pontuação ponderada para impulsionar a desem-

penho do reconhecimento. Um exemplo de representações de planos de bits é mostrado

na Figura 2.32. Um novo descritor de imagem local é proposto especificamente para ex-

trair as características locais das representações do bit plano de bits, esse descritor utiliza

discriminante linear de Fisher para maximizar a distância interclasse, enquanto minimiza a

variância intraclasse.

53

O método de reconhecimento de expressões faciais proposto em [25] possui sete eta-

pas. Primeiramente, é aplicado o algoritmo Viola-Jones [9] para detectar as faces em uma

imagem e as faces detectadas são então recortadas das imagens originais. Então, um par-

ticionamento é aplicado para obter os planos de bits a partir das imagens de faces recorta-

das. A codificação de imagem local LBP-like proposta é aplicada para cada plano de bit e

descritores de característica individual são obtidos. Esses descritores de características são

utilizados em uma fusão de nível de pontuação ponderada para a decisão final.

Figura 2.32: Representações de planos de bits de imagem de face. Fonte da Imagem: [25]

O método proposto foi aplicado para o reconhecimento de seis classes nas bases JAFFE

[2] e CK [3], obtendo taxas médias de acerto de 90% e 94%, respectivamente.

Para ilustrar a evolução das técnicas de extração de características de aparência, a Figura

2.33 mostra uma linha do tempo com as abordagens citadas nesta seção.

54

Figura 2.33: Linha do tempo das técnicas de extração de características de aparência. Fonte: autor.

2.1.4 Classificação

Após os processos de detecção da face e extração de características acontece a última

etapa do sistema de reconhecimento de expressões faciais: a classificação. Nesta etapa as

características extraídas são classificadas em expressões específicas. A seguir, são citados

alguns trabalhos do estado da arte sobre classificadores utilizados no reconhecimento de

expressões faciais.

Em 2003, Cohen et al. [60] introduziram um sistema de reconhecimento de expressões

faciais, em vídeos ao vivo, baseado em classificadores Bayesianos [61] e no Modelo Oculto

de Markov [62], portanto o sistema foi testado com dois tipo de classificadores: estáticos

e dinâmicos. Os classificadores estáticos, isto é, Naive-Bayes e Naive-Bayes Aumentado em

Árvore, classificam um frame em uma categoria de expressão facial dependendo dos resul-

tados obtidos apenas do próprio frame. Contudo, os classificadores dinâmicos, baseados

no Hidden Markov Model (HMM), consideram o padrão temporal entre os frames. A razão

da escolha dos classificadores Bayesianos para análise estática ocorreu porque eles podem

lidar com dados perdidos durante o treinamento.

Entre os classificadores estáticos, o Naive-Bayes assume que todas as características são

condicionalmente independentes. Já no classificador Naive-Bayes Aumentado em Árvore,

cada característica tem um ’pai’ resultando em uma estrutura baseada em árvore. Por exem-

plo, em um texto em inglês após a palavra ”thank” a probabilidade de aparecer a palavra

”you” é maior do que outras palavras, mas os classificadores Naive-Bayes não consideram

essa probabilidade. Cohen et al. [60] perceberam que essa propriedade também é aplicável

a sistemas de reconhecimento de expressões faciais. Eles identificaram que o classificador

55

Naive-Bayes Aumentado em Árvore tinha um melhor desempenho em termos de precisão

na classificação. Para a estrutura da árvore, eles desenvolveram um algoritmo que gera

uma estrutura otimizada. Os classificadores usam esse algoritmo e selecionam a melhor es-

trutura entre todas que obtêm a valor máximo em uma função de similaridade. Entretanto,

se a base de imagens é consideravelmente pequena, o classificador Naive-Bayes funcionará

melhor do que o baseado em árvore porque não haverá dados suficientes disponíveis para

o classificador baseado em árvore buscar pela relação de dependência ’pai-filho’. Para os

classificadores dinâmicos, Cohen et al. desenvolveram um classificador HMM que usa a

informação temporal para obter melhores resultados de classificação. Finalmente, eles in-

tegraram esses classificadores para construir um sistema de reconhecimento de expressões

faciais em tempo real.

Em 2005, Bartlett et al. [26] desenvolveram um sistema automático e em tempo-real que

pode identificar sete emoções e até 17 unidades de ação (AUs). Eles propuseram um sistema

baseado em aprendizagem de máquina que obteve os melhores resultados usando um sub-

conjunto de filtros de Gabor com AdaBoost e então treinaram os classificadores baseados em

Support Vector Machine (SVM) com as saídas dos filtros do AdaBoost. A representação Ga-

bor Wavelet das imagens são custosas tanto em tempo quanto em consumo de memória. A

extração de características foi realizada pelo AdaBoost que usa filtros de Gabor como clas-

sificadores. O AdaBoost seleciona o próximo filtro baseado nos erros do filtro anterior. Ele

tenta escolher o filtro que obterá a melhor desempenho a partir do erro dos filtros anteri-

ores. Bartlett et al. também treinaram outros dois tipos de classificadores - Support Vector

Machine e Linear Discriminant Analysis. Esses classificadores foram treinados nas caracterís-

ticas selecionadas pelo AdaBoost. A partir dos resultados experimentais foi observado que o

AdaBoost obteve melhor desempenho com os classificadores SVM. O sistema proposto clas-

sifica 17 unidades de ação, ocorrendo isoladamente ou em combinação com outras ações,

com uma taxa média de acerto de 94,8%. Um exemplo de classificação das unidades de ação

é mostrado na Figura 2.34.

56

Figura 2.34: Amostras de saídas do sistema para um segmento de 10 segundos de vídeo, contendo as AUs: 1,

2, 6 e 9. Com início, ápice e fim das AUs. Fonte: [26].

Em 2006, Saatci e Town [63] apresentaram uma abordagem para o reconhecimento de

expressões de imagens de faces por meio de Active Appearance Models (AAM). As caracterís-

ticas extraídas por um AAM treinado são utilizadas para construir classificadores Support

Vector Machine (SVM) para quatro estados emocionais elementares: alegria, raiva, tristeza

e neutro (sem expressão). Esses classificadores são organizados em uma estrutura em cas-

cata para otimizar o desempenho médio de reconhecimento. Além disso, é mostrado como

o desempenho de reconhecimento pode ser melhorado quando primeiro se classifica o gê-

nero dos indivíduos na imagem usando uma SVM treinada de maneira similar. Tanto a

classificação de expressão específica de gênero quanto a classificação em cascata de gênero

específica de expressão são consideradas, com a primeira obtendo melhor desempenho de

reconhecimento. Saatci e Town concluíram que existem diferenças específicas de gênero na

aparência de expressões faciais que podem ser exploradas para aumentar o reconhecimento,

57

e que cascatas são uma forma eficiente e efetiva de realizar o reconhecimento multi-classe

de expressões faciais.

Em 2008, Wen e Zhan [64] estudaram os classificadores Hidden Markov Model (HMM) e

K Nearest Neighbor (KNN) e realizaram uma combinação de ambos para o reconhecimento

de expressões faciais. Eles propuseram utilizar os classificadores HMM e KNN em série.

Primeiro, um classificador Double Hidden Markov Model (DHMM) é usado para calcular as

probabilidades de seis expressões. Então, se baseando nos dois resultados mais possíveis

de classificação por DHMM, o classificador KNN é utilizado para realizar a decisão final

enquanto a diferença entre a maior probabilidade e a segunda maior é maior do que a di-

ferença média. Os experimentos mostraram que o desempenho deste método é superior ao

método baseado apenas em HMM.

Em 2011, Meng et al. [65] apresentaram um sistema para classificar expressões faciais em

vídeos. Primeiramente, dois tipos de descritores básicos de aparência facial são extraídos.

O primeiro tipo de descritor, chamado Motion History Histogram (MHH), é utilizado para

detectar mudanças temporais de cada pixel da face. O segundo tipo de descritor, chamado

Histogram of Local Binary Patterns (LBP), é aplicado para cada frame do vídeo e então usado

para capturar os padrões de textura local. Em segundo lugar, a partir desses dois tipos de

descritores, duas novas características dinâmicas de expressões faciais são propostas. Essas

duas características incorporam ambas as informações: dinâmica e local. Finalmente, o clas-

sificador Two View SVK 2K foi construído para integrar essas duas características dinâmicas

de forma eficiente. Os resultados experimentais mostraram que esse método superou os re-

sultados do trabalho base apresentado no FG 2011 Facial Expression Recognition and Analysis

Challenge (FERA2011) [66].

Em 2014, Song et al. [67] desenvolveram um método para o reconhecimento de expres-

sões faciais em tempo real para smartphones. Eles treinaram uma rede neural convolucional

profunda em uma GPU (Graphics Processing Unit) para classificar expressões faciais. A rede

tem 65.000 neurônios e consiste de 5 camadas. Uma rede deste tamanho apresenta uma

sobrecarga substancial, em termos de número de operações, quando quantidade de exem-

plos de treinamento é pequena. Para combater essa sobrecarga, foi aplicado o aumento de

dados e uma técnica recentemente introduzida na literatura chamada "dropout". Com a rede

treinada, foi desenvolvido uma aplicativo de smatphone que reconhece a expressão facial do

usuário.

58

Em 2015, Li et al. [68] propuseram uma abordagem baseada em deep-learning para o re-

conhecimento de expressões faciais em imagens espontâneas, usando Redes Neurais Con-

volucionais (Convolutional Neural Networks - CNNs). Para avaliar o desempenho da técnica

no reconhecimento de expressões faciais espontâneas em tempo real, Li et al. criaram um

banco de imagens de expressões faciais (Candid Image Facial Expression - CIFE), com sete

tipos de expressões em mais de 10.000 imagens obtidas na Internet. Foram testadas duas

abordagens baseadas em características na base de imagens: Local Binary Pattern (LBP) +

Support Vector Machine (SVM) e Scale-Invariant Feature Transform (SIFT) + SVM. Uma técnica

de aumento da quantidade de dados também é proposta com o objetivo de gerar uma quan-

tidade suficiente de amostras de treinamento. Os experimentos realizados mostraram que

o desempenho usando as abordagens baseadas em características é próximo ao estado da

arte quando testado com as bases de dados padrão, mas falha quando tem que lidar com

imagens espontâneas. Entretanto, a abordagem baseada em CNN é muito efetiva no reco-

nhecimento de expressões em imagens espontâneas, sendo superior de forma significativa

a outras abordagens da literatura.

Em 2016, Nomiya et al. [69] também se preocuparam com o reconhecimento de expres-

sões faciais em imagens espontâneas para aplicações que não lidam apenas com as seis

expressões faciais básicas. Então, eles propuseram um método efetivo para o reconheci-

mento de expressões faciais espontâneas utilizando o "aprendizado combinado", ou seja

uma combinação de classificadores Naive Bayes. Além disso, Nomiya et al. também pro-

põem um método para estimar a intensidade das expressões usando os resultados dos clas-

sificadores. Para estimar essa intensidade é utilizado o peso de cada classificador usado

na votação ponderada. O que significa que não é necessário aumento no custo computa-

cional para estimar a intensidade das expressões faciais. Nomiya et al. conduziram vários

experimentos para avaliar o método proposto com foco na acurácia e na eficiência do reco-

nhecimento das expressões e na estimação da intensidade das expressões faciais. Uma base

de imagens composta de vários vídeos de expressões faciais espontâneas foi utilizada nos

experimentos.

Para ilustrar a evolução das técnicas de classificação utilizadas no reconhecimento de

expressões faciais, a Figura 2.35 mostra uma linha do tempo com os trabalhos citados nesta

seção.

59

Figura 2.35: Linha do tempo das técnicas de classificação utilizadas no reconhecimento de expressões faciais.

O trabalho sublinhado descreve o classificador utilizado nos experimentos desta tese. Fonte: autor.

CAPÍTULO 3

MÉTODO

"Sei que o meu trabalho é uma gota no oceano,

mas sem ela o oceano seria menor."

— Madre Teresa de Calcutá

NEste trabalho é proposto um extrator de características, baseado na estimação de mo-

vimento por casamento de blocos, para o reconhecimento de expressões faciais. O

sistema proposto codifica a informação da direção do movimento da expressão facial. Esse

movimento é codificado a partir da diferença entre duas imagens (similares) de expressões

faciais.

Na fase de treinamento, o movimento entre duas expressões da mesma face (ou faces si-

milares) é estimado, a similaridade é calculada utilizando a métrica SSIM (Structural Simila-

rity Index) [70], descrita em detalhes na Seção 3.2. Para cada imagem de face do treinamento

é realizada uma busca por uma outra imagem de maior similaridade em cada expressão fa-

cial do banco de imagens (raiva, nojo, medo, felicidade, tristeza, surpresa etc.) e então é

calculado um vetor de movimento (MV - Motion Vector) entre as duas imagens. O MV é

calculado utilizando uma versão modificada, proposta neste trabalho, do algoritmo Redu-

ção Adaptativa da Área de Busca [28] (Adaptive Reduction of the Search Area - ARSA), uma

otimização do tradicional Full Seach [34], chamada MARSA (Modified Adaptive Reduction of

the Search Area). Outros algoritmos de estimação de movimento por casamento de blocos

poderiam ser utilizados para o cálculo do MV entre duas imagens de faces, contudo as

61

melhores taxas de reconhecimento de expressões faciais foram obtidas usando o MARSA,

pois é um algoritmo que leva em consideração as características do movimento produzidos

pelas expressões apenas em determinadas regiões da face. Os algoritmos de estimação de

movimento são apresentados na Seção 3.3.

Após o cálculo dos MVs para todas as imagens em todas as expressões, são calculadas

as coordenadas que ocorreram mais vezes em cada i-ésima posição de todos os MVs, essas

coordenadas são armazenadas nos vetores de maiores ocorrências (HOV - Highest Occur-

rences Vector), cada expressão facial da base de imagens passa a ter tantos HOVs quanto são

as expressões faciais da base. É possível utilizar mais HOVs em cada expressão da base,

para isso é preciso calcular as coordenadas que possuem a segunda maior quantidade de

ocorrências na i-ésima posição dos MVs, também podem ser calculadas as coordenadas que

possuem a terceira maior quantidade de ocorrências e assim sucessivamente. Esse processo

é descrito em detalhes no Capítulo 4, assim como são mostrados e discutidos os resultados

dos experimentos variando a quantidade de HOVs.

Na etapa seguinte, cada MV é comparado por Distância Euclidiana com os HOVs de

todas as expressões, gerando um vetor de distâncias (EDV - Euclidean Distance Vector) para

cada expressão facial. Finalmente, para cada imagem são identificados os menores valores

de cada i-ésima posição em cada um dos seus EDVs, então a expressão facial a qual per-

tencer o EDV com o menor valor naquela posição incrementa a mesma posição no vetor de

características da imagem (FV - Feature Vector). Esse vetor será a entrada do classificador

que identificará a expressão facial da imagem.

Na fase de testes o procedimento é o mesmo do treinamento, exceto que os MVs das

imagens a serem testadas não participaram do cálculo dos HOVs obtidos na fase de treina-

mento.

Existem cinco módulos no sistema desenvolvido para o reconhecimento de expressões

faciais:

1. Pré-processamento: as imagens são convertidas para o mesmo padrão de cores (256

níveis de cinza), então a região da face é recortada a partir da localização dos olhos,

resultando em imagens com dimensões 128 × 160.

2. Busca da Maior Semelhança: para cada imagem é realizada uma busca por outra ima-

gem de maior semelhança em cada expressão facial da base de imagens.

3. Extração de Características Faciais: a característica a ser extraída é o movimento cal-

62

culado entre duas imagens, representado pelos vetores de movimento (MVs) obtidos

a partir da estimação de movimento por casamento de blocos.

4. Transformação das Características: são obtidas as coordenadas do movimento de maior

ocorrência nos MVs de cada expressão facial da base. Então é gerado um vetor (HOV),

para cada expressão, apenas com essas coordenadas.

5. Classificação: Todos os MVs da base de treinamento são comparados, usando a Dis-

tância Euclidiana, com os HOVs calculados no módulo anterior. Os MVs são utiliza-

dos para a obtenção dos HOVs. Então a distância obtida é armazenada em um EDV,

calculado para cada expressão facial. O menor valor de distância indica qual expres-

são pode estar reconhecida naquela posição do vetor. Para a classificação, a expressão

facial que mais ocorrer no EDV será reconhecida.

A Figura 3.1 sintetiza o sistema desenvolvido:

63

Figura 3.1: Sistema desenvolvido para o reconhecimento de expressões faciais. Fonte: autor.

3.1 Pré-processamento para as Bases de Expressões Faciais

Na fase de pré-processamento, foi preciso converter as imagens das bases de expressões

faciais para níveis de cinza, pois algumas delas foram disponibilizadas no modelo de cores

RGB. Para a detecção de olhos e o recorte automático da região da face nas imagens são

utilizados os filtros de correlação ASEF (Average of Synthetic Exact Filters) [27], eles realizam

a localização automática dos centros dos olhos em vídeos e imagens. Dependendo da base

escolhida, as dimensões das imagens variaram bastante, desde 256 × 256 pixels até 640 ×

490 pixels. No sistema apresentado, as imagens de faces devem ter a mesma proporção

de tamanho, então, ainda utilizando os filtros ASEF, realizou-se o recorte automático das

faces das imagens em dimensões padronizadas: 128 × 160 pixels, o que evitou a captura de

64

informações de características indevidas para a formação do modelo de representação. As

imagens das faces também devem ser frontais, ou seja, sem movimento angular da cabeça.

As etapas do pré-processamento estão ilustradas nas Figuras 3.2 e 3.3.

Figura 3.2: Imagens da base Cohn-Kanade Extendida (CK+) convertidas para níveis de cinza. Fonte: autor.

Figura 3.3: Imagens da base Cohn-Kanade (CK) e respectivas faces recortadas utilizando a localização dos

olhos implementada pelos filtros ASEF. Fonte: autor.

3.1.1 Filtros de Correlação ASEF

Os filtros ASEF simplificam o mapeamento entre a imagem de treinamento de entrada e

o plano de correlação de saída. O cálculo é realizado no domínio da frequência, contudo o

resultado do cálculo é transladado para o domínio espacial. A saída da correlação pode ser

especificada por cada imagem de treinamento [27].

Na Figura 3.4, as imagens fi e gi são, respectivamente, a imagem de treinamento e

a saída desejada. A saída gi é definida como uma Gaussiana bi-dimensional centrada na

posição do alvo (xi, yi) e com radiância σ, como mostrada na Equação 3.1. A imagem hi é o

65

filtro de correlação produzido no domínio da frequência que transforma fi para gi. O filtro

de correlação final é obtido a partir da média dos filtros hi.

Figura 3.4: Treinamento dos filtros ASEF. Fonte: [27]

gi(x, y) = e−(x − xi)

2 + (y − yi)2

σ2 (3.1)

A Equação 3.2 mostra a relação entre a convolução no domínio espacial e no domínio da

frequência. Segundo o Teorema da Convolução, a Transformada de Fourier de duas funções

convoluídas no domínio do espaço é igual ao produto das duas funções no domínio da

Frequência [27].

g(x, y) = ( f ⊗ g)(x, y) = F−1(F(ω, υ)H(ω, υ)), (3.2)

onde f , h e g são, respectivamente, a imagem de entrada, o filtro e a saída da correlação

no domínio espacial. As letras F, H e G correspondem as suas transformadas de Fourier

2-D e ⊗ corresponde ao operador de convolução. A partir desta equação forma-se a base

66

para calcular os filtros sintéticos exatos.

A seguir, a Equação 3.3 substitui o complexo conjugado de H na Equação 3.2:

G(ω, υ) = F(ω, υ)H∗(ω, υ), (3.3)

Em seguida, é mostrada a Equação 3.4 que realizará a divisão entre a saída do padrão

transformada e a imagem transformada:

H∗i (ω, υ) =

Gi(ω, υ)

Fi(ω, υ)(3.4)

O próximo passo é calcular a média dos filtros exatos. Este passo serve para criar um

filtro que se generalize em todo um conjunto de treinamento. A média enfatiza as caracte-

rísticas semelhantes das imagens do conjunto de treinamento e suprime as características

idiossincráticas de instâncias de treinamento únicas. Este passo foi ilustrado na Figura 3.4.

Como a Transformada de Fourier é linear, a média pode ser calculada tanto no domínio

da frequência, como no domínio espacial. As Equações 3.5 e 3.6 mostram o cálculo da média

no domínio da frequência e no domínio espacial, respectivamente. Hµ e hµ são os resultados

finais dos filtros ASEF.

H∗µ(ω, υ) =

1N

N

∑i=1

H∗i (ω, υ), (3.5)

h∗µ(x, y) =1N

N

∑i=1

h∗i (x, y), (3.6)

3.2 Busca da Maior Semelhança

Nesta etapa, para cada imagem de face a ter a expressão reconhecida (imagem-referência)

é realizada uma busca por outra imagem de maior semelhança em cada expressão facial da

base de imagens. Para comparar as imagens, foi utilizada a métrica SSIM (Structural Simila-

rity Index) [70], quanto mais próximo do valor 1 for o resultado do cálculo da métrica entre

duas imagens, maior a similaridade entre elas.

Na fase de treinamento, para cada imagem-referência é selecionada uma outra ima-

gem de maior semelhança em cada expressão facial da base, por exemplo, nas imagens

da expressão raiva, apenas uma é identificada como a de maior semelhança com a imagem-

referência e assim sucessivamente para as demais expressões: alegria, tristeza, desgosto,

67

surpresa, medo etc. Na fase de testes, o mesmo procedimento de busca é realizado, con-

tudo a expressão facial da imagem-referência é desconhecida.

A identificação dessas imagens será fundamental para o módulo seguinte: Extração de

Características. Na Figura 3.5 é mostrado um exemplo de resultado da busca de maior

semelhança para uma das imagens de uma das bases utilizadas nos experimentos deste

trabalho.

Figura 3.5: A imagem do centro representa a imagem-referência. As demais imagens representam as melhores

comparações em cada expressão facial da base de imagens Cohn-Kanade. Fonte: autor.

3.2.1 SSIM - Structural Similarity

O Índice de Similaridade Estrutural (SSIM - Structural Similarity) [70] é um método para

mensurar a similaridade entre duas imagens. Neste trabalho ele é utilizado para identificar

as imagens de faces mais similares, dentro da base de treinamento, para o cálculo dos MVs.

Outras medidas como GSSIM (Gradient-based Structural Similarity) [71] e MESSIM (Mean-

Edge Structural Similarity) [72] foram consideradas, entretanto essas métricas são aprimora-

mentos do SSIM apenas para os casos em que as imagens comparadas estão borradas ou

68

apresentam ruídos, o que não se aplica às imagens utilizadas nos experimentos desta Tese.

O método SSIM foi então escolhido pela menor quantidade de operações matemáticas, o

que resulta em um menor tempo de processamento.

A medição da qualidade é realizada com base em uma imagem não compactada ou

sem distorção inicial como referência. A diferença para os métodos tradicionais PSNR [73]

e MSE [74] está no fato de que essas abordagens estimam erros percebidos, enquanto a

técnica SSIM considera a degradação da imagem como mudança percebida na informação

estrutural. A informação estrutural é a ideia de que os pixels têm forte interdependência

especialmente quando eles estão espacialmente próximos. Essas dependências possuem

informações importantes sobre a estrutura dos objetos na imagem.

A medida SSIM é calculada em várias janelas de uma imagem. A medida entre duas

janelas x e y de tamanho comum N × N é definida pela função a seguir:

SSIM(x, y) =(2µxµy + c1)(2σxy + c2)

(µ2x + µ2

y + c1)(σ2x + σ2

y + c2), (3.7)

onde:

• µx é a média de x;

• µy é a média de y;

• σ2x é a variância de x;

• σ2y é a variância de y;

• σxy é a covariância de x e y;

• c1 = (k1L)2, c2 = (k2L)2 são duas variáveis para estabilizar a divisão com denominador

fraco;

• L é o intervalo dos valores de pixel (normalmente: 2numerodebitsporpixel − 1);

• k1 = 0, 01 e k2 = 0, 03 por padrão.

O índice SSIM resultante é um valor decimal entre -1 e 1, o valor 1 só é obtido no caso

de dois conjuntos idênticos de dados (duas imagens iguais) [70].

3.3 Extração de Características

Nesta etapa é extraído o movimento entre duas imagens semelhantes. O movimento é

estimado pelo deslocamento de um mesmo bloco de pixels em duas imagens de uma mesma

69

sequência. Esse deslocamento é representado pelo vetor de movimento (MV) calculado

por meio de um algoritmo de estimação de movimento por casamento de blocos (block-

matching), cada par de coordenadas (x, y) do vetor indica o deslocamento de um bloco de

pixels entre as imagens. Portanto, para cada imagem é calculado um MV para cada expres-

são facial da base, como ilustrado na Figura 3.6. Esse procedimento será realizado tanto na

fase de treinamento quanto na fase de testes.

Figura 3.6: Exemplo de como os MVs são calculados entre a imagem-referência e a imagem mais similar em

cada expressão da base Cohn-Kanade. Fonte: autor.

As técnicas do tipo casamento de blocos detectam os movimentos ocorridos em uma

sequência de imagens, realizando uma análise de duas a duas imagens consecutivas dentro

dessa sequência. A imagem atual é segmentada em diversos blocos de tamanhos L × H.

Cada bloco tem uma área de busca correspondente localizada na imagem anterior. Esta

área de busca tem tamanho (2DMAX + L) × (2DMAX + H), onde DMAX é um valor pré-

fixado que representa o deslocamento máximo a ser percorrido tanto na direção horizontal

quanto na vertical. A Figura 3.7 ilustra uma busca feita por um bloco de tamanho L× H em

relação a sua área de busca. Neste caso, a coordenada a ser pesquisada é o ponto no centro

do bloco. Todos os pixels localizados em um único bloco geram um mesmo deslocamento,

sendo este movimento independente em relação aos deslocamentos ocorridos por outros

blocos entre duas imagens [34].

70

Figura 3.7: Representação de como é obtido o vetor de movimento entre duas imagens. Fonte: autor.

Existem algumas funções para comparar os blocos, da imagem em análise e da imagem

com maior similaridade na base, sendo a diferença média absoluta (Mean Absolute Difference

- MAD) [34] aquela com menor custo computacional, ela é calculada pela equação a seguir:

MAD(x, y) =

H−1∑

i=0

L−1∑

j=0|sk(k + i, l + j)− sk−1(k + x + i, l + y + j)|

n, (3.8)

onde:

• sk(, ) é o nível de luminância do pixel na imagem atual;

• sk−1(, ) é o nível de luminância do pixel na imagem anterior;

• (k, l) é a coordenada do canto superior esquerdo relacionada à imagem atual;

• (x, y) é o deslocamento em pixels a ser pesquisado na imagem anterior com relação à

posição explorada da imagem atual;

• n é o total de pixels do bloco.

Outra função para comparação de blocos, também bastante utilizada em técnicas de

estimação de movimento por casamento de blocos, é o erro médio quadrático (Mean Squared

Error - MSE), calculada pela equação a seguir:

71

MSE(x, y) =

H−1∑

i=0

L−1∑

j=0|sk(k + i, l + j)− sk−1(k + x + i, l + y + j)|2

n, (3.9)

O movimento a ser encontrado em cada bloco é estipulado por um procedimento de

busca. Este procedimento estabelece pontos de pesquisa dentro da área de busca. Com

esses pontos, são feitos os cálculos da função MAD, escolhida para os experimentos desta

Tese pelo seu menor tempo de processamento. O ponto de pesquisa que obtiver o menor

valor será procurado pelo procedimento, determinando o MV.

Inicialmente, nos experimentos deste trabalho, foi utilizado o algoritmo de Busca Exaus-

tiva (Full Search - FS) [34]. Posteriormente, o algoritmo ARSA - Adaptive Reduction Search

Area [28] substituiu o FS por apresentar menor tempo de processamento. Então foram reali-

zadas algumas alterações no ARSA para adequá-lo à extração de movimento de expressões

faciais. Os algoritmos de busca utilizados nos experimentos serão descritos a seguir.

3.3.1 Algoritmo de Busca Exaustiva

O algoritmo de Busca Exaustiva (Full Seach - FS) [34] foi o marco inicial para o desen-

volvimento das técnicas do tipo casamento de blocos (block-matching). Ele é o algoritmo de

estimação de movimento por casamento de blocos com o maior tempo de processamento,

pois os pixels dos blocos candidatos da imagem em análise (imagem 1 na Figura 3.7) são

comparados com todos os pixels da área de busca na imagem com maior similaridade na

base (imagem 2 na Figura 3.7). Cada bloco desloca-se de pixel em pixel na área de busca até

chegar ao último pixel a ser pesquisado. Para isto ocorrer, o bloco se desloca de −DMAX a

+DMAX na função MAD estabelecida dentro do algoritmo, sendo DMAX o deslocamento

máximo do pixel. São procurados, portanto, (2DM + 1)2 blocos na área de busca. Portanto,

o algoritmo FS encontra o melhor casamento de blocos possível entre as duas imagens.

A maior desvantagem do FS é que quanto maior a área de busca, maior o tempo de

processamento. Por isso outros algoritmos tentam obter os mesmos resultados do FS com

o mínimo de custo computacional possível [28], [75], [76]. Neste trabalho, é proposta uma

versão modificada do algoritmo de Redução Adaptativa da Área de Busca (Adaptive Reduc-

tion of the Search Area - ARSA) [28], que é explicado a seguir.

72

3.3.2 Algoritmo de Redução Adaptativa da Área de Busca

Oh e Lee [28] propuseram um algoritmo de estimação de movimento com tamanho va-

riável da área de busca para reduzir o custo computacional do FS explorando as correlações

espaço-temporais nas sequências de vídeo. Particularmente, o método proposto abrange

aplicações com vídeos de baixa resolução, como vídeo-conferências e vídeos de celulares.

Os frames dos vídeos dessas aplicações contêm um ou mais indivíduo(s) e cenários fixos.

A quantidade de pixels a serem pesquisados pode ser reduzida selecionando uma pequena

área de busca para um bloco dentro de uma região de cenário fixo e uma área maior para

um bloco em região com movimento. Essa variação possibilita uma redução significativa

no tempo de processamento do algoritmo FS. A partir da análise de sequências de vídeo de

baixa resolução, um frame pode possuir quatro tipos de blocos: cenário, movimento ativo,

mudança de cenário para região ativa e vice-versa.

As sequências de vídeo de baixa resolução possuem correlações significantes entre fra-

mes consecutivos por geralmente possuírem um único indivíduo com regiões de pouco mo-

vimento, causado pelo próprio indivíduo. Portanto, um bloco em uma região específica

no frame anterior da sequência tende a permanecer na mesma região no frame atual. Os

experimentos de Oh e Lee mostraram que a correlação temporal entre frames consecutivos

é bastante alta, ou seja, se um bloco de um frame anterior pertence à região de cenário ou

região ”ativa” (com movimento), então o bloco localizado na mesma posição do frame atual

pode ser classificado como um bloco de cenário ou bloco de região ativa.

Essa correlação permite a implementação do método de redução adaptativa da área de

busca (adaptive reduction of the search area - ARSA) [28]. Para o bloco de cenário e bloco de

mudança de região ativa para cenário, é definida uma área de busca menor, e para o bloco

de região ativa e bloco de mudança de cenário para região ativa, é definida uma área de

busca maior. Para classificar o bloco, é utilizada a informação de classificação de bloco (block

classification information - BCI) no frame anterior e a diferença de bloco deslocado (displaced

block difference - DBD) no frame atual.

A estimação de movimento proposta é realizada através das etapas a seguir:

1. Estimar os valores iniciais dos limiares (thresholds) para determinar o BCI de um de-

terminado bloco;

2. Determinar o tamanho da área de busca usando os parâmetros DBD e BCI, e então

73

executar o algoritmo de casamento de blocos dentro dessa área;

3. Atualizar os thresholds para uma adaptação às características da sequência de vídeo.

Estimar os thresholds iniciais

Três parâmetros são utilizados para a classificação de bloco: BCI(i), DBDbg, and DBDar.

BCI(i) é a informação de classificação do i-ésimo bloco em um frame, DBDbg é a diferença

média de bloco deslocado dos blocos que são classificados como blocos de cenário no frame

anterior, e DBDar é a diferença média de bloco deslocado dos blocos que são classificados

como blocos ativos no frame anterior. Os valores iniciais desses parâmetros são estimados a

partir dos resultados do primeiro frame usando o algoritmo FS.

No primeiro frame, o BCI(i) é determinado apenas pelo MV. Os blocos que possuem

valor zero no MV são classificados como blocos de cenário e os outros blocos são classifi-

cados como ativos. O DBDbg é definido como a média dos DBDs dos blocos de cenário e

o DBDar é a média dos DBDs dos blocos ativos. O DBDbg geralmente é pequeno quando

comparado com o DBDar. Esses parâmetros são atualizados constantemente para refletir

de forma adaptativa as características das sequências de vídeo à medida que o processo de

codificação progride.

Determinar o tamanho da área de busca e executar o algoritmo de casamento de blocos

A classificação de blocos no frame atual é realizada através do uso do BCI(i) do frame

anterior, DBDbg e DBDar. O tamanho da área de busca é determinado dependendo do BCI

do bloco. A classificação de um determinado bloco no frame atual ocorre como mostrado na

Figura 3.8. Na figura, o BCI(i) é a informação de classificação do i-ésimo bloco no frame

anterior, o DBDbg e o DBDar são a média dos DBDs dos blocos de cenário e blocos ativos

também no frame anterior, respectivamente. A diferença de bloco de deslocamento zero

(zero displaced block difference - ZDBD) é a diferença entre um determinado bloco no frame

atual e um bloco candidato no frame anterior na mesma coordenada (deslocamento zero).

Para determinar o BCI do i-ésimo bloco no frame atual, o algoritmo observa o BCI naquela

mesma posição no frame anterior. Se o BCI(i) é uma "bloco de cenário", então o ZDBD no

frame atual é comparado com o DBDbg para decidir se o bloco é classificado como bloco de

cenário ou bloco de mudança de cenário para região ativa. Se o BCI(i) é um "bloco ativo",

então o bloco pode ser classificado como bloco ativo ou como bloco de mudança de região

74

ativa para cenário dependendo do ZDBD e DBDar.

Figura 3.8: Procedimento para classificação de informação de bloco. Fonte: [28] (modificada pelo autor).

Para cada tipo de bloco, a área de busca é definida como (2DMAX + L)× (2DMAX + H)

para o bloco ativo e o bloco de mudança de cenário para região ativa, [(2DMAX + L) ×

(2DMAX + H)]/4 para o bloco de cenário, e [(2DMAX + L)× (2DMAX + H)]/2 para o bloco

de mudança de região ativa para cenário. Ou seja, a maior área de busca é alocada para

a região ativa, que contém blocos com muito movimento, e a menor área de busca é dada

para os blocos de cenário.

Após determinar o tamanho da área de busca para cada bloco, o algoritmo de casamento

de blocos é executado utilizando a redução logarítmica da área de busca. Primeiramente, o

algoritmo FS é executado dentro da área de busca determinada. Se o bloco correspondente

no frame anterior for encontrado dentro dessa área, a estimação de movimento é interrom-

pida. Caso contrário (MV aponta para os limites da área de busca), o algoritmo FS é exe-

cutado, com uma nova origem de busca apontada pelo MV no primeiro estágio, dentro de

uma área de busca que tem metade do tamanho da primeira área. O procedimento continua

até o MV não apontar mais para os limites da área de busca. Esse processo reduz a degra-

dação da qualidade da estimação de movimento causada pela classificação errada dos tipos

de bloco.

Atualizar os thresholds

Finalmente, após um frame passar pelo algoritmo de casamento de blocos, o BCI de cada

bloco é atualizado usando o BCI do bloco na mesma posição no frame atual, que é usado

75

para o próximo frame. Ao mesmo tempo, o DBDbg e o DBDar são estimados novamente

usando os DBDs dos blocos de cenário e dos blocos ativos do frame atual.

3.3.3 Algoritmo Modificado de Redução Adaptativa da Área de Busca

Com o objetivo de melhorar a precisão do processo de extração de características faci-

ais, neste trabalho são propostas algumas alterações no algoritmo ARSA. O algoritmo FS

percorre todos os pixels (agrupados em blocos) das imagens comparadas, identificando os

blocos de maior semelhança para calcular o vetor de movimento. Contudo, mesmo com o

recorte da face realizado no pré-processamento utilizando os filtros ASEF, algumas regiões

da face que não possuem informação relevante para o reconhecimento da expressão facial,

testa e nariz, por exemplo, podem ser ignoradas.

Para realizar a seleção das regiões cujos vetores de movimento serão calculados de forma

automática, novamente são utilizados os filtros ASEF: para cada base de imagens de face, é

calculada a média da coordenada y de localização dos pontos centrais dos olhos em todas as

imagens. A partir dessa média, foi definido que para cada imagem serão calculados apenas

os vetores de movimento para os pixels localizados nas regiões dos olhos e da boca, na Fi-

gura 3.9 é ilustrado um exemplo das regiões selecionadas para a extração de características.

Figura 3.9: Regiões da face selecionadas para a extração de características faciais, considerando a proporciona-

lidade da distância entre os olhos e entre cada olho e a boca. Fonte: autor.

A definição das coordenadas de início e término das regiões de olhos e boca foi realizada

de forma empírica, considerando a estrutura da face humana e as distâncias proporcionais

de ambos os olhos até a boca, como mostrado na Figura 3.9. Considerando yolho a coorde-

nada y média da localização do centro dos olhos, as regiões dos olhos e boca foram definidas

da seguinte forma (para imagens com dimensões 128 × 160):

76

• Coordenadas de início da região dos olhos:

Ciro = (0, yolho ∗ 0, 5), (3.10)

• Coordenadas de término da região dos olhos:

Ctro = (128, yolho + (yolho ∗ 0, 25)), (3.11)

• Coordenadas de início da região da boca:

Cirb = (0, yolho ∗ 0, 6), (3.12)

• Coordenadas de término da região da boca:

Ctrb = (128, 160). (3.13)

Para comprovar a efetividade das equações acima, a Figura 3.10 ilustra exemplos de

imagens obtidas em cada base.

Figura 3.10: Regiões da face selecionadas para a extração de características faciais. Uma imagem de cada base

(da esquerda para a direita): CK, JAFFE, MMI, CK+ e CMU-PIE. Fonte: autor.

Anteriormente, foi mencionado que o algoritmo ARSA classifica os blocos de busca

em quatro tipos. Contudo, alguns tipos não são aplicados a imagens de face, após o pré-

processamento não existe mais cenário nas imagens. A versão modificada proposta neste

trabalho (Modified Adaptive Reduction of the Search Area - MARSA), diminui o número de

pontos de busca usando as características das expressões faciais: uma área pequena é de-

terminada para blocos com pouco ou nenhum movimento (micro-expressões) e uma área

maior é definida para blocos com muito movimento (macro-expressões), como pode ser

visto na Figura 3.11. A classificação de blocos é realizada para determinar o tamanho da

área de busca para cada tipo de bloco, a área de busca tem tamanho DMAX para blocos de

macro-expressões e DMAX/2 para blocos de micro-expressões. Portanto, além da definição

77

das 2 regiões (olhos e boca) em que o algoritmo será executado, dentro dessas regiões a área

de busca pelo bloco de maior semelhança também pode ser reduzida.

Figura 3.11: O algoritmo Modificado de Redução Adaptativa da Área de Busca (MARSA). Fonte: autor.

3.4 Transformação de Características

Nesta Seção são descritas as etapas de treinamento e testes do sistema de reconheci-

mento de expressões faciais proposto neste trabalho.

78

3.4.1 Treinamento

Figura 3.12: As cinco fases do treinamento. Fonte: autor.

PRIMEIRA FASE

Na Figura 3.12 são mostradas as fases do processo de transformação de características.

O símbolo σ representa a base de imagens e f representa a expressão facial identificada.

Para cada imagem de treino, a imagem com maior similaridade em cada expressão facial

da base é obtida usando a medida Structural Similarity index (SSIM), como mostrado na

Figura 3.13.

79

Figura 3.13: Busca da imagem mais similar em cada expressão facial. Fonte: autor.

As imagens similares são usadas para calcular os vetores de movimento (MV), compa-

rando a imagem de treino Xi à imagem com maior similaridade em cada expressão facial

(Xa, Xb, ..., Xg) da base de imagens, como mostrado na Figura 3.14.

Figura 3.14: Representação do MV. Fonte: autor.

A Tabela 3.1 mostra que para cada imagem, um MV é calculado em cada expressão

facial da base de treinamento.

Tabela 3.1: Para cada imagem, um MV para cada expressão da base de treinamento.

imagens Xa, alegria Xb, medo ... Xg, raiva

Xi MV1i MV2i ... MV7i

Xj MV1j MV2j ... MV7j

... ... ... ... ...

Xn MV1n MV2n ... MV7n

SEGUNDA FASE

Na segunda fase do treinamento, os ’Vetores de Maiores Ocorrências’ (HOV) são cal-

culados para cada expressão facial da base, esses vetores representam as coordenadas que

80

possuem as maiores ocorrências nos vetores de movimento MV em cada expressão da base

de treino, como mostrado na Tabela 3.1.

Tabela 3.2: Representação dos HOVs de cada expressão facial da base de treinamento.

alegria medo ... raiva

imagem 1 MV11 MV21 ... MV71

imagem 2 MV12 MV22 ... MV72

... ... ... ... ...

imagem n MV1n MV2n ... MV7n

HOV1 HOV2 ... HOV7

A Tabela 3.3 mostra como é gerado o HOV da primeira coluna da Tabela 3.2, corres-

pondente aos MVs da base de imagens alegria. As coordenadas (xn, yn)′ do HOV1 são as

coordenadas de maiores ocorrências naquela posição dos vetores MVs.

Tabela 3.3: Cálculo do HOV para a base de imagens alegria.

alegria

imagem 1 MV11 = [(x11, y11), (x21, y21), ..., (xn1, yn1)]

imagem 2 MV12 = [(x12, y12), (x22, y22), ..., (xn2, yn2)]

... ...

imagem n MV1n = [(x1n, y1n), (x2n, y2n), ..., (xnn, ynn)]

HOV1 = [(x1, y1)′, (x2, y2)

′, ..., (xn, yn)′]

Cada imagem de treino possui tantos HOVs quanto são as expressões faciais na base de

treino. Por exemplo, se existem sete expressões faciais (raiva, nojo, medo, alegria, neutra,

tristeza e surpresa) na base de treino, haverá sete HOVs para cada expressão facial (49

vetores para toda a base de treino).

TERCEIRA FASE

Nesta fase, o objetivo é obter as distâncias absolutas entre dois pontos na mesma posição

em cada vetor MV da base de treinamento e todos os vetores HOVs de cada expressão facial

da base de treinamento. A Distância Euclidiana é utilizada para o cálculo da distância entre

esses pontos, como mostrado na Tabela 3.4:

81

Tabela 3.4: Cálculo do EDV para cada imagem da base de treinamento.

expressão

alegria EDV11 =√

(MV11 − HOV1)2,

medo EDV21 =√

(MV21 − HOV2)2

... ...

raiva EDVn1 =√

(MVn1 − HOVn)2

onde EDV é o ’Vetor de Distâncias Euclidianas’ calculado para a i-ésima posição do MV

e do HOV. Os índices em EDVij, MVij e HOVi indicam (i) a expressão da base a qual per-

tence o vetor e (j) a imagem a qual pertence o vetor. Para cada imagem, são gerados tantos

EDVs quanto são as expressões faciais da base de treino.

QUARTA FASE

Nesta fase, o menor valor de cada i-ésima posição do EDV (ai, bi, ..., zi), incrementa uma

variável Qtd do ’Vetor de Características’ (Feature Vector - FV) relacionado à expressão facial

a qual o EDV pertence. Para cada imagem, existem tantas variáveis Qtd (posições no FV)

quantas são as expressões na base de treino. Esse procedimento é demonstrado na Tabela

3.5:

Tabela 3.5: Cálculo do FV para uma imagem da base de treino.

expressão

alegria EDV11 = [a1, b1, ..., z1]

medo EDV21 = [a2, b2, ..., z2]

... ...

raiva EDVn1 = [an, bn, ..., zn]

FVimagem = [Qtdalegria, Qtdmedo, ..., Qtdraiva]

QUINTA FASE

Na última fase do treinamento, ocorre a classificação da expressão facial. O FV de cada

imagem (última linha da Tabela 3.5) calculado na etapa anterior será a entrada do classifi-

cador que reconhece a expressão facial representada na imagem sendo analisada.

Finalmente, é realizado o reconhecimento independente do indivíduo usando a SVM

(Support Vector Machine) [37], a seção seguinte explica este procedimento.

82

3.4.2 Testes

Na Figura 3.15 é mostrado o framework utilizado para a realização dos testes do método

proposto.

Figura 3.15: Framework de testes. Fonte: autor.

1. Para cada imagem de teste é obtida a imagem com maior similaridade em cada ex-

pressão facial da base usando a métrica Structural Similarity index (SSIM). Os pares de

imagens com maior similaridade são usados para calcular os MVs, cada imagem de

teste possui um MV calculado entre ela e uma imagem de cada expressão facial da

base de treino.

2. O MV calculado para a imagem de teste é comparado, por Distância Euclidiana, a cada

HOV de cada expressão facial da base de treino.

3. As fases seguintes são idênticas às fases quatro e cinco do framework do treinamento.

83

3.5 Classificação

As técnicas de AM (Aprendizado de Máquina) adotam um mecanismo denominado de

indução ou inferência, onde pode-se obter conclusões genéricas a partir de um conjunto

particular de exemplos. Este tipo de aprendizado está dividido em dois subtipos: supervi-

sionado e não supervisionado. No aprendizado supervisionado, temos o que chamamos de

um agente externo que apresenta o conhecimento do ambiente e o representa de uma deter-

minada forma. A partir deste conhecimento, os algoritmos de AM extraem essas informa-

ções a partir desses conjuntos. Esses conjuntos são chamados de ’base de treinamento’. O

objetivo dessa representação é conseguir produzir saídas corretas para entradas não apre-

sentadas ao conjunto de treinamento. Já no aprendizado não supervisionado, não existe a

representação do agente externo. Nesse caso, os algoritmos de AM aprendem a representar

os dados a partir de uma medida de qualidade [77].

Nesta etapa do método proposto, as entradas são os dados de saída da transforma-

ção das características, que foram calculadas utilizando o algoritmo de estimação por casa-

mento de blocos MARSA, e a saída do classificador é a identificação da expressão de uma

imagem de face. Para realizar a classificação dos dados, foi escolhida a técnica SVM (Sup-

port Vector Machine) [37] por ser uma técnica robusta e bastante utilizada na literatura para

a classificação de expressões faciais.

3.5.1 SVM - Support Vector Machine

A classificação de dados é uma tarefa comum no AM. No caso das SVMs, um dado é

visto como um vetor p-dimensional (uma lista de números p), esses dados devem ser sepa-

rados por um hiperplano (p− 1)-dimensional. Classificadores que separam dados por meio

de um hiperplano são chamados de lineares. O objetivo das SVMs lineares é a obtenção de

fronteiras lineares para a separação de dados de duas classes. Essas classes são linearmente

separáveis se for possível separar os dados das classes a partir de um hiperplano. Pode-se

visualizar na Figura 3.16 a projeção do hiperplano separador das classes.

84

Figura 3.16: Visão do hiperplano separador de classes na SVM linear. Fonte: autor.

Existem muitos hiperplanos que podem classificar os dados. Uma SVM constrói um

hiperplano, ou conjunto de hiperplanos, em um espaço hiper dimensional, que pode ser

usado para classificação, regressão, ou outras tarefas. Uma boa separação de dados é al-

cançada pelo hiperplano que possuir a maior distância para o dado de treinamento mais

próximo de qualquer classe, por isso que quanto maior a margem, menor o erro de genera-

lização do classificador.

As SVMs são modelos de aprendizado supervisionado onde dado um conjunto de exem-

plos de treinamento, cada exemplo é rotulado como pertencente a uma categoria, um algo-

ritmo de treinamento constrói um modelo que atribui novos exemplos a uma categoria,

tornando-o um classificador linear binário não-probabilístico. Dado um conjunto de treina-

mento rotulado da forma (xi, yi), onde xi representa o dado de treinamento e yi representa o

seu rótulo, será produzido um modelo ou hipótese capaz de predizer precisamente o rótulo

de novos dados. Quando os rótulos possuírem valores discretos 1, ..., k, será um problema

de classificação. Para o caso de rótulos com valores contínuos, será um problema de regres-

são [78].

Um requisito bastante importante para as técnicas de AM é a capacidade que elas têm de

lidar com a presença de ruídos e ’outliers’. Os outliers são dados do conjunto de treinamento

muito distintos ou discrepantes em relação ao restante do domínio. A técnica de AM deverá

ser robusta o bastante para tratar esses tipos de dados. A Figura 3.17 ilustra uma visão geral

dos conceitos referentes à geração de um classificador.

85

Figura 3.17: Visão geral do classificador em aprendizado supervisionado. Fonte: autor.

Quando os dados não são rotulados, o aprendizado supervisionado não é possível, por-

tanto uma abordagem não supervisionada é necessária. Essa abordagem tenta estabelecer

o agrupamento (clustering) dos dados em grupos, e então mapear novos dados para esses

grupos. O algoritmo de agrupamento que permite uma melhora nas SVMs é chamado sup-

port vector clustering [79] e é utilizado com frequência em aplicações industriais quando os

dados não são rotulados, ou quando apenas alguns dados são rotulados, como um pré-

processamento para a classificação.

As SVMs não lineares são utilizadas quando não há possibilidade de se dividir os dados

de treinamento por um hiperplano. Na Figura 3.18 é mostrado um exemplo onde o uso

de uma fronteira curva seria mais adequado para separar as classes. As SVMs não lineares

tratam os dados mapeando o conjunto de treinamento de seu espaço original para um novo

espaço hiper dimensional, chamado de espaço de características (feature space).

Figura 3.18: Conjunto de dados não linear. Fonte: autor.

Para o treinamento da SVM foi utilizado nos experimentos desta Tese o algoritmo SMO

(Sequencial Minimal Optimization) [80], com o Kernel RBF (Radial-Basis Function) [81]. Este

kernel é uma função que recebe dois pontos xi e xj do espaço de entradas e computa o

produto escalar desses dados no espaço de características. O kernel RBF possui o parâmetro

Gamma (γ), que determina a flexibilidade da SVM na obtenção dos dados, ele foi variado

86

de 1 a 200, e o parâmetro C, que também foi variado de 1 a 200, em busca dos melhores

resultados de classificação.

Todas as etapas descritas nas Seções deste Capítulo compõem uma nova arquitetura de-

senvolvida para identificar o movimento produzido pelas expressões faciais. No Capítulo

4 são descritos os experimentos realizados nas bases de imagens e vídeos, mencionadas na

Seção 2.1, bem como apresentados os resultados obtidos.

CAPÍTULO 4

EXPERIMENTOS E

RESULTADOS

"O que sabemos é uma gota, o que ignoramos

é um oceano."

— Isaac Newton

APós o fim do processo de desenvolvimento e implementação do sistema de reconhe-

cimento de expressões faciais, foi iniciado o processo de elaborar um conjunto de

testes que permita a obtenção de resultados qualitativos e quantitativos. Para os experi-

mentos de reconhecimento de expressões faciais, foram utilizadas cinco bases de imagens

de faces: Cohn-Kanade (CK) [3], Cohn-Kanade Extendida (CK+) [4], Japanese female facial ex-

pression (JAFFE) [2], MMI [5] e CMU Pose, Illumination, and Expression (CMU-PIE) [6]. Os

experimentos são detalhados nas próximas seções deste capítulo.

O sistema apresentado neste trabalho foi implementado na linguagem de programação

Java SE, da empresa Sun Microsystems. As rotinas de pré-processamento das imagens fo-

ram implementadas na linguagem de programação Python (filtros ASEF), gerenciada pela

organização Python Software Foundation, e no MatLab R2015b (métrica SSIM), da MathWorks.

Todos os experimentos foram realizados em um computador desktop com configuração: pro-

cessador Intel(R) Core(TM) i3-2100 CPU 3,10GHz e memória RAM de 8,00 GB.

A sequência de treinamento e testes, do método de reconhecimento proposto neste tra-

88

balho, pode ser resumida em seis etapas:

1. Imagens de treinamento são lançadas no sistema para que os MVs sejam calculados, a

partir desses vetores são calculados os HOVs;

2. Os MVs gerados são comparados com os HOVs para gerar os EDVs;

3. Para finalizar o treinamento, a partir dos EDVs, são calculados os FVs de todas as

imagens da base, eles são usados como dados de treinamento na SVM;

4. Imagens de teste são lançadas no sistema para que sejam calculados os MVs;

5. Os MVs são comparados com os HOVs, obtidos na fase de treinamento, para gerar os

EDVs;

6. Finalmente, a partir dos EDVs, são calculados os FVs de todas as imagens da base de

treinamento. Os FVs são utilizados como dados de entrada na SVM.

O algoritmo de estimação de movimento MARSA é utilizado na primeira etapa. Ele

realiza uma busca pelos blocos de maior semelhança entre duas imagens, necessários para o

cálculo do MV. Os algoritmos de estimação ARSA e FS também foram utilizados para testes

e comparação de performance e tempo de processamento, com o objetivo de comprovar a

melhor eficiência e acuracidade do algoritmo MARSA.

Na terceira e sexta etapas, são gerados os arquivos de entrada para a SVM. A classifica-

ção foi realizada com um tipo de validação: Cross Validation 10-folds. Este tipo de validação

seleciona 10% dos indivíduos da base de imagens para gerar a base de testes, os demais

indivíduos fazem parte da base de treinamento, ver a Figura 4.1. Os indivíduos da base

de teste são testados individualmente. Ainda sobre o método de validação utilizado, ele

consiste em dividir o conjunto total de dados em dez subconjuntos mutuamente exclusi-

vos do mesmo tamanho e, a partir disto, um subconjunto é utilizado para teste e os nove

restantes são utilizados para estimação dos parâmetros e calcula-se a acurácia do modelo.

Este processo é realizado 10 vezes (rodadas) alternando de forma circular o subconjunto de

teste.

89

Figura 4.1: Validação Cruzada 10-folds. Fonte: autor.

A técnica de validação Cross Validation 10-folds determina que a escolha das imagens

de treinamento e de teste seja feita de forma aleatória. O sistema implementado separa as

imagens de treinamento (90% da base de imagens) das imagens de teste (10% da mesma

base).

Também é importante ressaltar que é possível melhorar a acuracidade da classificação

das expressões faciais variando a quantidade de coordenadas que são utilizadas no cálculo

dos HOVs, ou seja, pode-se considerar não apenas a coordenada de movimento que mais

ocorreu na i-ésima posição dos MVs, mas também a segunda, a terceira, a quarta coorde-

nada que mais ocorreu e assim sucessivamente. Portanto, foram realizados experimentos

variando a quantidade de HOVs.

Nas Seções a seguir são mostrados os resultados obtidos paras as bases de imagens e

vídeos utilizadas nos experimentos deste trabalho.

4.1 Etapas de Pré-processamento

Todas as imagens das bases utilizadas nos experimentos apresentados neste capítulo ti-

veram que passar por pré-processamento para que pudessem ser analisadas pelo método

apresentado. O pré-processamento é dividido em duas etapas: (1) detecção e recorte da face

na imagem, realizada utilizando os filtros ASEF; (2) busca da imagem de maior semelhança

para o cálculo do MV, realizada utilizando a função SSIM. Essas etapas já foram detalhada-

mente explicadas no capítulo anterior. Nas Tabelas 4.1 e 4.2 são apresentados os tempos de

processamento de cada etapa para cada uma das bases de imagens de faces utilizadas nos

experimentos deste trabalho.

90

Tabela 4.1: Tempos de detecção e recorte da face usando os filtros ASEF para cada base e para cada imagem

utilizada nos experimentos.

Bases de imagensTempos da 1ª etapa de pré-processamento

Total de imagens ASEF(base) ASEF(imagem)

JAFFE 213 1,42 min. 0,4 seg.

CK 1287 8,58 min. 0,4 seg.

CK+ 1722 11,48 min. 0,4 seg.

MMI 648 4,32 min. 0,4 seg.

CMU-PIE 778 5,19 min. 0,4 seg.

Tabela 4.2: Tempos de busca da imagem de maior semelhança usando a função SSIM para cada base e para

cada imagem utilizada nos experimentos.

Bases de imagensTempos da 2ª etapa de pré-processamento

Total de imagens SSIM(base) SSIM(imagem)

JAFFE 213 3,9 min. 1,10 seg.

CK 1287 12,80 hrs. 35,8 seg.

CK+ 1722 17,26 hrs. 36,1 seg.

MMI 648 2,92 hrs. 16 seg.

CMU-PIE 778 51,26 min. 3,95 seg.

O pré-processamento da base de imagens é realizado apenas uma vez, na fase de treina-

mento. Após o treinamento, o pré-processamento é realizado apenas para a imagem a ser

analisada pelo sistema. Os tempos de pré-processamento variam de acordo com o tamanho

da base, quanto mais imagens, maior o tempo de pré-processamento.

4.2 Reconhecimento de Expressões Faciais Utilizando a Base JAFFE

O primeiro conjunto de testes, efetuado com o intuito de averiguar o sucesso do sistema

desenvolvido, foi realizado com as imagens da base JAFFE. Esta base possui 213 imagens

de sete expressões faciais: raiva, nojo, medo, alegria, neutra, tristeza e surpresa, com apro-

ximadamente o mesmo número de imagens para cada categoria de expressão facial. Todas

as imagens da base foram utilizadas nos experimentos do método apresentado.

Nas Tabelas 4.3 a 4.10 são apresentadas as matrizes de confusão com os resultados dos

experimentos de reconhecimento das expressões faciais dentro da base de imagens JAFFE,

variando a quantidade de HOVs e com tamanho fixo de bloco 8× 8 para o cálculo dos MVs.

91

Tabela 4.3: Matriz de confusão do reconhecimento de expressões faciais na base JAFFE, utilizando 1 HOV.

Raiva Nojo Medo Alegria Neutra Tristeza Surpresa

(%) (%) (%) (%) (%) (%) (%)

Raiva 100 0 0 0 0 0 0

Nojo 6,9 89,66 3,45 0 0 0 0

Medo 0 6,25 81,25 3,12 0 6,25 0

Alegria 0 3,12 0 96,88 0 0 0

Neutra 0 0 0 3,33 93,33 0 3,33

Tristeza 0 6,67 10 0 13,33 66,67 0

Surpresa 0 0 3,33 0 0 3,33 93,33

Tabela 4.4: Matriz de confusão do reconhecimento de expressões faciais na base JAFFE, utilizando 2 HOVs.


(%) (%) (%) (%) (%) (%) (%)

Raiva 96,67 3,33 0 0 0 0 0

Nojo 3,45 82,76 13,80 0 0 0 0

Medo 0 6,25 78,13 3,12 0 9,37 3,12

Alegria 0 0 0 100 0 0 0

Neutra 0 0 0 3,33 93,33 3,33 0

Tristeza 0 3,33 16,67 0 13,33 66,67 0

Surpresa 0 3,33 3,33 0 3,33 0 90



(%) (%) (%) (%) (%) (%) (%)

Raiva 100 0 0 0 0 0 0

Nojo 3,45 86,21 10,35 0 0 0 0

Medo 0 3,12 84,38 3,12 0 9,37 0

Alegria 0 0 0 100 0 0 0

Neutra 0 0 0 3,33 96,67 0 0

Tristeza 0 3,33 16,67 0 13,33 66,67 0

Surpresa 0 0 10 0 0 0 90

92



(%) (%) (%) (%) (%) (%) (%)

Raiva 96,67 3,33 0 0 0 0 0

Nojo 3,45 82,76 13,80 0 0 0 0

Medo 0 6,25 81,25 3,12 3,12 6,25 0

Alegria 0 0 0 96,88 3,12 0 0

Neutra 0 0 0 3,33 96,67 0 0

Tristeza 0 0 3,33 0 6,67 86,67 3,33

Surpresa 0 0 6,67 0 0 0 93,33



(%) (%) (%) (%) (%) (%) (%)

Raiva 96,67 3,33 0 0 0 0 0

Nojo 3,45 89,66 6,90 0 0 0 0

Medo 0 3,12 81,25 0 3,12 12,5 0

Alegria 0 0 0 90,63 9,37 0 0

Neutra 0 0 0 3,33 96,67 0 0

Tristeza 0 0 3,33 0 3,33 90 3,33

Surpresa 0 0 3,33 0 3,33 0 93,33



(%) (%) (%) (%) (%) (%) (%)

Raiva 96,67 3,33 0 0 0 0 0

Nojo 20,69 72,41 6,90 0 0 0 0

Medo 0 0 81,25 0 0 15,62 3,13

Alegria 0 0 0 90,63 9,37 0 0

Neutra 0 0 0 3,33 93,33 3,33 0

Tristeza 0 0 6,66 0 6,66 86,67 0

Surpresa 0 0 6,66 0 0 3,33 90

93



(%) (%) (%) (%) (%) (%) (%)

Raiva 93,33 6,67 0 0 0 0 0

Nojo 17,24 68,97 10,34 0 0 3,45 0

Medo 0 0 75 0 0 18,75 6,25

Alegria 0 0 0 96,88 3,12 0 0

Neutra 0 0 0 3,33 96,67 0 0

Tristeza 0 0 6,66 0 6,66 83,33 3,33

Surpresa 0 0 3,33 0 0 0 96,67



(%) (%) (%) (%) (%) (%) (%)

Raiva 93,33 6,67 0 0 0 0 0

Nojo 13,79 79,31 6,70 0 0 0 0

Medo 0 0 71,88 0 0 21,87 6,25

Alegria 0 0 0 93,75 6,25 0 0

Neutra 0 0 3,33 0 96,67 0 0

Tristeza 0 0 13,33 0 3,33 80 0

Surpresa 0 0 10 3,33 0 0 86,67

A Figura 4.2 mostra a taxa de acertos no reconhecimento de cada expressão facial da

base JAFFE, para quantidades diferentes de HOVs.

0 2 4 6 8 10 12 14

70

80

90

100

Quantidade de HOVs

Taxa

de

acer

tos

(%)

raivanojo

medoalegrianeutratristeza

surpresa

Figura 4.2: Taxas de reconhecimento para cada expressão facial da base JAFFE. Fonte: autor.

94

A Figura 4.3 mostra a taxa média de acertos no reconhecimento de todas as expressões

faciais da base JAFFE, para quantidades diferentes de HOVs.

0 2 4 6 8 10 12 14

86

88

90

88, 73

86, 79

89, 13

90, 6191, 17

87, 2887, 26

85, 94

Quantidade de HOVs

Taxa

méd

iad

eac

erto

s(%

)

Figura 4.3: Quantidade de HOVs X Respectivas taxas médias de acertos no reconhecimento de expressões

faciais na base de imagens JAFFE. Fonte: autor.

Nas Tabelas 4.3 a 4.10 e no gráfico da Figura 4.2 é possível observar que as expressões

faciais que apresentam as melhores taxa de reconhecimento são raiva e alegria, com taxas

médias de acertos de 96,67% e 95,71%, respectivamente. A expressão que apresenta a pior

taxa é tristeza, com taxa média de acerto de 78,33%, sendo bastante confundida com as

expressões medo e neutra. Por fim, no gráfico da Figura 4.3 é possível observar que quando

são utilizados dois HOVs, há uma diminuição na média de acertos do reconhecimento com

relação ao uso de apenas um HOV, contudo a média de acertos aumenta gradativamente a

partir do uso de quatro HOVs, mas diminui novamente com o uso de 10, 12 e 14 HOVs. Isso

ocorre pois a utilização de muitos HOVs significa que são consideradas muitas coordenadas

com maiores ocorrências, o que diminui a relevância das coordenadas que de fato ocorreram

mais vezes nos MVs de cada expressão facial da base de imagens.

4.2.1 Comparação dos algoritmos de estimação de movimento por

casamento de blocos na base JAFFE

Para verificar a eficiência do algoritmo de estimação de movimento proposto (MARSA),

foram realizados experimentos também com os algoritmos FS e ARSA, que são considera-

dos precursores do MARSA. Os três algoritmos foram utilizados no sistema implementado

95

com três tamanhos diferentes de blocos para o cálculo dos MVs: 4 × 4, 8 × 8 e 12 × 12.

Blocos de tamanho menor (2 × 2) não foram considerados, pois são formados por apenas

4 pixels, o que dificulta a detecção de movimento. Blocos de tamanhos maiores (16 × 16,

20 × 20, etc) dificultam a detecção de movimento pelo motivo oposto: são formados por

uma grande quantidade de pixels, o que pode gerar erro no cálculo dos MVs, visto que o

deslocamento obtido é considerado para todos os pixels do bloco.

As quantidades de HOVs também foram alteradas junto com os tamanhos dos blocos.

O tamanho de bloco 8× 8 gerou a maior taxa de reconhecimento, portanto foi utilizado para

o cálculo das matrizes de confusão para as respectivas quantidades de HOVs: 1, 2, 4, 6, 8,

10, 12 e 14. A quantidade de HOVs que forneceu as maiores taxas médias de acertos para

os três algoritmos foi oito, assim como é mostrado no gráfico da Figura 4.2.

Na Tabela 4.11 são mostradas as taxas médias de acerto para o reconhecimento de ex-

pressões faciais utilizando os três algoritmos de estimação de movimento no método pro-

posto: FS, ARSA e MARSA. É possível observar a superioridade do algoritmo MARSA, isso

se explica por ele ser aplicado apenas nas regiões dos olhos e da boca, onde ocorrem os

principais movimentos das expressões faciais. Os algoritmos FS e ARSA apresentam taxas

de reconhecimento um pouco menores por considerarem informações de movimento em

outras regiões da imagem da face (nariz e testa, por exemplo) que podem levar a algum

erro no reconhecimento das expressões.

Tabela 4.11: Taxas médias de reconhecimento dos algoritmos de estimação de movimento para tamanhos dife-

rentes de blocos, utilizando a base JAFFE.

AlgoritmoTamanho do bloco

4 × 4 (%) 8 × 8 (%) 12 × 12 (%)

FS 82,1 ± 6,4 87,8 ± 6,1 87,2 ± 6,1

ARSA 83,0 ± 6,2 88,2 ± 6,8 86,8 ± 3,0

MARSA 83,9 ± 5,5 91,2 ± 2,9 87,7 ± 3,0

Além da comparação das taxas médias de acertos entre os algoritmos de estimação, tam-

bém foi realizada a comparação dos tempos de processamento, a configuração do hardware

utilizado é informada no início do capítulo. A Tabela 4.12 mostra três tempos de proces-

samento: treinamento, teste e para uma única imagem. O treinamento inclui o cálculo dos

MVs para as imagens de treino, o cálculo de todos os HOVs, o cálculo dos EDVs para as

imagens de treino e o cálculo dos FVs. O teste inclui o cálculo dos MVs para as imagens de

96

teste, o cálculo dos EDVs e o cálculo dos FVs. O reconhecimento da expressão facial para

uma única imagem inclui os cálculos dos mesmos vetores calculados para as imagens de

teste. Também foram comparados os tempos de processamento para diferentes tamanhos

de blocos: 4 × 4, 8 × 8 e 12 × 12. É possível observar que algoritmo MARSA apresenta os

menores tempos de processamento no método proposto: sendo em média 10,5% mais veloz

no treinamento, 13,4% mais veloz nos testes e no reconhecimento da expressão facial em

uma única imagem, quando comparado com o segundo algoritmo mais veloz.

Tabela 4.12: Tempos de processamento dos algoritmos de estimação de movimento para tamanhos diferentes

de blocos, utilizando a base JAFFE.

Algor.(tam. do bloco)Tempo de processamento

treinamento(min.) teste(min.) imagem(seg.)

FS (4 × 4) 49,51 5,07 1,43

FS (8 × 8) 45,15 4,82 1,36

FS (12 × 12) 55,92 4,97 1,40

ARSA (4 × 4) 48,27 4,21 1,19

ARSA (8 × 8) 43,96 3,74 1,05

ARSA (12 × 12) 53,50 5,64 1,59

MARSA (4 × 4) 39,13 3,15 0,89

MARSA (8 × 8) 41,65 3,32 0,93

MARSA (12 × 12) 49,51 4,78 1,35

4.3 Reconhecimento de Expressões Faciais Utilizando a Base CK

Também foram realizados experimentos com as imagens da base Cohn-Kanade (CK).

Esta base é composta por 1.480 imagens, tendo como modelos 97 estudantes universitários,

com idades que variam de 18 a 30 anos, onde 65% são mulheres, 15% são Afro-americanos e

3% são asiáticos ou latinos. Todos foram instruídos a realizar alguma série de 23 mudanças

de expressões faciais, sete das quais baseadas nas emoções básicas: raiva, nojo, medo, ale-

gria, neutra, tristeza e surpresa. Sequências de imagens partindo da expressão neutra para a

expressão-alvo foram digitalizadas em imagens com resolução de 640 × 490 pixels, contudo

algumas imagens são disponibilizadas no padrão de cores RGB, como o sistema proposto

foi desenvolvido para processar imagens no padrão de 256 níveis de cinza foi necessária a

conversão dessas imagens para o mesmo padrão.

Nos experimentos deste trabalho, apenas as três últimas imagens das sequências, que

97

representam o ápice das expressões faciais, foram utilizadas para treinamento e testes.


experimentos do reconhecimento das expressões faciais dentro da base de imagens Cohn-

Kanade, variando a quantidade de HOVs e com tamanho fixo de bloco 8 × 8 para o cálculo

dos MVs.

Tabela 4.13: Matriz de confusão do reconhecimento de expressões faciais na base CK, utilizando 1 HOV.


(%) (%) (%) (%) (%) (%) (%)

Raiva 97,22 0 1,85 0 0,93 0 0

Nojo 1,71 91,45 1,71 0,85 2,56 1,71 0

Medo 0 2,34 94,15 0,58 1,17 0 1,75

Alegria 0 2,05 0 96,30 1,23 0 0,41

Neutra 0,70 2,77 0,35 0,35 94,10 1,40 0,70

Tristeza 0 0 0,71 0 0,71 98,58 0

Surpresa 0 0,46 0 0 0,91 0 98,63

Tabela 4.14: Matriz de confusão do reconhecimento de expressões faciais na base CK, utilizando 2 HOVs.


(%) (%) (%) (%) (%) (%) (%)

Raiva 95,37 0,93 0,93 0 2,78 0 0

Nojo 1,71 90,60 2,56 2,56 1,71 0,85 0

Medo 1,17 2,92 91,81 0 2,34 0 1,75

Alegria 0 1,65 0,82 96,30 1,23 0 0

Neutra 0,69 0,35 0,35 0,69 95,83 1,05 1,05

Tristeza 0 0,71 0,71 0 1,42 97,16 0

Surpresa 0 0,46 0,46 0,46 0 0 98,63



(%) (%) (%) (%) (%) (%) (%)

Raiva 97,22 0,93 0,93 0 0 0 0,93

Nojo 1,71 91,45 1,71 2,56 0,85 0,85 0,85

Medo 0,58 1,75 95,90 0 1,17 0 0,58

Alegria 0 2,47 0,41 97,12 0 0 0

Neutra 0,35 1,04 0,35 0,70 96,88 0 0,70

Tristeza 0 1,43 0 0 0 98,57 0

Surpresa 0,46 0,91 0,46 0 0 0 98,17

98



(%) (%) (%) (%) (%) (%) (%)

Raiva 97,22 1,85 0,93 0 0 0 0

Nojo 1,71 93,16 0,85 2,56 0,85 0,85 0

Medo 0 3,51 94,15 0,58 1,17 0 0,58

Alegria 0 1,65 0 97,94 0 0 0,41

Neutra 0,35 1,04 0,35 0,70 96,88 0 0,70

Tristeza 0 0,71 0,71 0 0 98,58 0

Surpresa 0,46 0,46 0,46 0 0 0 98,63



(%) (%) (%) (%) (%) (%) (%)

Raiva 98,15 0 0 0 0,93 0,93 0

Nojo 0 94,02 0,85 2,56 2,56 0 0

Medo 0 3,51 94,15 0,58 1,75 0 0

Alegria 0 1,65 0 97,12 0,82 0 0,41

Neutra 0,69 0,35 0 0,35 97,92 0,35 0,35

Tristeza 0 1,43 0 0 0 97,86 0,71

Surpresa 0 0 0 0 0,46 0 99,54



(%) (%) (%) (%) (%) (%) (%)

Raiva 97,22 0,93 0,93 0 0,93 0 0

Nojo 2,56 91,45 2,56 1,71 0,85 0,85 0

Medo 0,58 2,34 94,74 1,17 0,58 0 0,58

Alegria 0 1,23 0,41 97,94 0 0 0,41

Neutra 0,69 1,39 0,35 0,35 96,88 0 0,35

Tristeza 0,71 0,71 0 0 0 98,58 0

Surpresa 0 0 0 0 0,46 0 99,54

99



(%) (%) (%) (%) (%) (%) (%)

Raiva 94,44 1,85 2,78 0 0,93 0 0

Nojo 2,56 89,74 5,13 1,71 1,71 1,71 0

Medo 0,58 4,09 91,81 0 2,92 0 0,58

Alegria 0 1,23 1,23 97,53 0 0 0

Neutra 0 1,04 1,04 0,35 96,88 0 0,69

Tristeza 0,42 0,42 0 0,42 0 98,75 0

Surpresa 0 0 0 0 0 0 100



(%) (%) (%) (%) (%) (%) (%)

Raiva 94,44 1,85 3,70 0 0 0 0

Nojo 2,56 82,91 8,55 1,71 2,56 1,71 0

Medo 0 2,92 90,06 0 5,85 0 1,17

Alegria 0 1,23 0,82 97,53 0,41 0 0

Neutra 0,35 1,39 0,69 0,69 95,83 0 1,04

Tristeza 0 0,71 2,14 0 1,43 95 0

Surpresa 0 0 0 0 0 0 100


base CK, para quantidades diferentes de HOVs.

0 2 4 6 8 10 12 14

85

90

95

100

Quantidade de HOVs

Taxa

de

acer

tos

(%)

raivanojo


surpresa

Figura 4.4: Taxas de reconhecimento para cada expressão facial da base CK. Fonte: autor.

100


faciais da base CK, para quantidades diferentes de HOVs.

0 2 4 6 8 10 12 14

94

95

96

97

95, 78

95, 1

96, 4796, 65

96, 9796, 62

95, 59

93, 68

Quantidade de HOVs

Taxa

méd

iad

eac

erto

s(%

)


faciais na base de imagens CK. Fonte: autor.

Nas Tabelas 4.13 a 4.20 e no gráfico da Figura 4.4 é possível observar que as expres-

sões faciais que apresentam as melhores taxa de reconhecimento são surpresa e tristeza, com

taxas médias de acertos de 99,14% e 97,88%, respectivamente. A expressão que apresenta

a pior taxa é nojo, com taxa média de acerto de 90,60%, sendo bastante confundida com

as expressões medo e neutra. Em todas as tabelas, as taxas de acerto no reconhecimento de

cada expressão são superiores a 82%. Por fim, no gráfico da Figura 4.5 é possível observar

que quando são utilizados dois HOVs, há uma diminuição na média de acertos do reco-

nhecimento com relação ao uso de apenas um HOV, contudo a média de acertos aumenta

gradativamente a partir do uso de quatro HOVs, mas volta a diminuir com o uso de 10, 12

e 14 HOVs. Isso ocorre pois a utilização de muitos HOVs significa que são consideradas

muitas coordenadas com maiores ocorrências, o que diminui a relevância das coordenadas

que de fato ocorreram mais vezes nos MVs de cada expressão facial da base de imagens. O

mesmo foi observado nos experimentos da base JAFFE.

101


casamento de blocos na base CK

Assim como foi feito para a base JAFFE, para verificar a eficiência do algoritmo de es-

timação de movimento proposto (MARSA), foram realizados experimentos também com

os algoritmos FS e ARSA. Seguindo os mesmos critérios para a definição dos tamanhos de

blocos para o cálculo dos MVs e para as quantidades de HOVs. O tamanho de bloco 8 × 8

gerou a maior taxa de reconhecimento, portanto foi utilizado para o cálculo das matrizes

de confusão para as respectivas quantidades de coordenadas com maiores ocorrências nos

vetores de movimento: 1, 2, 4, 6, 8, 10, 12 e 14. A quantidade de HOVs que forneceu as

maiores taxas médias de acertos para os três algoritmos foi oito, assim como é mostrado no

gráfico da Figura 4.5.



posto: FS, ARSA e MARSA. É possível observar a superioridade do algoritmo MARSA, pela

mesma razão apresentada na comparação dos algoritmos na base JAFFE.


rentes de blocos, utilizando a base CK.


4 × 4 (%) 8 × 8 (%) 12 × 12 (%)

FS 95,4 ± 1,9 96,9 ± 1,3 94,6 ± 1,4

ARSA 95,6 ± 1,7 96,0 ± 1,3 94,9 ± 1,4

MARSA 95,8 ± 1,5 97,0 ± 1,0 94,9 ± 1,4

Além da comparação das taxas médias de acertos entre os algoritmos de estimação,

também foi realizada a comparação dos tempos de processamento, assim como foi feito com

a base de imagens JAFFE. A Tabela 4.22 mostra três tempos de processamento: treinamento,

teste e para uma única imagem. Também foram comparados os tempos de processamento

para diferentes tamanhos de blocos: 4× 4, 8× 8 e 12× 12. É possível observar que algoritmo

MARSA apresenta os menores tempos de processamento no método proposto: sendo em

média 13,8% mais veloz no treinamento, 13,3% mais veloz nos testes e no reconhecimento

da expressão facial em uma única imagem, quando comparado com o segundo algoritmo

mais veloz.

102


de blocos, utilizando a base CK.



FS (4 × 4) 290,71 31,79 8,96

FS (8 × 8) 264,08 28,22 7,95

FS (12 × 12) 315,08 36,14 10,18

ARSA (4 × 4) 290,31 30,79 8,67

ARSA (8 × 8) 260,05 28,02 7,89

ARSA (12 × 12) 309,70 33,15 9,34

MARSA (4 × 4) 218,87 25,84 7,28

MARSA (8 × 8) 231,08 23,21 6,54

MARSA (12 × 12) 292,34 30,94 8,72

4.3.2 A Segunda Versão da Base Cohn-Kanade: CK+

Como já foi mencionado no capítulo dois, a base de imagens Cohn-Kanade (CK) possui

uma segunda versão. Na versão CK+ há mais uma expressão facial: desprezo (contempt).

Da mesma forma que na base CK, sequências de imagens partindo da expressão neutra para

a expressão-alvo foram digitalizadas em imagens com resoluções de 640 × 480, 640 × 490 e

720× 480 pixels, portanto foi necessário redimensionar as imagens para um mesmo padrão:

640 × 490. Além disso, assim como na base CK, existem algumas imagens no padrão de

cores RGB, que precisaram ser convertidas para 256 níveis de cinza.

Nos experimentos deste trabalho, assim como na base CK, apenas as três últimas ima-

gens das sequências, que representam o ápice das expressões faciais, foram utilizadas para

treinamento e testes.


experimentos do reconhecimento das expressões faciais dentro da base de imagens CK+,

variando a quantidade de HOVs e com tamanho fixo de bloco 8 × 8 para o cálculo dos

MVs.

103

Tabela 4.23: Matriz de confusão do reconhecimento de expressões faciais na base CK+, utilizando 1 HOV.

Raiva Desprezo Nojo Medo Alegria Neutra Tristeza Surpresa

(%) (%) (%) (%) (%) (%) (%) (%)

Raiva 94,12 0 3,27 0 1,31 1,31 0 0

Desprezo 0 94,79 0 0 0 1,04 4,17 0

Nojo 1,52 0,51 93,43 0 2,02 1,52 0,51 0,51

Medo 0,51 0 2,02 94,44 0,51 2,53 0 0

Alegria 1,14 0 2,65 1,14 94,32 0 0 0,76

Neutra 2,42 0,81 2,42 1,08 0,27 89,52 2,96 0,54

Tristeza 1,08 3,23 0,54 0 0,54 1,61 93,01 0

Surpresa 0 0 1,18 0,78 0,39 0 0 97,65

Tabela 4.24: Matriz de confusão do reconhecimento de expressões faciais na base CK+, utilizando 2 HOVs.


(%) (%) (%) (%) (%) (%) (%) (%)

Raiva 93,46 0 3,27 0 2,61 0,65 0 0

Desprezo 0 95,83 0 0 0 2,08 2,08 0

Nojo 1,01 0 89,90 0 2,53 5,05 0,51 1,01

Medo 0,51 0 1,52 91,92 1,52 4,55 0 0

Alegria 0,38 0 2,65 1,14 95,08 0 0 0,76

Neutra 0,54 1,08 2,15 1,08 0,27 90,86 2,69 1,34

Tristeza 0,54 3,76 1,08 0 0 3,76 90,86 0

Surpresa 0,39 0 0,39 0 0 0 0 99,22



(%) (%) (%) (%) (%) (%) (%) (%)

Raiva 93,46 0 5,23 0 1,96 0 0 0

Desprezo 0 96,88 0 0 0 3,12 0 0

Nojo 1,52 0 93,43 0 2,02 2,02 0 1,01

Medo 1,01 0 1,52 93,43 2,53 1,52 0 0

Alegria 0 0 2,65 0,38 96,21 0 0 0,76

Neutra 1,34 1,61 2,69 0,81 0,81 91,13 1,08 1,08

Tristeza 0 3,23 1,61 0 1,08 1,08 92,47 0

Surpresa 0 0 1,96 0 0 0 0 98,04

104



(%) (%) (%) (%) (%) (%) (%) (%)

Raiva 93,46 0 3,92 0 1,96 0,65 0 0

Desprezo 0 96,88 0 0 0 3,12 0 0

Nojo 2,02 1,01 92,42 0 2,02 2,02 0 0,51

Medo 1,01 0 2,02 92,93 3,03 1,01 0 0

Alegria 0,76 0 1,89 0,76 95,83 0 0 0,76

Neutra 1,34 0 1,08 0,54 0,81 94,62 1,08 0,54

Tristeza 0,54 3,23 1,61 1,08 0,54 0,54 92,47 0

Surpresa 0 0 1,57 0 0 0,39 0 98,04



(%) (%) (%) (%) (%) (%) (%) (%)

Raiva 94,77 0 2,61 0 2,61 0 0 0

Desprezo 0 96,88 0 0 0 3,12 0 0

Nojo 2,53 0,51 91,92 1,01 1,01 2,53 0 0,51

Medo 0 0 2,53 92,93 1,01 3,54 0 0

Alegria 0 0 1,14 0,38 96,59 0,76 0,38 0,76

Neutra 0,54 0 1,08 0,54 0,27 96,24 0,54 0,81

Tristeza 0 4,30 1,08 0,54 1,08 1,08 91,94 0

Surpresa 0 0 0,39 0 0 1,18 0 98,43



(%) (%) (%) (%) (%) (%) (%) (%)

Raiva 94,12 0 2,61 0 1,31 1,31 0 0,65

Desprezo 0 94,79 1,04 0 0 4,17 0 0

Nojo 0,51 1,01 91,92 1,01 2,53 2,53 0 1,01

Medo 0,51 0 3,03 91,41 1,52 2,53 0,51 0

Alegria 0 0 1,52 1,14 94,70 1,89 0,38 0,38

Neutra 0,81 0,27 1,08 0,54 0 95,16 1,61 0,54

Tristeza 0 4,30 1,08 0,54 0,54 4,84 88,71 0

Surpresa 0 0 0,78 0 0 0,78 0 98,43

105



(%) (%) (%) (%) (%) (%) (%) (%)

Raiva 90,20 0 6,54 0,65 1,31 1,31 0 0

Desprezo 0 92,71 0 0 0 6,25 1,04 0

Nojo 2,53 1,01 89,39 0,51 3,03 2,02 0 1,52

Medo 1,01 0,51 2,53 90,40 3,03 2,53 0 0

Alegria 0,38 0 2,65 0,38 94,70 1,14 0,38 0,38

Neutra 1,34 0,54 0,27 0,54 0 95,43 0,81 1,08

Tristeza 1,08 3,76 1,08 0 0 5,94 86,56 0

Surpresa 0,39 0 0,39 0,78 0 0,25 0 96,08



(%) (%) (%) (%) (%) (%) (%) (%)

Raiva 90,20 0 4,58 0,65 1,96 1,96 0,65 0

Desprezo 0 94,79 0 2,08 0 3,12 0 0

Nojo 1,52 1,01 86,87 0,51 4,55 4,04 0,51 1,01

Medo 0,51 0,51 3,03 87,37 3,03 5,56 0 0

Alegria 0 0 4,17 0,38 93,94 1,14 0,38 0

Neutra 1,08 0,27 1,34 0,81 0,54 93,55 1,08 1,34

Tristeza 0 4,30 1,61 1,08 0,54 8,06 84,41 0

Surpresa 0 0 0,78 0 0 2,75 0 96,47


base CK+, para quantidades diferentes de HOVs.

106

0 2 4 6 8 10 12 14

85

90

95

100

Quantidade de HOVs

Taxa

de

acer

tos

(%)

raivadesprezo

nojomedoalegrianeutratristeza

surpresa

Figura 4.6: Taxas de reconhecimento para cada expressão facial da base CK+. Fonte: autor.


faciais da base CK+, para quantidades diferentes de HOVs.

0 2 4 6 8 10 12 14

91

92

93

94

95

93, 91

93, 39

94, 3894, 58

94, 96

93, 66

91, 93

90, 95

Quantidade de HOVs

Taxa

méd

iad

eac

erto

s(%

)


faciais na base de imagens CK+. Fonte: autor.


faciais que apresentam as melhores taxa de reconhecimento são surpresa e desprezo, com ta-

xas médias de acertos de 97,80% e 95,44%, respectivamente. As expressões que apresentam

as piores taxas são nojo e tristeza, com taxas médias de acertos de 91,16% e 90,05%, respec-

tivamente. Em todas as tabelas, as taxas de acerto no reconhecimento de cada expressão

são superiores a 84%. Por fim, no gráfico da Figura 4.7 é possível observar que quando

107

são utilizadas dois HOVs, há uma diminuição na média de acertos do reconhecimento com

relação ao uso de apenas 1 HOV, contudo a média de acertos aumenta gradativamente a

partir do uso de dois HOVs, mas volta a diminuir com o uso das 10, 12 e 14 HOVs. O

mesmo foi observado nos experimentos das bases JAFFE e CK.

Comparação dos algoritmos de estimação de movimento por casamento de blocos na base CK+

Assim como foi feito para as bases JAFFE e CK, para verificar a eficiência do algoritmo

de estimação de movimento proposto (MARSA), foram realizados experimentos também

com os algoritmos FS e ARSA. Seguindo os mesmos critérios para a definição dos tamanhos

de blocos para o cálculo dos vetores de movimento e para as quantidades de coordenadas

de maiores ocorrências nesses mesmos vetores. O tamanho de bloco 8 × 8 gerou a maior

taxa de reconhecimento, portanto foi utilizado para o cálculo das matrizes de confusão para

as respectivas quantidades de coordenadas com maiores ocorrências nos vetores de movi-

mento: 1, 2, 4, 6, 8, 10, 12 e 14. A quantidade de HOVs que forneceu as maiores taxas médias

de acertos para os três algoritmos foi oito, assim como é mostrado no gráfico da Figura 4.7.




mesma razão apresentada na comparação dos algoritmos nas bases anteriores.


rentes de blocos, utilizando a base CK+.


4 × 4 (%) 8 × 8 (%) 12 × 12 (%)

FS 90,7 ± 2,4 93,4 ± 1,2 90,7 ± 2,4

ARSA 92,4 ± 1,6 94,1 ± 1,9 91,6 ± 1,6

MARSA 92,6 ± 1,1 95,0 ± 1,0 92,0 ± 1,9

Além da comparação das taxas médias de acertos entre os algoritmos de estimação,

também foi realizada a comparação dos tempos de processamento, assim como foi feito

com as bases de imagens JAFFE e CK. A Tabela 4.32 mostra três tempos de processamento:

treinamento, teste e para uma única imagem. Também foram comparados os tempos de

processamento para diferentes tamanhos de blocos: 4 × 4, 8 × 8 e 12 × 12. É possível ob-

servar que algoritmo MARSA apresenta os menores tempos de processamento no método

108

proposto: sendo em média 13,8% mais veloz no treinamento, 17,2% mais veloz nos testes e

no reconhecimento da expressão facial em uma única imagem, quando comparado com o

segundo algoritmo mais veloz.


de blocos, utilizando a base CK+.



FS (4 × 4) 517,95 57,35 16,16

FS (8 × 8) 461,65 51,25 14,44

FS (12 × 12) 567,82 75,38 21,23

ARSA (4 × 4) 500,28 54,17 15,26

ARSA (8 × 8) 448,47 50,41 14,20

ARSA (12 × 12) 539,90 62,65 17,65

MARSA (4 × 4) 381,12 41,57 11,71

MARSA (8 × 8) 393,08 42,67 12,02

MARSA (12 × 12) 511,65 54,45 15,34

4.4 Reconhecimento de Expressões Faciais Utilizando a Base MMI

A quarta rodada de testes foi realizada com as imagens da base MMI. Esta base é com-

posta por 30 indivíduos de ambos os sexos e idades entre 19 e 62 anos. A partir desses

indivíduos foram geradas mais de 1.500 amostras de imagens estáticas e vídeos de faces

nas visões frontal e de perfil, mostrando várias expressões faciais. Os vídeos que mostram a

transição da expressão neutra para a expressão-alvo possuem resolução de 720× 576 pixels.

Nos experimentos deste trabalho foram utilizados os vídeos da "Parte II"da base, da mesma

forma que em [82], que contém 238 clipes de 28 indivíduos (sessões 1.767 a 2.004) onde to-

das as expressões básicas (raiva, nojo, medo, alegria, tristeza e surpresa) foram gravadas

duas vezes. Pessoas usando óculos foram gravadas uma vez e mais uma vez sem óculos.

Como os vídeos foram disponibilizados no padrão de cores RGB, e o sistema proposto foi

desenvolvido para processar imagens no padrão de 256 níveis de cinza, foi necessária a

conversão das sequências de imagens extraídas para o mesmo padrão.

Nos experimentos deste trabalho, apenas três imagens de cada sequência, que represen-

tam o ápice das expressões faciais, foram utilizadas para treinamento e testes, assim como

nas bases CK e CK+, o que resultou em 648 imagens de expressões.

109


experimentos do reconhecimento das expressões faciais dentro da base de imagens MMI,

variando a quantidade de coordenadas com maiores ocorrências que serão utilizadas no

cálculo dos HOVs e com tamanho fixo de bloco 8 × 8 para o cálculo dos MVs.

Tabela 4.33: Matriz de confusão do reconhecimento de expressões faciais na base MMI, utilizando 1 HOV.


(%) (%) (%) (%) (%) (%) (%)

Raiva 88,31 2,60 0 0 7,79 1,30 0

Nojo 3,17 84,13 0 0 9,52 1,59 1,59

Medo 0 1,33 88 0 5,33 0 5,33

Alegria 0 0 0 84,27 14,61 1,12 0

Neutra 3,75 3,75 2,5 1,87 76,25 2,5 9,37

Tristeza 6,41 2,56 0 0 3,85 87,18 0

Surpresa 0 1,89 0,94 0 11,32 0 85,85

Tabela 4.34: Matriz de confusão do reconhecimento de expressões faciais na base MMI, utilizando 2 HOVs.


(%) (%) (%) (%) (%) (%) (%)

Raiva 88,31 3,90 0 1,30 6,49 0 0

Nojo 7,94 88,89 3,17 0 0 0 0

Medo 0 1,33 86,67 0 5,33 0 6,67

Alegria 0 1,12 1,12 85,39 8,99 0 1,12

Neutra 2,5 5,62 1,25 1,25 78,13 3,75 7,5

Tristeza 3,85 3,85 0 0 7,69 84,62 0

Surpresa 0 1,89 3,77 0 5,66 0,94 87,74



(%) (%) (%) (%) (%) (%) (%)

Raiva 92,21 2,60 0 0 5,19 0 0

Nojo 9,52 84,13 0 0 4,76 1,59 0

Medo 0 0 88 0 5,33 0 6,67

Alegria 0 1,12 0 85,39 13,48 0 0

Neutra 2,50 4,37 0 0,63 82,50 3,13 6,87

Tristeza 5,13 2,56 0 1,28 6,41 84,62 0

Surpresa 0,94 0,94 3,77 0 3,77 0,94 89,62

110



(%) (%) (%) (%) (%) (%) (%)

Raiva 89,61 3,90 0 0 3,90 2,60 0

Nojo 6,35 84,13 0 0 7,94 1,59 0

Medo 0 0 88 0 6,67 0 5,33

Alegria 0 0 2,25 85,39 12,36 0 0

Neutra 1,88 4,37 1,25 0,63 80 3,13 8,75

Tristeza 5,13 2,56 0 1,28 6,41 84,62 0

Surpresa 0 0,94 2,83 0 6,60 0 89,62



(%) (%) (%) (%) (%) (%) (%)

Raiva 89,61 2,60 0 0 5,19 2,60 0

Nojo 6,35 87,30 0 0 4,76 1,59 0

Medo 0 1,33 88 0 5,33 0 5,33

Alegria 0 0 2,25 86,52 11,24 0 0

Neutra 1,88 2,5 1,25 1,25 80,63 3,13 9,37

Tristeza 2,56 2,56 1,28 0 8,97 84,62 0

Surpresa 0 1,89 3,77 0 6,60 0 87,74



(%) (%) (%) (%) (%) (%) (%)

Raiva 89,61 3,90 0 0 3,90 2,60 0

Nojo 9,52 79,37 1,59 1,59 7,94 0 0

Medo 0 0 88 0 6,67 0 5,33

Alegria 0 0 1,12 86,52 12,36 0 0

Neutra 1,88 2,5 2,5 1,25 80,63 3,13 8,12

Tristeza 3,85 1,28 1,28 0 6,41 87,18 0

Surpresa 0 0,94 4,72 0 7,55 0 86,79

111



(%) (%) (%) (%) (%) (%) (%)

Raiva 87,01 5,19 0 0 6,49 1,30 0

Nojo 1,59 84,13 1,59 3,18 4,76 1,59 1,59

Medo 0 1,33 88 0 6,67 0 4

Alegria 0 0 0 85,39 14,61 0 0

Neutra 2,5 3,12 0 1,25 83,13 2,5 7,5

Tristeza 3,85 2,56 0 0 11,54 83,33 0

Surpresa 0 1,89 2,83 0 7,55 0 87,74



(%) (%) (%) (%) (%) (%) (%)

Raiva 85,71 5,19 0 0 7,79 1,30 0

Nojo 1,59 88,89 0 0 7,94 0 1,59

Medo 0 1,33 84 0 10,67 0 4

Alegria 0 2,25 0 83,15 14,61 0 0

Neutra 1,87 5,63 0,62 0,62 80,63 1,87 8,75

Tristeza 2,56 2,56 0 0 12,82 82,05 1,27

Surpresa 0 0,94 1,89 0,94 15,09 0 87,74


base MMI, para quantidades diferentes de HOVs.

0 2 4 6 8 10 12 1475

80

85

90

Quantidade de HOVs

Taxa

de

acer

tos

(%)

raivanojo


surpresa

Figura 4.8: Taxas de reconhecimento para cada expressão facial da base MMI. Fonte: autor.

112


faciais da base MMI, para quantidades diferentes de HOVs.

0 2 4 6 8 10 12 14

84

85

86

87

84, 86

85, 68

86, 64

85, 91

86, 35

85, 4485, 53

83, 65

Quantidade de HOVs

Taxa

méd

iad

eac

erto

s(%

)


faciais na base de imagens e vídeos MMI. Fonte: autor.


faciais que apresentam as melhores taxa de reconhecimento são raiva e surpresa, com taxas

médias de acertos de 88,80% e 87,86%, respectivamente. A expressão que apresenta a pior

taxa é neutra, com taxa média de acerto de 80,24%. Em todas as tabelas, as taxas de acerto no

reconhecimento de cada expressão são superiores a 76%. Por fim, no gráfico da Figura 4.9

é possível observar que após um aumento gradativo nas taxas de acertos, variando a quan-

tidade de HOVs até seis, ocorre uma pequena oscilação (menos de 3%) nas taxas enquanto

a quantidade de HOVs é aumentada.


casamento de blocos na base MMI

Assim como foi feito para as bases JAFFE, CK e CK+, para verificar a eficiência do al-

goritmo de estimação de movimento proposto (MARSA), foram realizados experimentos

também com os algoritmos FS e ARSA. Seguindo os mesmos critérios para a definição dos

tamanhos de blocos para o cálculo dos MVs e para as quantidades de HOVs. O tamanho

de bloco 8 × 8 gerou a maior taxa de reconhecimento, portanto foi utilizado para o cálculo

das matrizes de confusão para as respectivas quantidades de HOVs: 1, 2, 4, 6, 8, 10, 12 e

113

14. A quantidade de HOVs que forneceu as maiores taxas médias de acertos para os três

algoritmos foi quatro, assim como é mostrado no gráfico da Figura 4.9.




mesma razão apresentada na comparação dos algoritmos nas bases anteriores.


rentes de blocos, utilizando a base MMI.


4 × 4 (%) 8 × 8 (%) 12 × 12 (%)

FS 84,2 ± 4,3 85,9 ± 3,2 85,2 ± 4,6

ARSA 84,2 ± 3,8 85,5 ± 3,1 85,2 ± 4,6

MARSA 84,5 ± 3,4 86,6 ± 3,1 86,3 ± 2,9


bém foi realizada a comparação dos tempos de processamento, assim como foi feito com as

bases de imagens JAFFE, CK e CK+. A Tabela 4.42 mostra três tempos de processamento:

treinamento, teste e para uma única imagem. Também foram comparados os tempos de

processamento para diferentes tamanhos de blocos: 4 × 4, 8 × 8 e 12 × 12. É possível ob-


proposto: sendo em média 10,86% mais veloz no treinamento, 14,24% mais veloz nos testes

e no reconhecimento da expressão facial em uma única imagem, quando comparado com o


114


de blocos, utilizando a base MMI.


treinamento(min.) teste(min.) p/ imagem(seg.)

FS (4 × 4) 151,74 16,51 4,65

FS (8 × 8) 138,27 14,05 3,96

FS (12 × 12) 168,69 16,83 4,74

ARSA (4 × 4) 151,01 15,34 4,32

ARSA (8 × 8) 134,99 13,96 3,93

ARSA (12 × 12) 167,93 17,31 4,88

MARSA (4 × 4) 125,66 12,34 3,48

MARSA (8 × 8) 122,10 12,37 3,48

MARSA (12 × 12) 157,47 15,80 4,45

4.5 Reconhecimento de Expressões Faciais Utilizando a Base CMU-

PIE

O sistema proposto também foi testado com a base de imagens CMU-PIE, esta base

contém 41.368 imagens de faces de 68 indivíduos realizando 13 poses, com 43 condições di-

ferentes de iluminação, e quatro expressões diferentes: neutra, sorriso, piscando, e falando.

Para os experimentos, foram testadas duas expressões faciais: neutra e sorriso, visto que as

expressões piscando e falando requerem informação temporal, o que está fora do escopo

deste trabalho. Além disso, foram usadas as poses que são próximas da frontal (câmera 27)

com rotação horizontal (câmeras 05 e 29) e vertical (câmeras 07 e 09), como mostrado na

Figura 2.8.

Para o reconhecimento de duas classes de expressões, cinco imagens representativas

foram tiradas de cada câmera, o que resultou em 778 imagens de expressões. As imagens

da base têm resolução de 640 × 486 pixels, contudo elas são disponibilizadas no padrão de

cores RGB, como o sistema proposto foi desenvolvido para processar imagens no padrão de

256 níveis de cinza foi necessária a conversão dessas imagens para o mesmo padrão, assim

como nas bases anteriores.

Como nesta base não há sequências de imagens representando as expressões faciais,

apenas imagens de diferentes posições, nos experimentos deste trabalho foram utilizadas

uma imagem de cada câmera para o treinamento. No pré-processamento, além de converter

115

as imagens para 256 níveis de cinza, também foi aplicada a função ASEF para localização

dos olhos e segmentação das faces em imagens com resolução 128 × 160 pixels, como pode

ser visto na Figura 4.10.

Figura 4.10: Imagens de faces segmentadas da base CMU-PIE. Fonte: autor.


experimentos do reconhecimento das expressões faciais dentro da base de imagens CMU-

PIE, variando a quantidade de coordenadas com maiores ocorrências que serão utilizadas

no cálculo dos HOVs e com tamanho fixo de bloco 12 × 12 para o cálculo dos MVs.

Tabela 4.43: Matriz de confusão do reconhecimento de expressões faciais na base CMU-PIE, utilizando 1

HOV.

Neutra Sorriso

(%) (%)

Neutra 86,52 13,48

Sorriso 20,75 79,25


HOVs.

Neutra Sorriso

(%) (%)

Neutra 88,91 11,19

Sorriso 23,27 76,73


HOVs.

Neutra Sorriso

(%) (%)

Neutra 88,04 11,96

Sorriso 17,61 82,39

116


HOVs.

Neutra Sorriso

(%) (%)

Neutra 91,96 8,04

Sorriso 26,10 73,90


HOVs.

Neutra Sorriso

(%) (%)

Neutra 92,61 7,39

Sorriso 29,24 72,96


HOVs.

Neutra Sorriso

(%) (%)

Neutra 93,26 6,74

Sorriso 25,16 74,84


HOVs.

Neutra Sorriso

(%) (%)

Neutra 90,43 9,57

Sorriso 21,07 78,93


HOVs.

Neutra Sorriso

(%) (%)

Neutra 88,48 11,52

Sorriso 26,21 75,79


117

base CMU-PIE, para quantidades diferentes de HOVs.

0 2 4 6 8 10 12 14

75

80

85

90

95

Quantidade de HOVs

Taxa

de

acer

tos

(%)

neutrasorriso

Figura 4.11: Taxas de reconhecimento para cada expressão facial da base CMU-PIE. Fonte: autor.


faciais da base CMU-PIE, para quantidades diferentes de HOVs.

0 2 4 6 8 10 12 14

82

83

84

85

82, 9982, 72

85, 22

82, 9382, 79

84, 05

84, 68

82, 14

Quantidade de HOVs

Taxa

méd

iad

eac

erto

s(%

)

Figura 4.12: Quantidade de coordenadas de maiores ocorrências nos vetores de movimento x Respectivas taxas

de reconhecimento da expressões faciais na base de imagens CMU-PIE. Fonte: autor.

Nas Tabelas 4.43 a 4.50 e no gráfico da Figura 4.11 é possível observar que a expressão

facial que apresenta a melhor taxa de reconhecimento é a neutra, com taxa média de acerto

de 90,03%. A expressão sorriso apresenta a pior taxa de reconhecimento, com taxa média

de acerto de 76,85%. Em todas as tabelas, as taxas de acerto no reconhecimento de cada

118

expressão são superiores a 72%. As taxas mais baixas para esta base de imagens, deve-se ao

fato de que os MVs são calculados entre duas imagens, da mesma face ou similar, de poses

diferentes, diferentemente das outras bases onde a pose é a mesma para todas as imagens.

Outro fato que leva a menores taxas de acertos é a presença de óculos e barba em algumas

imagens, o que dificulta a etapa de busca da imagem de maior semelhança para o cálculo

dos MVs.

Finalmente, no gráfico da Figura 4.12 é possível observar que quando são utilizados

dois HOVs, há uma pequena diminuição na média de acertos do reconhecimento com re-

lação ao uso de apenas um HOV, contudo a média de acertos aumenta quando são usados

quatro HOVs, então há uma oscilação quando são usados de 6 a 14 HOVs. Esse padrão é

diferente das demais bases de imagens utilizadas nos experimentos deste trabalho, devido

aos fatos mencionados no parágrafo anterior.


casamento de blocos na base CMU-PIE

Assim como foi feito para as bases JAFFE, CK, CK+ e MMI, para verificar a eficiência do

algoritmo de estimação de movimento proposto (MARSA), foram realizados experimentos

também com os algoritmos FS e ARSA. Seguindo os mesmos critérios para a definição dos

tamanhos de blocos para o cálculo dos MVs e para os HOVs. O tamanho de bloco 12 × 12

gerou a maior taxa de reconhecimento, portanto foi utilizado para o cálculo das matrizes de

confusão para as respectivas quantidades de HOVs: 1, 2, 4, 6, 8, 10, 12 e 14. A quantidade de

HOVs que forneceu as maiores taxas médias de acertos para os três algoritmos foi quatro,

assim como é mostrado no gráfico da Figura 4.12.



posto: FS, ARSA e MARSA. É possível observar a superioridade do algoritmo proposto,

pela mesma razão apresentada na comparação dos algoritmos nas bases anteriores.

119


rentes de blocos, utilizando a base CMU-PIE.


4 × 4 (%) 8 × 8 (%) 12 × 12 (%)

FS 79,8 ± 5,3 82,1 ± 4,5 83,5 ± 4,3

ARSA 78,7 ± 5,1 82,8 ± 3,5 83,3 ± 4,2

MARSA 80,5 ± 4,1 82,8 ± 3,1 85,2 ± 3,9


bém foi realizada a comparação dos tempos de processamento, assim como foi feito com as

bases de imagens JAFFE, CK, CK+ e MMI. A Tabela 4.52 mostra três tempos de processa-

mento: treinamento, teste e para uma única imagem. Também foram comparados os tempos

de processamento para diferentes tamanhos de blocos: 4 × 4, 8 × 8 e 12 × 12. É possível ob-


proposto: sendo em média 15,18% mais veloz no treinamento, 20,04% mais veloz nos testes

e no reconhecimento da expressão facial em uma única imagem, quando comparado com o



de blocos, utilizando a base CMU-PIE.


treinamento(min.) teste(min.) p/ imagem(seg.)

FS (4 × 4) 13,49 1,05 0,29

FS (8 × 8) 11,38 0,86 0,24

FS (12 × 12) 14,96 0,95 0,27

ARSA (4 × 4) 11,21 0,97 0,27

ARSA (8 × 8) 11,10 0,77 0,22

ARSA (12 × 12) 14,83 0,89 0,25

MARSA (4 × 4) 8,37 0,70 0,20

MARSA (8 × 8) 9,95 0,66 0,18

MARSA (12 × 12) 13,37 0,73 0,20

4.6 Comparação com Outros Métodos

As melhores taxas de reconhecimento para as bases JAFFE, CK, CK+, MMI e CMU-PIE

foram 91,17%, 96,97%, 94,96%, 86,64% e 85,22%, respectivamente. Todas as bases tiveram

120

taxas acima de 85%. A eficiência da técnica apresentada nesta Tese foi avaliada com a ob-

tenção de resultados satisfatórios.

As Tabelas 4.53, 4.54, 4.55, 4.56 e 4.57 a seguir mostram uma comparação dos me-

lhores resultados obtidos neste trabalho, para o reconhecimento de expressões faciais nas

bases utilizadas nos experimentos, com outros métodos recentes da literatura, que também

utilizaram a SVM para a classificação e a técnica de validação cruzada (cross-validation) para

avaliação. Os resultados dos métodos apresentados nas tabelas de comparação foram ob-

tidos nos artigos referenciados ao lado do nome de cada método, alguns resultados não

foram disponibilizados nos artigos referenciados e por isso não são apresentados nas tabe-

las de comparação.

Os resultados apresentados nas Tabelas 4.53, 4.54 e 4.55 foram obtidos utilizando oito

HOVs e tamanho de bloco 8 × 8 para o cálculo do MV. Os resultados apresentados nas

Tabelas 4.56 e 4.57 foram obtidos utilizando quatro HOVs e tamanho de bloco 8 × 8 e

12 × 12, respectivamente.

Tabela 4.53: Comparação com outros métodos da literatura, utilizando a base de imagens JAFFE.

MétodoJAFFE

6-classes (%) 7-classes (%)

LBP [21] 86,7 ± 4,1 80,7 ± 5,5

LDP [83] 85,8 ± 1,1 85,9 ± 1,8

Gabor [84] 85,1 ± 5,0 79,7 ± 4,2

LSDP [23] 92,3 ± 1,6 89,2 ± 2,8

LPTP [85] 90,2 ± 1,0 88,7 ± 0,5

LDNK [82] 92,3 ± 1,7 89,2 ± 2,8

LDNG0,3;0,6;0,9 [82] 92,9 ± 0,1 90,6 ± 0,4

LDNG0,5;1,0;1,5 [82] 92,4 ± 0,3 88,7 ± 0,2

LDNG1,0;1,3;1,6 [82] 93,4 ± 0,4 90,1 ± 0,2

Resultado da Tese 92,2 ± 4,4 91,2 ± 2,9

Foram calculados os intervalos de confiança (IC) de 99% 1 considerando as taxas médias

de reconhecimento obtidas para as 6 e 7-classes na base JAFFE, ou seja, na repetição de

amostras dessas populações, em 99% dos casos a média µ (a média da população para a

qual se deseja o IC) estará entre os valores calculados l1 (limite inferior do IC) e l2 (limite

superior do IC).

1Um intervalo de confiança é um intervalo estimado de um parâmetro de interesse de uma população. Em vez de estimar oparâmetro por um único valor, é dado um intervalo de estimativas prováveis [95].

121

Dados para o cálculo do IC para a base JAFFE (6-classes):

• n (número de elementos da amostra) = 18 (foi escolhido aleatoriamente 1 dos 10 folds

utilizados nos experimentos da base);

• σ (desvio-padrão) = 4,4;

• X̄ (taxa média de acertos dos valores da amostra) = 94,44%;

• 1 − α = 0, 99 ou alpha = 0, 01.

Intervalo de confiança obtido para a base JAFFE (6-classes): 92, 02% 6 µ 6 96, 86% para

99% de confiança.

Dados para o cálculo do IC para a base JAFFE (7-classes):

• n = 21;

• σ = 2,9;

• X̄ = 90,48%;

• 1 − α = 0, 99 ou alpha = 0, 01.

Intervalo de confiança obtido para a base JAFFE (7-classes): 89, 00% 6 µ 6 91, 96% para

99% de confiança.

Tabela 4.54: Comparação com outros métodos da literatura, utilizando a base de imagens CK.

MétodoCK


LBP [21] 92,6 ± 2,9 88,9 ± 3,5

LDP [83] 98,5 ± 1,4 94,3 ± 3,9

Gabor [84] 89,8 ± 3,1 86,8 ± 3,1

LSDP [23] 99,2 ± 0,8 94,8 ± 3,1

LPTP [85] 99,4 ± 1,1 95,1 ± 3,1

LDNK [82] 99,2 ± 0,8 94,8 ± 3,1

LDNG0,3;0,6;0,9 [82] 98,7 ± 0,3 95,6 ± 0,7

LDNG0,5;1,0;1,5 [82] 98,9 ± 0,2 96,6 ± 0,6

LDNG1,0;1,3;1,6 [82] 99,1 ± 0,2 96,6 ± 0,6

Resultado da Tese 97,2 ± 1,1 97,0 ± 1,7

Assim como foi feito para a base JAFFE, foram calculados os intervalos de confiança

(IC) de 99% considerando as taxas médias de reconhecimento obtidas para as 6 e 7-classes

na base CK.

Dados para o cálculo do IC para a base CK (6-classes):

122

• n = 100;

• σ = 1,1;

• X̄ = 97,00%;

• 1 − α = 0, 99 ou alpha = 0, 01.

Intervalo de confiança obtido para a base CK (6-classes): 96, 74% 6 µ 6 97, 26% para

99% de confiança.

Dados para o cálculo do IC para a base CK (7-classes):

• n = 129;

• σ = 1,7;

• X̄ = 96,90%;

• 1 − α = 0, 99 ou alpha = 0, 01.

Intervalo de confiança obtido para a base CK (7-classes): 96, 55% 6 µ 6 97, 25% para

99% de confiança.

Tabela 4.55: Comparação com outros métodos da literatura, utilizando a base de imagens CK+.

MétodoCK+


LBP [86] - 83,87(linear) 81,89(RBF)

SIFT [86] - 86,39(linear) 87,31(RBF)

HOG [86] - 89,53(linear) 88,61(RBF)

Gabor [86] - 88,61(linear) 85,09(RBF)

OR [86] - 91,44(linear)

AURF [86] - 92,22(linear)

AUDN [86] - 92,05(linear)

SPTS [4] 50,4(não informado) -

CAPP [4] 66,7(não informado) -

SPTS+CAPP [4] 83,3(não informado) -

CLM [87] 74,4(não informado) -

CLM-SRI [88] 88,6(não informado) -

EAI [89] 82,6(não informado) -

LDNK [82] 82,0±0,8(linear) 82,3±0,8(RBF) -

LDNG0,3;0,6;0,9 [82] 85,6±0,8(linear) 85,6±0,8(RBF) -

LDNG0,5;1,0;1,5 [82] 89,0±0,7(linear) 89,0±0,7(RBF) -

LDNG1,0;1,3;1,6 [82] 89,3±0,6(linear) 89,3±0,7(RBF) -

Resultado da Tese 95,3 ± 1,2(RBF) 95,0 ± 0,9(RBF)

123

Assim como foi feito para as bases JAFFE e CK, foram calculados os intervalos de con-

fiança (IC) de 99% considerando as taxas médias de reconhecimento obtidas para as 7 e

8-classes na base CK+.

Dados para o cálculo do IC para a base CK+ (7-classes):

• n = 136;

• σ = 1,2;

• X̄ = 95,49%;

• 1 − α = 0, 99 ou alpha = 0, 01.

Intervalo de confiança obtido para a base CK+ (7-classes): 95, 25% 6 µ 6 95, 73% para

99% de confiança.

Dados para o cálculo do IC para a base CK+ (8-classes):

• n = 173;

• σ = 0,9;

• X̄ = 95,07%;

• 1 − α = 0, 99 ou alpha = 0, 01.

Intervalo de confiança obtido para a base CK+ (8-classes): 94, 91% 6 µ 6 95, 23% para

99% de confiança.

124

Tabela 4.56: Comparação com outros métodos da literatura, utilizando a base de vídeos MMI.

MétodoMMI


LBP [21], [86] 86,9(não informado) 52,9(linear) 50,4(RBF)

CPL [90] 49,4(não informado) -

CSPL [90] 73,5(não informado) -

AFL [90] 47,7(não informado) -

ADL [90] 47,8(não informado) -

SIFT [86] - 57,8(linear) 61,5(RBF)

HOG [86] - 63,2(linear) 65,2(RBF)

Gabor [86] - 56,1(linear) 57,6(RBF)

CSPL [90] 73,5(não informado) -

OR [86] - 68,4(linear)

AURF [86] - 69,9(linear)

AUDN [86] - 74,8(linear)

LDNK [82] 92,9±3,0(linear) 93,8±3,1(RBF) -

LDNG0,3;0,6;0,9 [82] 94,9±3,2(linear) 94,1±2,9(RBF) -

LDNG0,5;1,0;1,5 [82] 95,2±2,7(linear) 94,6±3,2(RBF) -

LDNG1,0;1,3;1,6 [82] 95,5±3,0(linear) 94,1±3,9(RBF) -

Resultado da Tese 92,8±2,7(RBF) 86,6±2,4(RBF)

Assim como foi feito para as bases de imagens anteriores, foram calculados os intervalos

de confiança (IC) de 99% considerando as taxas médias de reconhecimento obtidas para as

6 e 7-classes na base MMI.

Dados para o cálculo do IC para a base MMI (6-classes):

• n = 50;

• σ = 2,7;

• X̄ = 92,00%;

• 1 − α = 0, 99 ou alpha = 0, 01.

Intervalo de confiança obtido para a base MMI (6-classes): 91, 11% 6 µ 6 92, 89% para

99% de confiança.

Dados para o cálculo do IC para a base MMI (7-classes):

• n = 66;

• σ = 2,4;

• X̄ = 86,36%;

125

• 1 − α = 0, 99 ou alpha = 0, 01.

Intervalo de confiança obtido para a base MMI (7-classes): 85, 67% 6 µ 6 87, 05% para

99% de confiança.

Tabela 4.57: Comparação com outros métodos da literatura, utilizando a base de imagens CMU-PIE.

MétodoCMU-PIE

2-classes (%)

LBP [91] 93,5(não informado)

LBPω [92] 90,3(não informado)

LTP [93] 87,6(não informado)

LDiP [83] 88,4(não informado)

LPQ [94] 90,9(não informado)

LDNK [82] 84,6±0,3(linear) 88,8±0,3(RBF)

LDNG0,3;0,6;0,9 [82] 91,9±0,3(linear) 92,9±0,2(RBF)

LDNG0,5;1,0;1,5 [82] 94,2±0,3(linear) 93,9±0,3(RBF)

LDNG1,0;1,3;1,6 [82] 94,4±0,2(linear) 94,3±0,2(RBF)

Resultado da Tese 85,2±0,9(RBF)

Assim como foi feito para as bases de imagens anteriores, foi calculado o intervalo

de confiança (IC) de 99% considerando a taxa média de reconhecimento obtida para as

2-classes na base CMU-PIE.

Dados para o cálculo do IC para a base CMU-PIE:

• n = 78;

• σ = 0,9;

• X̄ = 84,98%;

• 1 − α = 0, 99 ou alpha = 0, 01.

Intervalo de confiança obtido para a base CMU-PIE (2-classes): 84, 74% 6 µ 6 85, 22%

para 99% de confiança.

É possível observar que para o reconhecimento 7-classes (raiva, medo, alegria, surpresa,

tristeza, nojo e neutra), o método proposto apresenta as melhores taxas de reconhecimento

nas bases JAFFE, CK, CK+ e MMI. Para o reconhecimento 8-classes (que inclui a expressão

facial de desprezo) na base CK+ também foi obtida a melhor taxa de reconhecimento dentre

as técnicas utilizadas para comparação de resultados.

Entretanto, quando consideramos o reconhecimento 6-classes (que exclui a expressão

facial neutra) nessas mesmas bases, apesar do aumento na taxa média de reconhecimento

126

o método proposto apresenta resultados um pouco inferiores a algumas das técnicas utili-

zadas para comparação dos resultados. Na base JAFFE, a taxa média de reconhecimento

foi inferior aos resultados apresentados em [23], [82]. Na base CK, a taxa média de reco-

nhecimento do método proposto ficou abaixo das técnicas apresentadas em [23], [82], [83],

[85]. Na base MMI, a taxa média de reconhecimento do método proposto ficou abaixo dos

resultados obtidos por [82]. Quando considerado o reconhecimento de apenas 2-classes de

expressões faciais (neutra e sorriso) na base CMU-PIE, a taxa média de reconhecimento foi

inferior às taxas das demais técnicas. Indicando que a técnica apresentada neste trabalho

tem a acuracidade do reconhecimento comprometida quando há variação na posição da

face do indivíduo e a presença de ’obstáculos’ na face, como barba e óculos, e quando há

variação de iluminação nas imagens.

Finalmente, também foram calculados os intervalos de confiança (IC) para validar a

comparação dos resultados dos experimentos desta Tese e dos outros trabalhos da literatura

apresentados nas Tabelas 4.53, 4.54, 4.55, 4.56 e 4.57, considerando os valores de desvio-

padrão calculados. Os intervalos de confiança validam estatisticamente as taxas médias

de reconhecimento obtidas para todas as bases de imagens utilizadas nos experimentos.

Portanto, considerando que os intervalos de confiança são calculados a partir de amostras,

é seguro afirmar que na repetição das amostras de uma população, em 99% dos casos a

média µ estará entre os valores calculados l1 e l2 em todas as bases.

CAPÍTULO 5

CONCLUSÕES

"Aprendemos a voar como os pássaros e a na-

dar como os peixes, mas não aprendemos a

conviver como irmãos."

— Martin Luther King

NEsta Tese, é abordado o problema do reconhecimento de emoções por meio de um

sistema automatizado. Dessa forma, a interação homem-máquina pode evoluir de

forma significativa, pois se aproximaria da maneira como os seres humanos interagem entre

si. Além disso, pessoas com algum tipo de transtorno, como o autismo, podem se beneficiar

desse tipo de sistema aprendendo a reconhecer qual emoção está sendo manifestada por

outro indivíduo. Considerando que uma das formas de manifestação de emoções em seres

humanos são as expressões faciais, nesta tese é proposto um método de reconhecimento

da expressões por variações na aparência de certas regiões da face, particularmente olhos e

boca, provocadas pelo movimento dos músculos faciais.

Existem alguns tipos de características que podem ser analisados pelos sistemas de reco-

nhecimento de expressões, como: textura, cor, forma e movimento. O movimento dos mús-

culos faciais durante a mudança de uma expressão para a outra é praticamente o mesmo

em todos os indivíduos. Portanto, é possível identificar a expressão facial analisando o

movimento entre as expressões, independente da pessoa.

Neste trabalho, é apresentado um método para o reconhecimento de movimentos, parti-

128

cularmente de expressões faciais, utilizando algoritmos de estimação de movimento por ca-

samento de blocos. Esses algoritmos geralmente são utilizados em sistemas de codificação

de vídeos para a eliminação de informação redundante (regiões de cenário, por exemplo)

em uma sequência de imagens, possibilitando a compressão de vídeo. Um nova abordagem

é apresentada, onde a extração de características das imagens é feita a partir de uma versão

modificada da técnica de estimação ARSA, chamada MARSA (Modified Adaptative Reduction

of the Search Area). Também é apresentada neste trabalho uma nova forma de utilização de

algoritmos de estimação de movimento: os vetores de movimento (MVs) são calculados

a partir de duas imagens de uma mesma face (ou de faces similares), a expressão facial

representada na imagem é conhecida no treinamento, mas desconhecida na fase de testes.

A partir desses MVs são obtidas as coordenadas de movimento com maiores ocorrências

nesses vetores, que serão utilizadas para gerar informação de classificação das expressões

faciais. Para comprovar a eficiência e a assertividade do método proposto, foram realizados

experimentos em cinco bases de imagens de faces utilizadas em diversos trabalhos da litera-

tura recente sobre reconhecimento de expressões faciais: JAFFE, CK, CK+, MMI e CMU-PIE.

Cada base de imagens (ou vídeos) possui características específicas, ou seja, o sistema de-

senvolvido foi testado sob condições diferentes de iluminação, posição de câmera, variação

de expressões, etc. Foi verificado que as bases com mais imagens (CK e CK+) apresentaram

as maiores taxas de reconhecimento de expressões faciais, enquanto as bases com menos

imagens (JAFFE e MMI) apresentaram taxas de reconhecimento menores. Isso ocorre pois

quanto maior a quantidade de imagens na base, melhor para o treinamento do sistema.

Contudo, a base de imagens CMU-PIE apresentou as menores taxas de reconhecimento de-

vido à variação da posição das faces e da iluminação nas imagens.

Nos primeiros experimentos, foram utilizados os algoritmos de estimação de movi-

mento por casamento de blocos Busca Exaustiva (FS - Full Search) e Redução Adaptativa da

Área de Busca (ARSA - Adaptative Reduction of the Search Area). O primeiro é um algoritmo

tradicional de estimação e compensação de movimento, foi o primeiro apresentado para

uso na compressão de vídeos padrão MPEG (Moving Picture Experts Group) [96]. Depois do

FS, foram apresentados diversos algoritmos para otimizar a estimação de movimento man-

tendo a qualidade das imagens, dentre eles o ARSA, que propõe a redução adaptativa da

área de busca para regiões da imagem com pouco ou nenhum movimento, como o cená-

rio, por exemplo. Também foram apresentadas neste trabalho algumas alterações no ARSA

129

para adequá-lo à extração de movimento de expressões faciais, essas alterações resultaram

uma versão modificada chamada MARSA e são listadas a seguir, resumidamente:

1. Utilização dos filtros de correlação ASEF (Average of Synthetic Exact Filters) para defi-

nição das regiões dos olhos e da boca, apenas essas regiões são consideradas para a

extração da característica movimento;

2. Redução dinâmica da área de busca para diminuir o número de pontos de busca,

usando as características das expressões faciais: uma pequena área de busca é deter-

minada para o bloco com pouco (ou nenhum) movimento (micro expressões) e uma

grande área de busca para o bloco com maior quantidade de movimento (macro ex-

pressões).

Os três algoritmos de estimação (FS, ARSA e MARSA) foram testados nos experimen-

tos, confirmando o melhor desempenho do algoritmo MARSA em termos de acuracidade na

classificação das expressões faciais e menor tempo de processamento, desde o treinamento

do sistema até o uso para o reconhecimento da expressão em uma única imagem. Tam-

bém é importante ressaltar que os algoritmos de estimação de movimento por casamento

de blocos são de fácil implementação e ainda assim possibilitam a extração da característica

movimento com uma alta acuracidade, o que contribui de forma significativa para a obten-

ção de taxas de reconhecimento de expressões faciais compatíveis com outras técnicas da

literatura mais complexas, como Deep Learning, por exemplo.

Os resultados apresentados nesta Tese foram comparados com outros trabalhos da lite-

ratura, apresentando taxas médias de acerto no reconhecimento de expressões faciais equi-

paráveis e até mesmo superiores, dependendo da base de imagens utilizada.

Este trabalho foi publicado no artigo Facial Expression Recognition Based on Motion Estima-

tion [97], apresentado na IJCNN 2016 (International Joint Conference on Neural Networks) [98].

5.1 Trabalhos Futuros

Apesar de apresentar resultados compatíveis ou mesmo superiores se comparados com

outros trabalhos recentes no reconhecimento de expressões faciais, o método proposto tam-

bém deve ser testado com outras bases de imagens e/ou vídeos. A utilização de outras

bases para treinamento e testes é importante não apenas para comprovar a eficiência do

130

método proposto, mas também para analisar o seu desempenho em bases com característi-

cas diferentes de iluminação, posição da câmera, expressões faciais, oclusões parciais, etc.

A combinação do extrator da característica movimento apresentado neste trabalho com

outros extratores de diferentes características (textura e forma, por exemplo) também é uma

proposta de trabalho futuro. A combinação de métodos de extração de características é uti-

lizada em outros tipos de aplicações, como detecção de pedestres [99], por exemplo. A

escolha das características mais apropriadas para o reconhecimento de expressões continua

sendo um problema desafiador, visto que a acuracidade do reconhecimento depende princi-

palmente das características que são usadas para representar as expressões. De forma intui-

tiva, algumas características parecem mais apropriadas do que outras para a representação

das expressões. Contudo, ainda não há uma consenso na literatura sobre quais as melhores

características a serem combinadas, tanto no reconhecimento de expressões faciais quanto

em outras aplicações. A hipótese a ser provada é que a combinação de extratores de dife-

rentes características pode prover taxas ainda melhores de reconhecimento das expressões

faciais.

Finalmente, o uso do sistema proposto no reconhecimento de outros tipos de movimen-

tos também pode ser alvo de estudos futuros. As atividades humanas, por exemplo, tam-

bém são uma forma bastante efetiva de comunicação não-verbal. O reconhecimento des-

sas atividades é o processo de corretamente identificar as ações realizadas pelo indivíduo.

Existem várias aplicações nesta área, tais como: vídeos de vigilância, interação homem-

máquina (HCI - Human-Computer Interaction), análises estatísticas em esportes, cuidados

médicos, etc. Em vigilância, é usada para monitorar as atividades em casas inteligentes e

também para detectar atividades anormais e alertar as autoridades competentes. Similar-

mente, em HCI, esse tipo de reconhecimento fornece um método mais natural de interagir

com o computador do que os convencionais mouse e teclado. Em sistemas de cuidados mé-

dicos, as atividades dos pacientes podem ser monitoradas para facilitar uma recuperação

mais rápida. Devido à tamanha variedade de aplicações, o reconhecimento de atividades

humanas se tornou um tópico importante na comunidade científica, com muitas pesquisas

sendo realizadas em todo o mundo [100].

REFERÊNCIAS

[1] Y. LeCun. (2016) Nips 2016 deep learning symposium. [Online]. Available:

https://drive.google.com/file/d/0BxKBnD5y2M8NREZod0tVdW5FLTQ/view

[2] M. J. Lyons, J. Budynek, and S. Akamatsu, “Automatic classification of single facial

images,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 21, no. 12,

pp. 1357–1362, 1999.

[3] T. Kanade, J. F. Cohn, and Y. Tian, “Comprehensive database for facial expression

analysis,” in Automatic Face and Gesture Recognition, 2000. Proceedings. Fourth IEEE In-

ternational Conference on. IEEE, 2000, pp. 46–53.

[4] P. Lucey, J. F. Cohn, T. Kanade, J. Saragih, Z. Ambadar, and I. Matthews, “The ex-

tended cohn-kanade dataset (ck+): A complete dataset for action unit and emotion-

specified expression,” in 2010 IEEE Computer Society Conference on Computer Vision and

Pattern Recognition-Workshops. IEEE, 2010, pp. 94–101.

[5] M. Pantic, M. Valstar, R. Rademaker, and L. Maat, “Web-based database for facial ex-

pression analysis,” in Multimedia and Expo, 2005. ICME 2005. IEEE International Confe-

rence on. IEEE, 2005, pp. 5–pp.

[6] T. Sim, S. Baker, and M. Bsat, “The cmu pose, illumination, and expression (pie) data-

base,” in Automatic Face and Gesture Recognition, 2002. Proceedings. Fifth IEEE Internati-

onal Conference on. IEEE, 2002, pp. 46–51.

[7] H. Schneiderman and T. Kanade, “A statistical method for 3d object detection applied

to faces and cars,” in Computer Vision and Pattern Recognition, 2000. Proceedings. IEEE

Conference on, vol. 1. IEEE, 2000, pp. 746–751.

[8] J. Ahlberg, “Candide-3-an updated parameterised face,” 2001.

131

132

[9] P. Viola and M. J. Jones, “Robust real-time face detection,” International journal of com-

puter vision, vol. 57, no. 2, pp. 137–154, 2004.

[10] H. Li, Z. Lin, X. Shen, J. Brandt, and G. Hua, “A convolutional neural network cascade

for face detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern

Recognition, 2015, pp. 5325–5334.

[11] H. Kobayashi and F. Hara, “Recognition of six basic facial expression and their

strength by neural network,” in Robot and Human Communication, 1992. Proceedings.,

IEEE International Workshop on. IEEE, 1992, pp. 381–386.

[12] Y.-I. Tian, T. Kanade, and J. F. Cohn, “Recognizing action units for facial expression

analysis,” IEEE Transactions on pattern analysis and machine intelligence, vol. 23, no. 2,

pp. 97–115, 2001.

[13] M. Pantic and L. J. Rothkrantz, “Facial action recognition for facial expression analysis

from static face images,” IEEE Transactions on Systems, Man, and Cybernetics, Part B

(Cybernetics), vol. 34, no. 3, pp. 1449–1461, 2004.

[14] A. Koutlas and D. I. Fotiadis, “An automatic region based methodology for facial

expression recognition,” in Systems, Man and Cybernetics, 2008. SMC 2008. IEEE Inter-

national Conference on. IEEE, 2008, pp. 662–666.

[15] J. Ou, X.-B. Bai, Y. Pei, L. Ma, and W. Liu, “Automatic facial expression recognition

using gabor filter and expression analysis,” in Computer Modeling and Simulation, 2010.

ICCMS’10. Second International Conference on, vol. 2. IEEE, 2010, pp. 215–218.

[16] A. Jamshidnezhad and M. J. Nordin, “A classifier model based on the features quan-

titative analysis for facial expression recognition,” International Journal on Advanced

Science, Engineering and Information Technology, vol. 1, no. 4, pp. 391–394, 2011.

[17] W. Zheng, “Multi-view facial expression recognition based on group sparse reduced-

rank regression,” IEEE Transactions on Affective Computing, vol. 5, no. 1, pp. 71–85,

2014.

[18] W. Zheng, Y. Zong, X. Zhou, and M. Xin, “Cross-domain color facial expression re-

cognition using transductive transfer subspace learning.”

133

[19] D.-T. Lin, “Facial expression classification using pca and hierarchical radial basis func-

tion network,” Journal of information science and engineering, vol. 22, no. 5, pp. 1033–

1046, 2006.

[20] P. Yang, Q. Liu, and D. N. Metaxas, “Boosting coded dynamic features for facial action

units and facial expression recognition,” in 2007 IEEE Conference on Computer Vision

and Pattern Recognition. IEEE, 2007, pp. 1–6.

[21] C. Shan, S. Gong, and P. W. McOwan, “Facial expression recognition based on local

binary patterns: A comprehensive study,” Image and Vision Computing, vol. 27, no. 6,

pp. 803–816, 2009.

[22] L. H. Thai, N. D. T. Nguyen, and T. S. Hai, “A facial expression classification system

integrating canny, principal component analysis and artificial neural network,” arXiv

preprint arXiv:1111.4052, 2011.

[23] J. A. R. Castillo, A. R. Rivera, and O. Chae, “Facial expression recognition based on

local sign directional pattern,” in 2012 19th IEEE International Conference on Image Pro-

cessing. IEEE, 2012, pp. 2613–2616.

[24] S. Elaiwat, M. Bennamoun, F. Boussaid, and A. El-Sallam, “3-d face recognition using

curvelet local features,” IEEE Signal processing letters, vol. 21, no. 2, pp. 172–175, 2014.

[25] F. Ahmed, P. P. Paul, M. Gavrilova, and R. Alhajj, “Weighted fusion of bit plane-

specific local image descriptors for facial expression recognition,” in 2015 IEEE Inter-

national Conference on Systems, Man, and Cybernetics (SMC). IEEE, 2015, pp. 1852–1857.

[26] M. S. Bartlett, G. Littlewort, M. Frank, C. Lainscsek, I. Fasel, and J. Movellan, “Recog-

nizing facial expression: machine learning and application to spontaneous behavior,”

in 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition

(CVPR’05), vol. 2. IEEE, 2005, pp. 568–573.

[27] D. S. Bolme, B. A. Draper, and J. R. Beveridge, “Average of synthetic exact filters,” in

Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE,

2009, pp. 2105–2112.

[28] H.-S. Oh and H.-K. Lee, “Block-matching algorithm based on an adaptive reduction

of the search area for motion estimation,” Real-Time Imaging, vol. 6, no. 5, pp. 407–414,

2000.

134

[29] A. Konar and A. Chakraborty, Emotion Recognition: A Pattern Analysis Approach. John

Wiley & Sons, 2014.

[30] N. N. Khatri, Z. H. Shah, and S. A. Patel, “Facial expression recognition: A survey,”

IJCSIT) International Journal of Computer Science and Information Technologies, vol. 5,

no. 1, pp. 149–152, 2014.

[31] K.-W. Wong, K.-M. Lam, and W.-C. Siu, “An efficient algorithm for human face de-

tection and facial feature extraction under different conditions,” Pattern Recognition,

vol. 34, no. 10, pp. 1993–2004, 2001.

[32] K. Karpouzis, G. Votsis, G. Moschovitis, and S. Kollias, “Emotion recognition using

feature extraction and 3-d models,” Computational intelligence and applications. World

Scientific and Engineering Society Press, pp. 342–347, 1999.

[33] V. Vasudevan, “Face recognition system with various expression and occlusion ba-

sed on a novel block matching algorithm and PCA,” International Journal of Computer

Applications, vol. 38, no. 11, pp. 27–34, 2012.

[34] J. Jain and A. Jain, “Displacement measurement and its application in interframe

image coding,” IEEE Transactions on communications, vol. 29, no. 12, pp. 1799–1808,

1981.

[35] J. Schmidhuber, “Deep learning in neural networks: An overview,” Neural Networks,

vol. 61, pp. 85–117, 2015.

[36] Y. Kim, H. Lee, and E. M. Provost, “Deep learning for robust feature generation in

audiovisual emotion recognition,” in 2013 IEEE International Conference on Acoustics,

Speech and Signal Processing. IEEE, 2013, pp. 3687–3691.

[37] C. Cortes and V. Vapnik, “Support-vector networks,” Machine learning, vol. 20, no. 3,

pp. 273–297, 1995.

[38] P. Ekman and E. L. Rosenberg, What the face reveals: Basic and applied studies of spontane-

ous expression using the Facial Action Coding System (FACS). Oxford University Press,

USA, 1997.

[39] Z. Zhang, “Microsoft kinect sensor and its effect,” IEEE multimedia, vol. 19, no. 2, pp.

4–10, 2012.

135

[40] T. Schlömer, B. Poppinga, N. Henze, and S. Boll, “Gesture recognition with a wii con-

troller,” in Proceedings of the 2nd international conference on Tangible and embedded inte-

raction. ACM, 2008, pp. 11–14.

[41] R. Grace and S. Steward, “Drowsy driver monitor and warning system,” in Internati-

onal driving symposium on human factors in driver assessment, training and vehicle design,

vol. 8, 2001, pp. 201–208.

[42] S. Boucenna, P. Gaussier, P. Andry, and L. Hafemeister, “A robot learns the facial ex-

pressions recognition and face/non-face discrimination through an imitation game,”

International Journal of Social Robotics, vol. 6, no. 4, pp. 633–652, 2014.

[43] W. Zhao, R. Chellappa, P. J. Phillips, and A. Rosenfeld, “Face recognition: A literature

survey,” ACM computing surveys (CSUR), vol. 35, no. 4, pp. 399–458, 2003.

[44] G. McKeown, M. F. Valstar, R. Cowie, and M. Pantic, “The semaine corpus of emo-

tionally coloured character interactions,” in Multimedia and Expo (ICME), 2010 IEEE

International Conference on. IEEE, 2010, pp. 1079–1084.

[45] R. A. Calvo and S. D’Mello, “Affect detection: An interdisciplinary review of models,

methods, and their applications,” IEEE Transactions on affective computing, vol. 1, no. 1,

pp. 18–37, 2010.

[46] Z. Zeng, M. Pantic, G. I. Roisman, and T. S. Huang, “A survey of affect recognition

methods: Audio, visual, and spontaneous expressions,” IEEE transactions on pattern

analysis and machine intelligence, vol. 31, no. 1, pp. 39–58, 2009.

[47] P. J. Phillips, H. Wechsler, J. Huang, and P. J. Rauss, “The feret database and evaluation

procedure for face-recognition algorithms,” Image and vision computing, vol. 16, no. 5,

pp. 295–306, 1998.

[48] N. Sebe, M. S. Lew, Y. Sun, I. Cohen, T. Gevers, and T. S. Huang, “Authentic facial

expression analysis,” Image and Vision Computing, vol. 25, no. 12, pp. 1856–1863, 2007.

[49] J. P. Maurya, A. A. Waoo, P. Patheja, and S. Sharma, “A survey on face recognition

techniques,” 2013.

[50] C. Tomasi and T. Kanade, Detection and tracking of point features. School of Computer

Science, Carnegie Mellon Univ. Pittsburgh, 1991.

136

[51] B. D. Lucas, T. Kanade et al., “An iterative image registration technique with an appli-

cation to stereo vision.” in IJCAI, vol. 81, no. 1, 1981, pp. 674–679.

[52] Y. Freund and R. E. Schapire, “A desicion-theoretic generalization of on-line learning

and an application to boosting,” in European conference on computational learning theory.

Springer, 1995, pp. 23–37.

[53] P. Suri and E. A. Verma, “Robust face detection using circular multi block local binary

pattern and integral haar features,” IJACSA) International Journal of Advanced Computer

Science and Applications, Special Issue on Artificial Intelligence, June 2010.

[54] A. Rathi and B. N. Shah, “Facial expression recognition survey,” (IRJET) International

Research Journal of Engineering and Technology, April 2016, vol. 3, no. 4, pp. 540–545.

[55] L. Yin, X. Wei, Y. Sun, J. Wang, and M. J. Rosato, “A 3d facial expression database

for facial behavior research,” in 7th international conference on automatic face and gesture

recognition (FGR06). IEEE, 2006, pp. 211–216.

[56] M. Turk and A. Pentland, “Eigenfaces for recognition,” Journal of cognitive neuroscience,

vol. 3, no. 1, pp. 71–86, 1991.

[57] D. Chakrabarti and D. Dutta, “Facial expression recognition using eigenspaces,” Pro-

cedia Technology, vol. 10, pp. 755–761, 2013.

[58] G. Murthy and R. Jadon, “Recognizing facial expressions using eigenspaces,” in 2007

IEEE International Conference on Computational Intelligence and Multimedia Applications,

vol. 3. IEEE, 2007, pp. 201–207.

[59] P. J. Phillips, P. J. Flynn, T. Scruggs, K. W. Bowyer, J. Chang, K. Hoffman, J. Marques,

J. Min, and W. Worek, “Overview of the face recognition grand challenge,” in 2005

IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05),

vol. 1. IEEE, 2005, pp. 947–954.

[60] I. Cohen, N. Sebe, A. Garg, L. S. Chen, and T. S. Huang, “Facial expression recogni-

tion from video sequences: temporal and static modeling,” Computer Vision and image

understanding, vol. 91, no. 1, pp. 160–187, 2003.

[61] T. Mitchell, Machine Learning. McGraw Hill, 1997.

137

[62] L. R. Rabiner, “A tutorial on hidden markov models and selected applications in spe-

ech recognition,” Proceedings of the IEEE, vol. 77, no. 2, pp. 257–286, 1989.

[63] Y. Saatci and C. Town, “Cascaded classification of gender and facial expression using

active appearance models,” in 7th International Conference on Automatic Face and Ges-

ture Recognition (FGR06). IEEE, 2006, pp. 393–398.

[64] C. J. Wen and Y. Z. Zhan, “Hmm+ knn classifier for facial expression recognition,”

in 2008 3rd IEEE Conference on Industrial Electronics and Applications. IEEE, 2008, pp.

260–263.

[65] H. Meng, B. Romera-Paredes, and N. Bianchi-Berthouze, “Emotion recognition by

two view svm_2k classifier on dynamic facial expression features,” in Automatic Face

& Gesture Recognition and Workshops (FG 2011), 2011 IEEE International Conference on.

IEEE, 2011, pp. 854–859.

[66] SSPNET. (2011) Fg 2011 facial expression recognition and analysis challenge

(fera2011). [Online]. Available: http://sspnet.eu/fera2011/

[67] I. Song, H.-J. Kim, and P. B. Jeon, “Deep learning for real-time robust facial expres-

sion recognition on a smartphone,” in 2014 IEEE International Conference on Consumer

Electronics (ICCE). IEEE, 2014, pp. 564–567.

[68] W. Li, M. Li, Z. Su, and Z. Zhu, “A deep-learning approach to facial expression re-

cognition with candid images,” in Machine Vision Applications (MVA), 2015 14th IAPR

International Conference on. IEEE, 2015, pp. 279–282.

[69] H. Nomiya, S. Sakaue, and T. Hochin, “Recognition and intensity estimation of facial

expression using ensemble classifiers,” in Computer and Information Science (ICIS), 2016

IEEE/ACIS 15th International Conference on. IEEE, 2016, pp. 1–6.

[70] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, “Image quality assessment:

from error visibility to structural similarity,” IEEE transactions on image processing,

vol. 13, no. 4, pp. 600–612, 2004.

[71] G.-H. Chen, C.-L. Yang, and S.-L. Xie, “Gradient-based structural similarity for image

quality assessment,” in Image Processing, 2006 IEEE International Conference on. IEEE,

2006, pp. 2929–2932.

138

[72] L.-x. Liu and Y.-q. Wang, “A mean-edge structural similarity for image quality asses-

sment,” in Fuzzy Systems and Knowledge Discovery, 2009. FSKD’09. Sixth International


[73] Q. Huynh-Thu and M. Ghanbari, “Scope of validity of psnr in image/video quality

assessment,” Electronics letters, vol. 44, no. 13, pp. 800–801, 2008.

[74] D. M. Allen, “Mean square error of prediction as a criterion for selecting variables,”

Technometrics, vol. 13, no. 3, pp. 469–475, 1971.

[75] C.-H. Cheung and L.-M. Po, “A novel block motion estimation algorithm with con-

trollable quality and searching speed,” in Circuits and Systems, 2002. ISCAS 2002. IEEE

International Symposium on, vol. 2. IEEE, 2002, pp. II–496.

[76] C.-K. Cheung and L.-M. Po, “Normalized partial distortion search algorithm for block

motion estimation,” IEEE Transactions on Circuits and Systems for Video Technology,

vol. 10, no. 3, pp. 417–422, 2000.

[77] T. Hastie, R. Tibshirani, and J. Friedman, “Unsupervised learning,” in The elements of

statistical learning. Springer, 2009, pp. 485–585.

[78] C. E. Rasmussen, “Gaussian processes for machine learning,” 2006.

[79] A. Ben-Hur, D. Horn, H. T. Siegelmann, and V. Vapnik, “Support vector clustering,”

Journal of machine learning research, vol. 2, no. Dec, pp. 125–137, 2001.

[80] J. C. Platt, “12 fast training of support vector machines using sequential minimal op-

timization,” Advances in kernel methods, pp. 185–208, 1999.

[81] M. D. Buhmann, “Radial basis functions,” Acta Numerica 2000, vol. 9, pp. 1–38, 2000.

[82] A. R. Rivera, J. R. Castillo, and O. O. Chae, “Local directional number pattern for

face analysis: Face and expression recognition,” IEEE transactions on image processing,

vol. 22, no. 5, pp. 1740–1752, 2013.

[83] T. Jabid, M. H. Kabir, and O. Chae, “Robust facial expression recognition based on

local directional pattern,” ETRI journal, vol. 32, no. 5, pp. 784–794, 2010.

[84] M. S. Bartlett, G. Littlewort, I. Fasel, and J. R. Movellan, “Real time face detection

and facial expression recognition: Development and applications to human computer

139

interaction.” in Computer Vision and Pattern Recognition Workshop, 2003. CVPRW’03.


[85] A. R. Rivera, J. A. R. Castillo, and O. Chae, “Recognition of face expressions using

local principal texture pattern,” in 2012 19th IEEE International Conference on Image

Processing. IEEE, 2012, pp. 2609–2612.

[86] M. Liu, S. Li, S. Shan, and X. Chen, “Au-aware deep networks for facial expression re-

cognition,” in Automatic Face and Gesture Recognition (FG), 2013 10th IEEE International

Conference and Workshops on. IEEE, 2013, pp. 1–6.

[87] S. W. Chew, P. Lucey, S. Lucey, J. Saragih, J. F. Cohn, and S. Sridharan, “Person-

independent facial expression detection using constrained local models,” in Automatic

Face & Gesture Recognition and Workshops (FG 2011), 2011 IEEE International Conference

on. IEEE, 2011, pp. 915–920.

[88] L. A. Jeni, D. Takacs, and A. Lorincz, “High quality facial expression recognition in

video streams using shape related information only,” in Computer Vision Workshops

(ICCV Workshops), 2011 IEEE International Conference on. IEEE, 2011, pp. 2168–2174.

[89] S. Yang and B. Bhanu, “Understanding discrete facial expressions in video using an

emotion avatar image,” IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cy-

bernetics), vol. 42, no. 4, pp. 980–992, 2012.

[90] L. Zhong, Q. Liu, P. Yang, B. Liu, J. Huang, and D. N. Metaxas, “Learning active facial

patches for expression analysis,” in Computer Vision and Pattern Recognition (CVPR),

2012 IEEE Conference on. IEEE, 2012, pp. 2562–2569.

[91] T. Ahonen, A. Hadid, and M. Pietikainen, “Face description with local binary pat-

terns: Application to face recognition,” IEEE transactions on pattern analysis and ma-

chine intelligence, vol. 28, no. 12, pp. 2037–2041, 2006.

[92] Z. Xie and G. Liu, “Weighted local binary pattern infrared face recognition based

on weber’s law,” in Image and Graphics (ICIG), 2011 Sixth International Conference on.

IEEE, 2011, pp. 429–433.

[93] X. Tan and B. Triggs, “Enhanced local texture feature sets for face recognition under

difficult lighting conditions,” IEEE transactions on image processing, vol. 19, no. 6, pp.

1635–1650, 2010.

140

[94] C. H. Chan, J. Kittler, N. Poh, T. Ahonen, and M. Pietikäinen, “(multiscale) local phase

quantisation histogram discriminant analysis with score normalisation for robust face

recognition,” in Computer Vision Workshops (ICCV Workshops), 2009 IEEE 12th Interna-

tional Conference on. IEEE, 2009, pp. 633–640.

[95] P. Action. (2017) Intervalo de confiança. [Online]. Available: http://www.

portalaction.com.br/inferencia/intervalo-de-confianca

[96] D. Le Gall, “Mpeg: A video compression standard for multimedia applications,” Com-

munications of the ACM, vol. 34, no. 4, pp. 46–58, 1991.

[97] H. da Cunha Santiago, T. I. Ren, and G. D. Cavalcanti, “Facial expression recogni-

tion based on motion estimation,” in Neural Networks (IJCNN), 2016 International Joint

Conference on. IEEE, 2016, pp. 1617–1624.

[98] IJCNN. (2016) Ijcnn 2016 program. [Online]. Available: http://www.wcci2016.org/

document/ijcnn2016_4.pdf

[99] I. P. Alonso, D. F. Llorca, M. Á. Sotelo, L. M. Bergasa, P. R. de Toro, J. Nuevo, M. Ocaña,

and M. Á. G. Garrido, “Combination of feature extraction methods for svm pedestrian

detection,” IEEE Transactions on Intelligent Transportation Systems, vol. 8, no. 2, pp. 292–

307, 2007.

[100] J. K. Aggarwal and M. S. Ryoo, “Human activity analysis: A review,” ACM Computing

Surveys (CSUR), vol. 43, no. 3, p. 16, 2011.

hemir da cunha santiago - ufpe

Documents