analise da express ao facial em reconhecimento de sinais de~ · analise da express ao facial em...

6
AN ´ ALISE DA EXPRESS ˜ AO FACIAL EM RECONHECIMENTO DE SINAIS DE LIBRAS Tamires Martins Rezende * , Cristiano Leite de Castro * , ılvia Grasiella Moreira Almeida , Frederico Gadelha Guimar˜ aes * * Programa de P´os-Gradua¸ ao em Engenharia El´ etrica - Universidade Federal de Minas Gerais Av. Antˆonio Carlos, n o 6627, 31270-901 Belo Horizonte, Minas Gerais, Brasil Instituto Federal de Minas Gerais - Campus Ouro Preto RuaPandi´aCal´ogeras,n o 898, Bauxita, 35400-000 Ouro Preto, Minas Gerais, Brasil. Emails: [email protected], [email protected], [email protected], [email protected] Abstract— In this paper, we propose a methodology to support Brazilian Sign Language (BSL) recognition based on facial expression. We selected 10 signs of BSL - to calm down, to accuse, to annihilate, to love, to gain weight, happiness, slim, lucky, surprise, and angry - whose facial expression changes along its execution. These signals compose an experimental database recorded for our purpose and each signal was recorded 10 times. In this methodology, we execute four steps: (i) detection and clipping of the face, which is the region of interest of this work; (ii) summarizing videos with face images to eliminate redundant information; (iii) creation of the feature vector from the texture descriptor application Local Binary Pattern in each of the significant frames; and (iv) classification of the signals by applying the Support Vector Machine. The automatic recognition system achieved an average accuracy of 94.67%, showing the potential of the proposed methodology for scenarios where facial expression is the tool of discrimination. Keywords— Libras, LBP, SVM, Pattern Recognition. Resumo— Nesse artigo uma metodologia foi proposta para extra¸ c˜aodecaracter´ ısticas e reconhecimento da express˜ao facial para auxiliar no reconhecimento de sinais de Libras. Foram selecionados 10 sinais de Libras - Acalmar, Acusar, Aniquilar, Apaixonado, Engordar, Felicidade, Magro, Sortudo, Surpresa e Zangado - cuja express˜ao facial se altera ao longo de sua execu¸c˜ ao. Tais sinais comp˜ oem uma base de dados experimental gravada para tal fim. Cada sinal foi gravado 10 vezes e passou por quatro etapas: (i) detec¸c˜ao e recorte da face, que ´ ea regi˜aodeinteressedessetrabalho; (ii) sumariza¸c˜ ao dos v´ ıdeos com as imagens do rosto para eliminar informa¸ c˜oes redundantes; (iii) cria¸c˜ao do vetor de caracter´ ısticas a partir da aplica¸c˜ao do descritor de textura Padr˜oes Locais Bin´arios em cada um dos quadros significativos; e (iv) classifica¸c˜ ao dos sinais aplicando a M´aquina de Vetores de Suporte. O sistema de reconhecimento autom´ atico alcan¸cou uma acur´acia m´ edia de 94,67%, mostrando a potencialidade da metodologia proposta para cen´ arios em que a express˜ao facial´ eaferramentadediscrimina¸c˜ao. Palavras-chave— Libras, LBP, SVM, Reconhecimento de Padr˜os. 1 Introdu¸c˜ ao A L´ ıngua Brasileira de Sinais (do inglˆ es, Brazilian Sign Language ), conhecida por Libras, ´ e definida como um sistema lingu´ ıstico de natureza visual- motora, com estrutura gramatical pr´ opria pela Lei n o 10.436 de 24 de abril de 2002. A oficializa¸c˜ ao da Libras como a segunda l´ ıngua brasileira foi um grande avan¸co social, tendo em vista que cerca de 9,7 milh˜ oes de pessoas possuem alguma defi- ciˆ encia auditiva, de acordo com o censo 2010 do IBGE - Instituto Brasileiro de Geografia e Esta- ıstica (Almeida et al., 2014). Desde ent˜ ao, est˜ ao em vigˆ encia leis que obrigam o ensino de Libras em cursos de licenciatura, al´ em do usu´ ario da l´ ıngua ter direito a um int´ erprete/tradutor em ambientes e eventos p´ ublicos (Rezende, 2016). A menor unidade da Libras ´ e o sinal e para de- terminar seu significado, torna-se importante a lo- caliza¸ ao das m˜ aos em rela¸c˜ ao ao corpo, a postura corporal, a orienta¸c˜ ao da palma da m˜ ao, as ex- press˜ oes n˜ ao-manuais, entre outros. Dessa forma, nesse trabalho propˆ os-se estudar a importˆ ancia da express˜ ao facial (express˜ ao n˜ ao-manual) na discri- mina¸c˜ ao de sinais da l´ ıngua. A express˜ ao facial ´ e uma forma de comunica¸ ao n˜ ao verbal resultante de determinadas configura¸ oes ou contra¸ oes dos usculos faciais que provocam modifica¸c˜ oes e de- forma¸c˜ oes na face (Fasel e Luettin, 2003). Trabalhos na linha de reconhecimento de si- nais de Libras est˜ ao cada vez mais presentes na literatura, no entanto, poucos exploram a contri- bui¸c˜ ao da face para a classifica¸c˜ ao de um sinal. O trabalho mais recente encontrado foi o de Freitas et al. (2014) que classificaram express˜ oes faciais gramaticais na l´ ıngua de sinais. Eles criaram sua pr´ opria base de dados, capturando as express˜ oes com Kinect e utilizaram em seu sistema as coor- denadas (x,y,z) de 17 pontos da face. O foco deste trabalho foi reconhecer a estrutura gramatical da frase, ou seja, se a frase era uma pergunta ou uma nega¸c˜ ao, entre outros. Geralmente, os estudos en- volvendo a classifica¸c˜ ao autom´ atica de Libras s˜ ao, em sua maioria, referentes a trajet´ oria das m˜ aos e XIII Simp´osio Brasileiro de Automa¸ ao Inteligente Porto Alegre – RS, 1 o – 4 de Outubro de 2017 ISSN 2175 8905 465

Upload: vophuc

Post on 07-Feb-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ANALISE DA EXPRESS AO FACIAL EM RECONHECIMENTO DE SINAIS DE~ · ANALISE DA EXPRESS AO FACIAL EM RECONHECIMENTO DE SINAIS DE~ LIBRAS Tamires Martins Rezende , Cristiano Leite de Castro

ANALISE DA EXPRESSAO FACIAL EM RECONHECIMENTO DE SINAIS DELIBRAS

Tamires Martins Rezende∗, Cristiano Leite de Castro∗, Sılvia Grasiella MoreiraAlmeida†, Frederico Gadelha Guimaraes∗

∗Programa de Pos-Graduacao em Engenharia Eletrica - Universidade Federal de Minas GeraisAv. Antonio Carlos, no 6627, 31270-901

Belo Horizonte, Minas Gerais, Brasil

†Instituto Federal de Minas Gerais - Campus Ouro PretoRua Pandia Calogeras, no 898, Bauxita, 35400-000

Ouro Preto, Minas Gerais, Brasil.

Emails: [email protected], [email protected], [email protected],

[email protected]

Abstract— In this paper, we propose a methodology to support Brazilian Sign Language (BSL) recognitionbased on facial expression. We selected 10 signs of BSL - to calm down, to accuse, to annihilate, to love, to gainweight, happiness, slim, lucky, surprise, and angry - whose facial expression changes along its execution. Thesesignals compose an experimental database recorded for our purpose and each signal was recorded 10 times. Inthis methodology, we execute four steps: (i) detection and clipping of the face, which is the region of interestof this work; (ii) summarizing videos with face images to eliminate redundant information; (iii) creation of thefeature vector from the texture descriptor application Local Binary Pattern in each of the significant frames;and (iv) classification of the signals by applying the Support Vector Machine. The automatic recognition systemachieved an average accuracy of 94.67%, showing the potential of the proposed methodology for scenarios wherefacial expression is the tool of discrimination.

Keywords— Libras, LBP, SVM, Pattern Recognition.

Resumo— Nesse artigo uma metodologia foi proposta para extracao de caracterısticas e reconhecimento daexpressao facial para auxiliar no reconhecimento de sinais de Libras. Foram selecionados 10 sinais de Libras- Acalmar, Acusar, Aniquilar, Apaixonado, Engordar, Felicidade, Magro, Sortudo, Surpresa e Zangado - cujaexpressao facial se altera ao longo de sua execucao. Tais sinais compoem uma base de dados experimental gravadapara tal fim. Cada sinal foi gravado 10 vezes e passou por quatro etapas: (i) deteccao e recorte da face, que e aregiao de interesse desse trabalho; (ii) sumarizacao dos vıdeos com as imagens do rosto para eliminar informacoesredundantes; (iii) criacao do vetor de caracterısticas a partir da aplicacao do descritor de textura Padroes LocaisBinarios em cada um dos quadros significativos; e (iv) classificacao dos sinais aplicando a Maquina de Vetoresde Suporte. O sistema de reconhecimento automatico alcancou uma acuracia media de 94,67%, mostrando apotencialidade da metodologia proposta para cenarios em que a expressao facial e a ferramenta de discriminacao.

Palavras-chave— Libras, LBP, SVM, Reconhecimento de Padros.

1 Introducao

A Lıngua Brasileira de Sinais (do ingles, BrazilianSign Language), conhecida por Libras, e definidacomo um sistema linguıstico de natureza visual-motora, com estrutura gramatical propria pela Leino 10.436 de 24 de abril de 2002. A oficializacaoda Libras como a segunda lıngua brasileira foi umgrande avanco social, tendo em vista que cercade 9,7 milhoes de pessoas possuem alguma defi-ciencia auditiva, de acordo com o censo 2010 doIBGE - Instituto Brasileiro de Geografia e Esta-tıstica (Almeida et al., 2014). Desde entao, estaoem vigencia leis que obrigam o ensino de Libras emcursos de licenciatura, alem do usuario da lınguater direito a um interprete/tradutor em ambientese eventos publicos (Rezende, 2016).

A menor unidade da Libras e o sinal e para de-terminar seu significado, torna-se importante a lo-calizacao das maos em relacao ao corpo, a posturacorporal, a orientacao da palma da mao, as ex-pressoes nao-manuais, entre outros. Dessa forma,

nesse trabalho propos-se estudar a importancia daexpressao facial (expressao nao-manual) na discri-minacao de sinais da lıngua. A expressao facial euma forma de comunicacao nao verbal resultantede determinadas configuracoes ou contracoes dosmusculos faciais que provocam modificacoes e de-formacoes na face (Fasel e Luettin, 2003).

Trabalhos na linha de reconhecimento de si-nais de Libras estao cada vez mais presentes naliteratura, no entanto, poucos exploram a contri-buicao da face para a classificacao de um sinal. Otrabalho mais recente encontrado foi o de Freitaset al. (2014) que classificaram expressoes faciaisgramaticais na lıngua de sinais. Eles criaram suapropria base de dados, capturando as expressoescom Kinect e utilizaram em seu sistema as coor-denadas (x,y,z) de 17 pontos da face. O foco destetrabalho foi reconhecer a estrutura gramatical dafrase, ou seja, se a frase era uma pergunta ou umanegacao, entre outros. Geralmente, os estudos en-volvendo a classificacao automatica de Libras sao,em sua maioria, referentes a trajetoria das maos e

XIII Simposio Brasileiro de Automacao Inteligente

Porto Alegre – RS, 1o – 4 de Outubro de 2017

ISSN 2175 8905 465

Page 2: ANALISE DA EXPRESS AO FACIAL EM RECONHECIMENTO DE SINAIS DE~ · ANALISE DA EXPRESS AO FACIAL EM RECONHECIMENTO DE SINAIS DE~ LIBRAS Tamires Martins Rezende , Cristiano Leite de Castro

o reconhecimento de gestos, como em Santos et al.(2015) e Koroishi e Silva (2015).

O reconhecimento automatico de Libras euma area de pesquisa em ascensao e ainda nao setem conhecimento de um sistema robusto para aclassificacao dos sinais a partir do ponto de vistada Visao Computacional (Rezende, 2016). Comisso, esse trabalho tem como base e busca com-plementar os estudo realizados por Almeida et al.(2014), que fez o reconhecimento dos sinais de Li-bras pelos parametros fonologicos relacionados atrajetoria das maos. Dessa forma, o ponto ini-cial desse estudo e a criacao de uma base de da-dos experimental que permitisse a validacao dametodologia de classificacao dos sinais. Esta me-todologia para o reconhecimento automatico con-sistiu na avaliacao da expressao facial de 10 sinais(Acalmar, Acusar, Aniquilar, Apaixonado, Engor-dar, Felicidade, Magro, Sortudo, Surpresa e Zan-gado) que compoem uma base gravada para talfim. Cada sinal foi capturado 10 vezes por umsensor RGB-D (Vermelho, Verde, Azul e Profun-didade, do ingles, Red, Green, Blue plus Depth- Kinect). Em seguida, foram realizadas as se-guintes etapas: (i) deteccao e recorte da regiao deinteresse (rosto), (ii) sumarizacao do vıdeo utili-zando o conceito da maximizacao da diversidade,(iii) criacao do vetor de caracterısticas e (iv) clas-sificacao do sinal com SVM (Maquinas de Vetoresde Suporte, do ingles, Support Vector Machine).

As principais contribuicoes desse artigo sao:(i) criacao de uma base de dados experimentalcom expressoes faciais; (ii) criacao de um extratorde caracterısticas representativo; e (iii) implemen-tacao de um sistema generalizado para a analiseda expressao facial.

O artigo esta estruturado da seguinte forma:a secao 2 apresenta a metodologia do trabalho. Nasecao 3 sao expostos os resultados encontrados, ea conclusao do trabalho encontra-se na secao 4.

2 Metodologia

A metodologia proposta baseia-se nas etapas basi-cas de um sistema de reconhecimento automaticode padroes, sejam elas: (i) aquisicao de dados,(ii) segmentacao da regiao de interesse, (iii) extra-cao de caracterısticas; e (iv) classificacao. Para avalidacao da metodologia descrita nesse artigo fo-ram utilizados os sinais gravados na base de vıdeosdisponıvel em Rezende (2016). De posse do con-junto de dados, fez-se a segmentacao da face, quee a regiao de interesse desse estudo. Em seguida,foi realizada a etapa de extracao de caracterısti-cas em duas fases: sumarizacao, que elimina asinformacoes redundantes dos vıdeos dos sinais, ecriacao do vetor de caracterısticas, que descrevede maneira apropriada cada gravacao. Por fim,cada amostra foi classificada utilizando a tecnicaSVM. Com isso, tem-se um modelo adequado a

estrutura de dados disponıvel e uma metodologiageneralizada para validacao de qualquer sistemade classificacao envolvendo a expressao facial.

2.1 Base de dados da Lıngua Brasileira de Sinais

A criacao de bases de dados contendo sinais deLibras e um passo presente em estudos que lidamcom a classificacao deste tipo de padrao como,por exemplo, em Freitas et al. (2014), Almeidaet al. (2014), Koroishi e Silva (2015), Kadir et al.(2004), Santos et al. (2015) e Chao et al. (2013).Cada um dos trabalhos citados criou o seu proprioconjunto de dados para aplicar a metodologia poreles proposta. Isto mostra que nao ha na literaturauma base de dados padronizada com sinais de Li-bras em um formato que permita sua classificacaocomputacional e justifica, tambem, a utilizacao dabase de vıdeos disponibilizada pela autora1.

Com a ajuda de um interprete da lıngua, 10sinais foram selecionados na criacao da base uti-lizada. Nesta base ha os sinais Acalmar, Acu-sar, Aniquilar, Apaixonado, Engordar, Felicidade,Magro, Sortudo, Surpreza e Zangado, cuja expres-sao facial se altera ao longo de sua execucao. Cadasinal foi capturado 10 vezes, em um ambiente con-trolado, construindo uma base de dados balance-ada e composta por 100 amostras. O conjunto dedados disponibilizado contem, dentre varias infor-macoes, o vıdeo de intensidade RGB dos quadrosque compoem os vıdeos dos sinais. Vale ressaltarque nao houve participacao de deficientes auditi-vos na criacao deste conjunto de dados e os sinaisforam executados pelo mesmo sinalizador2.

2.2 Deteccao da regiao de interesse

A segmentacao ou deteccao da regiao de interesseconsiste em isolar o objeto desejado em uma ima-gem. Esta etapa e parte integrante de varios tra-balhos na literatura, tais como: Koroishi e Silva(2015), Bastos (2015), Santos et al. (2015) e Al-meida et al. (2014).

Como o intuito desse trabalho e classificar ossinais de Libras por meio da mudanca na expres-sao facial, o rosto e a regiao de interesse. O recorteda face foi realizado tendo como referencia o pixelcentral do quadro, pois a distancia entre o sinali-zador e o sensor e fixa. Dessa forma, do quadrooriginal de tamanho 680×480 pixels foi recortadoa face, resultando em um quadro de 141×161 pi-xels. Este valor permitiu que a face segmentadafosse visıvel, como apresentado na figura 1.

1http://arquivos.ouropreto.ifmg.edu.br/~vca/

SinaisLibras-Tamires/2Quem executa o sinal.

XIII Simposio Brasileiro de Automacao Inteligente

Porto Alegre – RS, 1o – 4 de Outubro de 2017

466

Page 3: ANALISE DA EXPRESS AO FACIAL EM RECONHECIMENTO DE SINAIS DE~ · ANALISE DA EXPRESS AO FACIAL EM RECONHECIMENTO DE SINAIS DE~ LIBRAS Tamires Martins Rezende , Cristiano Leite de Castro

Figura 1: Recorte da regiao de interesse. Quadrodo sinal Surpresa.

Fonte: Rezende et al. (2016)

2.3 Sumarizacao

Os vıdeos de cada sinal sao compostos por qua-dros/imagens a uma taxa de 30fps3. Dependendoda velocidade de gravacao de cada amostra, o nu-mero de quadros que a compoem pode variar atemesmo entre gravacoes de um mesmo sinal. Comisso, foi aplicada uma ferramenta de sumarizacaopara eliminar os quadros com informacoes redun-dantes, tornando o processamento e a extracao decaracterısticas mais eficientes. Alem disso, comoeste processo uniformizara as gravacoes, os veto-res de caracterısticas terao o mesmo tamanho paratodas as amostras.

Dentre as varias tecnicas de sumarizacao en-contradas na literatura, optou-se por uma abor-dagem do problema classico de otimizacao co-nhecido como Problema da Diversidade Maxima(PDM) (Kuo et al., 1993), utilizado para extrairos quadros mais relevantes em um vıdeo. O PDMe um problema que consiste em encontrar elemen-tos tais que a diversidade entre eles seja maximi-zada. Neste caso, calcula-se a diversidade entre oquadro m e o quadro n do vıdeo de cada grava-cao baseado na distancia temporal e na diferencade cores RGB entre eles. Para resolver este pro-blema de otimizacao, utilizou-se o algoritmo de-senvolvido em Almeida et al. (2015) que imple-mentaram uma solucao empregando a estrategiaevolutiva denominada MSES (Estrategia Evolu-tiva Memetica Auto-Adaptativa, do ingles, Me-metic Self-Adaptive Evolution Strategies).

Optou-se por selecionar 5 quadros para repre-sentar cada gravacao de cada sinal. Verificou-se,atraves de testes visuais e pelos experimentos rea-lizados em Almeida et al. (2014) e Rezende (2016)que 5 quadros eram suficientes para representar ossinais gravados, alem de ser um bom limiar entrea representacao e o tamanho do vetor de caracte-rısticas. A figura 2 apresenta os quadros significa-tivos de uma gravacao.

2.4 Vetor de Caracterısticas

O intuito dessa etapa e obter uma representacaorobusta de cada sinal. Varios trabalhos realizam

3Quadros por segundo.

Figura 2: 5 quadros mais significativos da 4a gra-vacao do sinal Felicidade.

Fonte: Rezende (2016)

a extracao de caracterısticas e ela e parte essencialem classificacao de padroes. Assim, o objetivo eextrair caracterısticas que representem as infor-macoes as quais deseja-se classificar, tais comoem, Almeida et al. (2014), Bastos (2015) e San-tos et al. (2015).

Dentre os varios extratores de imagens pre-sentes na literatura, optou-se pelo descritor detextura LBP (Padroes Locais Binarios, do ingles,Local Binary Pattern) (Ojala et al., 1996) porobter uma representacao eficiente para imagensda face (Ahonen et al., 2004), por ser robusto eestavel quando aplicado a imagens de baixa re-solucao (Shan et al., 2005), alem de ser invari-ante a rotacao (Ojala et al., 2002) e a transfor-macoes monotonicas da escala de cinza (Musciet al., 2011). O LBP e aplicado a cada pixel re-lacionado a um conjunto de vizinhos igualmenteespacados e equidistantes do pixel de referencia(Musci et al., 2011). Dentre as varias configu-racoes do LBP, optou-se por utilizar o LBPu2

12,2:LBP com padroes uniformes (u2 ), vizinhanca de12 pixels e raio 2, pois de acordo com Rezende(2016) esta configuracao foi a que gerou a melhorrepresentacao para as imagens da face. Este ope-rador foi aplicado nas imagens originais recorta-das, como exemplifica a figura 3, buscando eli-minar ainda mais as informacoes que nao faziamparte da expressao facial. Vale ressaltar que estaconfiguracao gerou um vetor de caracterısticas de675 posicoes:

V etor =[D1 D2 D3 D4 D5

]1x675

sendo D1 o descritor do primeiro quadro signifi-cativo, D2 o descritor do segundo quadro signifi-cativo, ate D5 que e o descritor do quinto quadrosignificativo.

Para recortar as imagens, utilizou-se o algo-ritmo de Viola-Jones (Viola e Jones, 2004) quetenta encontrar na imagem caracterısticas que co-dificam a face (Diniz et al., 2016). Dos 500 qua-dros pertencentes ao conjunto de dados (10 sinais× 10 gravacoes × 5 quadros), o algoritmo teve di-ficuldade em detectar a face em 3 (quadro 3 da9a gravacao do sinal Aniquilar; quadro 3 da 9a

gravacao do sinal Magro; e quadro 1 da 1a gra-vacao do sinal Surpresa), pois nestes o sinalizadornao estava com o rosto diretamente voltado parao vıdeo. Dessa forma, para cada quadro que oViola-Jones nao encontrou a face, o seu operadorLBP foi calculado como a media dos LBP’s dos

XIII Simposio Brasileiro de Automacao Inteligente

Porto Alegre – RS, 1o – 4 de Outubro de 2017

467

Page 4: ANALISE DA EXPRESS AO FACIAL EM RECONHECIMENTO DE SINAIS DE~ · ANALISE DA EXPRESS AO FACIAL EM RECONHECIMENTO DE SINAIS DE~ LIBRAS Tamires Martins Rezende , Cristiano Leite de Castro

Figura 3: 5o quadro da 1a gravacao do sinal Feli-cidade. Imagem reduzida de 141x161 pixels para100x100 pixels.

Fonte: Rezende (2016)

demais quadros da sua gravacao, como ilustra afigura 4.

Figura 4: LBP medio.Fonte: Rezende (2016)

2.5 Classificacao

A classificacao dos sinais e a etapa final desse tra-balho. Como entrada desta etapa, tem-se os veto-res de caracterısticas dispostos da seguinte forma:

X100×675 =

V etorAcalmar/Gravacao1

:V etorAcalmar/Gravacao10

::

V etorZangado/Gravacao1

:V etorZangado/Gravacao10

Y d100×1 =

[1 ... 1 ... ... 10 ... 10

]′sendo X100×675 a matriz de entrada do classifica-dor; e Y d100×1 o vetor de saıdas desejadas.

O classificador utilizado nesse estudo foi oSVM apresentado por Cortes e Vapnik (1995).Este metodo e muito utilizado em problemas declassificacao e regressao. Ele aprende na etapa detreino e seleciona, dentre os dados de treinamento,pontos proximos a regiao de separacao das classes(vetores de suporte), os quais serao usados paraclassificacao do conjunto de teste. Os vetores desuporte combinados produzem um hiperplano que

otimiza a distancia entre as classes, sendo usadocomo fronteira de decisao.

O algoritmo de classificacao inicialmente ale-atoriza as 10 gravacoes de cada um dos sinais.80% dos dados aleatorizados foram separados paratreino e 20% para teste. Dessa forma, o grupo detreinamento possui 8 gravacoes de cada sinal to-talizando 80 amostras. Ja o grupo de teste possui2 gravacoes, totalizando 20 amostras. A divisao80%-20% foi empırica e teve como objetivo gerarum modelo com um conjunto de treinamento querepresentasse de fato toda a amostra e tivesse umaperformance satisfatoria com os dados de teste. Anecessidade de usar uma porcentagem maior paratreinamento se deve ao fato de que se tem umnumero pequeno de observacoes. Alem da alea-torizacao, realizou-se uma validacao cruzada paragarantir que todas as amostras fossem ora do con-junto de treinamento, ora do conjunto de teste.

Como esse problema e multiclasse e natural-mente o SVM resolve problemas de classificacaobinaria, utilizou-se o pacote e1071 do software Rque resolve problemas com SVM Multiclasse utili-zando a tecnica one-against-one (um-contra-um),gerando subclassificadores binarios e identificandoa classe correta por um mecanismo de votacao(Meyer, 2007). Alem disso, este pacote realiza abusca automatica via validacao cruzada dos para-metros de custo C e gama (γ), relativos a super-fıcie de separacao das classes. Hsu et al. (2016)aconselha que o parametro C varie de 2−5 a 215

e o γ de 2−15 a 23. Em relacao ao kernel, optou-se pelo RBF (Funcao de Base Radial, do ingles,Radial Basis Function), pois segundo Hsu et al.(2016) esta e a melhor escolha quando o numerode caracterısticas e muito maior que o numero deamostras.

Apos a validacao cruzada e escolha dos me-lhores parametros C e γ, um modelo foi obtido eeste foi usado para classificar os dados de teste.No algoritmo, o processo descrito foi realizado 30vezes, resultando em 30 valores de acuracia.

3 Resultados e Discussoes

A tabela 1 apresenta a matriz de confusao ob-tida apos a execucao do algoritmo de classificacao.Foram realizadas 30 iteracoes garantindo que to-das as amostras pertencessem ora ao conjunto detreino, ora ao de teste. A taxa de acerto mediado algoritmo foi 94,67% com um desvio-padraode 4,72. Esta media indica que das 600 amostrasclassificadas em toda execucao do algoritmo, 32foram rotuladas erroneamente.

Os sinais que tiveram o maior erro de clas-sificacao foram Aniquilar e Zangado. Isto podeser justificado pelo fato de suas expressoes faci-ais serem muito similares, pois sao expressoes deraiva. Houve um engano tambem entre os sinaisde Apaixonado, Felicidade e Surpresa, que pos-

XIII Simposio Brasileiro de Automacao Inteligente

Porto Alegre – RS, 1o – 4 de Outubro de 2017

468

Page 5: ANALISE DA EXPRESS AO FACIAL EM RECONHECIMENTO DE SINAIS DE~ · ANALISE DA EXPRESS AO FACIAL EM RECONHECIMENTO DE SINAIS DE~ LIBRAS Tamires Martins Rezende , Cristiano Leite de Castro

Tabela 1: Matriz de confusao. Sinais: Acalmar (Aca), Acusar (Acu), Aniquilar (Ani), Apaixonado (Apa),Engordar (Eng), Felicidade (Fel), Magro (Mag), Sortudo (Sor), Surpresa (Sur) e Zangado (Zan).

PredicaoAca Acu Ani Apa Eng Fel Mag Sor Sur Zan

Aca 1 0 0 0 0 0 0 0 0 0Acu 0 0.83 0.02 0 0 0 0 0 0 0.18Ani 0 0 0.98 0 0 0 0 0 0 0Apa 0 0 0 0.98 0 0 0 0 0 0Eng 0 0 0 0 1 0 0.1 0 0 0

Saıda Fel 0 0 0 0.02 0 0.95 0 0 0 0Real Mag 0 0 0 0 0 0 0.9 0 0 0

Sor 0 0 0 0 0 0 0 1 0 0Sur 0 0 0 0 0 0.05 0 0 1 0Zang 0 0.17 0 0 0 0 0 0 0 0.82

suem expressoes similares de alegria. Dentre es-tes sinais confundidos, vale ressaltar que os gestosmanuais sao bem diferentes e portanto esta infor-macao adicional ajudaria a discriminar estes sinaise eliminar a confusao.

O sinal Magro foi confundido com o sinal En-gordar por 6 vezes, sendo que estes tem expressoesdistintas. Este erro pode ser justificado pelo fatode que a gravacao que nao foi classificada corre-tamente teve um movimento global da face muitosimilar com as do sinal Engordar. Alem disso, istomostra uma deficiencia do extrator que e sensıvelao rosto do sinalizador e as caracterısticas da face.Vale ressaltar, tambem, que o LBP gera um histo-grama que computa a ocorrencia das texturas nasimagens e este ponto pode nao discriminar umaexpressao da outra se seus nıveis de tons de cinzaforem similares. A tabela 2 apresenta quais gra-vacoes foram classificadas erroneamente para cadasinal, quantas vezes elas erraram e qual rotulo queelas receberam.

Tabela 2: Numero de vezes que as gravacoes foramclassificadas erroneamente.

Gravacao(numero de vezes)

Classificadocomo

Acalmar - -Acusar 4 (3 vezes), 5 (6 vezes) e 10 (1 vez) ZangadoAniquilar 6 (1 vez) AcusarApaixonado 9 (1 vez) FelicidadeEngordar - -Felicidade 5 (2 vezes) e 9 (1 vez) SurpresaMagro 1 (6 vezes) EngordarSortudo - -Surpresa - -Zangado 4 (6 vezes) e 10 (5 vezes) Acusar

4 Conclusoes

Esse trabalho propos reconhecer alguns sinais deLibras por meio de um parametro fonologico dalıngua. Boas taxas de acerto foram alcancadas,mas quando se pensa em uma lıngua oficial quepossui mais de 10 mil sinais, a amostra utilizadapara selecao aqui e, de fato, muito pequena. Ape-sar disto, os resultados obtidos no estudo realizado

mostraram que o modelo proposto teve um desem-penho consideravel. Este e um problema muitocomplexo e com muitas variaveis a serem controla-das e uma metodologia foi idealizada inicialmentea partir de decisoes tomadas para auxiliar na clas-sificacao dos sinais.

A base de dados utilizada possui poucas amos-tras. Este e um ponto a ser melhorado no reconhe-cimento de Libras, pois e necessario um conjuntode dados robusto para corroborar com os resul-tados aqui encontrados e poder compara-lo comoutras metodologias. Alem disto, houve um errode classificacao entre sinais cuja expressao e dife-rente. Isto mostra que e necessario testar outrostipos de extratores que sejam mais especıficos paraextrair caracterısticas da expressao facial.

Esse e um estudo exploratorio sobre a analiseda face no reconhecimento dos sinais de Libras.Vale ressaltar a expressao facial e complementarao reconhecimento do sinal e para um sistema au-tomatico de reconhecimento e necessario conside-rar todos os parametros da lıngua tais como: omovimento das maos e do corpo.

Ha muito a se fazer para que um sistema dereconhecimento automatico de Libras atenda o seuprincipal publico: a comunidade surda. O pontocentral abordado nessa pesquisa foi estabeleceruma metodologia para que possa ser aplicada emsistemas de classificacao envolvendo expressoes fa-ciais.

Agradecimentos

Agradecemos ao Programa de Pos-Graduacao emEngenharia Eletrica da Universidade Federal deMinas Gerais e ao Instituto Federal de Minas Ge-rais - Campus Ouro Preto, pelo suporte ao tra-balho desenvolvido. O presente trabalho foi reali-zado com o apoio financeiro da CAPES - Brasil.

Referencias

Ahonen, T., Hadid, A. e Pietikainen, M. (2004).Face recognition with local binary patterns,

XIII Simposio Brasileiro de Automacao Inteligente

Porto Alegre – RS, 1o – 4 de Outubro de 2017

469

Page 6: ANALISE DA EXPRESS AO FACIAL EM RECONHECIMENTO DE SINAIS DE~ · ANALISE DA EXPRESS AO FACIAL EM RECONHECIMENTO DE SINAIS DE~ LIBRAS Tamires Martins Rezende , Cristiano Leite de Castro

European conference on computer vision -ECCV, Springer, pp. 469–481.

Almeida, S. G. M., Freitas, A. R. R. e Guimaraes,F. G. (2015). Um metodo para sumarizacaode vıdeos baseado no problema da diversi-dade maxima e em algoritmos evolucionarios,XII Simposio Brasileiro de Automacao Inte-ligente (SBAI), Natal, Rio Grande do Norte,Brasil, pp. 1298 – 1303.

Almeida, S. G. M., Guimaraes, F. G. e Ramırez,J. A. (2014). Feature extraction in braziliansign language recognition based on phonolo-gical structure and using rgb-d sensors, Ex-pert Systems with Applications 41(16): 7259–7271.

Bastos, I. L. O. (2015). Reconhecimento de si-nais da libras utilizando descritores de formae redes neurais artificiais, Master’s thesis,Pos-Graduacao em Ciencia da Computacaoda Universidade Federal da Bahia e Universi-dade Estadual de Feira de Santana, Salvador,Bahia, Brasil.

Chao, S., Tianzhu, Z., Bing-Kun, B.,X.Changsheng e Tao, M. (2013). Discrimi-native exemplar coding for sign languagerecognition with kinect, IEEE Transactionson Cybernetics 43(5): 1418–1428.

Cortes, C. e Vapnik, V. (1995). Support-vectornetworks, Machine learning 20(3): 273–297.

Diniz, F. A., Silva, T. R. e Alencar, F. E. S.(2016). Um estudo empırico de um sistemade reconhecimento facial utilizando o classifi-cador knn, Revista Brasileira de ComputacaoAplicada 8(1): 50 – 63.

Fasel, B. e Luettin, J. (2003). Automatic facialexpression analysis: a survey, Patter Recog-nition 36(1): 259 – 275.

Freitas, F. A., Peres, S. M., Lima, C. A. M. e Bar-bosa, F. V. (2014). Grammatical facial ex-pressions recognition with machine learning,Proceedings of the Twenty-Seventh Internati-onal Florida Artificial Intelligence ResearchSociety Conference, Palo Alto: The AAAIPress, pp. 180 – 185.

Hsu, C., Chang, C. e Lin, C. (2016). A practicalguide to support vector classification.

Kadir, T., Bowden, R., Ong, E. J. e Zisserman, A.(2004). Minimal training, large lexicon, un-constrained sign language recognition, Bri-tish Machine Vision Conference - BMVC,pp. 1–10.

Koroishi, G. O. e Silva, B. V. L. (2015). Reconhe-cimento de sinais da libras por visao compu-tacional, Revista Mecatrone 1(1): 1 – 9.

Kuo, C. C., Glover, F. e Dhir, K. S. (1993). Analy-zing and modeling the maximum diversityproblem by zero-one programing, DecisionSciences 24(6): 1171–1185.

Meyer, D. (2007). Support vector machines - theinterface to libsvm in package e1071.

Musci, M., Feitosa, R. Q., Velloso, M. L. F. e No-vack, T. (2011). Padroes binarios locais naclassificacao de imagens de sensoriamento re-moto, Anais XV Simposio Brasileiro de Sen-soriamento Remoto - SBSR, Curitiba, Pa-rana, Brasil, pp. 7651 – 7658.

Ojala, T., Pietikinen, M. e Harwood, D. (1996). Acomparative study of texture measures withclassification based on featured distribution,Pattern Recognition 29(1): 51–59.

Ojala, T., Pietikinen, M. e Maenpaa, T. (2002).Multiresolution grayscale and rotation in-variant texture classification with local bi-nary patterns, IEEE Transitions on PatternAnalysis and Machine Intelligence 24(7): 971– 987.

Rezende, T. M. (2016). Aplicacao de tecnicasde inteligencia computacional para analise daexpressao facial em reconhecimento de sinaisde libras, Master’s thesis, Programa de Pos-Graduacao em Engenharia Eletrica da Uni-versidade Federal de Minas Gerais, Belo Ho-rizonte, Minas Gerais, Brasil.

Rezende, T. M., Castro, C. L. e Almeida, S. G. M.(2016). An approach for brazilian sign lan-guage (bsl) recognition based on facial ex-pression and k-nn classifier, Electronic Pro-ceedings of the 29th Conference on Graphics,Patterns and Images (SIBGRAPI 16), SaoJose dos Campos, SP, Brasil.

Santos, J. R., Costa, M. G. F. e Filho, C. F.F. C. (2015). Reconhecimento das configu-racoes de mao de libras baseado na analisede discriminante de fisher bidimensional, uti-lizando imagens de profundidade, Master’sthesis, Programa de Pos-Graduacao em En-genharia Eletrica da Universidade Federal doAmazonas, Manaus, Amazonas, Brasil.

Shan, C., Gong, S. e McOwan, P. (2005). Ro-bust facial expression recognition using lo-cal binary patterns, IEEE International Con-ference on Image Processing 2005, Vol. 2,IEEE, pp. 367–370.

Viola, P. e Jones, M. J. (2004). Robust real-timeface detection, International Journal of Com-puter Vision 2(57): 137–154.

XIII Simposio Brasileiro de Automacao Inteligente

Porto Alegre – RS, 1o – 4 de Outubro de 2017

470