capítulo 12 - omnipax.com.br · capítulo 12 construção de sistemas multi-classificadores para...

18
Capítulo 12 Construção de Sistemas Multi-Classificadores para Reconhecimento de Padrões Antonio Carlos Gay Thomé * e Marco César Goldbarg Resumo: Neste cap´ ıtulo faz-se uma avalia¸c˜ ao quanto ao emprego de sistemas multi-classificadores, mais especificamente, comitˆ e de agentes neurais, aplicados ` area do reconhecimento de padr˜ oes. No texto se apresenta e se faz uma an´ alise sobre as principais estrat´ egias usadas nas diferentes etapas da constru¸ ao de um comitˆ e. O desempenho de algumas destas estrat´ egias, especialmente o emprego da computa¸ c˜ao evolutiva (algoritmos gen´ eticos e transgen´ eticos) ´ e avaliado usando-se o problema do reconhecimento de caracteres como estudo de caso. Palavras-chave: Sistemas de multi-classificadores, Comitˆ e de agentes neurais, Constru¸ ao de comitˆ es homogˆ eneos, Algoritmos evolucion´ arios. Abstract: This chapter presents an assessment of the use of multi-classifiers, more specifically, neural agents committee, applied to the area of pattern recognition. The text presents and analyzes on key strategies used in the different stages of construction of a committee. The performance of some of these strategies, especially the use of evolutionary computation (genetic and transgenetic algorithms) is evaluated using the character recognition problem as a case study. Keywords: Multi-classifier Systems, Neural agents committee, Homogeneous committees construction, Evolutionary algorithms. Conteúdo 1 Introdu¸c˜ ao ................................................................................................................................ 146 2 Revis˜ ao Bibliogr´ afica - O Estado da Arte ................................................................................ 147 2.1 Gera¸c˜ ao dos agentes candidatos ....................................................................................... 148 2.2 Estrat´ egias para composi¸c˜ ao do comitˆ e ........................................................................... 150 2.3 Estrat´ egias para tomada de decis˜ ao ................................................................................. 152 3 Constru¸ ao de Comitˆ es - Metodologia ..................................................................................... 153 3.1 Parti¸c˜ ao dos dados para constru¸ ao do comitˆ e ................................................................ 153 3.2 Estrat´ egias para gera¸ ao e treinamento dos agentes ........................................................ 153 3.3 Estrat´ egias para sele¸ ao e composi¸ ao do comitˆ e ............................................................ 153 3.4 Estrat´ egias para o m´ odulo de decis˜ ao .............................................................................. 156 4 Experimentos – Objetivos e Resultados ................................................................................... 156 4.1 Descri¸ ao do estudo de caso ............................................................................................. 156 4.2 Segmenta¸c˜ ao e extra¸ ao de descritores ............................................................................ 156 4.3 A base de dados ............................................................................................................... 156 4.4 Gera¸c˜ ao e treinamento dos agentes .................................................................................. 157 4.5 Sele¸c˜ ao e composi¸c˜ ao do comitˆ e ....................................................................................... 158 5 Conclus˜ oes ................................................................................................................................ 160 * Autor para contato: [email protected] Lobato et al. (Ed.), (2014) DOI: 10.7436/2014.tica.12 ISBN 978-85-64619-15-9

Upload: duongcong

Post on 06-Dec-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Capítulo 12

Construção de Sistemas Multi-Classificadorespara Reconhecimento de Padrões

Antonio Carlos Gay Thomé∗ e Marco César Goldbarg

Resumo: Neste capıtulo faz-se uma avaliacao quanto ao emprego de sistemas multi-classificadores, maisespecificamente, comite de agentes neurais, aplicados a area do reconhecimento de padroes. No texto seapresenta e se faz uma analise sobre as principais estrategias usadas nas diferentes etapas da construcaode um comite. O desempenho de algumas destas estrategias, especialmente o emprego da computacaoevolutiva (algoritmos geneticos e transgeneticos) e avaliado usando-se o problema do reconhecimento decaracteres como estudo de caso.

Palavras-chave: Sistemas de multi-classificadores, Comite de agentes neurais, Construcao de comiteshomogeneos, Algoritmos evolucionarios.

Abstract: This chapter presents an assessment of the use of multi-classifiers, more specifically, neuralagents committee, applied to the area of pattern recognition. The text presents and analyzes on key strategiesused in the different stages of construction of a committee. The performance of some of these strategies,especially the use of evolutionary computation (genetic and transgenetic algorithms) is evaluated using thecharacter recognition problem as a case study.

Keywords: Multi-classifier Systems, Neural agents committee, Homogeneous committees construction,Evolutionary algorithms.

Conteúdo

1 Introducao ................................................................................................................................1462 Revisao Bibliografica - O Estado da Arte ................................................................................147

2.1 Geracao dos agentes candidatos.......................................................................................1482.2 Estrategias para composicao do comite ...........................................................................1502.3 Estrategias para tomada de decisao.................................................................................152

3 Construcao de Comites - Metodologia .....................................................................................1533.1 Particao dos dados para construcao do comite ................................................................1533.2 Estrategias para geracao e treinamento dos agentes........................................................1533.3 Estrategias para selecao e composicao do comite ............................................................1533.4 Estrategias para o modulo de decisao ..............................................................................156

4 Experimentos – Objetivos e Resultados ...................................................................................1564.1 Descricao do estudo de caso.............................................................................................1564.2 Segmentacao e extracao de descritores ............................................................................1564.3 A base de dados ...............................................................................................................1564.4 Geracao e treinamento dos agentes..................................................................................1574.5 Selecao e composicao do comite.......................................................................................158

5 Conclusoes................................................................................................................................160

∗Autor para contato: [email protected]

Lobato et al. (Ed.), (2014) DOI: 10.7436/2014.tica.12 ISBN 978-85-64619-15-9

146 Thomé & Goldbarg et al.

1. Introdução

Leitores robustos sao aqueles capazes de efetuar a leitura automatica de textos contidos em imagenscom elevado grau de complexidade. O principal desafio na construcao destes leitores reside na faltade informacao com relacao ao que se deseja buscar. Via de regra e desconhecida a quantidade decaracteres contidos na imagem (ou mesmo se existem) e, adicionalmente, sao indisponıveis outrostipos de informacao que possam facilitar a busca como, por exemplo, a cor do fundo, a cor, otamanho, o estilo, a inclinacao e a posicao dos caracteres.

Imagem complexa e entendida como aquela capturada em ambiente natural nao controlado,podendo conter um numero elevado de objetos, sejam eles caracteres ou nao. A Figura 1 mostra doisexemplos de imagem complexa, a primeira e a foto de uma porta de vidro que reflete o cenario aofundo, e a segunda e a foto da traseira de um veıculo, onde surgem problemas como sombra, reflexoe inclinacao da placa e do texto.

Figura 1. Exemplos de Imagens Complexas para Leitores Robustos.

Neste capıtulo e feita uma avaliacao sobre o emprego de Agentes Neurais, reunidos em Comites,e aplicados ao problema do leitor robusto, aqui representado pela leitura dos caracteres da placa deveıculos automotores com imagens tomadas em tempo real e com o veıculo em movimento.

Comite e um paradigma de aprendizado no qual uma colecao finita de alternativas para asolucao de um dado problema e avaliada em conjunto com vistas a formular uma unica solucaopara o problema. A ideia da formacao de comites de “indivıduos” (ou agentes) que tenham umbom conhecimento sobre um determinado problema e ao mesmo tempo tenham “opinioes” em certograu distintas dos demais, foi inicialmente proposta por Hansen & Salomon (1990) nos chamadosensembles (que e a terminologia inglesa para o termo comite).

A formacao do Comite, quanto a definicao do seu tamanho e selecao dos agentes mais adequadospara compo-lo, e um problema de otimizacao onde o espaco de busca cresce exponencialmente como numero de agentes candidatos conforme a Equacao 1, onde N e o numero de Agentes Candidatos.

EB =N∑i=1

ciN = 2N − 2 (1)

Metaheurısticas, ou heurısticas modernas, fazem parte das ferramentas computacionais maiseficientes para a solucao de problemas de otimizacao, inclusive aqueles de elevada complexidade,como os problemas pertencentes as classes NP-Completos, NP-Difıceis, PSPACE, etc. Atraves deescolhas aleatorias, do uso de heurısticas e tambem de conhecimento historico sobre resultadosanteriores, estas tecnicas tentam guiar suas buscas de forma a encontrar a solucao otima ou quaseotima, com menor esforco e tempo de processamento computacional.

Dentre as estrategias de metaheurıstica, a Computacao Evolucionaria e uma das mais importantese tradicionais. Os Algoritmos Geneticos, uma das principais ferramentas da computacaoevolucionaria, contam com dezenas de milhares de trabalhos publicados. Outras abordagensemergentes como Colonia de Formigas; Busca em Vizinhanca Variavel; Nuvens de Partıculas; GRASPe Busca Tabu, igualmente contabilizam notavel sucesso na aproximacao ou mesmo na solucao deproblemas de otimizacao de alta complexidade.

A Transgenetica Computacional e uma das estrategias de metaheurıstica mais recentementepropostas na literatura (Goldbarg & Gouvea, 2000). Trata-se de uma metafora evolucionariabaseada na evolucao endossimbiotica intracelular mutualista. A endossimbiose significa uma relacaosimbiotica em que uma especie, dita hospedeira, abriga no interior de seu corpo ou de suas celulasuma segunda especie dita endossimbionte.

Construção de sistemas multi-classificadores para reconhecimento de padrões 147

2. Revisão Bibliográfica - O Estado da Arte

O reconhecimento de caracteres e uma das varias aplicacoes em reconhecimento de padroes. Duasterminologias sao comumente empregadas para classificar os sistemas capazes de efetuar a leituraautomatica de caracteres e de textos escritos a maquina ou manuscritos, em letra de forma ou cursivo.O termo mais antigo e OCR, um acronimo para Optical Character Recognition, o segundo e ICR,um acronimo para Intelligent Character Recognition.

ICR e um termo mais recente, que surgiu com a finalidade de distinguir o OCR quando voltadopara a leitura de caracteres manuscritos, que apresenta desafios muito maiores e mais complexos doque os encontrados na leitura de caracteres impressos.

As pesquisas atuais tem colocado foco na leitura de caracteres e textos, geralmente no formatoimpresso, porem estampado em imagens reais e complexas. Nestes casos existem novas dificuldadestais como reflexos, sombra, inclinacao do texto, diferentes fontes, tamanhos, cores e espacamentos,alem da presenca de muitos outros objetos na cena da imagem que nao sao caracteres. Esta novafrente de pesquisa tem sido caracterizada como Leitores Robustos (Chen et al., 2001; Fabrizio et al.,2009; S. A. R. Jafri, 2008; Jung et al., 2004; Lebourgeis, 1997; Sosa et al., 2003; Lucas, 2005; Lucaset al., 2005).

Basicamente um Leitor Robusto divide o processo de leitura em tres etapas principais: a)aquisicao da imagem (estımulo visual); b) tratamento da imagem e segmentacao dos objetosexistentes (percepcao dos objetos que compoem o cenario da imagem) e; c) reconhecimento ouleitura dos caracteres (identificacao e interpretacao do texto).

Aquisicao e a etapa responsavel por capturar a percepcao visual do ambiente e transforma-laem dados de forma a serem armazenados e interpretados em um computador. Isso pode ser feitoatraves de fotografia ou de vıdeo. A segmentacao dos caracteres e uma das principais etapas egeralmente a mais complexa, pois e a que trata da localizacao e extracao dos objetos de interesse.O seu desempenho afeta fortemente todas as etapas posteriores. E nessa etapa que o Leitor extraida imagem os descritores para representar os objetos segmentados.

A terceira grande etapa de um Leitor e o reconhecimento, responsavel por identificar e darsignificado aos vetores de descritores recebidos da etapa de segmentacao. Tecnicas de aprendizadode maquina e de casamento de padroes sao utilizadas para modelar e construir a maquina dereconhecimento. Nessa etapa espera-se que o caractere chegue da forma mais uniforme possıvel,para que seu tamanho, localizacao e inclinacao nao atrapalhem o processo de reconhecimento.

Sistemas de Multiplos Classificadores - SMCs, do tipo comite, tem sido amplamente utilizadospara resolver os mais variados problemas uma vez que, em geral, apresentam melhor desempenhoque o apresentado pelos classificadores usados como base para formar estes sistemas. Para queisto ocorra, porem, e necessario que os classificadores usados como base sejam tao precisos quantodiversos entre si, conhecido como o dilema da diversidade × acuracia.

Segundo Kittler et al. (1997, 1998); Xu et al. (1992), evidencias teoricas e experimentais indicamque os SMCs sao potencialmente mais precisos que classificadores individuais. Isto se verificaespecialmente quando os classificadores que compoem o sistema sao complementares, no sentidode que seus erros ocorrem em regioes distintas do espaco de atributos (Opitz, 1999).

Sistemas de classificadores que fazem uso de Multiplas Redes Neurais - MRN (Breiman, 1999; Cho& Kim, 1995; Silva, 2006; Ueda, 2000; Opitz & Maclin, 1999; Liu et al., 2003; Drucker, 1999) buscamaumentar o desempenho da classificacao, ou pelo menos reduzir a variancia inerente ao processo detreinamento, combinando redes neurais que sejam potencialmente complementares.

A construcao de um SMC consiste basicamente de um processo composto por tres etapas:

• Etapa 1 – Treinamento e Geracao dos Agentes: Consiste na geracao e treinamento dosagentes que serao os candidatos a compor o sistema. Nesta etapa deve-se buscar um ponto deequilıbrio entre a acuracia de cada agente e a diversidade dele com os demais. Este equilıbrioe fundamental para que se consiga montar um SMC capaz de suprir as falhas de cada agenteindividualmente.

• Etapa 2 – Selecao dos Agentes e Composicao do Comite Ideal: A formacao do SMCe uma etapa importante e algumas questoes ainda carecem de respostas conclusivas, como porexemplo:a) Qual o tamanho ideal do SMC?b) Qual o nıvel de acuracia individual e o grau de diversidade do conjunto para que aumenteas chances de se formar bons sistemas?c) Como encontrar a melhor composicao?d) Como estimar a capacidade de generalizacao das melhores composicoes?

148 Thomé & Goldbarg et al.

• Etapa 3 – Construcao do Modulo de Tomada de Decisao: Consiste na forma de integrara saıda de cada agente componente do sistema e gerar a saıda que melhor aproxime o comitedo seu potencial teorico (ou Oraculo).

2.1 Geração dos agentes candidatos

Apesar da intensa investigacao realizada nestas ultimas decadas, ainda nao ha um consenso dacomunidade cientıfica sobre metricas nem metodos para se gerar um bom grupo de agentes candidatosque, uma vez reunidos, possam prover sensıveis ganhos de desempenho e generalizacao na solucaodo problema em questao.

2.1.1 O dilema da acurácia × diversidadeKuncheva & Whitaker (2001) mencionam que o problema da dependencia e da independencia entreas respostas providas por diferentes agentes tem levado a inumeros debates e ao surgimento dealguns conceitos como diversidade, complementaridade e ortogonalidade, entre outros. Diz tambemnao haver ainda um consenso sobre o real significado destes novos conceitos dentro de uma percepcaointuitiva. Em outro artigo Kuncheva & Whitaker (2003) alegam que embora o conceito de diversidadeseja importante, sua medicao nao e simples, nao ha consenso e tambem ainda nao se conseguiuconstatar sua real relevancia e correlacao com o desempenho final do comite.

Tang et al. (2006) voltam a falar sobre a falta de consenso sobre as formas de medir diversidadee tambem sobre sua real relevancia na formacao de bons comites. Eles concluem, com base emexperimentos realizados, que os resultados foram confusos e que as metricas avaliadas pareceramineficazes e introduzem um novo conceito que denominam de margem.

Um dos artigos mais recentes abordando o dilema acuracia x diversidade, e escrito por Brown &Kuncheva (2010) onde eles investigam o assunto e sugerem que nem toda diversidade e favoravel aoganho de desempenho. Segundo eles ha diversidades boas e ruins.

O conceito de diversidade entre dois agentes e simples e intuitivo. Representa o grau de naosimilaridade dos erros cometidos pelos mesmos e sua medida deve se aproximar de zero quanto maissimilar forem os erros. Intuitivamente a diversidade esta diretamente relacionada com a melhoriade desempenho do grupo uma vez que eles errem sobre amostras distintas. A dificuldade reside naforma de medir a diversidade nao entre pares de agentes, mas do conjunto como um todo, e avaliarsua relevancia frente a acuracia destes mesmos agentes.

2.1.2 Métricas para medida de diversidadeExiste hoje na literatura um vasto conjunto de metricas propostas para medir a diversidade tantopar-a-par como de grupos de agentes. A seguir sao apresentadas algumas destas metricas.

a) Q-Statistic (Kuncheva & Whitaker, 2003)

Qij =N11N00 −N01N10

N11N00 +N01N10(2)

QL =2

L(L− 1)

L−1∑i=1

L∑j=i+1

Qij (3)

onde Qij representa a diversidade entre os agentes i e j e QL a diversidade media de um conjuntode L classificadores. N11 e o total de amostras corretamente classificadas pelos dois agentes, N00,o total em que ambos erraram, N01 e N10, respectivamente, o numero de amostras que um errou eoutro acertou. O valor de Q varia entre [-1, +1]. Q e positivo quando os agentes tendem a errar asmesmas amostras e negativo quando sao mais diversos.

b) Disagreement (Kuncheva & Whitaker, 2003)

Dij =N10 +N01

N11 +N10 +N01 +N10(4)

O valor de Dij varia entre [0, 1], zero quando nao ha discordancia e um quando esta discordanciae maxima.

c) Descorrelacao (Lima, 2004)

dsij = 1 −∣∣∣ σijσiσj

∣∣∣ (5)

Construção de sistemas multi-classificadores para reconhecimento de padrões 149

onde:

σi =

√√√√ 1

N − 1

N∑k=1

(fi(xk) − fi)2 (6)

σij =1

N − 1

N∑k=1

(fi(xk) − fi)(fj(xk) − fj) (7)

O numero de amostras e dado por N , fi(xk) e a resposta do agente i para a amostra k e fie a media das respostas produzidas pelo agente i. A medida de descorrelacao dsij excursiona nointervalo [0,1]. A diversidade aumenta na medida em que dsij aumenta.

2.1.3 Conceito e métricas para o cálculo da margemSchapire e Freund em 1998 introduzem o conceito de margem com o proposito de explicar o sucessoda estrategia introduzida pelo algoritmo Boosting (Schapire et al., 1998), principalmente em relacaoa estrategia Bagging. Tang e outros tambem exploram o conceito de margem no artigo escrito em2006 (Tang et al., 2006).

Segundo Schapire (Schapire et al., 1998), o erro do comite sobre o conjunto de treino nao esuficiente para prever o desempenho sobre o conjunto de testes. Com o objetivo de considerar o graude confianca do comite eles criaram o conceito de margem como sendo a diferenca entre os votoscorretos e os votos errados para uma determinada amostra (considerando a tomada de decisao porvoto majoritario).

mi =1

L(

∑j∈C/yj=Ti

1 −∑

j∈C/yj 6=Ti

1) (8)

onde Ti e a resposta esperada para a amostra xi e yj e a saıda do j-esimo agente do comite compostopor L agentes.

Caso os votos sejam ponderados por pesos wi, a margem e calculada pela Equacao 9.

mi =1

L

∑j∈C/yj=Ti

wj −maxj∈C/yj 6=Ti(wj) (9)

O valor de mi varia entre [-1, +1] e a saıda do comite e considerada correta somente se este formaior do que zero.

2.1.4 Geração de agentes acurados e diversos entre siGerar agentes que apresentem um bom desempenho individual e que formem um conjunto diversoe, sem duvida, o principal objetivo. Existem diversas estrategias sugeridas na literatura, porem asmais antigas e mais conhecidas sao Bagging e Boosting.

Bagging (Bootstrap aggregating) foi proposto por Breiman (1996), baseado na amostragem porbootstrap proposta por Efron & Tibshirani (1993). Nesta abordagem sao gerados varios conjuntos detreino usando amostragem uniforme, com reposicao, do conjunto original de dados. Cada conjuntogerado e usado para treinar um unico agente. E esperado que as diferencas dos conjuntos de treinoproduzam diversidade entre os agentes.

Boosting foi proposto por Schapire et al. (1990) e aperfeicoado por Freund (1995); Freund& Schapire (1995, 1996). Nesta abordagem, os diferentes conjuntos de treino sao gerados poramostragem uniforme sem reposicao. A probabilidade de escolha de uma amostra depende dasua contribuicao para o erro dos agentes ja treinados, isto e, caso uma amostra nao tenha sidocorretamente classificada por eles, sua probabilidade de escolha aumenta em relacao as demais.

Segundo Drucker et al. (1994) varios estudos sustentam a eficacia deste algoritmo, porem, em1996, Freund & Schapire (1996) propoem uma das atualmente mais utilizadas versoes do algoritmoboosting, que denominaram Adaboost (Adaptive Boosting), em que os conjuntos de treino saoamostrados de forma adaptativa, de tal modo que as amostras que mais contribuem para o errodos agentes ja treinados tem maior probabilidade de compor o conjunto montado para o proximoagente a ser treinado.

Canuto et al. (2011, 2012) investiram numa outra direcao a fim de criar agentes com bom nıvelde acuracia e tambem de diversidade. A estrategia consiste em identificar e selecionar subconjuntos

150 Thomé & Goldbarg et al.

do espaco de caracterısticas que proporcionem o treinamento de agentes com maior capacidade derotular diferentes classes. Desta forma, em tese, cada agente e treinado com um conjunto distinto decaracterısticas e se torna mais especializado em rotular um subconjunto das classes que compoem oproblema.

2.2 Estratégias para composição do comitê

Com os agentes candidatos ja treinados, a etapa seguinte e escolher os que agregam mais sinergiapara formar um grupo que apresente melhor desempenho que o melhor dos agentes individualmente.Segundo Zhou et al. (2002) a simples inclusao de todos os candidatos no comite geralmente nao euma boa opcao.

2.2.1 Construtiva sem exploraçãoInicialmente todos os agentes candidatos sao ordenados com base no desempenho individual sobre umnovo conjunto de dados nao utilizado para o treinamento. Uma vez ordenados, o melhor candidato eselecionado para compor o comite e, a partir do segundo, o criterio de insercao restringe a aceitacaose o agente contribuir para a melhoria de desempenho do comite. O metodo segue ate o ultimocandidato e ao final tera testado L− 1 possıveis insercoes.

2.2.2 Construtiva com exploraçãoSelecionado o candidato com melhor desempenho, todos, a partir do segundo sao testados 1 a 1 eaquele que apresentar o melhor resultado e selecionado. Este e inserido no comite e a busca reiniciana tentativa de incluir um terceiro candidato e segue assim ate o ultimo candidato ou encerra quandonenhum dos candidatos restantes melhora o desempenho do comite.

2.2.3 Poda sem exploraçãoE semelhante a Construtiva sem Exploracao, porem no sentido inverso. Inicialmente todos oscandidatos fazem parte do comite e vai-se tentando excluı-los a partir do candidato de menordesempenho.

2.2.4 Poda com exploraçãoSegue a linha da Poda sem Exploracao, porem com o comportamento similar a Construtiva comExploracao. Na primeira rodada, de baixo para cima, retira-se o candidato que possibilita um maiorganho de desempenho ao comite. As rodadas se sucedem ate que o desempenho do comite reduza enao mais aumente.

2.2.5 Algoritmos genéticosPertencem a classe dos algoritmos evolutivos que usam tecnicas inspiradas em hereditariedade,mutacao, selecao natural e recombinacao. Sao simulados a partir de uma populacao contendorepresentacoes abstratas da solucao do problema (indivıduos) que e criada e submetida a um processoevolutivo em busca da solucao otima. A evolucao ocorre por meio de geracoes e a adaptacao dosdiferentes indivıduos e avaliada, a cada geracao, atraves de um criterio de merito pre-estabelecido(funcao de fitness). Os indivıduos selecionados para formar a nova populacao sao submetidos a umprocesso de recombinacao ou de mutacao. Este processo e cıclico ate que um criterio de parada sejasatisfeito e o indivıduo melhor adaptado da geracao final e escolhido como solucao do problema.

A funcao-objetivo (fitness) e o objeto de otimizacao e o processo de selecao e outra parte chavedo algoritmo. O algoritmo de selecao por “roleta” e o mais usado, onde os indivıduos sao ordenadosde acordo com sua adaptacao a funcao-objetivo e recebem probabilidades decrescentes de seremescolhidos. A escolha e feita aleatoriamente de acordo com essas probabilidades. Com a roleta epossıvel escolher como pais os indivıduos mais bem adaptados, sem deixar de lado a diversidade dosmenos adaptados.

A reproducao e tradicionalmente dividida em tres etapas: acasalamento, recombinacao e mutacao.O acasalamento e a escolha de dois indivıduos para se reproduzirem. A recombinacao (oucruzamento) imita o processo biologico da reproducao sexuada onde os descendentes recebem emseu codigo genetico parte do codigo genetico dos pais. A recombinacao garante que os melhoresindivıduos sejam capazes de trocar entre si as informacoes que os leva a ser mais apto a sobrevivere, assim, gerar descendentes ainda mais aptos. Por ultimo as mutacoes sao feitas com probabilidade

Construção de sistemas multi-classificadores para reconhecimento de padrões 151

mais baixa que os cruzamentos e tem como objetivo permitir uma maior diversidade genetica napopulacao, impedindo que a busca fique estagnada em um mınimo local.

2.2.6 Algoritmos transgenéticosSegundo Goldbarg & Goldbarg (2009), a Transgenetica e uma metafora evolucionaria que tomapor base a evolucao endossimbiotica mutualista. Endossimbiose e uma relacao ecologica, onde umorganismo (o endossimbionte) vive dentro do corpo ou das celulas de outro organismo (o hospedeiro).Quando a endossimbiose beneficia ambos os organismos ela e dita mutualista. Nesta forma deassociacao, cada organismo e um ser independente e possui DNA proprio.

A Evolucao Endossimbiotica Serial e basicamente uma teoria para a endossimbiose intracelularmutualista, onde o processo evolucionario apresenta um conjunto peculiar de caracterısticas sobreas quais se fundamenta a mimetizacao evolucionaria dos algoritmos transgeneticos (Goldbarg et al.,2009): a) Saltos evolucionarios podem ocorrer na evolucao natural com a formacao de organismoshıbridos, compostos pela reuniao de uma ou mais celulas independentes e possuidoras de materialgenetico proprio (Gould et al., 2008); b) A evolucao biologica, tal como conhecida, aproveita todasas informacoes geneticas que foram acumuladas em processos evolucionarios anteriores. A evolucaoe um processo de bricolagem criativa, nao de invencao (Jacob, 1977); c) A formacao de uma quimeraimplica na condicao de um organismo vivendo dentro de outro. O organismo maior ou externo edenominado de hospedeiro e o menor de endossimbionte. Assim, o hospedeiro tende a direcionar aevolucao do endossimbionte que habita seu citoplasma. O direcionamento implica em um processode reducao do genoma do endossimbionte a sua expressao mınima necessaria a manutencao desuas habilidades peculiares. Funcoes redundantes sao eliminadas e transferidas para o hospedeiro(Kuwaha et al., 2008). Esse processo de modulacao metabolica e tambem denominado de absorcaodos endossimbiontes (Wernegreen, 2005) e ; d) As trocas de informacoes geneticas entre hospedeiroe endossimbiontes utilizam os mecanismos naturais de transferencia lateral de genes, eventualmentecom algumas modificacoes peculiares e verificadas somente no caso da endossimbiose (W, 1999).

Os tres elementos fundamentais da metafora transgenetica computacional sao: 1) A evolucaoocorre atraves de transformacoes geneticas no interior de uma celula hospedeira que foi invadidaou fagocitou outras unidades vivas. Esta premissa postula que a evolucao transgenetica ocorreno interior de um pequeno ecossistema que recicla e transforma seu repositorio genetico. Nestetrabalho o Hospedeiro mimetiza o eucariota Paramecium Aurelia. Os endossimbiontes mimetizamos procariotas Kappa. A Figura 2 representa graficamente este processo de mimetizacao; 2)A evolucao da quimera, formada pelo hospedeiro e endossimbiontes, ocorre de forma guiada einfluenciada pelo DNA do hospedeiro. As solucoes do problema modelado sao representadas atravesdos endossimbiontes. A populacao inicial de endossimbiontes pode ser formada atraves de estrategiassemelhantes as empregadas para a formacao da populacao inicial dos algoritmos geneticos. Ohospedeiro, todavia, pode possuir informacoes obtidas a priori. A obtencao de informacoes a priorinao e condicao indispensavel para o funcionamento da metaheurıstica, todavia, contrariamente aoparadigma classico, representa o melhor alinhamento para a mimetizacao proposta. O hospedeirocoleciona as melhores informacoes obtidas ao longo da evolucao artificial, que representam oconhecimento adquirido a posteriori e; 3) O processo de troca de informacoes geneticas necessarioa evolucao e realizado exclusivamente atraves de mecanismos de transferencia horizontal de genes.A transgenetica preve o emprego de vetores (ou operadores) que mimetizam os processos naturaisde transferencia horizontal de genes. Os vetores da transgenetica mais usuais sao os plasmıdeos, ostransposons e os plasmıdeos recombinados. O processo evolucionario e realimentado na medida emque emergem novas e melhores solucoes na populacao de endossimbiontes.

O esquema transgenetico pressupoe a existencia de tres contextos: 1) Uma populacao decromossomos ou endossimbiontes (representando cada um uma solucao candidata do problema).2) Um hospedeiro que possui informacoes capazes de influenciar a evolucao da populacao decromossomos endossimbiontes. 3) Uma populacao de vetores transgeneticos que transportainformacao do hospedeiro para os cromossomos endossimbiontes, alterando seus codigos geneticose, por consequencia, promovendo as variacoes necessarias ao processo de busca. A populacao devetores e volatil, podendo ser criados, preservados ou destruıdos livremente ao longo do processoevolucionario. A populacao de vetores tambem nao necessita possuir tamanho constante, permitindo-se que diferentes tipos de vetores atuem em diferentes fases da evolucao. Os vetores tıpicos sao oplasmıdeo, o plasmıdeo recombinado, o vırus e o transposon.

As informacoes geneticas residentes e preservadas no hospedeiro podem ser do tipo a priori,obtidas a partir de algum conhecimento previo sobre o problema, e a posteriori, que emergemdurante o processo evolutivo.

152 Thomé & Goldbarg et al.

Figura 2. A mimetizacao da transgenetica computacional. Fonte: (Goldbarg & Goldbarg, 2009).

Segundo a simbologia adotada, todo vetor transgenetico consiste de uma 3-Upla dada por: λ =(I,Φλ,∆lambda), onde I e a informacao transportada, Φλ e o metodo atraves do qual o vetor λmanipula o cromossomo alvo e ∆lambda e o metodo utilizado pelo vetor λ para obter a informacaoI. Importante ressaltar que um vetor nao realiza uma manipulacao em qualquer cromossomo semantes avaliar a viabilidade da acao. Esta sondagem preliminar e denominada ataque.

Os transposons sao exclusivamente dedicados a adaptacao individual do codigo genetico dosendossimbiontes. Os plasmıdeos e os vırus sao plataformas exclusivamente dedicadas a troca deinformacoes entre hospedeiro e os endossimbiontes.

2.2.7 Sem seleçãoTodos os candidatos treinados fazem parte do comite.

2.3 Estratégias para tomada de decisão

O modulo de decisao consiste da estrategia adotada para sintetizar as diferentes respostas dos agentesselecionados para comporem o comite em uma unica resposta. Diversas sao as estrategias sugeridasna literatura, onde algumas sao descritas a seguir.

2.3.1 Média simplesA resposta do comite e gerada pelo computo da media simples das saıdas de todos os agentes que ocompoe:

Y k =1

L

L∑k=1

yki (10)

onde L e o numero de agentes que compoe o comite, yki e a resposta do agente i a k-esima amostrade entrada e Y k e a resposta do comite para a respectiva amostra.

2.3.2 Média ponderada sem biasOs pesos sao calculados com base na minimizacao do erro gerado pelo comite sobre o conjunto detreino do comite.

Y k =1

L

L∑k=1

wki yki (11)

onde L e o numero de agentes do comite, Y k e a resposta do comite a k-esima amos-tra, yki e aresposta do agente i a k-esima amostra de entrada e wki e o peso atribuıdo a cada agente no tocantea k-esima amostra. Os pesos de ponderacao sao calculados de forma a minimizar o erro do comite.

2.3.3 Média ponderada com biasUm termo independente wk0 e adicionado ao calculo com yk0 = 1.

Construção de sistemas multi-classificadores para reconhecimento de padrões 153

Y k =1

L

L∑k=0

wki yki (12)

O calculo de wk e igual ao da media ponderada sem bias.

2.3.4 Voto majoritárioA resposta do comite e igual a saıda que for fornecida pelo maior numero de classificadores (maioria

simples). E importante observar que nesta estrategia, para espacos de solucao maiores que binario,pode haver casos em que o comite nao gere resposta, uma vez que e possıvel nao se caracterizar umamaioria.

3. Construção de Comitês - Metodologia

Nesta secao faz-se uma descricao da avaliacao realizada sobre cada uma das etapas previamentecitadas considerando que: a) a arquitetura escolhida para o sistema e a paralela (comite); b) acomposicao do sistema e homogenea, sendo formado exclusivamente por agentes neurais do tipoMLP.

3.1 Partição dos dados para construção do comitê

Idealmente se particiona o conjunto de amostras existentes em pelo menos 03 conjuntos comas seguintes finalidades: a) Conjunto de treinamento dos agentes individuais - para gerar osclassificadores a serem candidatos ao comite; b) Conjunto de treinamento do comite - para avaliar acapacidade de generalizacao dos agentes e montar o comite; e c) Conjunto de teste do comite - paraavaliar a capacidade de generalizacao comite.

3.2 Estratégias para geração e treinamento dos agentes

Neste trabalho optou-se por fazer uso e avaliar comparativamente apenas as estrategias que buscamprover uma maior diversidade entre os agentes atraves do emprego de: 1) diferentes conjuntos dedados para treinamento; 2) diferentes configuracoes para as redes MLP; 3) diferentes pontos departida (conjunto de pesos) para inıcio do treinamento e 4) diferente numero de ciclos para treino.Para a geracao de diferentes conjuntos de treino foram comparadas as estrategias Bagging e Adaboost.

Com o objetivo de prover uma base consistente para analise, foram gerados 10 diferentes conjuntosnos quais se variou a composicao dos mesmos, entre 30 e 100 agentes candidatos.

3.3 Estratégias para seleção e composição do comitê

O objetivo principal foi avaliar, comparativamente, algumas heurısticas existentes na literaturacom propostas de solucao via emprego da computacao evolutiva. Foram avaliadas as seguintesestrategias: a) Construtiva sem Exploracao (CS); b) Construtiva com Exploracao (CC); c) Evolutivavia Algoritmo Genetico; e d) Evolutiva via Algoritmo Transgenetico.

3.3.1 Seleção por algoritmo genéticoPara que cada indivıduo da populacao possa representar uma solucao completa do problema, i.e.,definir o tamanho do comite e tambem apontar os agentes selecionados para sua composicao,foi adotada uma representacao binaria para o cromossomo. A dimensao do cromossomo tem otamanho da populacao de agentes candidatos e cada gene representa um agente. O valor “1” dogene representa a selecao do agente. A Figura 3 exemplifica um cromossomo tıpico que contem asseguintes informacoes: a) o numero de agentes candidatos e 10; b) o comite e composto por 4 agentese; c) os agentes selecionados para comporem o comite sao [1, 4, 5 e 8].

Figura 3. Estrutura do cromossomo.

A populacao e composta por 100 indivıduos e a funcao de merito (fitness) e o desempenhoalcancado pelo comite e expressado pelo numero de erros cometidos na rotulacao dos caracteres.Osoperadores usados foram os mais conhecidos: cruzamento e mutacao.

154 Thomé & Goldbarg et al.

O criterio de parada usado foi exclusivamente o numero de ciclos de evolucao e, a cada geracao,uma elite de 10% da populacao foi preservada. Com vistas a pressionar para que a populacao evoluıssecom qualidade nas diferentes geracoes, adotou-se como criterio que filhos resultantes dos cruzamentosso seriam aceitos se apresentassem desempenho igual ou melhor que os pais. As sucessivas iteracoesdo algoritmo genetico seguem os seguintes passos:

Passo 1 - Geracao da populacao inicialDepois de varios experimentos observou-se que a melhor estrategia para gerar a populacao inicial naoera completamente aleatoria, mas sim forcar uma aleatoriedade que privilegiasse solucoes (comites)que fossem compostas por um numero reduzido de agentes. Assim, dividiu-se o processo de geracaoem tres faixas, cada uma composta por 1

3 da populacao total: na primeira faixa os genes foram

gerados com 34 de probabilidade de ter valor “0” (nao inclusao do respectivo agente); na segunda

faixa esta taxa muda para 35 e na terceira para 1

2 .Passo 2 - Acasalamento

A selecao dos pares de indivıduos para reproducao (recombinacao) e feita com uso da “roleta”montada com base no nıvel de adaptacao dos indivıduos da populacao corrente. Adotou-se umpercentual de 70% da populacao corrente para ser considerada apta a reproduzir.

Passo 3 - ReproducaoCada par de indivıduos selecionados para acasalamento e submetido ao processo de recombinacaopodendo gerar 01, 02 ou 06 filhos dependendo do metodo de recombinacao usado, que poderia serum dos seguintes: a) recombinacao uniforme, gerando apenas 01 filho, que herda aleatoriamente dospais, com 50% de probabilidade, cada um dos seus genes; b) recombinacao por partes com ponteirounico, gerando 02 filhos, formados cada um de uma sequencia de genes de um dos pais e a sequenciarestante do outro pai; c) recombinacao por partes com duplo ponteiro, gerando 06 filhos, formadoscada um por diferentes sequencias de genes de cada um dos pais.Os filhos gerados sao avaliados e somente aqueles que apresentarem nıvel de adaptacao igual oumelhor que o mais adaptado dos pais e preservado para participar do processo de selecao da novageracao. Observou-se que a recombinacao uniforme, pelo menos para este estudo de caso, apresentoumelhor eficacia que as outras duas, alem de ser mais rapida.

Passo 4 - MutacaoA mutacao consiste em trocar a polaridade dos genes, i.e., mudando o gene de “1” para “0” e vice-versa. A taxa de selecao de indivıduos para mutacao foi fixada em 5% da populacao corrente e a taxade mutacao de cada indivıduo foi fixada em ate 10% do numero de genes (3 no caso da populacaoser formada por indivıduos que representem 30 agentes candidatos).Uma vez que o algoritmo, com os parametros adotados, apresentava uma rapida convergencia e aseguir uma estagnacao evolutiva, adotou-se provocar um choque de mutacao sempre que um perıodode estagnacao fosse detectado. O choque de mutacao consiste em aumentar a taxa de selecao deindivıduos de 5% para 50% e a taxa de mutacao de 10% para 50%. O choque dura apenas 01 geracaoe os resultados foram bastante positivos.

Passo 5 - Selecao da Nova GeracaoA selecao dos indivıduos para a proxima geracao e feita com base em regras e no criterio unico deadaptacao (acuracia do comite) da seguinte forma: a) uma elite de 10% e extraıda da populacaocorrente; b) todos os indivıduos que sofreram mutacao; e c) selecao do restante da populacao pelocriterio da “roleta” sobre o universo composto pelos filhos gerados por recombinacao e dos indivıduosrestantes da populacao corrente.

Passo 6 - Criterio de ParadaAdotou-se como criterio unico o numero de geracoes igual a 100. Caso nao satisfeita, retorna aopasso 2.

3.3.2 Seleção por algoritmo transgenéticoO contexto transgenetico foi criado similar ao do genetico para que se pudesse comparar as vantagense desvantagens de cada um. O endossimbionte e um vetor de dimensao variavel, onde cada genecontem o rotulo de um agente candidato. Ao final da cadeia genetica de cada um sao acrescidas03 informacoes que sintetizam o nıvel de adaptacao daquele endossimbionte segundo os criterios deacuracia, diversidade e margem.

O hospedeiro possui inicialmente 04 informacoes geneticas adquiridas a priori, onde 03 delassao baseadas na ordem de acuracia dos agentes candidatos e uma na ordem de diversidade par-a-par. No decorrer das iteracoes do algoritmo estas informacoes podem ser substituıdas ou somadas ainformacoes adquiridas a posteriori. Adotou-se empiricamente, limitar em 11 o numero maximo deinformacoes geneticas mantidas no hospedeiro.

Construção de sistemas multi-classificadores para reconhecimento de padrões 155

Como vetores transgeneticos foram criados um plasmıdeo, um transposon e um plasmıdeorecombinado. Cada vetor, antes de aplicar sua manipulacao genetica, realiza um ataque para verificara validade (eficacia) da sua acao e a aplica somente se o resultado do ataque for positivo. A selecaodo vetor a ser aplicado e feita segundo o esquema da evolucao pontuada e, uma vez selecionado, ovetor ataca toda a populacao. O esquema de evolucao pontuada que apresentou melhores resultadosquanto a convergencia do algoritmo, foi um que alterna as participacoes conforme a Figura 4.

Figura 4. Evolucao pontuada adotada nos experimentos com AT.

O plasmıdeo e encarregado de transmitir informacoes geneticas do hospedeiro para osendossimbiontes e sua operacao ocorre sobre toda a populacao da seguinte forma: 1o)Seleciona, aleatoriamente, uma dentre as cadeias geneticas residentes no hospedeiro; 2o) Seleciona,aleatoriamente, o ponto inicial e o numero de genes a serem transmitidos; 3o) Seleciona,aleatoriamente, o tipo de manipulacao genetica a realizar: a) insercao da cadeia genetica ou b)substituicao; 4o) Se substituicao, para cada endossimbionte seleciona, aleatoriamente, os genes aserem substituıdos; 5o) Conclui o ataque (avalia quanto a acuracia, diversidade e margem) e verificase a manipulacao e viavel e; 6o) Se viavel efetua a manipulacao, caso contrario descarta.

O plasmıdeo recombinado e um agente que ao ser acionado gera dinamicamente o codigo geneticoa ser transmitido e, uma vez gerado o codigo, opera de forma igual ao vetor plasmıdeo. A geracaodinamica do codigo genetico a ser transmitido foi construıda da seguinte forma: 1o) Seleciona,aleatoriamente, o tamanho do codigo a ser gerado (mınimo de 02 e maximo de 50% do numero deagentes candidatos); 2o)Seleciona, aleatoriamente, o ponto inicial (estado de partida da maquinaexecutora do processo de geracao) a partir do qual serao gerados os genes a serem transmitidos;3o)Seleciona, aleatoriamente, o processo a ser usado na geracao do codigo genetico (fez-se uso de 03processos distintos); 4o)Se processo 1, toma o agente selecionado em 2 (considerando o conjunto deagentes candidatos ordenados em ordem decrescente de acuracia) como primeiro gene selecionado erealiza o metodo construtivo sem exploracao ate completar o numero requerido de genes ou pararpelo criterio do metodo; 5o)Se processo 2, extrai os genes de uma lista ordenada pela diversidade par-a-par comecando pelo ponto inicial selecionado em 2; 6o)Se processo 3, a partir do agente selecionadoem 2 (considerando o conjunto de agentes candidatos ordenados em ordem decrescente de acuracia)busca completar a cadeia genetica requerida com novos genes que proporcionem um aumento damargem.

O transposon opera da seguinte forma: 1o) Seleciona, aleatoriamente, o tamanho do codigogenetico a ser manipulado; 2o) Seleciona o tipo de operacao: insercao, substituicao ou extracao;3o) Se insercao ou substituicao, seleciona aleatoriamente os genes a serem incluıdos ou substituıdostomando por base todo o conjunto de agentes candidatos; 4o) Realiza o ataque a cada endossimbiontee executa a manipulacao se viavel.

Cada iteracao do algoritmo termina com a atualizacao a posteriori das informacoes residentes nohospedeiro.

Numa rapida analise sobre a media dos resultados alcancados com as duas estrategias (AG e AT),observou-se que: a) as duas praticamente convergem para solucoes com a mesma acuracia; b) o AGconverge para a solucao mais rapidamente que o AT; c) a populacao do AT mantem-se mais diversaque a populacao do AG, na qual a maioria dos indivıduos tende a ser de clones da melhor solucao

156 Thomé & Goldbarg et al.

alcancada; e d) o codigo do AG e muito mais simples e o custo computacional e bem menor que odo AT.

3.4 Estratégias para o módulo de decisão

No trabalho reportado neste capıtulo, a analise restringiu-se as seguintes estrategias: voto majoritariopor maioria simples; media simples e media ponderada sem bias.

4. Experimentos – Objetivos e Resultados

4.1 Descrição do estudo de caso

O problema abordado como estudo de caso e o da construcao de um leitor robusto capaz de reconheceros caracteres da placa de um veıculo em movimento. Esta aplicacao e bastante complexa, naoso porque envolve varias etapas de processamento que antecedem o reconhecimento, mas tambemporque as imagens geralmente apresentam caracterısticas bastante distintas para uma mesma classede letras. Esta distincao provem das proprias imagens que nao se parecem, das condicoes ambientaisdo local e da hora em que as mesmas foram capturadas. A Figura 5 exemplifica algumas diferencasvisıveis entre duas imagens tomadas de veıculos distintos e em diferentes condicoes de iluminacao.

Uma vez obtida a imagem do veıculo, o leitor precisa: a) localizar a placa extraindo-a do restanteda imagem; b) segmentar a placa separando os caracteres que a compoem; c) extrair descritores dosobjetos segmentados; d) reconhecer cada caractere e; e) validar o caractere.

Figura 5. Imagens capturadas em rodovias com limite de velocidade de 80 Km/h.

4.2 Segmentação e extração de descritores

A localizacao da placa e feita atraves de um processo de filtragem focando a identificacao debordas com orientacao vertical. Os descritores sao obtidos pela extracao de momentos estatısticosbidimensionais (de 1a, 2a, 3a, e 4a ordens) de cada uma das 7 janelas adaptativas (3 verticais e4 horizontais), que sao projetadas, com superposicao, sobre a imagem do caractere. O vetor dedescritores tem dimensao original de 84 reduzida para 51 com o uso do algoritmo PCA - PrincipalComponent Analysis. A figura 6 mostra a imagem de um caractere e o janelamento usado paraextracao dos momentos bidimensionais.

Figura 6. Imagem de um caractere inserido em um quadrado de16 x 16 pixels e janelamento adaptativo com superposicao.

4.3 A base de dados

Sao duas, uma de dıgitos com 6.057 caracteres e outra de letras com 14.992 caracteres. Cada dıgitoou letra e representado por um vetor de caracterısticas com 51 atributos (momentos estatısticosbidimensionais). Os experimentos aqui reportados envolvem o uso apenas da base de dıgitos dividida,aleatoriamente, em 03 conjuntos: a) de treinamento dos agentes – (Conjunto A) com 3052 dıgitos;b) para selecao do comite – (Conjunto B) com 1211 dıgitos e; c) para testes do comite – (ConjuntoC) com 1794 dıgitos.

Construção de sistemas multi-classificadores para reconhecimento de padrões 157

4.4 Geração e treinamento dos agentes

Uma serie de experimentos foi realizada com o objetivo de: a) Comparar as estrategias Bagging eAdaboost na geracao de agentes diversos e acurados; b) Comparar diferentes metricas (Q-Statistics,Disagreement, Descorrelacao e Disagreement modificado) para avaliar a diversidade dos diferentesconjuntos de agentes; c) Calcular a margem dos conjuntos e tentar identificar alguma relacao destacom a acuracia e / ou a diversidade; d) Avaliar a relacao entre o tamanho do conjunto de candidatose o potencial de desempenho do comite (oraculo).

Experimento 1 – execucao de 20 treinos sucessivos para cada uma das possıveis configuracoes (20a 40 neuronios na camada escondida, variando de um em um) e selecao das 05 melhores. Para todosos treinos foram usados os seguintes parametros: a) funcao de propagacao dos neuronios - sigmoidal;b) algoritmo de treinamento das redes - trainrp; c) numero maximo de ciclos de treino - 500; d)estrategia de parada por validacao - 50 repeticoes.

Como resultado, o conjunto com as 05 melhores configuracoes para emprego nos proximosexperimentos foi: [29; 40; 32; 37 e 22] neuronios na camada escondida.

Tabela 1. Resumo comparativo dos 2 conjuntos de agentes.

Bagging Adaboost

Melhor Acuracia 69 59Pior Acuracia 98 85Acuracia Media 80,4 73,83Variancia da Acuracia 7,0300 5,1333Oraculo 8 8Margem 0,8672 0,8781Diversidade QL 0,9609 0,9687

Experimento 2 – montado para comparar as estrategias Bagging e Adaboost na geracao de agentessegundo as medidas de acuracia, diversidade e margem. As medidas de diversidade escolhidaspara avaliacao foram as seguintes: a) Q-Statistics (QL); b) Disagreement (DL); c) DisagreementModificado (DM) e; d) Descorrelacao (DD). A Tabela 1 apresenta um resumo com a media dosresultados alcancados.

Uma analise dos resultados possibilita dizer que: a) em termos de acuracia individual e doconjunto (acuracia media), o melhor resultado foi obtido com a estrategia Adaboost ; b) todas asmetricas de diversidade mostraram basicamente as mesmas tendencias; c) por pequena diferenca, amelhor margem foi apresentada pela estrategia Adaboost e d) os 02 conjuntos estimam resultadossimilares a serem obtidos com a formacao dos comites.

Experimento 3 – montado com o objetivo de gerar diferentes conjuntos de agentes candidatos comvariabilidade tanto da acuracia quanto de diversidade. Os conjuntos gerados sao: a) Conjunto 1 -30 agentes, usando Bagging ; configuracao aleatoriamente selecionada dentre o conjunto de [29; 40;32; 37 e 22] neuronios na camada escondida e numero maximo de ciclos de treino especificado em50; b) Conjunto 2 - 30 agentes, usando Adaboost ; configuracao aleatoriamente selecionada dentre oconjunto de [29; 40; 32; 37 e 22] e numero maximo de ciclos de treino especificado em 100; c) Conjunto3 - 30 agentes, usando Adaboost ; configuracao aleatoriamente selecionada dentre o conjunto de [29;40; 32; 37 e 22] e numero maximo de ciclos de treino especificado em 50; d) Conjunto 4 - 60agentes (juncao dos conjuntos 2 e 3); e) Conjunto 5 - 60 agentes, usando Adaboost ; configuracaoaleatoriamente selecionada dentre o conjunto de [30, 35, 40 45, 50, 60] e numero maximo de ciclosde treino selecionado entre [100, 200] e estrategia de parada por validacao desligada e Conjunto 6- 100 agentes, usando Adaboost ; configuracao aleatoriamente selecionada dentre [30, 35, 40 45, 50,60] e numero maximo de ciclos de treino aleatorio dentre [30, 50, 100, 200] e estrategia de paradapor validacao desligada. A Tabela 2 mostra um quadro comparativo dos conjuntos gerados.

Observa-se que: a) existe uma correlacao direta entre o numero de agentes candidatos e o potencialteorico do conjunto (oraculo). Quanto maior o conjunto melhor o oraculo; b) a medida de margemindica que em termos de generalizacao, o conjunto 5 deve apresentar o melhor resultado e o piordeve ser apresentado pelo conjunto 6; c) com excecao da metrica DIFF, todas as demais medidasde diversidade mostram resultados coerentes com relacao a maior diversidade, i.e., o conjunto mais

158 Thomé & Goldbarg et al.

Tabela 2. Resumo comparativo dos 6 Conjuntos de Agentes.

Cj 1 Cj 2 Cj 3 Cj 4 Cj 5 Cj 6

Nr. Agentes 30 30 30 60 60 100Melhor Acuracia 71 64 71 64 63 66Pior Acuracia 95 88 101 101 87 182Acuracia Media 80 75,13 85,17 80,15 74,23 97,91Variancia da Acuracia 5,589 6,257 8,090 8,775 5,630 23,183Oraculo 10 9 7 6 5 2Margem 0,867 0,875 0,859 0,867 0,877 0,838Diversidade QL 0,965 0,965 0,955 0,959 0,966 0,923

diverso e o sexto, porem esta coerencia nao se repete quanto ao conjunto menos diverso e d) aestrategia Adaboost gerou agentes mais diversos e com maior variedade de acuracia.

4.5 Seleção e composição do comitê

Neste item o foco da investigacao foi no sentido de responder aos seguintes questionamentos: a)Qual a estrategia que garante um melhor desempenho e generalizacao (emprego de um unico agente(o melhor); emprego de um comite formado por todos os agentes candidatos ou emprego de umcomite formado por um subconjunto dos candidatos)? b) Qual, se e que existe, a relevancia relativaentre acuracia, diversidade e margem com vistas a capacidade de generalizacao do comite? c) Existealguma relacao otima entre o numero de agentes candidatos, a acuracia e a diversidade do conjuntocom vistas a formacao de bons comites? e d) Qual a estrategia mais eficiente e eficaz para ser usadana selecao e formacao de um comite?

Figura 7. Evolucao do desempenho em funcao do tamanho do comite.A linha de baixo em ambos os graficos representa o desempenho sobre o

conjunto de validacao e a superior sobre o conjunto de teste (fonte: (Schapire et al., 1998)).

Intuitivamente a probabilidade de haver um subconjunto de agentes candidatos que apresentedesempenho e generalizacao melhores que as de todo conjunto e grande, principalmente se esteconjunto possui agentes com diferentes nıveis de acuracia e diversidade. Robert Schapire, YoavFreund e outros (Schapire et al., 1998), com a finalidade de comparar a eficacia das estrategiasBagging e Boosting, mostram uma aparente contradicao ao princıpio de Ockham (Figura 7), onde oerro do comite, em ambas as estrategias, consistentemente decresce na medida em que o tamanhodo comite aumenta. Neste artigo eles introduzem o conceito de margem. A tendencia descrita porSchapire nao foi comprovada nos experimentos realizados.

Experimento 1 – montado para avaliar a tendencia de desempenho de comites formados com umnumero crescente e cumulativo de componentes iniciando com 10 e terminando com 250.Os resultados obtidos nao apresentaram qualquer tendencia monotonica de alta ou de baixa (Figura8). Os comites foram gerados cumulativamente a partir de um conjunto com 250 agentes geradosconforme descrito no experimento 3 da secao anterior.

O grafico mostra que o tamanho do comite nao influiu no desempenho em qualquer dos casos(conjunto B – serie 1 e conjunto C – serie 2). O desempenho medio dos comites praticamente se

Construção de sistemas multi-classificadores para reconhecimento de padrões 159

Figura 8. Desempenho Medio dos Comites Globais (Todos os Agentes), serie 01 representa o desempenho dosdiferentes comites sobre o conjunto B e a serie 02 sobre o conjunto C (generalizacao).

manteve igual para os dois conjuntos, embora parecam diferentes em termos de erros absolutos (53,38erros num universo de 1211 amostras do Conjunto B – 95,67% de acerto) e (77,23 num universo de1794 do Conjunto C – 95,69% de acerto).

Figura 9. Desempenho Medio dos Comites (Todos os Agentes) formadoscumulativamente pelos melhores agentes disponıveis.

Experimento 2 - montado para verificar se o desempenho individual dos agentes influi na formacaoe no desempenho dos comites. Foram gerados os mesmos comites do experimento 1, tomando agoracomo base os agentes ordenados por valor decrescente de desempenho. Os resultados mais uma veznao apresentaram qualquer tendencia de alta nem de baixa (Figura 9).

Formados com os melhores agentes, os comites apresentaram uma piora sistematica em relacaoaos comites formados com agentes aleatoriamente escolhidos. A perda de desempenho variou entre2% e 14% sobre o conjunto B e de 6% a 18% sobre o conjunto C. O fato do comite formadopelos melhores agentes (selecionados com base no desempenho sobre o conjunto B) apresentar umdesempenho inferior, sobre o proprio conjunto B, que outro comite formado pelo mesmo numerode agentes, porem com desempenho inferior que do primeiro conjunto, so pode ter como explicacaoplausıvel o fato do primeiro conjunto possuir uma diversidade que compense a menor acuraciaindividual.

Experimento 3 - montado com o objetivo de comparar o desempenho das estrategias: CS -Construtiva sem Exploracao; CC - Construtiva com Exploracao; AG - Algoritmo Genetico e AT- Algoritmo Transgenetico. As 04 estrategias foram aplicadas sobre 08 conjuntos de teste. AsTabelas 3 e 4 mostram, de forma resumida, os resultados.

Embora os resultados obtidos sobre os 07 conjuntos nao tenham sido conclusivos ficou evidenteque o emprego de apenas um agente e sempre a pior alternativa. As estrategias CS e CC apresentaram

160 Thomé & Goldbarg et al.

Tabela 3. Resultado com 1 agente, todos agentes e subconjunto gerado por CS.

Unico Global Construtivo S.

Cj N.Ag TC MSV MST TC MSV MST TC MSV MST

0 30 1 69 125 30 60 85 10 46 901 30 1 71 127 30 56 87 7 50 952 30 1 64 108 30 50 82 7 42 823 30 1 71 135 30 59 87 6 50 964 60 1 64 108 60 54 88 6 42 825 60 1 64 109 60 51 74 6 45 796 100 1 66 108 100 52 80 9 44 88

Media 1 67 117 49 55 83 7 46 87

de forma consistente os piores desempenhos, provavelmente pelo fato fazerem a selecao privilegiandounicamente o desempenho individual dos agentes.

5. Conclusões

Neste capıtulo se descreveu o emprego de Agentes Neurais reunidos em Sistemas de Comite(ensemble), aplicados a problemas de reconhecimento de padroes. Como estudo de caso foi escolhido oproblema da leitura dos caracteres da placa de veıculos automotores extraıdos de imagens complexascapturadas com o veıculo em movimento.

Quanto a geracao do conjunto de agentes para construcao do comite, as principais conclusoessao: a) conjuntos grandes e diversos aumentam a probabilidade de sucesso na composicao do comite;b) a estrategia Adaboost gera agentes com maior ındice de complementaridade do que a estrategiaBagging e c) no caso de comites formados por agentes neurais, e importante reforcar a diversidadepelo uso de diferentes configuracoes e ciclos de treinamento.

Tabela 4. Resultado gerado com CC, AG e AT.

Construtivo C. Alg. Geneticos Alg. Transgenetico

Cj N.Ag TC MSV MST TC MSV MST TC MSV MST

0 30 03 52 94 10 47 85 07 44 881 30 05 48 95 07 46 99 07 46 932 30 05 40 89 11 38 82 11 38 823 30 03 49 100 09 50 85 07 44 924 60 05 40 90 11 36 82 13 36 805 60 04 46 80 18 49 58 16 39 596 100 05 46 87 16 39 86 16 35 75

Media 4 46 91 12 44 82 11 40 81

As principais dificuldades quanto as estrategias de busca pelo comite otimo (tamanho eidentificacao dos agentes a serem selecionados) sao: a) o espaco de busca cresce exponencialmentecom o numero de agentes candidatos; b) quanto maior o numero de candidatos maior a possibilidadede haver um subconjunto que mais se aproxime do oraculo; c) o emprego de um ou todos os agentesnao e a estrategia potencialmente melhor; d) reduzir excessivamente o tamanho do comite podemelhorar o desempenho sobre o conjunto de treino, mas isto nao potencializa a capacidade degeneralizacao. E como se ocorresse um overfitting no processo de construcao do comite; e) estrategiasque privilegiam somente a acuracia individual dos agentes como criterio de selecao tendem a comporcomites com desempenho mais fraco; f) o problema da composicao de comites e multiobjetivoe somente estrategias que levam em consideracao esta caracterıstica tem mais probabilidade deencontrar o melhor comite; g) as estrategias evolucionistas se mostraram melhores que as gulosas(CS e CC); h) o algoritmo transgenetico apresenta um custo computacional maior, porem, terminacom uma populacao e um conjunto de possıveis solucoes mais diverso, que podem melhor contemplarcaracterısticas como acuracia, diversidade e margem.

Quanto as estrategias para decisao do comite, ressalta-se que: o uso da Media Simples ou daMedia Ponderada sem Bias e praticamente equivalente; b) o Voto Majoritario por Maioria Simples

Construção de sistemas multi-classificadores para reconhecimento de padrões 161

se mostrou inferior aos outros dois em quase 100% dos casos, porem, se os casos em que a maioria dosvotos nao se concretiza (empate entre duas ou mais alternativas) forem tratados e nao simplesmenteconsiderados como erro, a estrategia pode se equivaler e ate superar as outras duas.

Agradecimentos

O autor Marco Cesar Goldbarg agradece ao CNPq pelo apoio financeiro ao projeto 300778/2010-4.

ReferênciasBreiman, L., Bagging predictors. Machine Learning, 24(2):123–140, 1996.

Breiman, L., Multi-net systems. In: A.Sharkey, (Ed.), Combining Artificial Neural Nets: Ensemble and ModularMulti-Net Systems. Heidelberg: Springer-Verlag, Perspectives in Neural Computing, p. 31–50, 1999.

Brown, L. & Kuncheva, L., Good and bad diversity in majority vote ensembles, multiple classifier. In: Gayar, N.E.;Kittler, J. & Roli, F. (Eds.), Multiple Classifier Systems. Heidelberg: Springer-Verlag, v. 5997 de Lecture Notesin Computer Science, p. 124–133, 2010.

Canuto, A.M.P.; Karliane, M.O. & Feitos, A., A reinforcement-based mechanism to select features for classifiersin ensemble systems. International Journal of Computer Information Systems and Industrial ManagementApplications, 03:324–335, 2011.

Canuto, A.M.P.; Karliane, M.O.; Feitos, A. & Signoretti, A., Reinsel: A class-based mechanism for feature selectionin ensemble of classifiers. Applied Soft Computing, 12:2517–2529, 2012.

Chen, D.; Boulard, H. & Thiran, J.P., Text identification in complex background using svm. In: Proceedings of the2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. p. 621–626, 2001.

Cho, S. & Kim, J.H., Combining multiple neural networks by fuzzy integral for robust classification. IEEE Transactionson Systems, Man and Cybernetics, 25(02):380–384, 1995.

Drucker, H., Boosting neural networks. In: Sharkey, A. (Ed.), Combining Artificial Neural Nets: Ensemble andModular Multi-Net Systems. Heidelberg: Springer-Verlag, Perspectives in Neural Computing, p. 51–77, 1999.

Drucker, H.; Cortes, C.; Jackel, L.L.D.; LeCun, Y. & Vapnik, V., Boosting and other ensemble methods. NeuralComputation, 6(6):1289–1301, 1994.

Efron, B. & Tibshirani, R., An Introduction to the Bootstrap. 1st edicao. New York: Chapman & Hall, 1993.

Fabrizio, J.; Marcotegui, B. & Cord, M., Text segmentation in natural scenes using toggle-mapping. In: IEEEInternational Conference on Image Processing. p. 2373–2376, 2009.

Freund, Y., Boosting a weak algorithm by majority. Information and Computation, 121(02):256–286, 1995.

Freund, Y. & Schapire, R.E., A decision-theoretic generalization of on-line learning and an application to boosting. In:Proceedings EuroCOLT-94. p. 23–27, 1995.

Freund, Y. & Schapire, R.E., Experiments with a new boosting algorithm. In: Proceedings of the ThirteenthInternational Conference on Machine Learning. p. 149–156, 1996.

Goldbarg, E.F.G. & Goldbarg, M.C., Transgenetic algorithm: A new endosymbiotic approach for evolutionaryalgorithms. In: Abraham, A.; Hassanien, A.E.; Siarry, P. & Engelbrecht, A. (Eds.), Foundations of ComputationalIntelligence Volume 3. Heidelberg: Springer-Verlag, v. 203 de Studies in Computational Intelligence, p. 425–460,2009.

Goldbarg, M.C.; Bagi, L.B. & Goldbarg, E.F.G., Transgenetic algorithm for the traveling purchaser problem. EuropeanJournal of Operational Research, 199(01):36–45, 2009.

Goldbarg, M.C. & Gouvea, E.F., Transgenetica computacional. In: Anais do XXXII Simposio Brasileiro de PesquisaOperacional. v. 01, p. 1534–1569, 2000.

Gould, S.B.; Waller, R.F. & McFadden, G.I., Plastid evolution. Annual Review of Plant Biology, 59:491–517, 2008.

Hansen, L. & Salomon, P., Neural network ensembles. IEEE Transactions on Pattern Analysis and MachineIntelligence, 12(10):993–1001, 1990.

Jacob, F., Evolution and tinkering. Science, New Series, 196(4295):1161–1166, 1977.

Jung, K.; Kim, K. & Jain, A., Text information extraction in images and videos: A survey. Pattern Recognition,37(5):977–997, 2004.

Kittler, J.; Hatef, M.; Duin, R.P.W. & Matas, J., On combining classifiers. IEEE Transactions on Pattern Analysisand Machine Intelligence, 20(03):226–239, 1998.

Kittler, J.; Hojjatoleslami, A. & Windeatt, T., Strategies for combining classifiers employing shared and distinctpattern representations. Science, New Series, 18:1373–1377, 1997.

Kuncheva, J.L.I. & Whitaker, C.J., Measures of diversity in classifier ensembles and their relationship with the ensembleaccuracy. Machine Learning, 51(03):181–207, 2003.

Kuncheva, L.I. & Whitaker, C.J., Ten measures of diversity in classifier ensembles: Limits for two classifiers. In:Proceedings of IEE Workshop on Intelligent Sensor Processing. p. 1001–1010, 2001.

162 Thomé & Goldbarg et al.

Kuwaha, H.; Takaki, T.; Yoshida, Y.; Shimamura, S.; Takishita, K.; Reimer, J.D.; Kato, C. & Maruyama, T., Reductivegenome evolution in chemoautotrophic intracellular symbionts of deep-sea calyptogena clams. Extremophiles,02:365–374, 2008.

Lebourgeis, F., Robust multifont ocr system from gray level images. In: Proceedings of the Fourth InternationalConference on Document Analysis and Recognition. p. 1–5, 1997.

Lima, C.A.M., Comite de Maquinas: Uma Abordagem Unificada Empregando Maquinas de Vetores de Suporte. Tese dedoutorado, Universidade Estadual de Campinas - UNICAMP - DCA FEEC, Campinas, Sao Paulo, Brasil, 2004.

Liu, Y.; Yao, X. & Higuchi, T., Evolutionary ensembles with negative correlation learning. IEEE Transactions onEvolutionary Computation, 04(04):380–387, 2003.

Lucas, S.M., Icdar 2005 text locating competition results. In: Proceedings of Eighth International Conference onDocument Analysis and Recognition. IEEE Press, p. 80–84, 2005.

Lucas, S.M.; A.Panaretos, ; Sosa, L.; Tang, A. & et al., , Icdar 2003 robust reading competitions: entries, results, andfuture directions. Journal of Document Analysis and Recognition (IJDAR), 07(2-3):105–122, 2005.

Opitz, D.W., Feature selection for ensembles. In: Proceedings of 16th National Conference on Artificial. Intelligence.AAAI Press, p. 379–384, 1999.

Opitz, D.W. & Maclin, R., Popular ensemble methods: An empirical study. Journal of Artificial Intelligence Research,11:169–198, 1999.

S. A. R. Jafri, M.B.E.J.D., Automatic text area segmentation in natural images. In: IEEE International Conferenceon Image Processing. p. 416, 2008.

Schapire, R.E.; Freund, Y.; Bartlett, P.; Lee, P. & Wee, S., The strength of weak learnability. Machine Learning,5:197–227, 1990.

Schapire, R.E.; Freund, Y.; Bartlett, P.; Lee, P. & Wee, S., Boosting the margin: A new explanation for the effectivenessof voting methods, annals of statistics. Annals of Statistics, 26:1651–1686, 1998.

Silva, V.S.R., Um Comite de Redes Neurais para Reconhecimento de Caracteres Manuscritos. Dissertacao de Mestrado.Dissertacao de mestrado, Instituto de Matematica, Nucleo de Computacao Eletronica, Universidade Federal doRio de Janeiro, Rio de Janeiro, RJ, Brasil, 2006.

Sosa, L.P.; Lucas, S.M.; Panaretos, A.; Sosa, L.; Tang, A.; Wong, S. & Young, R., Icdar 2003 robust readingcompetitions. In: Proceedings of the Seventh International Conference on Document Analysis and Recognition.IEEE Press, p. 682–687, 2003.

Tang, K.; Suganthan, P.N. & Yao, X., An analysis of diversity measures. Machine Learning, 65(01):247–271, 2006.

Ueda, N., Optimal linear combination of neural networks for improving classification performance. IEEE Transactionson Pattern Analysis and Machine Intelligence, 22(02):207–215, 2000.

W, F.D., Lateral genomics. Trends in Cell Biolology, 9(12):M5–M8, 1999.

Wernegreen, J.J., For better or worse: genomic consequences of intracellular mutualism and parasitism. Genetics &Development, 15:572–583, 2005.

Xu, L.; Krzyzak, A. & Suen, C.Y., Methods of combining multiple classifiers and their applications to handwritingrecognition. IEEE Transactions on Systems, Man and Cybernetics, 22(03):418–435, 1992.

Zhou, Z.H.; Wu, J. & Tang, W., Ensembling neural networks: Many could be better than all. Artificial Intelligence,137(1-2):239–263, 2002.