ricardo manuel gonc¸alves araujo´ - dsi.uminho.pt · o metodo emp´ ´ırico ser a usado na parte...

36
Universidade do Minho Escola de Engenharia Departamento de Sistemas de Informac ¸˜ ao Ricardo Manuel Gonc ¸alves Ara´ ujo Tratamento e Catalogac ¸˜ ao Autom ´ atica de Documentos janeiro 2018

Upload: vucong

Post on 27-Jul-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

Universidade do MinhoEscola de EngenhariaDepartamento de Sistemas de Informacao

Ricardo Manuel Goncalves Araujo

Tratamento e CatalogacaoAutomatica de Documentos

janeiro 2018

Page 2: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman
Page 3: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

3

Universidade do MinhoEscola de EngenhariaDepartamento de Sistemas de Informacao

Ricardo Manuel Goncalves Araujo

Tratamento e CatalogacaoAutomatica de Documentos

Dissertacao de MestradoMestrado integrado em Engenharia e Gestao de Sistemas de Informacao

Trabalho efetuado sob a orientacao doProfessor Doutor Paulo Cortez

janeiro 2018

Page 4: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

R E S U M O

Este tema foi proposto pela Empresa A a Universidade do Minho (UM), pois atualmenteas organizacoes sao inundadas de documentos em papel (recibos, faturas, etc.) os quaisnecessitam de ser, normalmente, inseridos no sistema de gestao da organizacao EnterpriseResource Planning (ERP). Este processo e lento e muito sujeito a erro humano, daı surgea necessidade do tratamento e catalogacao automatica dos documentos. O objetivo desteprojeto sera explorar tecnicas de processamento, reconhecimento e extracao de informacaode imagens de documentos para que seja possıvel integrar os documentos automaticamentenos produtos da Empresa A. Para este projeto foram escolhidas duas metodologias deinvestigacao, o metodo exploratorio e o metodo empırico. O metodo exploratorio serausado para realizar a revisao de literatura que ajudara a perceber como se encontra oestado da arte. O metodo empırico sera usado na parte de desenvolvimento para que sejapossıvel provar os resultados obtidos com base na observacao e experiencia.

Page 5: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

C O N T E U D O

1 introducao 1

1.1 Enquadramento e motivacao 1

1.2 Objetivos 1

1.3 Abordagem metodologica 2

1.3.1 Metodologia de investigacao 2

1.3.2 Metodologia de data mining 3

1.3.3 Processo de revisao da literatura 5

1.4 Organizacao do documento 6

2 enquadramento conceptual 7

2.1 Pre-processamento da imagem do documento 7

2.1.1 Binarizar a imagem do documento 7

2.1.2 Melhorar a imagem do documento 13

2.1.3 Normalizar a imagem do documento 14

2.2 Analise do Layout 16

2.2.1 Analise do layout fısico/estrutural/geometrico 16

2.2.2 Analise do layout logico/funcional/sintatico 17

2.3 Reconhecimento otico de caracteres (OCR) 19

2.4 Sıntese do enquadramento conceptual 21

3 trabalho realizado e plano de atividades 22

Referencias 24

Page 6: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

L I S TA D E F I G U R A S

Figura 1.1 Fases Crisp-DM, adaptado de (Chapman et al., 2000) 4

Figura 2.1 Demonstracao de um histograma de escala de cinzas: (a) recibo di-gitalizado em escala de cinzas e (b) o seu respetivo histograma 9

Figura 2.2 Resultado da binarizacao da figura 2.1:(a) T = 30, (b) T = 148, (c)T = 197 9

Figura 2.3 Demonstracao de um histograma de escala de cinzas: (a) recibo fo-tografado em escala de cinzas e (b) o seu respetivo histograma 10

Figura 2.4 Resultado da binarizacao da figura 2.3:(a) T = 50, (b) T = 100, (c)T = 140 11

Figura 2.5 Binarizacao local (Phansalkar, More, Sabale, & Joshi, 2011) 11

Figura 2.6 Analise do layout de uma fatura: (a) fatura a analisar, (b) analise dolayout fısico, (c) analise do layout logico 18

Figura 2.7 Sıntese da revisao de literatura 21

Figura 3.1 Plano de atividades 23

Page 7: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

L I S TA D E TA B E L A S

Tabela 2.1 Visao geral das principais tecnicas de binarizacao (B. G. Gatos, 2014) 12

Page 8: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

1

I N T R O D U C A O

1.1 enquadramento e motivacao

Este projeto de mestrado surgiu de um tema proposto pela Empresa A ao Departamentode Sistemas de Informacao (DSI) da UM. A Empresa A e uma software house especializada nodesenvolvimento e comercializacao de solucoes de gestao para empresas de varios setoresde negocio. No seu quotidiano as organizacoes sao inundadas com documentos no tradi-cional suporte de papel aos quais necessitam dar o tratamento adequado por se trataremde comprovativos da aquisicao de bens ou servicos (faturas, recibos, etc.) (Marinai, 2008).Este tratamento passa normalmente pela insercao manual da informacao num ERP paraposterior catalogacao e tratamento. Este processo e lento e sujeito a erro humano, sendouma barreira para a eficiencia da organizacao. Surge assim a necessidade de contornareste problema atraves do tratamento e catalogacao automatica de documentos, sendo esseo tema desta dissertacao de mestrado.

1.2 objetivos

Esta dissertacao tem como finalidade explorar tecnologias e/ou algoritmos de reconheci-mento de imagem em diversos formatos (jpg, png, pdf) e que permitam aos novos produtosda Empresa A disponibilizar servicos que, atraves da imagem de um dado documento, pro-ceda automaticamente a sua catalogacao e registo no ERP.

Com a realizacao deste projeto pretende-se concretizar os seguintes objetivos:

• Realizar uma revisao de literatura com o estado da arte nesta area, discutindo osprincipais conceitos e problemas relacionados com Document Image Analysis and Recog-nition (DIAR) e a sua implementacao;

• Explorar tecnicas de pre-processamento de imagens de documentos para que sejapossıvel tratar documentos que se encontram num estado degradado;

• Explorar tecnicas que permitam extrair informacao util de documentos contabilısticoscomo por exemplo faturas e recibos, fazendo isto de forma transversal;

Page 9: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

1.3. Abordagem metodologica 2

• Elaborar o prototipo de um sistema de DIAR capaz de tratar um ou dois tipos dedocumentos, faturas e recibos.

1.3 abordagem metodologica

1.3.1 Metodologia de investigacao

Uma metodologia de investigacao e caracterizada por ser um conjunto de regras e proce-dimentos importantes para o desenvolvimento da investigacao (Ghauri & Grønhaug, 2005).O investigador ao seguir uma metodologia de investigacao especıfica, cria regras para o seuraciocınio que vao seguir uma logica especıfica. Alem disso, a definicao de uma metodo-logia de investigacao permite que outros investigadores avaliem o metodo de investigacaoseguido e, por sua vez, o possam replicar ou ate mesmo refutar a sua abordagem e re-sultados. Para a execucao deste projeto de mestrado serao seguidos o metodo explo-ratorio e o metodo empırico. O metodo exploratorio e caracterizado pelo desenvolvimentode hipoteses (Kothari, 2004), normalmente utilizado para explorar uma area com poucainformacao ou investigar as possibilidades de realizar um determinado estudo (Kumar,2014). Para este tipo de investigacao sao requeridas competencias como a capacidade paraobservar, obter dados e construir uma explicacao/teoria. Um exemplo que ilustra estemetodo e o caso dos filmes de detetives. Nestes filmes o que acontece e que, geralmente,o detetive recebe uma chamada afirmando que alguem esta morto, aparentemente assassi-nado. O detetive e confrontado com uma pergunta que e “Quem e que cometeu este ato?E como o fez?” Dessa forma, o detetive vai recolher dados e tentar encontrar um culpado.Atraves da pesquisa e da recolha de informacao, a investigacao pode tomar diferentesdirecoes. Contudo, ao longo da investigacao o detetive vai formando uma imagem daquiloque aconteceu chegando assim a resposta da questao (Ghauri & Grønhaug, 2005). Porsua vez, o metodo empırico, tambem conhecido por metodo experimental, baseia-se numainvestigacao baseada em dados que podem depender de uma observacao ou experiencia. Oinvestigador possuı o controlo da experiencia sobre as variaveis em estudo de forma a podermanipula-las e estudar os seus resultados (Kothari, 2004). Neste metodo, os dados obtidospodem ser de natureza qualitativa ou quantitativa. Os dados de natureza qualitativa podemser recolhidos atraves de observacao (participante ou nao participante) ou atraves de entre-vistas (estruturadas, semiestruturadas e nao estruturadas) (Creswell, 2013; R. Yin, 2013).Os dados quantitativos sao recolhidos atraves de uma amostra de indivıduos com o intuitode os analisar estatisticamente. Geralmente sao utilizados questionarios estruturados comum conjunto de questoes definidas onde e possıvel obter graficos e tabelas (Creswell, 2013;R. Yin, 2013).

Page 10: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

1.3. Abordagem metodologica 3

1.3.2 Metodologia de data mining

Para a realizacao deste projeto de mestrado, sera seguida a metodologia Cross IndustryStandard Process for Data Mining (CRISP-DM). Esta metodologia surgiu em 1996 atraves detres jovens que atuavam no mercado de data mining. Foi sendo construıda com base emprojetos reais de data mining e, so em 1999 e que os seus criadores consideraram ter umrascunho de boa qualidade do modelo (Chapman et al., 2000). Esta metodologia representaum modelo de data mining que descreve o modelo de processos em termos hierarquicos comum conjunto de tarefas divididas em quatro nıveis de abstracao (Chapman et al., 2000):

1. Primeira fase, caracterizada pelas primeiras seis fases principais da metodologia;

2. Segunda fase, onde se encontram as tarefas genericas associadas as fases da metodo-logia e que podem ou nao ser executadas;

3. Terceira fase, caracterizada pelas tarefas especializadas, ou seja, onde sao descritascomo e que as tarefas correspondentes ao segundo nıvel devem ser realizadas.

4. Quarta fase, caracterizada pelas tarefas de execucao onde e descrito o que foi execu-tado na realidade.

Na figura 1.1, estao representadas as seis fases que devem ser tidas em conta no ciclode vida de um projeto de data mining. De salientar que a sequencia das fases pode seralterada consoante os resultados de cada fase ou tarefa e, por isso, as setas identificadascorrespondem aquilo que e mais importante e com dependencias frequentes entre cadauma das fases (Chapman et al., 2000). A seguir a figura, encontra-se uma descricao de cadauma das fases identificadas.

Page 11: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

1.3. Abordagem metodologica 4

Figura 1.1: Fases Crisp-DM, adaptado de (Chapman et al., 2000)

1. Entender o negocio: esta primeira fase e caracterizada por perceber o problema. Eaqui que devem ser definidos os objetivos do negocio e os objetivos de data mining e,ainda, associados os seus criterios de sucesso. Alem disso, devem ser entendidos osrequisitos, possıveis riscos e contingencias em causa e ainda um conjunto de termino-logias para se inteirar sobre o problema. Ainda nesta fase, e tambem produzido umplano de projeto a ter em conta durante a execucao do projeto.

2. Entender os dados: esta segunda fase inicia-se com uma recolha de dados inicial ondee realizada uma descricao e exploracao dos mesmo com o intuito de verificar a suaqualidade (identificar e listar possıveis erros relacionais);

3. Preparar os dados: nesta fase sao listados todos os dados que foram incluıdos ouexcluıdos acompanhados de uma breve justificacao. Posteriormente, devem ser des-critas as acoes que foram tomadas para resolver os problemas da qualidade dos dadosainda descritos os novos atributos que foram criados e o seu proposito. Como resul-tado desta fase e gerado um novo conjunto de dados a ser trabalhado e do qual deveser elaborada uma descricao.

4. Modelar: nesta fase sao selecionadas as tecnicas de modelacao a utilizar. Para testar aqualidade e validade do modelo e essencial elaborar uma matriz de testes iniciando-a

Page 12: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

1.3. Abordagem metodologica 5

com um pequeno conjunto de dados e, posteriormente, introduzir os restantes dados(abordagem mais segura). O modelo deve ser avaliado tendo em conta os criterios dedata mining e de negocio definidos e, caso os resultados nao tenham sido satisfatorios,novos testes devem ser desenvolvidos e descritos.

5. Avaliar: nesta fase e avaliado o modelo gerado tendo em conta os criterios de sucessoe os objetivos de negocio. Caso os resultados nao tenham sido satisfatorios, o modelodeve ser revisto de modo a perceber aquilo que falhou. No final desta fase, e deacordo com os resultados das fases anteriores, e necessario determinar se e precisocriar um novo projeto ou se e possıvel passar para a proxima fase da metodologia. Adecisao tomada deve ser descrita e justificada.

6. Implementacao: esta e a fase final da metodologia e caracteriza-se pela obtencao deum conjunto de modelos uteis para o negocio. E importante desenvolver uma es-trategia de implementacao do modelo e perceber como e que e possıvel tirar partidodos modelos criados. Alem disso como os dados podem ficar desatualizados, deveser elaborado um plano de monitorizacao dos mesmos. Para finalizar deve ser desen-volvido um relatorio onde estejam espelhadas todas as fases referidas anteriormente,permitindo assim uma revisao do projeto.

Neste projeto de mestrado, os dados utilizados serao imagens de documentos.

1.3.3 Processo de revisao da literatura

Para perceber os conceitos que estao inerentes a este projeto de mestrado, foi necessarioconsolidar os conhecimentos atraves de uma revisao de literatura. Varios sao os autoresque descrevem diferentes processos a ter em conta para iniciar uma revisao de literatura(Cronin, Ryan, & Coughlan, 2008; Webster & Watson, 2002; Randolph, 2009; Machi & McE-voy, 2016; Ridley, 2012; Jesson, Matheson, & Lacey, 2011). Para iniciar esta revisao deliteratura foram tidas em conta seis combinacoes de palavras-chave: “Optical CharacterRecognition”, “Document Image Analysis and Recognition”, “Document Image Preproces-sing”, “Document Image Layout Analysis”, “Document Image Information Extraction” e“Invoice Analysis Sistem”. Estas combinacoes foram colocadas em quatro motores de busca(Scholar, Scopus, Web of Science, IEEE Xplorer) onde foi colocada uma restricao de anos(2010-2018) fazendo com que esta revisao de literatura seja o mais atual possıvel. Numafase inicial foram utilizadas tres restricoes para a selecao dos documentos:

1. Numero de citacoes;

2. Disponibilidade online;

Page 13: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

1.4. Organizacao do documento 6

3. Conferencias ou revistas.

Apos esta primeira selecao, foram obtidos um conjunto de documentos dos quais foinecessario realizar um refinamento. Este refinamento foi seguido tendo em conta tresparametros:

1. Leitura do tıtulo e abstract;

2. Leitura da introducao e conclusao;

3. Leitura completa do documento.

O refinamento atraves destes parametros permitiu rastrear os documentos em grupos(dos mais importantes aos menos importantes) e, dessa forma, foi possıvel identificar oconjunto de documentos relevantes para realizar esta revisao de literatura. De salientarque, apesar de ter sido colocada uma restricao de anos, os conceitos aqui retratados naoemergiram recentemente. Dessa forma, foi necessario utilizar referencias go backward paracomplementar a revisao de literatura com documentos mais antigos e que sao citados na li-teratura recente. Alem disso, foram ainda tidas em conta referencias go forward que permiti-ram identificar documentos que citam os documentos mais relevantes. Todas as referenciasutilizadas foram geridas atraves da ferramenta BibTeX.

1.4 organizacao do documento

Este projeto de dissertacao encontra-se dividido em tres capıtulos.No primeiro capıtulo e feito um enquadramento, definidos os objetivos e a abordagem

metodologica a seguir.No segundo capıtulo e iniciado o enquadramento conceptual onde e feita a revisao de

literatura, seguindo a ordem que normalmente se encontram num sistema de DIAR.No terceiro capıtulo e feito um plano das atividades a seguir durante o projeto e referido

o trabalho ja realizado ate ao momento.

Page 14: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

2

E N Q U A D R A M E N T O C O N C E P T U A L

2.1 pre-processamento da imagem do documento

O processo de aquisicao da imagem digital de um documento de papel utilizando umscanner, uma camara digital ou um telemovel e denominado por aquisicao de documen-tos. Ao longo deste processo e introduzido ruıdo, inclinacao e outras variacoes que saoinevitaveis (Rehman & Saba, 2014). Posto isto, o pre-processamento e obrigatorio na maio-ria dos processos onde e necessario aplicar Optical Character Recognition (OCR), analise dolayout e classificacao do documento (Rehman & Saba, 2014). O pre-processamento da ima-gem, normalmente, inclui binarizacao para reduzir uma imagem em escala de cinzas parauma imagem binaria, reducao de ruıdo e normalizacao (O’Gorman & Kasturi, 1995). Estastecnicas sao aplicadas para que seja possıvel extrair informacao de qualidade da imagem epara que seja possıvel atingir melhores resultados de OCR.

2.1.1 Binarizar a imagem do documento

A binarizacao e utilizada para separar o texto do fundo da imagem e usa uma tecnica deselecao de threshold para categorizar todos os pixeis como texto ou como fundo da imagem,atribuindo o valor de 0 ou 1, correspondentemente. Esta fase permite que as imagensocupem um menor espaco de armazenamento, melhora a legibilidade das areas de texto epermite que o processamento futuro seja mais rapido para a segmentacao e reconhecimentoda pagina (B. G. Gatos, 2014). Na literatura foram encontrados os seguintes termos para abinarizacao de uma imagem como thresholding, separacao ou segmentacao do texto/fundoe eliminacao do fundo. O termo utilizado neste projeto de dissertacao sera binarizacao.

A binarizacao de um documento refere-se a conversao de uma imagem a cores ou em es-cala de cinzas para uma imagem binaria. Numa imagem binaria cada pixel e representadopor um 0 ou 1 (1 bit). Numa imagem em escala de cinzas cada pixel e representado por umvalor entre 0 e 255 (8 bits). Este valor representa a intensidade do pixel na escala de cinzas,sendo 0 a cor preta e 255 a cor branca. Numa imagem a cores, normalmente, cada pixel e

Page 15: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

2.1. Pre-processamento da imagem do documento 8

representado por 3 valores entre 0 e 255 que representam a intensidade da cor vermelha,verde e azul (RGB) (O’Gorman & Kasturi, 1995).

Neste projeto de dissertacao como o objeto de estudo sao imagens de documentos, iraoser consideradas imagens em escala de cinzas ou binarias para o estudo.

A binarizacao de imagens tem sido um assunto sujeito a intensa pesquisa no campo doprocessamento de imagens de documentos durante os ultimos anos. Esta intensa pesquisajustifica-se pelo facto de a binarizacao ser uma tarefa desafiante por existirem imagens de-gradadas, variacao da intensidade do fundo, baixo contraste, sombras e manchas (B. G. Ga-tos, 2014).

No geral, as tecnicas de binarizacao da imagem de documentos sao globais ou locais (B. G. Ga-tos, 2014). Estas irao ser descritas nas proximas duas subseccoes.

Binarizacao global

Numa abordagem global, a selecao do threshold usa o mesmo valor de threshold T paratoda a imagem. Se I(x, y) e a imagem original em escala de cinzas, a imagem binariaresultante e B(x, y), definida como:

B(x, y) =

1 if I(x, y) ≤ T

0 if I(x, y) > T

Na Figura 2.1 e apresentado um histograma H(g) de um recibo digitalizado em escala decinzas. Este histograma representa a distribuicao dos pixeis nos 256 nıveis de intensidadeda escala de cinzas (g), sendo 0 equivalente a cor preta e 255 equivalente a cor branca.

No histograma 2.1b e possıvel observar que existe uma separacao entre o texto e o fundodo recibo. Existe um pico de pixeis com o valor perto de 255 correspondente ao fundo daimagem, onde a cor branca predomina, e no outro extremo existe outro pico de pixeis como valor perto de 0 que corresponde a cor preta do texto.

Nas tecnicas de threshold global (Otsu, 1979; Cheriet, Said, & Suen, 1998; Solihin & Le-edham, 1999) o objetivo e encontrar um threshold T otimo de forma a separar esses dois pi-cos. A escolha do threshold afeta diretamente a binarizacao da imagem, como foi possıvel ob-servar na Figura 2.2. A escolha de um valor baixo para T pode levar a perda de informacaoimportante provocando quebras nos caracteres (Figura 2.2a), enquanto que um valor altopara T pode levar a que o ruıdo do fundo nao seja removido e seja ainda fundido com os ca-racteres (Figura 2.2c). Usando um valor perto do valor otimo tendo em conta a interpretacaodo histograma 2.1b , e possıvel obter uma imagem em que o fundo e o texto estao comple-tamente separados e o ruıdo de fundo e completamente removido sem que os caracteressofressem quebras com este processo.

Page 16: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

2.1. Pre-processamento da imagem do documento 9

(a)

0 50 100 150 200 250

0

2

4

6

8

·105

gH(g)

(b)

Figura 2.1: Demonstracao de um histograma de escala de cinzas: (a) recibo digitalizado em escalade cinzas e (b) o seu respetivo histograma

(a) (b) (c)

Figura 2.2: Resultado da binarizacao da figura 2.1:(a) T = 30, (b) T = 148, (c) T = 197

Page 17: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

2.1. Pre-processamento da imagem do documento 10

Binarizacao local

Com a binarizacao global e possıvel obter bons resultados quando existe uma separacaonotavel entre o texto e o fundo da imagem (como na Figura 2.1). Se esta separacao nao forclara a binarizacao global falha.

Na Figura 2.3 e possıvel observar que o histograma nao segue uma distribuicao bimodalcomo na Figura 2.1. Isto acontece pois a Figura 2.3a nao tem uma luminosidade uniforme,devido a sombras e tambem por ter sido capturada atraves de uma camara de um telemovel.

(a)

0 50 100 150 200 250

0

1

2

3·105

g

H(g)

(b)

Figura 2.3: Demonstracao de um histograma de escala de cinzas: (a) recibo fotografado em escalade cinzas e (b) o seu respetivo histograma

Na Figura 2.4 e possıvel verificar que como o histograma 2.3b nao segue uma distribuicaobimodal, com a aplicacao de um threshold global nao e possıvel obter bons resultados. Pararesolver este problema foram desenvolvidas tecnicas de binarizacao local (Niblack, 1985;Kamel & Zhao, 1993; Sauvola & Pietikainen, 2000; Yang & Yan, 2000; B. Gatos, Pratikakis,& Perantonis, 2006; Phansalkar et al., 2011) que inves de tentarem encontrar um thresholdglobal otimo para a imagem, usam informacao de areas locais da imagem para definirem ovalor do threshold para cada pixel da imagem (B. G. Gatos, 2014).

Page 18: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

2.1. Pre-processamento da imagem do documento 11

(a) (b) (c)

Figura 2.4: Resultado da binarizacao da figura 2.3:(a) T = 50, (b) T = 100, (c) T = 140

Na Figura 2.5 podemos ver a aplicacao da tecnica de binarizacao local desenvolvida por(Phansalkar et al., 2011) e e possıvel verificar que se obtem melhores resultados do que naaplicacao de um threshold global.

Figura 2.5: Binarizacao local (Phansalkar et al., 2011)

Page 19: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

2.1. Pre-processamento da imagem do documento 12

Visao geral das principais tecnicas de binarizacao

A seguir e apresentada a Tabela 2.1 com as principais tecnicas de binarizacao de ima-gens. Para cada tecnica e apresentada a sua referencia, categoria a que pertence, uma brevedescricao e observacoes da mesma.

Tabela 2.1: Visao geral das principais tecnicas de binarizacao (B. G. Gatos, 2014)

Referencia Categoria Breve descricao Observacao

(Otsu,1979)

Binarizacaoglobal

O threshold otimo e calculadoatraves da separacao dos pi-xeis em duas classes, paraque a sua variancia entre clas-ses seja maximizada

So e bem sucedidose a imagem dodocumento tiverum histograma comdistribuicao bimodal

(Cheriet etal., 1998)

Binarizacaoglobal

Aplicacao recursiva do algo-ritmo de Otsu (Otsu, 1979)para tratar imagens commultiplos fundos

Foi demonstrado nabinarizacao de che-ques bancarios

(Solihin &Leedham,1999)

Binarizacaoglobal

Uma abordagem de threshol-ding em duas fases, na pri-meira fase e atribuıdo umade tres classes (fundo, pri-meiro plano, area difusa)

Desenvolvido para abinarizacao de ima-gens de manuscritosem escala de cinzas

(Niblack,1985)

Binarizacaolocal

Calcula o threshold paracada pixel atraves da suavizinhanca movendo umajanela retangular por toda aimagem

Ruıdo de fundo pre-sente na imagemtalvez permaneca naimagem binarizada

(Sauvola &Pietikainen,2000)

Binarizacaolocal

E uma modificacaode (Niblack, 1985) queadiciona uma hipotese aosvalores dos pixeis cinzentosdo texto e do fundo

O ruıdo de fundoe removido mas eprovavel que haja que-bras nos caracteres

(Kamel &Zhao, 1993)

Binarizacaolocal

A largura dos caracteres eum threshold global sao usa-dos para detetar diferencassignificativas nos valores daescala de cinzas a volta docorpo dos caracteres

E difıcil definirparametros para estemetodo

Page 20: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

2.1. Pre-processamento da imagem do documento 13

(Yang &Yan, 2000)

Binarizacaolocal

E uma modificacaode (Kamel & Zhao, 1993)em que a largura dos ca-racteres e automaticamentedetetada e o threshold eadaptado localmente

Feito para imagensde documentos emescala de cinzas compouca qualidade.Nao e necessarioparametrizacao ma-nual

(B. Gatos etal., 2006)

Binarizacaolocal

Metodo adaptativo base-ado no pre-processamento,calculo do fundo e da su-perfıcie, e pos-processamento

Para documentos comsombras, iluminacaovariada, baixo con-traste e ruıdo

2.1.2 Melhorar a imagem do documento

As imagens de documentos normalmente apresentam problemas devido ao uso dos do-cumentos, pobres condicoes de armazenamento, assim como ruıdo introduzido na capturada imagem (inclinacao, iluminacao variada, etc) (B. G. Gatos, 2014).

Baixo contraste e iluminacao variada

A melhoria do contraste e um tema muito abordado no processamento de imagem. Aequalizacao do histograma e a tecnica mais comum, simples e eficaz para a melhoria docontraste das imagens (B. G. Gatos, 2014).

A regularizacao total da variacao da imagem reduz os nıveis de cinza do fundo da ima-gem e o seu ruıdo de fundo. O filtro Non-local means pode suavizar os caracteres e melhorara sua qualidade baseando-se na informacao dos pixeis vizinhos. Estas duas tecnicas foramcombinadas por (Likforman-Sulem, Darbon, & Smith, 2011) para melhorar a qualidade dedocumentos historicos impressos.

Operacoes morfologicas tambem podem ser utilizadas para melhorar a qualidade defundo da imagem de um documento. Em (Nomura, Yamanaka, Shiose, Kawakami, & Katai,2009), estas operacoes sao utilizadas para remover formas indesejadas, chamadas de “som-bras crıticas”, do fundo da imagem do documento antes de se proceder para a binarizacao.Estas sombras crıticas podem aparecer devido a alteracoes de cor, contraste muito baixo,baixa qualidade de foco e iluminacao pobre ou variada (B. G. Gatos, 2014). A tecnica usadaem (Nomura et al., 2009) e adaptativa e sem parametrizacao e consegue localizar estas“sombras crıticas” no fundo de imagens de documentos em escala de cinzas e ilumina-asantes de aplicar uma tecnica de binarizacao.

Page 21: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

2.1. Pre-processamento da imagem do documento 14

Caracteres danificados ou ruıdo de fundo

A melhoria das areas de caracteres e a eliminacao de ruıdo de fundo sao normalmenteum passo depois da binarizacao da imagem do documento (B. Gatos et al., 2006; Yang &Yan, 2000).

(Drira, LeBourgeois, & Emptoz, 2012) apresenta um estudo para o restauro de caracteresdegradados, que consiste na reparacao da sua forma, das suas caracterısticas assim como ex-trapolando informacoes perdidas. Este estudo sugere a utilizacao de Partial Diffusion Equa-tion (PDE) para melhorar o texto degradado de imagens de documentos. (Obafemi-Ajayi,Agam, & Frieder, 2010) introduziu um sistema adaptativo automatizado para a correcaode caracteres degradados. E baseado em algoritmos de classificacao por tabelas de pes-quisa e aprende os padroes de correcao para caracteres degradados. A maior limitacaodeste metodo e que depende da geracao de imagens com boa qualidade para a colecao deimagens de documentos em que sera aplicada.

2.1.3 Normalizar a imagem do documento

A digitalizacao de documentos e captura atraves de dispositivos moveis resulta em ima-gens que sofrem de inclinacao, deformacao e distorcao da perspetiva que diminuem aperformance do OCR (B. G. Gatos, 2014). A orientacao do documento nao e conhecida apriori, o que leva a que o texto possa estar com uma rotacao de 90 graus ou ate mesmo deinvertido. Posto isto e imperativo existir um passo em que e realizada a normalizacao dodocumento.

Orientacao da pagina

O primeiro passo referente a normalizacao do documento, e a detecao e correcao daorientacao da imagem do documento. Dessa forma, foram desenvolvidos varios algoritmosao longo dos ultimos anos que serao apresentados nas seguintes categorias:

• Retrato ou paisagem, a imagem do documento pode apresentar uma rotacao de 90

graus ficando os caracteres de lado, o que leva a que o OCR nao consiga reconheceros caracteres corretamente (Le, Thoma, & Wechsler, 1994; van Beusekom, Shafait, &Breuel, 2010; P.-Y. Yin, 2001);

• Texto normal ou invertido na vertical, a imagem do documento pode apresentaruma rotacao de 180 graus fazendo com que os caracteres estejam invertidos e sejaimpossıvel ao OCR reconhecer os caracteres corretamente (Caprari, 2000; Aradhye,2005).

Page 22: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

2.1. Pre-processamento da imagem do documento 15

Inclinacao da imagem do documento

A inclinacao da imagem do documento e muitas vezes inserida durante a captura dodocumento, afetando as seguintes fases da segmentacao e reconhecimento (Marinai, 2008).A literatura sobre a inclinacao dos documentos recai sobre as categorias de:

• Projecao de perfis, de acordo com estas tecnicas, uma serie de projecoes de perfishorizontais e calculada conforme se roda o documento, num determinado intervalode angulos. A otimizacao de uma funcao objetivo para um determinado angulo deinclinacao leva a determinacao da inclinacao do documento (Baird, 1987; Akiyama &Hagita, 1990; Li, Shen, & Sun, 2007);

• Transformada de Hough, como normalmente a inclinacao da imagem do documentocorresponde a inclinacao das linhas do texto, a utilizacao da transformada de Houghpara a detecao de linhas retas foi proposta como uma ferramenta para a detecao dainclinacao do documento (Amin & Fischer, 2000; Singh, Bhatia, & Kaur, 2008);

• Nearest neighboring clustering, de acordo com estas abordagens, a relacao espaciale distancia mutuas dos componentes conectados sao usadas para calcular a inclinacaodos documentos (O’Gorman, 1993; Y. Lu & Tan, 2003; Y. Cao, Wang, & Li, 2003);

• Correlacao cruzada, estas abordagens sao baseadas na medicao do desvio vertical en-tre os pixeis do texto ao longo da imagem do documento para determinar a inclinacaodo mesmo (B. Gatos, Papamarkos, & Chamzas, 1997; Yan, 1993);

• Segmentacao, esta metodologia primeiro procede a analise da imagem do documentopara detetar objetos (palavras, linhas de texto). Apos a detecao dos objetos calcula asua inclinacao e, baseada nesta inclinacao, calcula a inclinacao do documento (Liu,Wu, Zha, & Liu, 2008; Chou, Chu, & Chang, 2007; Fan, Zhu, & Tang, 2010).

Deformacao e distorcao da perspetiva da imagem do documento

A deformacao e distorcao da perspetiva e introduzida quando a imagem do documentoe capturada. Estas distorcoes sao mais comuns quando a captura do documento e feitaatraves de uma camara. As distorcoes do texto reduzem a legibilidade do documento etambem afetam a performance do passos seguintes, como e o caso da analise do layout e oOCR (B. G. Gatos, 2014).

Diferentes tecnicas foram propostas na literatura para resolver este problema. Estas po-dem ser classificadas em duas categorias baseadas na reconstrucao da forma do documento3-D (H. Cao, Ding, & Liu, 2003; Liang, DeMenthon, & Doermann, 2008; Zhang, Yip, Brown,& Tan, 2009) e processamento da imagem do documento 2-D (Lavialle, Molines, Angella,& Baylou, 2001; Wu & Agam, 2002; Zhang & Tan, 2005; Stamatopoulos, Gatos, Pratika-kis, & Perantonis, 2011; Ulges, Lampert, & Breuel, 2005; S. Lu, Chen, & Ko, 2006; Brown

Page 23: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

2.2. Analise do Layout 16

& Tsoi, 2006; Masalovitch & Mestetskiy, 2007). Tecnicas da primeira abordagem obtema informacao 3-D da imagem do documento usando equipamento adequado para a cap-tura dessa informacao ou reconstruindo o modelo 3-D atraves de informacao presente naimagem do documento. Por outro lado, tecnicas da segunda categoria nao dependem dehardware auxiliar ou informacao a priori, mas sim da informacao 2-D presente na imagemdo documento.

2.2 analise do layout

A analise do layout da imagem so e iniciada assim que e detetada a sua inclinacao, geral-mente com uma inclinacao de zero graus (Kasturi, O’gorman, & Govindaraju, 2002). Todosos documentos contem um conjunto de caracterısticas como, o texto, graficos, imagens que,devem ser processadas de forma adequada. Para isso, e necessario analisar o seu conteudorecorrendo a analise do layout do documento. Esta analise permite segmentar o documentoem partes homogeneas, denominada de analise do layout fısico/estrutural/geometrico, eatribuir-lhes um significado, denominada de analise do layout logico/funcional/sintatico(Marinai, 2008; Namboodiri & Jain, 2007).

2.2.1 Analise do layout fısico/estrutural/geometrico

Ao processo de decompor uma imagem em regioes homogeneas como figuras e blocosde texto da-se o nome de Document Layout Analysis (DLA) (Namboodiri & Jain, 2007). Pararealizar uma analise do layout fısico dos documentos, existem algoritmos de segmentacaopara o processamento da imagem (Marinai, 2008). Namboodiri e Jain, (2007) dividem estesalgoritmos em duas categorias: algoritmos bottom-up e algoritmos top-down. Os algoritmosbottom-up iniciam o processamento da imagem recorrendo aos componentes mais peque-nos, como os pixeis, com o objetivo de criar regioes maiores e homogeneas. Os algoritmostop-down iniciam o processamento da imagem com o documento completo e, a partir deste,dividem-no em regioes mais pequenas (Namboodiri & Jain, 2007). Geralmente, este algo-ritmo e mais rapido que o algoritmo bottom-up. Contudo apenas funciona bem em docu-mentos que possuam um layout regular (Marinai, 2008). Alem disso, estes dois algoritmospodem ser combinados dando origem a um algoritmo hıbrido (Mao, Rosenfeld, & Kanungo,2003). O algoritmo de Docstrum (O’Gorman, 1993), o algoritmo baseado no diagrama deVoronoi (Kise, Sato, & Iwata, 1998), o algoritmo run-length smearing (Wahl, Wong, & Casey,1982), o algoritmo de segmentacao (Jain & Yu, 1998) e o algoritmo de separacao de stringde texto (Fletcher & Kasturi, 1988) sao algoritmos bottom-up. O algoritmo XY (Nagy, Seth,& Viswanathan, 1992) e o algoritmo baseado em formas (Baird, Jones, & Fortune, 1990) saoexemplos de algoritmos top-down (Mao et al., 2003).

Page 24: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

2.2. Analise do Layout 17

2.2.2 Analise do layout logico/funcional/sintatico

Alem do layout fısico referido na subseccao anterior, os documentos possuem outrasinformacoes como os tıtulos, os paragrafos, as legendas, o idioma em que se encontra(Namboodiri & Jain, 2007) o tamanho de cada bloco, a sua posicao, tamanho dos caracterese espacamento (Marinai, 2008). Esta analise atribui a cada bloco identificado na analiseanterior a sua funcao (Kasturi et al., 2002). Segundo Nagy, Seth, e Viswanathan (1992) aanalise do layout fısico pode ocorrer em simultaneo com a analise do layout logico uma vezque e atribuıdo um significado a cada bloco identificado. Contudo, na maior parte doscasos isto nao e exequıvel visto que deve ser analisada a regiao e so depois definida a classea que pertence (Marinai, 2008). Na Figura 2.6, encontra-se o exemplo da analise do layoutfısico e logico de uma fatura.

Page 25: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

2.2. Analise do Layout 18

(a)

(b) (c)

Figura 2.6: Analise do layout de uma fatura: (a) fatura a analisar, (b) analise do layout fısico, (c)analise do layout logico

Page 26: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

2.3. Reconhecimento otico de caracteres (OCR) 19

2.3 reconhecimento otico de caracteres (ocr)

Reconhecimento otico de caracteres, mais conhecido por OCR, e efetuado para converteruma imagem que contem caracteres impressos ou manuscritos num formato que consigaser interpretado por um computador (ASCII ou unicode) (Marinai, 2008).

O OCR e uma das primeiras aplicacoes de inteligencia artificial e reconhecimento depadroes (H. Cao, 2014).

Antes da imagem do documento chegar a fase do reconhecimento, esta necessita depassar por alguns passos preparatorios, que foram descritos anteriormente (binarizacao,eliminacao do ruıdo de fundo, melhoria da qualidade da imagem, normalizacao do docu-mento e segmentacao do documento) (H. Cao, 2014).

Os sistemas de OCR usam extensivamente metodologias de reconhecimento de padroesque atribuem uma classe predefinida a uma amostra desconhecida (Chaudhuri, Mandaviya,Badelia, & Ghosh, 2017). O OCR e investigado em quatro abordagens de reconhecimentode padroes como sugerido em (Chaudhuri et al., 2017; Arica & Yarman-Vural, 2001): corres-pondencia de modelos, tecnicas estatısticas, tecnicas estruturais e Artificial Neural Networks(ANNs). Estas abordagens nao sao necessariamente independentes nem disjuntas umasdas outras. Ocasionalmente, uma tecnica de OCR de uma abordagem tambem pode serconsiderada como membro de outras abordagens. Em todas as abordagens acima identifi-cadas, as tecnicas de OCR utilizam estrategias holısticas ou analıticas para as fase de treinoe reconhecimento. A estrategia holıstica emprega abordagens de top-down para reconhe-cer o carater completo, eliminando o problema da segmentacao. O custo dessa economiacomputacional e restringir o problema do OCR a vocabulario limitado. Alem disso, de-vido a complexidade introduzida pela representacao de um unico caracter, a precisao doreconhecimento diminui. Por outro lado, as estrategias analıticas empregam uma aborda-gem bottom-up a partir do traco ou caracter avancando de maneira a produzir texto comsignificado. Os algoritmos de segmentacao explıcita ou implıcita sao necessarios para estaestrategia, nao so adicionando complexidade extra ao problema, mas tambem introduzindoerro de segmentacao no sistema. No entanto, com a colaboracao da fase de segmentacao, oproblema e reduzido ao reconhecimento de caracteres isolados simples ou tracos, que po-dem ser tratados para vocabulario ilimitado com altas taxas de reconhecimento (Chaudhuriet al., 2017). A seguir encontram-se as abordagens utilizadas para realizar OCR:

• Correspondencia de modelos: A maneira mais simples de realizar OCR e baseadaem prototipos armazenados contra o caracter a ser reconhecido. De um modo geral,a operacao de correspondencia determina o grau de semelhanca entre dois vetorescomo grupo de pixeis, formas, etc. As tecnicas de correspondencia podem ser classifi-cadas em tres classes: correspondencia direta (Tubbs, 1989; Gader et al., 1991), moldes

Page 27: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

2.3. Reconhecimento otico de caracteres (OCR) 20

deformaveis e correspondencia elastica (Jain & Zongker, 1997; Hu & Pavlidis, 1996;Tappert, 1982), e correspondencia de relaxamento (Price, 1985; Xie & Suk, 1988);

• Tecnicas estatısticas: a teoria da decisao estatıstica esta preocupada com funcoesde decisao estatıstica e um conjunto de criterios de otimizacao que maximizem aprobabilidade do padrao observado dado o modelo de uma certa classe (Arica &Yarman-Vural, 2001; Chaudhuri et al., 2017). As tecnicas estatısticas sao principal-mente baseadas em tres grandes pressupostos, tais como: (i) A distribuicao do con-junto de caracterısticas e gaussiana ou no pior caso uniforme (ii) Existem estatısticassuficientes disponıveis para cada classe e (iii) Dado um conjunto de imagens em cadauma e possıvel extrair um conjunto de caracterısticas que representa cada classe dis-tinta de padroes. As medidas tiradas de n caracterısticas de cada caracter podem serrepresentadas num espaco vetorial de n dimensoes e o vetor cujas coordenadas cor-respondem as medidas originais representa o caracter original. As principais aborda-gens estatısticas aplicadas em OCR sao: reconhecimento nao parametrico (S. J. Smith,Bourgoin, Sims, & Voorhees, 1994), reconhecimento parametrico (Belkasim, Shridhar,& Ahmadi, 1991), clustering analysis (Yarman-Vural & Ataman, 1987), hidden markovchains (M. Mohamed & Gader, 1996; M. A. Mohamed & Gader, 2000) e fuzzy set reaso-ning (Abuhaiba & Ahmed, 1993; Wang & Mendel, 1992);

• Tecnicas estruturais: a descricao recursiva de um padrao complexo em termos depadroes mais simples com base na forma do objeto foi a ideia inicial por tras dacriacao do reconhecimento de padroes estruturais. Esses padroes sao usados paradescrever e classificar os caracteres em sistemas OCR. Os caracteres sao representadoscomo a uniao das primitivas estruturais. Assume-se que as primitivas de caracteresforam extraıdas da escrita, sao quantificaveis e pode-se encontrar as relacoes entreelas. Os metodos estruturais que sao aplicados aos problemas OCR sao: metodosgramaticais (Pavlidis, 1993; Shridhar & Badreldin, 1985) e metodos graficos (S. W. Lu,Ren, & Suen, 1991; Simon, 1992);

• ANNs: a Artificial Neural Network (ANN) possui uma arquitetura massivamente para-lela de tal forma que executa a computacao a uma maior taxa em comparacao comas tecnicas classicas. Adapta-se as mudancas nos dados e aprende as caracterısticasdo sinal de entrada. Uma ANN contem muitos nos. A saıda de um no correspondea entrada de outro no na rede e a decisao final depende da complexa interacao detodos os nos. Apesar dos diferentes princıpios subjacentes, pode-se mostrar que amaioria das arquiteturas ANN e equivalente aos metodos estatısticos de reconheci-mento de padroes (Chaudhuri et al., 2017). Existem varias abordagens para o treinode ANNs (Chaudhuri et al., 2017). Estes incluem a correcao de erros, boltzman, hebbiane competitive learning. Estes cobrem a entrada de valor contınuo e binario, bem como

Page 28: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

2.4. Sıntese do enquadramento conceptual 21

supervised learning e unsupervised learning. As arquiteturas ANN sao classificadas emdois grandes grupos, tais como redes de feedforward e feedback (recorrentes). As ANNsmais comuns usadas nos sistemas OCR sao a multilayer perceptron pertencente as re-des feedforward e o kohonen’s self-organizing map das redes de feedback (Chaudhuri etal., 2017). O multilayer perceptron proposto por Rosenblatt (Chaudhuri et al., 2017) eelaborado por Minsky e Papert (Chaudhuri et al., 2017) foi aplicado em OCR. Umexemplo e a rede de reconhecimento de caracterısticas proposto por por Hussain eKabuka (Chaudhuri et al., 2017) que tem um esquema de deteccao de dois nıveis. Oprimeiro nıvel e para a deteccao de sub-padroes e o segundo nıvel e para a deteccaodos caracteres. A abordagem feedforward ANN para reconhecimento otico de ca-racteres impressos provou ser bem sucedido (Chaudhuri et al., 2017) onde a ANNe treinada com uma base de dados de 98 caracteres e e testada em 300.000 caracte-res gerados por uma impressora a laser postscript com 12 fontes comuns de tamanhovariavel. Aqui Garland et al. propos uma ANN de duas camadas treinada por umprocesso de centroid dithering.

2.4 sintese do enquadramento conceptual

Na Figura 2.7 encontra-se representado um esquema onde e possıvel observar o conjuntode conceitos abordados nesta revisao de literatura. Os conceitos abordados foram apresen-tados na ordem em que, normalmente, se encontram num sistema de analise de imagensde documentos.

Figura 2.7: Sıntese da revisao de literatura

Page 29: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

3

T R A B A L H O R E A L I Z A D O E P L A N O D E AT I V I D A D E S

Desde o inıcio do projeto de dissertacao, alem de ter sido realizada uma revisao de li-teratura, foi tambem realizado trabalho para a proxima fase deste projeto de dissertacao.O trabalho realizado foi principalmente a exploracao de ferramentas que possam contri-buir para a realizacao e sucesso deste projeto. A linguagem escolhida para realizacao doprojeto foi Python devido a vasta quantidade de bibliotecas que apresenta para computervision, comunidade ativa que suporta estas bibliotecas e o facto de ser uma linguagem naoproprietaria.

Foram exploradas as seguintes ferramentas:

• Ferramentas de processamento de imagem:

– Scikit-image, e uma biblioteca de processamento de imagem que implementaalgoritmos para usar em investigacao, educacao e aplicacoes industriais. Apre-senta uma Application Programming Interface (API) em Pyhton bem documentada,desenvolvida por uma equipa ativa de colaboradores internacionais (van derWalt et al., 2014);

– Opencv, e uma biblioteca de computer vision e machine learning. Tem API paraC++, C, Python, Java e MATLAB e suporta Windows, Linux, Android e Mac OS.Implementa mais de 2500 algoritmos otimizados tanto algoritmos classicos comoestado da arte (Bradski, 2000);

• Ferramentas de DIAR:

– Gamera, e uma biblioteca com API em Python, criada para construir aplicacoesde DIAR. A API esta bem documentada contendo sempre as referencias aos arti-gos que derao origem a determinado algoritmo. Permite a adicao de extensoes.Foi criada e e mantida pelo Digital Knowledge Center of the Johns Hopkins University(USA) (Dalitz, 2009);

– Ocropus, e uma colecao de programas de DIAR (Breuel, 2008).

• Ferramentas de OCR:

Page 30: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

23

– Tesseract, e um sistema de OCR que foi originalmente desenvolvido pela Hewlett-Packard em 1985, posteriormente em 2005 foi tornado um projeto de codigoaberto pela HP, e tem sido desenvolvido pela Google desde 2006. Suporta uni-code (UTF-8), consegue reconhecer mais de 100 lınguas. Suporta varios tipos deformatos de saıda, texto, hocr(html), pdf, tsv. Pode ser treinado para reconhecernovas linguagens (R. Smith, 2007).

Para executar este projeto de mestrado, foi desenvolvido um plano de atividades quepermite alocar as atividades e o seu tempo de execucao durante o perıodo de concretizacaodo projeto. Tal como foi referido na seccao 1.3, neste projeto de mestrado vai ser seguidaa metodologia CRISP-DM. Esta metodologia esta dividida em seis fases e, portanto, estadissertacao seguira essa divisao. Segundo o guia de dissertacao fornecido pela Universi-dade do Minho, para a concretizacao do projeto de mestrado deverao ser utilizadas 1260

horas de trabalho. Dessa forma, sendo que o projeto teve inıcio em novembro e terminaraem junho (8 meses), serao dedicadas 8 horas durante 20 dias de cada mes. Isto perfaz umtotal de 1280 horas, o que esta entre o numero de horas estipulado. Apesar de estaremdefinidos 8 meses de trabalho, existem datas de entrega que tem de ser cumpridas duranteesse perıodo de tempo, segundo o calendario do processo de dissertacao:

1. Entrega do projeto de dissertacao (ate 22 de janeiro de 2018);

2. Entrega do relatorio de dissertacao (ate 22 de junho de 2018);

3. Apresentacao da dissertacao (a decorrer no mes de julho de 2018)

Posto isto, na tabela 3.1, encontram-se as atividades a realizar tendo em conta a divisaodo CRISP-DM. De notar que os meses estao representados de forma numerica.

Figura 3.1: Plano de atividades

Page 31: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

Referencias 24

referencias

Abuhaiba, I., & Ahmed, P. (1993). A fuzzy graph theoretic approach to recognize the totallyunconstrained handwritten numerals. Pattern Recognition, 26(9), 1335–1350.

Akiyama, T., & Hagita, N. (1990). Automated entry system for printed documents. Patternrecognition, 23(11), 1141–1154.

Amin, A., & Fischer, S. (2000). A document skew detection method using the houghtransform. Pattern Analysis & Applications, 3(3), 243–253.

Aradhye, H. B. (2005). A generic method for determining up/down orientation of text inroman and non-roman scripts. Pattern Recognition, 38(11), 2114–2131.

Arica, N., & Yarman-Vural, F. T. (2001). An overview of character recognition focusedon off-line handwriting. IEEE Transactions on Systems, Man, and Cybernetics, Part C(Applications and Reviews), 31(2), 216–233.

Baird, H. S. (1987). The skew angle of printed documents. In Conf of the society of photographicscientists and engineer (pp. 14–21).

Baird, H. S., Jones, S. E., & Fortune, S. J. (1990). Image segmentation by shape-directedcovers. In Pattern recognition, 1990. proceedings., 10th international conference on (Vol. 1,pp. 820–825).

Belkasim, S. O., Shridhar, M., & Ahmadi, M. (1991). Pattern recognition with momentinvariants: a comparative study and new results. Pattern recognition, 24(12), 1117–1138.

Bradski, G. (2000). The OpenCV Library. Dr. Dobb’s Journal of Software Tools.Breuel, T. M. (2008). The ocropus open source ocr system. DRR, 6815, 68150.Brown, M. S., & Tsoi, Y.-C. (2006). Geometric and shading correction for images of printed

materials using boundary. IEEE Transactions on Image Processing, 15(6), 1544–1554.Cao, H. (2014). Machine-printed character recognition. In D. Doermann & K. Tombre

(Eds.), Handbook of document image processing and recognition (pp. 331–358). London:Springer London. Retrieved from https://doi.org/10.1007/978-0-85729-859-1 44

doi: 10.1007/978-0-85729-859-1 44

Cao, H., Ding, X., & Liu, C. (2003). Rectifying the bound document image captured bythe camera: A model based approach. In Document analysis and recognition, 2003.proceedings. seventh international conference on (pp. 71–75).

Cao, Y., Wang, S., & Li, H. (2003). Skew detection and correction in document images basedon straight-line fitting. Pattern Recognition Letters, 24(12), 1871–1879.

Caprari, R. S. (2000). Algorithm for text page up/down orientation determination. PatternRecognition Letters, 21(4), 311–317.

Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R. (2000).Crisp-Dm 1.0. CRISP-DM Consortium, 76. doi: 10.1109/ICETET.2008.239

Page 32: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

Referencias 25

Chaudhuri, A., Mandaviya, K., Badelia, P., & Ghosh, S. K. (2017). Optical character re-cognition systems. In Optical character recognition systems for different languages withsoft computing (pp. 9–41). Cham: Springer International Publishing. Retrieved fromhttps://doi.org/10.1007/978-3-319-50252-6 2 doi: 10.1007/978-3-319-50252-6 2

Cheriet, M., Said, J. N., & Suen, C. Y. (1998). A recursive thresholding technique for imagesegmentation. IEEE transactions on image processing, 7(6), 918–921.

Chou, C.-H., Chu, S.-Y., & Chang, F. (2007). Estimation of skew angles for scanned do-cuments based on piecewise covering by parallelograms. Pattern Recognition, 40(2),443–455.

Creswell, J. W. (2013). Research Design: Qualitative, Quantitative, and Mixed Methods Appro-aches (4a ed.). SAGE Publications Inc. Retrieved from https://books.google.pt/

books?isbn=1452226091

Cronin, P., Ryan, F., & Coughlan, M. (2008). Undertaking a literature review: a step-by-stepapproach. British journal of nursing, 17(1), 38–43.

Dalitz, C. (2009). A tutorial introduction to the gamera framework.Drira, F., LeBourgeois, F., & Emptoz, H. (2012). A new pde-based approach for singularity-

preserving regularization: application to degraded characters restoration. Internationaljournal on document analysis and recognition, 1–30.

Fan, H., Zhu, L., & Tang, Y. (2010). Skew detection in document images based on rectan-gular active contour. International journal on document analysis and recognition, 13(4),261–269.

Fletcher, L. A., & Kasturi, R. (1988). A robust algorithm for text string separation from mi-xed text/graphics images. IEEE transactions on pattern analysis and machine intelligence,10(6), 910–918.

Gader, P., Forester, B., Ganzberger, M., Gillies, A., Mitchell, B., Whalen, M., & Yocum,T. (1991). Recognition of handwritten digits using template and model matching.Pattern recognition, 24(5), 421–431.

Gatos, B., Papamarkos, N., & Chamzas, C. (1997). Skew detection and text line positiondetermination in digitized documents. Pattern Recognition, 30(9), 1505–1519.

Gatos, B., Pratikakis, I., & Perantonis, S. J. (2006). Adaptive degraded document imagebinarization. Pattern recognition, 39(3), 317–327.

Gatos, B. G. (2014). Imaging techniques in document analysis processes. In D. Doermann& K. Tombre (Eds.), Handbook of document image processing and recognition (pp. 73–131).London: Springer London. Retrieved from https://doi.org/10.1007/978-0-85729

-859-1 4 doi: 10.1007/978-0-85729-859-1 4

Ghauri, P. N., & Grønhaug, K. (2005). Research methods in business studies: A practical guide.Pearson Education.

Hu, J., & Pavlidis, T. (1996). A hierarchical approach to efficient curvilinear object searching.

Page 33: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

Referencias 26

Computer vision and image understanding, 63(2), 208–220.Jain, A. K., & Yu, B. (1998). Document representation and its application to page decompo-

sition. IEEE Transactions on pattern analysis and machine intelligence, 20(3), 294–308.Jain, A. K., & Zongker, D. (1997). Representation and recognition of handwritten digits

using deformable templates. IEEE transactions on pattern analysis and machine intelli-gence, 19(12), 1386–1390.

Jesson, J., Matheson, L., & Lacey, F. M. (2011). Doing your literature review: Traditional andsystematic techniques. Sage.

Kamel, M., & Zhao, A. (1993). Extraction of binary character/graphics images from grays-cale document images. CVGIP: Graphical Models and Image Processing, 55(3), 203–217.

Kasturi, R., O’gorman, L., & Govindaraju, V. (2002). Document image analysis: A primer.Sadhana, 27(1), 3–22.

Kise, K., Sato, A., & Iwata, M. (1998). Segmentation of page images using the area voronoidiagram. Computer Vision and Image Understanding, 70(3), 370–382.

Kothari, C. R. (2004). Research methodology: Methods and techniques. New Age International.Kumar, R. (2014). Research methodology: A step-by-step guide for beginners. Sage.Lavialle, O., Molines, X., Angella, F., & Baylou, P. (2001). Active contours network to

straighten distorted text lines. In Image processing, 2001. proceedings. 2001 internationalconference on (Vol. 3, pp. 748–751).

Le, D. S., Thoma, G. R., & Wechsler, H. (1994). Automated page orientation and skew angledetection for binary document images. Pattern Recognition, 27(10), 1325–1344.

Li, S., Shen, Q., & Sun, J. (2007). Skew detection using wavelet decomposition and projectionprofile analysis. Pattern recognition letters, 28(5), 555–562.

Liang, J., DeMenthon, D., & Doermann, D. (2008). Geometric rectification of camera-captured document images. IEEE Transactions on Pattern Analysis and Machine Intelli-gence, 30(4), 591–605.

Likforman-Sulem, L., Darbon, J., & Smith, E. H. B. (2011). Enhancement of historicalprinted document images by combining total variation regularization and non-localmeans filtering. Image and vision computing, 29(5), 351–363.

Liu, H., Wu, Q., Zha, H., & Liu, X. (2008). Skew detection for complex document imagesusing robust borderlines in both text and non-text regions. Pattern Recognition Letters,29(13), 1893–1900.

Lu, S., Chen, B. M., & Ko, C. C. (2006). A partition approach for the restoration of cameraimages of planar and curled document. Image and Vision Computing, 24(8), 837–848.

Lu, S. W., Ren, Y., & Suen, C. Y. (1991). Hierarchical attributed graph representation andrecognition of handwritten chinese characters. Pattern Recognition, 24(7), 617–632.

Lu, Y., & Tan, C. L. (2003). A nearest-neighbor chain based approach to skew estimation indocument images. Pattern Recognition Letters, 24(14), 2315–2323.

Page 34: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

Referencias 27

Machi, L., & McEvoy, B. (2016). The literature review: Six steps to success. SAGE Publications.Retrieved from https://books.google.pt/books?id=d3uzDAAAQBAJ

Mao, S., Rosenfeld, A., & Kanungo, T. (2003). Document structure analysis algorithms: aliterature survey. DRR, 2003, 197–207.

Marinai, S. (2008). Introduction to document analysis and recognition. Machine learning indocument analysis and, 20, 1–20. Retrieved from http://link.springer.com/content/

pdf/10.1007/978-3-540-76280-5 1.pdf

Masalovitch, A., & Mestetskiy, L. (2007). Usage of continuous skeletal image representationfor document images de-warping. In Proceedings of international workshop on camera-based document analysis and recognition, curitiba (pp. 45–53).

Mohamed, M., & Gader, P. (1996). Handwritten word recognition using segmentation-freehidden markov modeling and segmentation-based dynamic programming techniques.IEEE transactions on pattern analysis and machine intelligence, 18(5), 548–554.

Mohamed, M. A., & Gader, P. (2000). Generalized hidden markov models. ii. application tohandwritten word recognition. IEEE transactions on fuzzy systems, 8(1), 82–94.

Nagy, G., Seth, S., & Viswanathan, M. (1992). A prototype document image analysis systemfor technical journals. Computer, 25(7), 10–22.

Namboodiri, A. M., & Jain, A. K. (2007). Document structure and layout analysis. In Digitaldocument processing (pp. 29–48). Springer.

Niblack, W. (1985). An introduction to digital image processing. Prentice-Hall, EnglewoodCliffs.

Nomura, S., Yamanaka, K., Shiose, T., Kawakami, H., & Katai, O. (2009). Morphologicalpreprocessing method to thresholding degraded word images. Pattern RecognitionLetters, 30(8), 729–744.

Obafemi-Ajayi, T., Agam, G., & Frieder, O. (2010). Historical document enhancement usinglut classification. International journal on document analysis and recognition, 13(1), 1–17.

O’Gorman, L. (1993). The document spectrum for page layout analysis. IEEE Transactionson Pattern Analysis and Machine Intelligence, 15(11), 1162–1173.

O’Gorman, L., & Kasturi, R. (1995). Document image analysis (Vol. 39). IEEE ComputerSociety Press Los Alamitos.

Otsu, N. (1979). A threshold selection method from gray-level histograms. IEEE transactionson systems, man, and cybernetics, 9(1), 62–66.

Pavlidis, T. (1993). Recognition of printed text under realistic conditions. Pattern RecognitionLetters, 14(4), 317–326.

Phansalkar, N., More, S., Sabale, A., & Joshi, M. (2011). Adaptive local thresholding fordetection of nuclei in diversity stained cytology images. In Communications and signalprocessing (iccsp), 2011 international conference on (pp. 218–220).

Price, K. (1985). Relaxation matching techniques. September.

Page 35: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

Referencias 28

Randolph, J. J. (2009). A guide to writing the dissertation literature review. PracticalAssessment, Research & Evaluation, 14(13), 1–13.

Rehman, A., & Saba, T. (2014, Aug 01). Neural networks for document image preprocessing:state of the art. Artificial Intelligence Review, 42(2), 253–273. Retrieved from https://

doi.org/10.1007/s10462-012-9337-z doi: 10.1007/s10462-012-9337-zRidley, D. (2012). The literature review: A step-by-step guide for students. Sage.Sauvola, J., & Pietikainen, M. (2000). Adaptive document image binarization. Pattern

recognition, 33(2), 225–236.Shridhar, M., & Badreldin, A. (1985). A high-accuracy syntactic recognition algorithm for

handwritten numerals. IEEE transactions on systems, man, and cybernetics(1), 152–158.Simon, J.-C. (1992). Off-line cursive word recognition. Proceedings of the IEEE, 80(7), 1150–

1161.Singh, C., Bhatia, N., & Kaur, A. (2008). Hough transform based fast skew detection and

accurate skew correction methods. Pattern Recognition, 41(12), 3528–3546.Smith, R. (2007). An overview of the tesseract ocr engine. In Proc. ninth int. conference on

document analysis and recognition (icdar) (pp. 629–633).Smith, S. J., Bourgoin, M. O., Sims, K., & Voorhees, H. L. (1994). Handwritten character

classification using nearest neighbor in large databases. IEEE Transactions on PatternAnalysis and Machine Intelligence, 16(9), 915–919.

Solihin, Y., & Leedham, C. (1999). Integral ratio: a new class of global thresholding te-chniques for handwriting images. IEEE Transactions on Pattern Analysis and MachineIntelligence, 21(8), 761–768.

Stamatopoulos, N., Gatos, B., Pratikakis, I., & Perantonis, S. J. (2011). Goal-oriented rectifi-cation of camera-based document images. IEEE Transactions on Image Processing, 20(4),910–920.

Tappert, C. C. (1982). Cursive script recognition by elastic matching. IBM Journal of Researchand development, 26(6), 765–771.

Tubbs, J. D. (1989). A note on binary template matching. Pattern Recognition, 22(4), 359–365.Ulges, A., Lampert, C. H., & Breuel, T. M. (2005). Document image dewarping using robust

estimation of curled text lines. In Document analysis and recognition, 2005. proceedings.eighth international conference on (pp. 1001–1005).

van Beusekom, J., Shafait, F., & Breuel, T. M. (2010). Combined orientation and skew de-tection using geometric text-line modeling. International Journal on Document Analysisand Recognition, 13(2), 79–92.

van der Walt, S., Schonberger, J. L., Nunez-Iglesias, J., Boulogne, F., Warner, J. D., Yager,N., . . . the scikit-image contributors (2014, 6). scikit-image: image processing inPython. PeerJ, 2, e453. Retrieved from http://dx.doi.org/10.7717/peerj.453 doi:10.7717/peerj.453

Page 36: Ricardo Manuel Gonc¸alves Araujo´ - dsi.uminho.pt · O metodo emp´ ´ırico ser a usado na parte de desenvolvimento para que seja ... Figura 1.1 Fases Crisp-DM, adaptado de (Chapman

Referencias 29

Wahl, F. M., Wong, K. Y., & Casey, R. G. (1982). Block segmentation and text extraction inmixed text/image documents. Computer graphics and image processing, 20(4), 375–390.

Wang, L.-X., & Mendel, J. M. (1992). A fuzzy approach to hand-written rotation-invariantcharacter recognition. In Acoustics, speech, and signal processing, 1992. icassp-92., 1992ieee international conference on (Vol. 3, pp. 145–148).

Webster, J., & Watson, R. T. (2002). Analyzing the past to prepare for the future: Writing aliterature review. MIS quarterly, xiii–xxiii.

Wu, C., & Agam, G. (2002). Document image de-warping for text/graphics recognition.Structural, Syntactic, and Statistical Pattern Recognition, 243–253.

Xie, S., & Suk, M. (1988). On machine recognition of hand-printed chinese characters byfeature relaxation. Pattern Recognition, 21(1), 1–7.

Yan, H. (1993). Skew correction of document images using interline cross-correlation. CV-GIP: Graphical Models and Image Processing, 55(6), 538–543.

Yang, Y., & Yan, H. (2000). An adaptive logical method for binarization of degradeddocument images. Pattern recognition, 33(5), 787–807.

Yarman-Vural, F., & Ataman, E. (1987). Noise, histogram and cluster validity for gaussian-mixtured data. Pattern recognition, 20(4), 385–401.

Yin, P.-Y. (2001). Skew detection and block classification of printed documents. Image andVision Computing, 19(8), 567–579.

Yin, R. (2013). Case study research: Design and methods (5a ed.; S. publications, Ed.). Retrievedfrom https://books.google.pt/books?isbn=1483322246

Zhang, L., & Tan, C. L. (2005). Warped image restoration with applications to digitallibraries. In Document analysis and recognition, 2005. proceedings. eighth internationalconference on (pp. 192–196).

Zhang, L., Yip, A. M., Brown, M. S., & Tan, C. L. (2009). A unified framework for docu-ment restoration using inpainting and shape-from-shading. Pattern Recognition, 42(11),2961–2978.