busca por palavras em imagens de documentos: uma abordagem

Download Busca por Palavras em Imagens de Documentos: Uma Abordagem

Post on 13-Feb-2017

221 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

  • ISRAEL RIOS

    Busca por Palavras em Imagens deDocumentos: Uma Abordagem

    Independente de OCR

    Dissertao apresentada ao Programa dePs-Graduao em Informtica da PontifciaUniversidade Catlica do Paran como requi-sito parcial para obteno do ttulo de Mes-tre em Informtica.

    Curitiba PRJulho/2007

  • ISRAEL RIOS

    Busca por Palavras em Imagensde Documentos: Uma Abordagem

    Independente de OCR

    Dissertao apresentada ao Programa dePs-Graduao em Informtica da PontifciaUniversidade Catlica do Paran como requi-sito parcial para obteno do ttulo de Mes-tre em Informtica.

    rea de Concentrao: Cincia da Compu-tao.

    Orientador: Alceu de Souza Britto Jr., Dr.Co-orientador: Alessandro Lameiras Koe-rich, Dr.

    Curitiba PRJulho/2007

  • Rios, IsraelBusca por Palavras em Imagens de Documentos: Uma Abordagem Inde-pendente de OCR. Curitiba PR, Julho/2007.

    Dissertao - Pontifcia Universidade Catlica do Paran. Programa dePs-Graduao em Informtica.

    1. Recuperao de Texto em Imagens de Documentos 2. ComparaoInexata de Caractersticas 3. Segmentao de Imagens de EocumentosI.Pontifcia Universidade Catlica do Paran. Centro de Cincias Exatase Tecnologia. Programa de Ps-Graduao em Informtica II - t

  • Ao meu Pai e minha Me por todo amor,apoio espiritual e financeiro. A minha es-posa, Slvia, pela inspirao e carinho.

    i

  • Sumrio

    Sumrio ii

    Lista de Figuras v

    Lista de Tabelas vii

    Lista de Smbolos viii

    Lista de Abreviaes ix

    Resumo x

    Abstract xi

    Captulo 1

    Introduo 1

    1.1 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    1.2 Motivao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    1.3 Contribuies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    1.4 Organizao do Documento . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    Captulo 2

    Reviso Bibliogrfica 8

    2.1 Segmentao de Documentos . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    2.2 Recuperao de Texto em Imagens de Documentos . . . . . . . . . . . . . 12

    2.3 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    Captulo 3

    ii

  • Metodologia 22

    3.1 Obteno das Imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    3.2 Pr-Processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

    3.3 Segmentao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    3.4 Extrao de Caractersticas . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    3.4.1 Conjunto de Caractersticas LRPS . . . . . . . . . . . . . . . . . . 30

    3.4.2 Conjunto de Caractersticas LRPS Modificado . . . . . . . . . . . . 31

    3.4.3 Conjunto de Caractersticas AYV . . . . . . . . . . . . . . . . . . . 31

    3.4.4 Conjunto de Caractersticas ULTC . . . . . . . . . . . . . . . . . . 33

    3.4.5 Conjunto de Caractersticas ULTC Modificado . . . . . . . . . . . . 35

    3.5 Converso ASCII/Descritor . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    3.6 Comparao de Descritores . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    3.7 Consideraes Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    Captulo 4

    Resultados Experimentais 41

    4.1 Banco de Imagens de Documentos . . . . . . . . . . . . . . . . . . . . . . . 41

    4.2 Protocolo Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    4.3 Segmentao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    4.4 Experimentos Realizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

    4.4.1 LRPS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    4.4.2 AYV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    4.4.3 ULTC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    4.4.4 ULTC Modificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    4.5 Anlise de Erros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

    Captulo 5

    iii

  • Concluso 57

    Referncias Bibliogrficas 59

    ANEXO A

    Palavras Desconsideradas Durante a Seleo das Palavras Utilizadas nos Testes 61

    iv

  • Lista de Figuras

    Figura 1.1 Estrutura bsica de um sistema para a recuperao de imagens dedocumentos utilizando uma palavra no formato textual. . . . . . . . . . . . 3

    Figura 2.1 Mtodo proposto por Breuel (2002) para deteco de espaos embranco. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    Figura 2.2 Regies em comum (1, 2, 3 e 4) geradas pela estratgia de divisoutilizada por Breuel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    Figura 3.1 Viso geral do mtodo desenvolvido; exemplo de busca da palavraspeech. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    Figura 3.2 Mascaras utilizadas para realizar a suavizao de contornos. Em(a), (b) e (c) o pixel central mudado para 1, em (d) e (e) para 0. . . . . . 25

    Figura 3.3 Resultado da suavizao de contornos em um caractere colhido deum dos documentos analisados. . . . . . . . . . . . . . . . . . . . . . . . . 25

    Figura 3.4 Diviso da pgina em listas verticais e horizontais. Blocos repre-sentam os componentes conexos detectados (imagens, tabelas, caracteres,etc.). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    Figura 3.5 Alterao do mtodo de deteco de espaos para evitar reclculo.(a) Imagem com os componentes conexos delimitados; (b) Seleo do piv;(c) Criao dos sub-retngulos esquerdo e direito; (d) Criao dos sub-retngulos superior e inferior. . . . . . . . . . . . . . . . . . . . . . . . . . 27

    Figura 3.6 Posio das linhas de apoio em uma imagem de palavra. . . . . . . 28

    Figura 3.7 Projeo horizontal da imagem da palavra system. . . . . . . . . . 28

    v

  • Figura 3.8 Diviso das colunas em regies e o clculo da caracterstica dascolunas 5 e 9 do caractere a. . . . . . . . . . . . . . . . . . . . . . . . . . 32

    Figura 3.9 Imagem da palavra problem extrada de um dos documentos ana-lisados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    Figura 3.10 Caracterstica de contorno superior(invertida) ao longo da palavraproblem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    Figura 3.11 Caracterstica de contorno inferior ao longo da palavra problem. . 34

    Figura 3.12 Nmero de transies(normalizado) ao longo da palavra problem. 34

    Figura 4.1 Quatro pginas de um documento pertencente ao banco de imagensde documentos utilizado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    Figura 4.2 Parte de dois documentos pertencentes ao banco de imagens dedocumentos utilizado: (b) apresenta traos mais grossos que (a). . . . . . . 43

    Figura 4.3 Processo de criao do banco de dados de testes. . . . . . . . . . . . 44

    Figura 4.4 Deformaes nos caracteres a(a), h(b) e n(c) causadas porrudos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    Figura 4.5 Problemas na deteco de linhas retas no algoritmo utilizado noconjunto de caractersticas LRPS. (a) linha de varredura coincide com umtrao horizontal no caractere A. (b) linha incorretamente detectada nocaractere S. (c) a linha da direita incorretamente detectada no caractereR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    vi

  • Lista de Tabelas

    Tabela 2.1 Seqncia de caractersticas LRPS dos caracteres (LU; TAN, 2004). 16

    Tabela 2.2 Resultado final da comparao de unhealthy e health (LU;TAN, 2004). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    Tabela 3.1 Descritor que representa a palavra top utilizando o conjunto decaractersticas LRPS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    Tabela 4.1 Palavras, com o respectivo nmero de ocorrncias, utilizadas narealizao dos testes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    Tabela 4.2 Nmero de iteraes necessrias para detectar os 40 primeiros es-paos vazios em uma pgina. . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    Tabela 4.3 Estatsticas de desempenho do conjunto de caractersticas LRPSoriginal e modificado sobre os 815 documentos digitalizados. . . . . . . . . 50

    Tabela 4.4 Estatsticas de desempenho do conjunto de caractersticas AYVsobre os 815 documentos digitalizados. . . . . . . . . . . . . . . . . . . . . 51

    Tabela 4.5 Estatsticas de desempenho do conjunto de caractersticas ULTCsobre os 815 documentos digitalizados. . . . . . . . . . . . . . . . . . . . . 52

    Tabela 4.6 Estatsticas de desempenho do conjunto de caractersticas ULTCModificado sobre os 815 documentos digitalizados. . . . . . . . . . . . . . . 53

    Tabela 4.7 Estatsticas de desempenho com os melhores resultados de cadaconjunto de caractersticas proposto. . . . . . . . . . . . . . . . . . . . . . 53

    vii

  • Lista de Smbolos

    Parmetro no clculo da prioridade do retngulo na busca por espaos embranco

    Valor que multiplica a mediana das distncias entre componentes conexosem uma linha para efetuar a segmentao de palavras

    Atributo de linha ou transio no conjunto de caractersticas LRPS

    Atributo de posicionamento com relao s linhas de ascendentes e descen-dentes no conjunto de caractersticas LRPS

    Limiar de similaridade utilizado no mtodo de comparao de descritores

    viii

  • Lista de Abreviaes

    OCR Optical Character Recognition

    ASCII American Standard Code for Information Interchange

Recommended

View more >