apresentação de uma metodologia de extração da estrutura de formulários de tipo tabela. 1º...

1
Apresentação de uma metodologia de extração da estrutura de formulários de tipo Tabela. 1º módulo: Células detectadas pela transformada Watershed. módulo: células inválidas provenientes de artefatos eliminados a partir de uma análise estatística baseada em área, perímetro e fator de compacidade. INTRODUÇÃO 1º MÓDULO: IDENTIFICAÇÃO DOS OBJETOS AGRADECIMENTOS Extração Automática da Estrutura de Documentos Formulários de Tipo Tabela Baseada na Segmentação pela Transformada Watershed Rafaela Dandoloni Felipe, Jacques Facon (co-orientador), Luiz Antônio Pereira Neves (Orientador) PPGIA - Programa de Pós Graduação em Informática Aplicada - PUCPR - Pontifícia Universidade Católica do Paraná 2º MÓDULO: ANÁLISE ESTATÍSTICA CONCLUSÕES EXPERIMENTOS & RESULTADOS Identificação das regiões da tabela delimitadas por linhas Extração sem conhecimento prévio do número de células e da presença ou da ausência de dados manuscritos Uso da transformada Watershed aplicada à imagem do gradiente da imagem da tabela empregando como marcador a imagem limiarizada (pela técnica de Ostu) invertida e dilatada da imagem da tabela. Imagem Original Imagem limiarizada invertida e dilatada Imagem gradiente invertida Imagem Watershed Filtragem baseada na análise estatística usando perímetro P, área S e fator de compacidade Fc. Fator de compacidade Comparação entre os fatores de compacidade de um artefato e segmento de linha da tabela Primeira metodologia : Fator de compacidade verificado apenas para regiões cuja área é menor que a média das áreas de todas as regiões . Adoção empírica (após ter analisado 80 objetos manuscritos) dem Limiar de FC = 1,4. Regiões apresentando um área menor que a média das áreas, e um fator de compacidade menor que 1.4 eliminadas. Segunda metodologia : Uso do Perímetro P, área S, fator de compacidade Fc. 1ª regra: A região é uma célula se 2ª regra: A região é uma célula se 3a regra: A região é uma célula se Decisão Estatística: A região é considerada como célula se for possível validar 2 das 3 regras GERAÇÃO DE REGIÕES FALSAS Extração não perfeita das regiões da tabela Aparição de artefatos não pertencendo à estrutura original Artefato = ruídos e dados manuscritos inseridos. Exemplo de regiões extraídas devido a artefatos inseridos Foi apresentada uma metodologia de extração da estrutura de formulários de tipo Tabela baseada na transformada Watershed seguida de uma análise estatística. Os resultados mostraram a metodologia ser promissora para tabelas apresentando layouts diversos, com cantos quadradas e arredondados podendo conter dados manuscritos e pré- impressos. S p Fc 4 2 Exemplo 1 de regiões eliminadas e preservadas Exemplo 3 de regiões eliminadas e preservadas Exemplo 2 de regiões eliminadas e preservadas Testes com 317 tabelas com diversos layout e com cantos quadrados e arredondados Taxas de erro na extração de cantos PUCPR Os autores agradecem a Pontifícia Universidade Católica do Paraná pelo apóio financeiro concedido na forma de bolsa PIBIC/PUCPR para a realização deste trabalho.

Upload: internet

Post on 17-Apr-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Apresentação de uma metodologia de extração da estrutura de formulários de tipo Tabela. 1º módulo: Células detectadas pela transformada Watershed. 2º módulo:

Apresentação de uma metodologia de extração da estrutura de formulários de tipo Tabela.

1º módulo: Células detectadas

pela transformada Watershed.

2º módulo: células inválidas

provenientes de artefatos

eliminados a partir de uma

análise estatística

baseada em área, perímetro

e fator de compacidade.

INTRODUÇÃO

1º MÓDULO: IDENTIFICAÇÃO DOS OBJETOS

AGRADECIMENTOS

Extração Automática da Estrutura de Documentos Formulários de Tipo Tabela Baseada na Segmentação pela Transformada Watershed

Rafaela Dandoloni Felipe, Jacques Facon (co-orientador), Luiz Antônio Pereira Neves (Orientador)

PPGIA - Programa de Pós Graduação em Informática Aplicada - PUCPR - Pontifícia Universidade Católica do Paraná

2º MÓDULO: ANÁLISE ESTATÍSTICA

CONCLUSÕES

EXPERIMENTOS & RESULTADOS

Identificação das regiões da tabela delimitadas por linhas

Extração sem conhecimento prévio do número de células e da presença ou da ausência de dados manuscritos

Uso da transformada Watershed aplicada à imagem do gradiente da imagem da tabela empregando como marcador a imagem limiarizada (pela técnica de Ostu) invertida e dilatada da imagem da tabela.

Imagem Original Imagem limiarizada invertida e dilatada

Imagem gradiente invertida Imagem Watershed

Filtragem baseada na análise estatística usando perímetro P, área S e fator de compacidade Fc.

Fator de compacidade

Comparação entre os fatores de compacidade de um artefato e segmento de linha da tabela

Primeira metodologia: • Fator de compacidade verificado apenas

para regiões cuja área é menor que a média das áreas de todas as regiões .

• Adoção empírica (após ter analisado 80 objetos manuscritos) dem Limiar de FC = 1,4.

• Regiões apresentando um área menor que a média das áreas, e um fator de compacidade menor que 1.4 eliminadas.

Segunda metodologia: • Uso do Perímetro P, área S, fator de

compacidade Fc.• 1ª regra: A região é uma célula se

• 2ª regra: A região é uma célula se

• 3a regra: A região é uma célula se

• Decisão Estatística: A região é considerada

como célula se for possível validar 2 das 3 regras

GERAÇÃO DE REGIÕES FALSAS

• Extração não perfeita das regiões da tabela• Aparição de artefatos não pertencendo à estrutura original• Artefato = ruídos e dados manuscritos inseridos.

Exemplo de regiões extraídas devido a artefatos inseridos

Foi apresentada uma metodologia de extração da estrutura de formulários de tipo Tabela baseada na transformada Watershed seguida de uma análise estatística. Os resultados mostraram a metodologia ser promissora para tabelas apresentando layouts diversos, com cantos quadradas e arredondados podendo conter dados manuscritos e pré-impressos.

S

pFc

4

2

Exemplo 1 de regiões eliminadas e preservadas

Exemplo 3 de regiões eliminadas e preservadas

Exemplo 2 de regiões eliminadas e preservadas

Testes com 317 tabelas com diversos layout e com cantos quadrados e

arredondados

Taxas de erro na extração de cantos

PUCPR

Os autores agradecem a Pontifícia Universidade Católica do Paraná pelo apóio financeiro concedido na forma de bolsa PIBIC/PUCPR para a realização deste trabalho.