apresentação de uma metodologia de extração da estrutura de formulários de tipo tabela. 1º...

Post on 17-Apr-2015

106 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Apresentação de uma metodologia de extração da estrutura de formulários de tipo Tabela.

1º módulo: Células detectadas

pela transformada Watershed.

2º módulo: células inválidas

provenientes de artefatos

eliminados a partir de uma

análise estatística

baseada em área, perímetro

e fator de compacidade.

INTRODUÇÃO

1º MÓDULO: IDENTIFICAÇÃO DOS OBJETOS

AGRADECIMENTOS

Extração Automática da Estrutura de Documentos Formulários de Tipo Tabela Baseada na Segmentação pela Transformada Watershed

Rafaela Dandoloni Felipe, Jacques Facon (co-orientador), Luiz Antônio Pereira Neves (Orientador)

PPGIA - Programa de Pós Graduação em Informática Aplicada - PUCPR - Pontifícia Universidade Católica do Paraná

2º MÓDULO: ANÁLISE ESTATÍSTICA

CONCLUSÕES

EXPERIMENTOS & RESULTADOS

Identificação das regiões da tabela delimitadas por linhas

Extração sem conhecimento prévio do número de células e da presença ou da ausência de dados manuscritos

Uso da transformada Watershed aplicada à imagem do gradiente da imagem da tabela empregando como marcador a imagem limiarizada (pela técnica de Ostu) invertida e dilatada da imagem da tabela.

Imagem Original Imagem limiarizada invertida e dilatada

Imagem gradiente invertida Imagem Watershed

Filtragem baseada na análise estatística usando perímetro P, área S e fator de compacidade Fc.

Fator de compacidade

Comparação entre os fatores de compacidade de um artefato e segmento de linha da tabela

Primeira metodologia: • Fator de compacidade verificado apenas

para regiões cuja área é menor que a média das áreas de todas as regiões .

• Adoção empírica (após ter analisado 80 objetos manuscritos) dem Limiar de FC = 1,4.

• Regiões apresentando um área menor que a média das áreas, e um fator de compacidade menor que 1.4 eliminadas.

Segunda metodologia: • Uso do Perímetro P, área S, fator de

compacidade Fc.• 1ª regra: A região é uma célula se

• 2ª regra: A região é uma célula se

• 3a regra: A região é uma célula se

• Decisão Estatística: A região é considerada

como célula se for possível validar 2 das 3 regras

GERAÇÃO DE REGIÕES FALSAS

• Extração não perfeita das regiões da tabela• Aparição de artefatos não pertencendo à estrutura original• Artefato = ruídos e dados manuscritos inseridos.

Exemplo de regiões extraídas devido a artefatos inseridos

Foi apresentada uma metodologia de extração da estrutura de formulários de tipo Tabela baseada na transformada Watershed seguida de uma análise estatística. Os resultados mostraram a metodologia ser promissora para tabelas apresentando layouts diversos, com cantos quadradas e arredondados podendo conter dados manuscritos e pré-impressos.

S

pFc

4

2

Exemplo 1 de regiões eliminadas e preservadas

Exemplo 3 de regiões eliminadas e preservadas

Exemplo 2 de regiões eliminadas e preservadas

Testes com 317 tabelas com diversos layout e com cantos quadrados e

arredondados

Taxas de erro na extração de cantos

PUCPR

Os autores agradecem a Pontifícia Universidade Católica do Paraná pelo apóio financeiro concedido na forma de bolsa PIBIC/PUCPR para a realização deste trabalho.

top related