apresentação de uma metodologia de extração da estrutura de formulários de tipo tabela. 1º...
TRANSCRIPT
Apresentação de uma metodologia de extração da estrutura de formulários de tipo Tabela.
1º módulo: Células detectadas
pela transformada Watershed.
2º módulo: células inválidas
provenientes de artefatos
eliminados a partir de uma
análise estatística
baseada em área, perímetro
e fator de compacidade.
INTRODUÇÃO
1º MÓDULO: IDENTIFICAÇÃO DOS OBJETOS
AGRADECIMENTOS
Extração Automática da Estrutura de Documentos Formulários de Tipo Tabela Baseada na Segmentação pela Transformada Watershed
Rafaela Dandoloni Felipe, Jacques Facon (co-orientador), Luiz Antônio Pereira Neves (Orientador)
PPGIA - Programa de Pós Graduação em Informática Aplicada - PUCPR - Pontifícia Universidade Católica do Paraná
2º MÓDULO: ANÁLISE ESTATÍSTICA
CONCLUSÕES
EXPERIMENTOS & RESULTADOS
Identificação das regiões da tabela delimitadas por linhas
Extração sem conhecimento prévio do número de células e da presença ou da ausência de dados manuscritos
Uso da transformada Watershed aplicada à imagem do gradiente da imagem da tabela empregando como marcador a imagem limiarizada (pela técnica de Ostu) invertida e dilatada da imagem da tabela.
Imagem Original Imagem limiarizada invertida e dilatada
Imagem gradiente invertida Imagem Watershed
Filtragem baseada na análise estatística usando perímetro P, área S e fator de compacidade Fc.
Fator de compacidade
Comparação entre os fatores de compacidade de um artefato e segmento de linha da tabela
Primeira metodologia: • Fator de compacidade verificado apenas
para regiões cuja área é menor que a média das áreas de todas as regiões .
• Adoção empírica (após ter analisado 80 objetos manuscritos) dem Limiar de FC = 1,4.
• Regiões apresentando um área menor que a média das áreas, e um fator de compacidade menor que 1.4 eliminadas.
Segunda metodologia: • Uso do Perímetro P, área S, fator de
compacidade Fc.• 1ª regra: A região é uma célula se
• 2ª regra: A região é uma célula se
• 3a regra: A região é uma célula se
• Decisão Estatística: A região é considerada
como célula se for possível validar 2 das 3 regras
GERAÇÃO DE REGIÕES FALSAS
• Extração não perfeita das regiões da tabela• Aparição de artefatos não pertencendo à estrutura original• Artefato = ruídos e dados manuscritos inseridos.
Exemplo de regiões extraídas devido a artefatos inseridos
Foi apresentada uma metodologia de extração da estrutura de formulários de tipo Tabela baseada na transformada Watershed seguida de uma análise estatística. Os resultados mostraram a metodologia ser promissora para tabelas apresentando layouts diversos, com cantos quadradas e arredondados podendo conter dados manuscritos e pré-impressos.
S
pFc
4
2
Exemplo 1 de regiões eliminadas e preservadas
Exemplo 3 de regiões eliminadas e preservadas
Exemplo 2 de regiões eliminadas e preservadas
Testes com 317 tabelas com diversos layout e com cantos quadrados e
arredondados
Taxas de erro na extração de cantos
PUCPR
Os autores agradecem a Pontifícia Universidade Católica do Paraná pelo apóio financeiro concedido na forma de bolsa PIBIC/PUCPR para a realização deste trabalho.