introdução ocr

24

Upload: rui-sergio-pinto

Post on 04-Jul-2015

114 views

Category:

Technology


0 download

DESCRIPTION

Introdução Básica sobre o OCR Optical Character Recognition

TRANSCRIPT

Page 1: Introdução OCR
Page 2: Introdução OCR

Universidade Lusíada de AngolaSistemas Multimídia

Tema: OCR (Optical Character Recognition)

Membros:● Lewis Gomes● Rui Pinto● Suely Nassola

Docente: Dr. Adjah da Cruz

Page 3: Introdução OCR

O que é o OCR?

Page 4: Introdução OCR

OCR, do inglês Optical Character Recognition Reconhecimento

Ótico de Caracteres), é um método aplicado de maneira a

permitir que o conteúdo escrito em um documento no formato

de imagem seja reconhecido e transformado em um arquivo de

texto editável.

Page 5: Introdução OCR

De onde surgiu esse tal de

OCR?

Page 6: Introdução OCR

Em 1950 David Shepard e Louis Tordela começaram a pesquisa do

procedimento para automação de dados e com ajuda de Harvey Cook

eles contruiram o “Gismo” o primeiro Software de OCR.

Em 1953 a IBM obteve uma licença

da IMR e desenvolveu um software

próprio classificando-o

como Optical Character

Recognition, tornando o termo OCR

um padrão na indústria para essa

tecnologia.

Page 7: Introdução OCR

Qual tecnologia está por trás do OCR?

Page 8: Introdução OCR

Existem dois principais Sistemas de OCR:

1 - Matriz de correspondência

Matriz de correspondência (também conhecido como correspondência de

padrões) associa o que o scanner percebe como um caracter com um

conjunto armazenado de padrões de bitmap ou contornos de caracteres.

Quando uma imagem corresponde a um destes

bitmaps selecionados dentro de um certo grau de semelhança, o programa

identifica esta imagem como o caractere de texto equivalente. Uma

desvantagem evidente deste sistema é que ele só pode ser usado para as

fontes e tamanhos em seu repertório.

Page 9: Introdução OCR

2 - Extração de características

Extração de recurso também é conhecida como reconhecimento de

caracteres inteligente (ICR), ou análise de característica topológica. É um

tipo de reconhecimento óptico de caracteres que não dependem de

correspondência exata para definir modelos. O programa procura por

elementos comuns, como espaços abertos, formas fechadas, linhas -

diagonais que se interceptam e assim por diante.

Page 10: Introdução OCR

Como Funciona?

Page 11: Introdução OCR

Primeiro, o programa analisa a estrutura da imagem do documento. Ele

divide a página em elementos como blocos de texto, tabelas, imagens, etc.

As linhas são divididas em palavras e, então, em caracteres. Uma vez

separados os caracteres, o programa compara-os com um conjunto de

imagens padrão.

Page 12: Introdução OCR

O segundo passo, consiste em comparar cada caracter com modelos de

fontes suportadas pelo OCR. Havendo uma certa percentagem de

coincidência, o caracter é reconhecido. Nos caracteres não reconhecidos,

é aplicado um segundo processo bem mais minucioso, que consiste em

analisar geometricamente cada caracter, calculando a altura, largura, e

combinações de retas, curvas e áreas em branco.

Page 13: Introdução OCR

Novamente, é usada a lei da probabilidade: um caracter com uma curva em

forma de meia lua que continua na forma de uma reta, por exemplo, tem

uma grande chance de ser um "d" minúsculo por exemplo. Este segundo

processo é muito mais demorado, pois para cada letra é preciso gerar todo

um novo conjunto de caracteres gráficos.

Page 14: Introdução OCR

Se mesmo com o exame minucioso, não for possível reconhecer o caracter,

o programa poderá utilizar um corretor ortográfico para corrigir erros

bobos, ou preencher espaços vazios.

Page 15: Introdução OCR

Qual as Vantagens?

Page 16: Introdução OCR

Já tentou digitar um texto de uma revista para poder reproduzir em

algum lugar? Se for um texto curto, de uma página recomendo que

coloque do lado e digite, nosso OCR original, de fábrica, chamado

cérebro é muito mais rápido do que qualquer outro dispositivo e

certamente vai fazer o trabalho em menos tempo. Ou seja, para textos

curtos não vale a pena. Mas imagine ter que digitar vários

textos, ou então um livro ou revista.

Ai já vale a pena usar o OCR pois

ele fará o trabalho repetitivo e seu

trabalho será apenas alimentar o

scanner ou outro dispositivo de

captura de imagens qualquer, como

uma câmara digital.

Page 17: Introdução OCR

Qual as Desvantagens?

Page 18: Introdução OCR

O resultado final depende de muitos parâmetros, há programas de OCR

que não reconhecem os acentos da língua portuguesa.

Múltiplas fontes no mesmo texto também causam problemas e

certamente o texto vai precisar de uma revisão antes de ser utilizado.

Não suporta todos idiomas nem todos os tipos de fontes.

Page 19: Introdução OCR

Podes mencionar alguns Softwares

Existentes?

Page 20: Introdução OCR

OCR Convert.OCR Terminal Beta.Online OCR.NewOCR.com.Free OCR to Word.ABBYY FineReader .

Page 21: Introdução OCR

OCR é um tecnologia que vale apena usar, a poisar que raramente

pessoas não fazem uso deste recurso talvez por falta de

informação , é um software que pode se encontrar na net de graça

e em versões muita avançadas a que pagar uma certa quantia.

Conclusão

Page 22: Introdução OCR

E onde foste pegar essas

informações?

Page 23: Introdução OCR

http://interfaceinterativa.blogspot.com/2009/02/ocr-voce-sabe-o-que-e-isso.htmlhttp://www.tecmundo.com.br/google/8862-sistema-ocr-da-google-possui-suporte-a-34-idiomas.htmhttp://www.abbyy.com.br/ocr/http://www.ehow.com.br/funciona-ocr-como_5500/http://www.ibytes.com.br/scanner-le-e-converte-elementos-escuros-da-leitura-em-um-mapa-de-bits/

Imagenswww.Google.pt

Bibliografia

Page 24: Introdução OCR

“A duvida é o Principio da Sabedoria”?