como escanear livros com qualidade e produzir textos por ocr

Upload: jose-antonio-meira-da-rocha

Post on 18-Jul-2015

3.718 views

Category:

Documents


3 download

DESCRIPTION

Manual sobre como escanear e fazer OCR com scanners HP.

TRANSCRIPT

Como escanear livros com qualidadee produzir textos por OCRProf. Jos Antonio Meira da RochaEdio do Autor

Como escanear livros com qualidade e produzir textos com OCRMEIRA, Jos Antonio. Como escanear livros com qualidade. Frederico Westphalen: Edio do Autor, 2012. Editorado com LibreOffice 3.5.1. Fontes tipogrficas Liberation Serif e Liberation Sans. Tamanho A5 para ser impresso em libreto, frente e verso. Ilustraes capturadas e tratadas com IrfanView. Foto de capa: divulgao HP. 1 edio. Frederico Westphalen, Outono de 2012. http://meiradarocha.jor.br [email protected]

Esta obra foi licenciada com uma Licena Creative Commons - Atribuio - Uso No-Comercial - Partilha nos Mesmos Termos 3.0 No Adaptada.

Escaneando livros com qualidade

3

Sumrio1 Introduo...............................................................................5 2 Obtenha as imagens..............................................................7 2.1 Escolha a interface do scanner.......................................7 2.2 Escaneie a pgina...........................................................8 3 Limpe e endireite as imagens..............................................13 4 Aplique o OCR......................................................................23 5 Gere, por OCR, texto editvel .............................................33 6 Revise o texto.......................................................................37

Escaneando livros com qualidade

5

1 IntroduoEste manual ensina a escanear livros com qualidade e com reconhecimento ptico de caracteres (OCR), gerando arquivos nos formatos Comic Book, PDF com texto pesquisvel e copivel, RTF e TXT. O formato de imagem recomendado para se produzir livros escaneados PNG preto e branco (profundidade de cor de um bit), 300 pontos por polegada (dpi). Esta escolha deve-se s seguintes caractersticas: PNG uma formato de imagens aberto e verstil, com boa compresso. A resoluo de 300 dpi mais adequada para o OCR e pode ser impressa em qualidade razovel (era a resoluo das primeiras impressoras laser). Imagens em preto & branco (profundidade de cor de um bit) geram arquivos menores.

No entanto, se a pgina a ser escaneada tiver imagens em tons de cinza, como fotografias, o espao de cor deve ser Imagem em escala de cinza, (profundidade de cor de 256 tons de cinza). Se a pgina tiver imagens coloridas, o formato deve ser Imagem colorida. (profundidade de cor de 24 bits ou milhes de cores).

Escaneando livros com qualidade

7

2 Obtenha as imagensEm Windows, use o programa gratuito IrfanView (http://www.irfanview.com/ ) o visualizador de arquivos mais usado no mundo.

2.1 Escolha a interface do scannerV a File > Select Twain source e escolha WIA.... Clique em Selecionar.

8

Escaneando livros com qualidade

2.2 Escaneie a pginaV ao menu File > Aquire/batch scanning, ou tecle CTRL+SHIFT+A

Escaneando livros com qualidade

9

No dilogo seguinte: 1. Marque Multiple images 2. Coloque Starting counter: 1 (ou deixe o nmero sugerido) 3. Escolha Destination directory: Minhas imagens do Windows 4. Save as: PNG, Options Compression: 9

10

Escaneando livros com qualidade

No dilogo seguinte, escolha Texto ou imagem em preto e branco

A seguir, certifique-se de que a resoluo de 300 dpi.

Escaneando livros com qualidade

11

Em geral, j est definido 300 dpi. Faa isto s para conferir.

Depois, clique em Visualizar e, a seguir, em Digitalizar.

12

Escaneando livros com qualidade

Repita as operaes para todas as pginas do livro. A numerao das imagens ser incrementada automaticamente. Voc obter uma coleo de imagens na pasta Minhas Imagens do Windows. Dependendo da velocidade do scanner, o trabalho pode demorar de 30 segundos a um minuto por pgina.

Depois de terminada esta parte do trabalho, faa um backup de todas as imagens, comprimindo-as num ZIP. No captulo seguinte, aprenda a limpar e endireitar as imagens.

Escaneando livros com qualidade

13

3 Limpe e endireite as imagensAs imagens de livros escaneados apresentam sombras e margens pretas que devem ser limpas. Para isto, use o IrfanView. Prepare o IrfanView teclando P (para ver as Propriedades) e escolha Browsing/editing > Cut, Choose, cor branca para o fundo dos cortes. Isto deve ser feito apenas uma vez. A configurao fica gravada.

14

Escaneando livros com qualidade

Carregue o primeiro arquivo, que, em geral, tem o nome de ScanImage001.png.

Escaneando livros com qualidade

15

Use a tecla R para girar a imagem para a direita (Right).

16

Escaneando livros com qualidade

Marque a mancha preta entre as pginas abrindo um retngulo de alto a baixo. Use CTRL+X para limpar a rea.

Escaneando livros com qualidade

17

Repita a operao na margem de baixo, conforme a seta.

18

Escaneando livros com qualidade

Faa o mesmo na margem da esquerda de alto a baixo.

Escaneando livros com qualidade

19

Repita a operao na margem superior e na margem direita. Depois, apague eventuais sujeiras na imagem.

Grave com CTRL+S. Se esquecer de gravar, voc vai perder o trabalho. O IrfanView vai perguntar se voc quer gravar por cima da imagem existente. Tecle S para dizer que sim, porque voc j fez backup das imagens originais.

20

Escaneando livros com qualidade

Clique na seta Next file in directory para ir prxima imagem na pasta de imagens escaneadas. Repita as operaes de limpeza at terminar as imagens do livro.

Faa uma reviso para conferir se no esqueceu de escanear nenhuma das pginas. Se esqueceu, renumere todas as imagens a partir da ltima pgina incrementando um nmero, at retroceder pgina de nmero certo. Isto importante para gerar um livro digital formato Comic Book. Escaneie e faa a limpeza na pgina faltante. O IrfanView vai numerar automaticamente a pgina que faltava.

Escaneando livros com qualidade

21

Tambm verifique se todas as imagens esto sem defeitos. Qualquer escorregada durante o escaneamento vai prejudicar o posterior processamento por OCR. Se todas as imagens estiverem corretas e numeradas na sequncia correta, crie uma pasta comprimida com o boto da direita na janela de arquivos, menu Novo > pasta compactada (zipada). Depois, copie todas as imagens para esta pasta e renomeie-a trocando a terminao ZIP por CBZ. Com isto, voc criou um Comic Book, um formato simples criado por piratas de gibis. simplesmente um arquivo ZIP ou RAR com as imagens guardadas em sequncia numerada. O formato CBR (comprimido com RAR) ou CBZ (comprimido com ZIP) pode ser lido com leitores de CBR, como o Comical (http://comical.sourceforge.net/ ). Conhea mais comic book readers em Five Best Desktop Comic Book Readers O formato CBZ bem til e simples de ser criado, mas no permite que se copie o texto. Para isto, precisamos passar as imagens por um reconhecedor ptico de caracteres (OCR). Veremos como se faz isto no prximo captulo.

Escaneando livros com qualidade

23

4 Aplique o OCRPara usar o OCR, voc precisa do software de scanner HP mais recente. Baixe pelo site da Hewlett-Packard o driver correspondente ao seu scanner. Os softwares de scanner da HP esto cada vez piores, mais feios e mais cheios de recursos inteis e amadores, o que se chama de bloatware. Enchem nossos computadores de programas e dados desnecessrios. Recentemente, (2009), a empresa liberou a verso 13 de seu software que sequer faz preview: ele escaneia demoradamente a imagem colorida na resoluo mxima do scanner, mesmo que se necessite apenas de uma parte da imagem que est no vidro do scanner, em preto e branco. No entanto, o software da HP traz escondida uma verso limitada do programa de OCR da I.R.I.S., um dos melhores OCRs do mercado. Este programa permite que se produza um PDF com texto copivel a partir de imagens j escaneadas. O OCR da I.R.I.S. Est na pasta: c:\Arquivos deprogramas\HP\Digital Imaging\DocProc\dpe_ocr.exe.

Puxe um atalho deste arquivo para o desktop. Ao rodar, o programa avisa que apenas para fins de debug. Ignore e clique em OK.

24

Escaneando livros com qualidade

Na primeira vez que roda, o programa (chamado DPE) executa um passo-a-passo (wizard) que pode ser seguido por comodidade. Ele primeiro pergunta se para rodar o wizard no incio. Deixe ligado se voc quiser manter a comodidade, ou desligue se quiser fazer o OCR manualmente.

Escaneando livros com qualidade

25

A seguir, o DPE pergunta se voc quer imagens do scanner ou j escaneadas. Esta verso OEM do DPE no permite que se obtenha imagens diretamente do scanner, o que no nenhuma desvantagem, j que as imagens de scanner precisam sempre de uma limpeza. Escolha Image file.

O DPE tambm vai perguntar se voc quer que ele detecte a orientao das pginas (se esto viradas 90 graus ou normais). Como voc j virou as pginas, deixe desligada esta opo. A opo Page Deskewing, define se voc quer que ele alinhe perfeitamente na horizontal pginas ligeiramente giradas. O DPE faz um servio muito bom neste ajuste. Deixe ligado.

26

Escaneando livros com qualidade

Depois, o DPE pedir para voc escolher a lngua do texto a ser reconhecido. Ele deve usar o default do sistema operacional. Mude se tiver texto em outras lnguas.

Escaneando livros com qualidade

27

A seguir, o DPE pede o formato a ser gerado. No nosso caso, queremos PDF com a imagem e com o texto por baixo da imagem. um recurso do formato PDF que permite que se tenha uma imagem por cima de um texto pesquisvel e copivel. Clicando no boto Change, voc configura o formato de sada, conforme o dilogo abaixo. Existem dezenas de formatos de sada diferentes, como RTF para LibreOffice, mas queremos guardar em PDF pesquisvel (Adobe Acrobat/Reader - Image-text) por ser mais verstil e preservar a imagem original.

28

Escaneando livros com qualidade

Finalmente, tudo configurado, vamos l! Go!

Escaneando livros com qualidade

29

O DPE pede para voc escolher os arquivos a serem oceerrizados. Clique no primeiro arquivo, segure a tecla SHIFT e clique no ltimo arquivo, para selecionar todos. Ao clicar em Abrir, o DPE importa e j faz o OCR em todas as pginas automaticamente.

30

Escaneando livros com qualidade

Depois de alguns segundos ou minutos (o trabalho relativamente rpido), o DPE apresenta o dilogo de salvar o PDF. Mude o nome do arquivo para algo bem descritivo, como autor e nome do livro. Mas, antes de salvar, defina algumas metainformaes necessrias para indexao do documento. Clique em Properties....

Escaneando livros com qualidade

31

Escreva: O ttulo O autor O assunto As palavras chave O programa criador A pessoa que produziu o PDF. A instituio Etc

Clique OK e grave o documento. Pronto, voc tem um belo PDF com texto pesquisvel e copivel. Se o livro tiver alguma diagramao especial, e o texto ficar embaralhado, ser preciso fazer o OCR mo, sem usar o Wizard. PDF um formato muito usado, bem documentado, compatvel com todos os sistemas operacionais e dispositivos, e com futuro garantido. O fato de ter texto copivel permitir que pesquisadores copiem citaes, poupando tempo e aumentando a produtividade. No entanto, o texto copivel no se presta ainda para ser usado por cegos que usam leitores de texto. Para isto, vamos ver no prximo captulo como extrair e formatar texto plano com o DPE.

Escaneando livros com qualidade

33

5 Gere, por OCR, texto editvelO PDF gerado pelo DPE tem boa qualidade de OCR. No entanto, se o texto for copiado, ter um caracter fim-de-pargrafo no final de cada linha. Para pequenos trechos de texto a serem usados em citaes, no problema reunir todas as linhas em um nico pargrafo. Mas, numa obra inteira, isto mais trabalhoso e envolveria muitas operaes de procura e troca. No entanto, o DPE tambm faz OCR com sada em RTF (Reach Text Format), um formato de intercmbio de documentos aceito pela grande maioria dos editores de texto. O processo de OCR o mesmo, mas, depois de gerar o PDF pesquisvel, clique em Format.

34

Escaneando livros com qualidade

Mude o formato para OpenOffice Writer 2.0

Marque Create body text e Merge lines into paragraph.

Escaneando livros com qualidade

35

A seguir, clique em Recognize and save para reconhecer e gravar o documento.

Se o LibreOffice estiver instalado, o texto reconhecido ser carregado e apresentado.

Escaneando livros com qualidade

37

6 Revise o textoDepois de criado o texto em formato RTF, ele deve ser revisado e corrigido. O OCR no perfeito. Sempre existem palavras no reconhecidas ou reconhecidas erradamente. Primeiro, formate estilo de texto Padro (F11) conforme suas preferncias adicione espao abaixo dos pargrafos, por exemplo e aplique a todo o texto. Depois, utilize os recursos de correo ortogrfica do editor para corrigir todo o texto. Mas h erros que o corretor no pega. Certas letras no so diferenciadas pelo OCR como maisculas e minsculas. S=s, C=c, O=o, por exemplo. Barras / so reconhecidas como l, etc. As notas de rodap devem ser reinseridas, ou inseridas no ponto exato do texto de forma a ficarem adequadas a cegos. Como os nmeros ndices de notas de rodap so muito pequenos, em geral no so reconhecidos. Voc deve olhar o texto original para achar o ponto exato de insero. Os nmeros de pgina e rodaps ou cabealhos, se forem capturados (o que bom para voc localizar o texto no original), devem ser eliminados na verso corrigida do texto. Depois de revisado, o documento ODT pode ser gravado como TXT, para uso de cegos.