tutorial ilustrado ocr com cuneiform 6

Upload: cesar-freitas

Post on 11-Jul-2015

126 views

Category:

Documents


0 download

DESCRIPTION

Digitalizar livros e outras publicações.

TRANSCRIPT

F|gure 1 - RUTutorial OCR @ Cuneiform 6.0OBJETVO:Oobjetivodestetutorialeensinarpassoapassocomosedigitalizaumdocumentoquepossui muitas paginas, como por exemplo uma apostila ou um livro, utilizando o softwareCuneiform versao 6.0. Existem varios outros softwares para OCR, como o Fine Reader ouo Recognita, mas devido a facilidade de uso, alta eficiencia, e baixa exigencia de hardware(Estetutorialfoifeitonum+86DX+100com2+NbdeRANutilizandoumscannerGeniusColorpage SP2X SCS!) o Cuneiform foi o software escolhido.NO OUE CON88TE A OPERAAO DE OCR ?Basicamenteadigitalizaaodeumdocumentoefeitaem3etapas:Acapturadodocumento original para uma imagem ( que e o processo de Scan propriamente dito) , oOCR(queconsistenatraduaodaimagememtexto,atravesdoprocessodereconhecimento tico de caracteres) e a correaofformataao do documento digitalizado.PA88O 1 :: ADOURNDO O CUNEFORM ::OCuneiform6eumsoftwareparaOCR(Reconhecimentoticodecaracteres)bastantepopular e facil de ser encontrado para download.Nositehttp:ffwww.superdownloads.com.brvocepodeencontrarumaversaotrialtotalmentefuncionaleregistravel.Estetutorialfoifeitoutilizando-sedestaversaotrialadquirida no superdownloads. O arquivo tem menos de 10Nb.PA88O 2 :: N8TALANDO O CUNEFORM ::A instalaao e bastante simples. Execute o arquivo que baixou do superdownloads e sigaas orientaoes que aparecerao na tela.SevocejapossuionumeroserialpararegistrodoSoftwarevocedeveinformarestesnumeros no ato da instalaao, quando solicitado. Se voce nao digitar o numero serial nainstalaao e desejar registrar o software posteriormente, voce devera reinstalar o softwarepara digitar as informaoes necessarias para o registro durante a reinstalaao.PA88O 3 :: EXECUTANDO O CUNEFORM ::Comoestetutorialsedestinaaensinaradigitalizaaodedocumentos com varias paginas, vamos nos ater a ferramentaBatch Recognition Utility.Estaferramentapossibilitaadigitalizaaodeumnumeroinfinito paginas de forma seqencial, sem a necessidade de sereabrir o driver do scanner a cada pagina digitalizada, tornandootrabalhoinfinitamentemenostrabalhoso.Alemdisso,vocepodepararadigitalizaaoaqualquermomentoeposteriormenteretomardeondeparou,poisosarquivosdeimagemsaonomeadosdeformaseqencial.Depoisdeinstaladoosoftware,executeoBatchRecognitionUtility,clicandonoiconeilustradonafigura acima. A tela inicial da ferramenta de reconhecimento em lote devera aparecer:F|gure 2 -Te|e |n|c|e| do etch Recogn|t|on Ut|||tyF|gure 3 - Te|e Pr|nc|pe| do RUF|gure 4 - 8cen w|zerdF|gure 5 - 8cen w|zerd Pesso 1Natelainicial(Figura2)eapresentadooNewTaskWizard(AssistenteparaNovasTarefas).NaoutilizaremosoNewTaskWizard,poisgeralmenteeleeindicadoparasedigitalizar documentos de poucas paginas. Assim, paraprosseguircomoScan,cliquenobotao Close.AtelaprincipaldoBatchRecognitionUtilityaparecera.Naximizeestajanelaeseraapresentada a tela ilustrada na Figura 3.PA88O 4 :: 8CAN WZARD ::Omeiomaisinteligentedesefazerumadigitalizaaoecapturaremimagens(scannear)todasaspaginasdodocumentoparasdepoisfazeroOCR.DessaformavamosutilizaroSCANW!ZARDparafazeracapturadaspaginas.AvantagemdeseutilizaroSCANW!ZARDequevocepodepararacapturaquandodesejarereiniciarposteriormentedeondeparou.ParainiciaroSCANW!ZARDcliquenoitemOCRda tela principal do BRU (veja a Figura 2) e depois clique em SCAN W!ZARD, ou se preferirpodeapertaratecla F8.Atelaaoladodevera aparecer.OndeestaescritoTWA!N:GeniusScanner Nodule (32bit)deveraapareceramarcaemodelodoseuscanner.Casonaoapaream,cliqueobotaoScannerOptions"eselecioneoseuscanner na lista.CliquenobotaoNextparacontinuar.AtelaapresentadanaFigura6deveraser aparecer. Este eosegundopassodepreparaaodoscincoquecompoeoSCANW!ZARD,enelevamosescolheroformatodeimagemqueutilizaremosparacapturaraspaginas,otipodearquivo que sera salvo e o local onde as imagens serao salvas.F|gure - 8cen w|zerd Peso 2F|gure 7 -Pesso 3 do 8cen w|zerdRecomendoqueasopoesdestatelasejammantidascomoaparecemnafigura ao lado.AopaoCreateSingle Page !mageFile(s)deveestarselecionadaparaque a cada paginascanneadasejacriadaumanovaimagemcorrespondente.NacaixaFolder:vocepodeespecificarolocalondeestasimagensseraoarmazenadas,paraseremanalisadasposteriormente,nomomentodoOCR.Nalista!mageFileFormat:vocepodeescolheroformatodeimagememqueascapturasdaspaginasseraofeitas.Utilizesempre o formato Aldus T!FF (*.tiff). Clique no Botao NEXT para prosseguir.ComovamosdigitalizartodasaspaginasparasdepoisfazeroOCRdevemosescolheraopaoNo,Thankyouquandoestatelafor apresentada.AoclicaremNo,Thankyouasdemaisopoesseraoanuladasepassaremosdiretopara o passo 5.FeitoissoCliquenobotaoNEXTpara continuar.Figura 9 - Configurao do ScannerEsta e a telado ultimo passo do SCAN W!ZARD.Para seguir para afasedecapturadasimagens clique no botao Finish.PA88O 5 :: CAPTURANDO A8 PAGNA8 DO DOCUMENTO ::AoclicarobotaoFinish(Figura8)odriverdoseuscannerseraabertoparaquevocepossadarinicioacapturadeimagens.Ateladodriverediferenteparacadamarcadescanner,portantoasFiguras9e10saoapenasilustrativas,masasfunoesquenelaestaodemonstradasexistememtodososscanners,podendodiferirapenasnanomenclatura dos botoes.Antesdecomearascannearaspaginas,devemosajustaroscannerparaaoperaaodeOCR.Paracapturarmosumapaginadeformaaconseguirbonsresultados devemos selecionar as seguintes opoes:Tipo f Type: Line Art ou Branco e PretoResolutionfResoluao: 300 dpiFeito isso, podemos partir para a cpia das paginas.O processo e exatamente o mesmo de se copiar umaimagem, como por exemplo uma foto.voce deve posicionar o documento no scanner e clicarno botao PreviewfPreScan (ou o equivalente deste botao no seu scanner).F|gure 8 - Pesso 5 do 8cen w|zerdF|gure 10 - Te|e pr|nc|pe| do 0r|ver do 8cennerQuandoforterminadoopreviewfprescanvocedeveselecionaraareaaserscanneadaajustandoalinha tracejadapara que ela contenhatodo o conteudo de uma pagina.Agorapodemosdarinicioaotrabalhorepetitivodescanneartodasaspaginas do documento.Comaprimeirapaginadodocumentodevidamenteposicionadanoscanner,cliquenobotaoScan(ouequivalentedo seu scanner).Apaginaserascanneadaempoucossegundoseautomaticamentearmazenada no local escolhido.TerminadooScandestapagina,simplesmentelevanteatampadoseuScannereposicioneaprximapaginaa ser copiada. Desa a tampa e cliquenovamente no botao Scan.Este passo devera ser repetido ate quevoce tenha scanneado todas as paginas do documento.Casovocequeirapararacapturadaspaginasantesdofinal,naohaproblemas,bastafechar a tela do driver do scanner. Quando for recomear o trabalho basta repetir todos ospassos anteriormentedescritosecontinuaracpiadapaginaemquefoiinterrompidaadigitalizaao. importante naotrocarapastaondesearmazenamasimagenscopiadas,poisoCuneiformvaicontinuaraseqenciadearmazenamentosemsobrescreverasimagens que ja foram copiadas.TerminadaaCapturadetodasaspaginasdodocumento,fecheodriverdoScanner(clicando no x do lado direito superior da tela do driver).Agora vamos dar inicio ao processo de OCR, ou reconhecimento tico de caracteres.PA88O 6 :: TRAN8FORMANDO MAGEM EM TEXTO ::Ao terminar a cpia das paginas,a tela ilustrada na Figura 11:Note que do lado esquerdo datelasaomostradasaspaginasscanneadas.Onumerodeimagens e igual ao numero de paginas que voce scanneou.Para iniciar o reconhecimento ptico dos caracteres tecle F7 ou Clique na barra de menuno item OCR e depois em Recognition Wizard.Ao se clicar em OCR\Recognition wizard ou pressionar F7 a tela ilustrada na Figura 12 seraapresentada.Nacaixadetexto,digiteumnomequalquerparaatarefadeOCR,porexemploocr",como esta na figura.Em seguida marque a caixa de seleao abaixo.Clique no botao NEXT.F|gure 11- Preperendo o 06RFigura 12Ao se clicar o botao NEXT a seguinte tela sera apresentada:F|gure 13 - Pesso 2 do 06R w|zerdF|gure 14 - 8e|eo des |megens pere o 06RNesta tela voce deve selecionar a pasta onde foram salvas as imagens scanneadas.Feito isto, clique no botao NEXT para prosseguir.A seguinte tela sera apresentada:Selecione todas asimagensdapasta.Lembre-sequecadaimagemdevecorresponderauma pagina do documento. Nao armazene outras imagens junto com estas ou o OCR naosera feito corretamente. Depois de selecionadas todas as !magens, clique no botao NEXTpara prosseguir. A tela ilustrada na Figura 15 sera apresentada:Selecioneaprimeiraopaocomoestanafigura,assimaspaginasseraoadicionadasaomesmodocumentotextonaordemcorreta,reproduzindoaordememquefifeitaacapturadas paginas.NacaixadetextoDocumentNamedigiteonomedodocumentoqueserasalvo.F|gure 1 - F|ne||zendo o 06R w|zerdUsandooBotaoBrowsevocepoderaescolherumapastadiferenteparasalvarodocumento, alem de escolher o formato do mesmo. O cuneiform oferece os formatos RTF,HTNL e TXT. O formato mais indicado e o RTF, pois pode ser aberto posteriormente emqualquer editor de texto (wordpad, word, wordperfect, openoffice, staroffice, etc).extremamenterecomendavelquetodasasimagensestejamnummesmodiretrio(pasta). Assim, clique na opao No, Thank you, como esta na figura acima.Para prosseguir clique em NEXT. A seguinte tela sera apresentada:NarqueacaixaStartRecognitionNowSe voce ainda naoselecionoualinguaemqueocuneiformvaifazeroOCR,agoraeahorapara fazer isso.Estaalteraaosprecisaserfeitaumaunicavez,paratalcliquenobotaoRecognitionOptions...Atelailustradanafigura17seraapresentada.CliquenaGuiaRecognitionenacaixaLanguageSelecionePortuguese.NarqueasopoesAutoSpellCheckereseodocumentoqueestadigitalizandotiverapenasumacolunadetexto,marque a opao One Column.Feito isso, clique no botao OK.voceretornaraparaateladafigura16.CliqueemFinishpara iniciar o OCR.DaquiateoterminodadigitalizaaotudoserafeitopeloCuneiform.Elevaiinterpretarasimagensetraduzi-lasemtexto,ouseja,vai realizar o processo de OCRautomaticamenteemtodasaspaginas e vai adicionar o textotraduzidonoarquivoindicadoanteriormente,naordememqueaspaginasforamcapturadas no processo do Scan Wizard.Uma caixa de dialogo mostrara o progresso da operaao e ao terminar o OCR de todas aspaginas a seguinte tela sera apresentada:OOCRestapronto,todasaspaginasscanneadasforamtransformadasemtexto.CliqueemCloseeFecheoCuneiform.PA88O 7 :: FNALZANDO O TRABALHO ::Abra o Arquivo Criado em um editor de textos, como por exemplo o word.normalqueaformataaonaosejaamesmadolivro,tambemenormalquealgunsparagrafosestejamemtamanhosecomfontesdiferentesdosoutros,porissoerecomendavelaformataaodoarquivo.vocepodecriarmacrosqueautomatizamaformataao de qualquer arquivo, facilitando assim este trabalho.OCuneiformeumsoftwarequegarante95deacertosnadigitalizaao,portanto,tambemenecessarioquevocecorrijaos5deerros.Paraestetrabalhovocepodecontar com um corretor ortografico, que pode ser o prprio corretor do word.Sem duvida o trabalho de formataao e principalmente correao sao os mais trabalhososnadigitalizaaodeumdocumentomuitoextenso,massaoimprescindiveisparaquesetenha um resultado final satisfatrio. Nao libere os textos sem antes corrigi-los.Algumas dicas para se obter menos erros numa digitalizaao:Nantenha toda a superficie a ser scanneada em contado com o scanner, nao deixe bordasou orelhas do documento levantadas, pois assim ocorrerao muitos erros.Utilize sempre o formato de imagem T!FF.Faa os Scans com 300 dpi Line ArtfBlack White (1 bit)Pode ocorrer a criaao de tabelas contendo o texto digitalizado, nesse caso o word podenaoabrirodocumentocriadopeloCuneiform.Pararesolveroproblema,abraodocumento no wordpad e faa uma pre-fomataao:Deixe todo o texto com a mesma fonte e o mesmo tamanho de fonte, remova as tabelascontendo texto que foram criadas, salve o documento como DOC e abra-o no word paraterminar a formataao e fazer a correao.Comece com textos pequenos para se acostumar com o processo.http:ffpalanthas.boom.ruLista de discussao AdoramosLer @ Yahoogroups.com