linguística de corpus e linguística computacional: encontros e desencontros inpla 2011 25 de...
TRANSCRIPT
![Page 1: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/1.jpg)
Linguística de Corpus e Linguística Computacional: Encontros e desencontros
InPLA 2011
25 de junho, 2011 b
f
ӕ
![Page 2: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/2.jpg)
A Anotação semi-automática de divergências de grafia como fundamento para o processamento automático
de textos antigos:
Uma experiência na Brasiliana DigitalMaria Clara Paixão de Sousa
Universidade de São Paulo
Faculdade de Filosofia, Letras e Ciências Humanas Brasiliana Digital
NUMEC - Núcleo de Matemática, Estatísica e Complexidade
![Page 3: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/3.jpg)
Nesta comunicação apresentarei uma experiência de aplicação de técnicas da linguística de corpus ao processo de formação de uma biblioteca digital.
Utilizando a ferramenta E-Dictor, concebida como auxiliar da anotação de grafias divergentes para fins de etiquetagem morfossintática automática num corpus histórico, procuramos transformar um conjunto de seis textos portugueses escritos entre 1600-1700 em material processável por outras ferramentas de busca e anotação automática.
Para isso, adotamos a técnica originalmente utilizada na anotação de divergência de grafias como um tratamento para o problema dos resultados sofríveis do reconhecimento automático de caracteres naqueles textos.
Na comunicação, mostrarei os desafios enfrentados ao longo dessa experiência, seus resultados iniciais, e os caminhos que se abrem a partir disso no sentido do aperfeiçoamento de processos de tratamento automático de textos mais antigos, tanto no que remete ao reconhecimento de caracteres quanto no que tange a indexação para buscas.
![Page 4: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/4.jpg)
Um Desafio
![Page 5: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/5.jpg)
Um Desafio
Construir uma biblioteca digital com textos acessíveis a programas de buscas
www.brasiliana.usp.br
![Page 6: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/6.jpg)
Condição material dos nossos textos mais antigos
Um Desafio
![Page 7: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/7.jpg)
Condição material dos nossos textos mais antigos
Um Desafio
![Page 8: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/8.jpg)
Condição material dos nossos textos mais antigos
Um Desafio
![Page 9: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/9.jpg)
Condição material dos nossos textos mais antigos
Um Desafio
![Page 10: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/10.jpg)
Um Desafio
![Page 11: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/11.jpg)
Resultado da aplicação de programa de OCR
Um Desafio
Ofirm aexperknctt tptedom Phdippe I U Rey de Caííella por força epodeir de armas- àc-cupou antigamente a Coroa de Portugal3 e polo covftgmte prittou ao. Serenifjma ep^étQ po~ dercfo-Rey Dotn loao* (4ntesl)iiqú^de l$aroanç4)do indubitauel dereito desfiafie-ceffào ejuííiça para aditpa Coroa de "Portugal com) legitimo e pro-ximo berdeko da Serenifsima Senhora,, dona Catharina: fmuitos annos continuas per/èuerarap os fifeefmes.de ditto Rey^Ca$fL (a em auiolentà occupaçaó da ditta Coroade Portugal quebramando os concertos epafâos d'amiffade , de confiança edo Comercio que os Senhora Reysda Coroa de Portugglcomos outros P/mcepes Ena-çots d'Europaftntamente fempre refpeitaraó prmando.aosbopsfub-ditos euaffkllos da, mefma coroa defeu dereito de fias leys ecoftumes: talem dijjò carngandoos injufíamete de intoleraueis mokjlias eoutras diuerfis efpecias de tirannia3juntas aexcefstuos tr'èutos3os quaes os Reys de Caííella juntamente como patrimônio da Coroa Real de poKtugalconfomiraôedeftmiraó comguerras efcufadas-.coni as quaes coufasfendo os dittos boòs Subditos euaffkllos daquella Coroa eííi-mulados epromcados dejuíío furor ^vencido o fofrimento 3 com grande animo3 oufaâa eadvertenàa facodiraò aquelle intolerauel e injuflo lugo d El Rey de Caííella reftituindofe afsimefmos a fia liberdade} efinalmente por applaufo comun eUegraô eacclamaraó * deraòomenagem, ejuramentode fidelidade ao ãtto Rey Dom Io-ao* IV , Ofmmtopoderofos Senhores Qrdeés Geraes fenúndo juxtamente por fua parte 3 etendo be' conhecido aintolerauel tiranya edurifsimos encargos do ditto Rey de Caííella efia deteflauel determinação para alcançar a Monanhia detanto tempo emtoda Europa
![Page 12: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/12.jpg)
MOſtrou aexperiencia quedom Phelippe I I, Rey de Castella por força epoder de armas oc-cupou antigamente a Coroa de Portugal, e polo conſeguinte priuou ao Sereniſsimo emuito po-deroſo Rey Dom Ioaõ (antes Duque de Bargança)doindubitaueldereito de ſua fuc-aſſaó ejustiça para aditta Coroa de Portugal como legitimo e proximo herdeiro da Sereniſsima Senhora dona Catharina: emuitos annos continuos perſeueraraó os fucceſsoresde ditto Rey de Castel- la em auiolenta occupaçaõ da ditta Coroade Portugal quebrantando os concertos epactos d’amiſſade, de confiança edo Comercio que os Senhores Reys da Coroa de Portugal com os outros Princepes Ena-çoés d’Europa ſantamenteſempre reſpeitaraó priuando aos boósſub- ditos euaſſallos da meſma coroa deſeu dereito de ſuas leys ecoftumes: ealem diſſo carregandoos injuſtamete de intoleraueis moleſtias eoutras diuerſas eſpecias de tirannia,juntas aexceſsiuos tributos, os quaes os Reys de Castella juntamente como patrimonio da Coroa Real de Portugal conſomiraó edeftruiraó comguerras eſcuſadas:com as quaes couſas ſendo os dittos boós Subditos euaſſallos daquella Coroa esti--mulados eprouocados dejusto furor vencido o ſofrimento , com grande animo, ouſadia eadvertencia ſacodiraó aquelle intolerauel e injuſto Iugo d’ El Rey de Castella reftituindoſe afsimeſmos a fua liberdade, efinalmente por applauſo comun ellegeraó eacclamaraó , deraó omenagem, ejuramentó defidelidade ao ditto Rey Dom Ioaó IV , Oſmnitopoderoſos Senhores Ordeés Geraes ſentindo juxtamente por ſua parte, etendo be' conhecido aintolerauel tiranya eduriſsimos encargos do ditto Rey de Castella efua deteſlauel determinaçaó para alcançar a Monarchia detanto tempo emtoda Europa
Resultado da correção do output de OCR
Um Desafio
![Page 13: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/13.jpg)
Mostrou a experiência que dom Felipe II, Rei de Castela por força e poder de armas, ocupou antigamente a Coroa de Portugal, e pelo conseguinte privou ao Sereníssimo e muito poderoso Rei Dom João (antes Duque de Bragança) do indubitável direito de sua sucessão e justiça para a dita Coroa de Portugal como legiíimo e próximo herdeiro da Sereníssima Senhora dona Cataarina: e muitos anos contínuos perseveraram os succesores de dito Rei de Castela em a violenta ocupação da dita Coroa de Portugal quebrantando os concertos e pactos de amizade, de confiança e do Comércio que os Senhores Reis da Coroa de Portugal com os outros Príncipes e Nações da Europa santamente sempre respeitaram privando aos bons súditos e vassalos da mesma coroa de seu direito de suas leis e costumes: e além disso carregando-os injustamente de intoleráveis moléstias e outras diversas espécies de tirania,juntas a excessivos tributos, os quais os Reis de Castela juntamente com o patrimônio da Coroa Real de Portugal consumiram e destruíram com guerras escusadas: com as quais coisas sendo os ditos bons Súditos e vassalos daquela Coroa estimulados e provocados de justo furor vencido o sofrimento, com grande ânimo, ousadia e advertência sacodiram aquele intolerável e injusto Jugo d’ El Rei de Castela restituindo-se a si mesmos a sua liberdade, e finalmente por aplauso comum elegeram e aclamaram, deram homenagem, e juramento de fidelidade ao dito Rei Dom JoãoIV , os muito poderosos senhores Ordens Gerais sentindo justamente por sua parte, e tendo bem conhecido a intolerável tirania e duríssimos encargos do dito Rei de Castela e sua detestável determinação para alcançar a Monarquia de tanto tempo em toda Europa
Texto efetivamente legível
Um Desafio
![Page 14: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/14.jpg)
Mostrou a experiência que dom Felipe II, Rei de Castela por força e poder de armas, ocupou antigamente a Coroa de Portugal, e pelo conseguinte privou ao Sereníssimo e muito poderoso Rei Dom João (antes Duque de Bragança) do indubitável direito de sua sucessão e justiça para a dita Coroa de Portugal como legiíimo e próximo herdeiro da Sereníssima Senhora dona Cataarina: e muitos anos contínuos perseveraram os succesores de dito Rei de Castela em a violenta ocupação da dita Coroa de Portugal quebrantando os concertos e pactos de amizade, de confiança e do Comércio que os Senhores Reis da Coroa de Portugal com os outros Príncipes e Nações da Europa santamente sempre respeitaram privando aos bons súditos e vassalos da mesma coroa de seu direito de suas leis e costumes: e além disso carregando-os injustamente de intoleráveis moléstias e outras diversas espécies de tirania,juntas a excessivos tributos, os quais os Reis de Castela juntamente com o patrimônio da Coroa Real de Portugal consumiram e destruíram com guerras escusadas: com as quais coisas sendo os ditos bons Súditos e vassalos daquela Coroa estimulados e provocados de justo furor vencido o sofrimento, com grande ânimo, ousadia e advertência sacodiram aquele intolerável e injusto Jugo d’ El Rei de Castela restituindo-se a si mesmos a sua liberdade, e finalmente por aplauso comum elegeram e aclamaram, deram homenagem, e juramento de fidelidade ao dito Rei Dom JoãoIV , os muito poderosos senhores Ordens Gerais sentindo justamente por sua parte, e tendo bem conhecido a intolerável tirania e duríssimos encargos do dito Rei de Castela e sua detestável determinação para alcançar a Monarquia de tanto tempo em toda Europa
Condição material dos nossos textos mais antigosUm Desafio
![Page 15: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/15.jpg)
Estratégias
![Page 16: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/16.jpg)
Estratégias
1. Correção de OCRAbbyy 10.0
![Page 17: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/17.jpg)
- Ferramenta “treinável”: - Resultados transferíveis para o total do acervo - Resultados transferíveis para outros projetos e acervos
Vantagens previstas: Estratégias
Estratégias
1. Correção de OCRAbbyy 10.0
![Page 18: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/18.jpg)
- Ferramenta “treinável”: - Resultados transferíveis para o total do acervo - Resultados transferíveis para outros projetos e acervos
Vantagens previstas: Estratégias1. Correção de OCR
Abbyy 10.0
Desvantagens previstas: - Software proprietário: - Impossibilidade de trabalho no código-fonte - Imprevisibilidade de continuidade do programa - Transferibilidade comprometida pelo alto preço
- Resultado só pode ser parcial: - Necessidade de novo tratamento para variação de grafia
Estratégias
1. Correção de OCRAbbyy 10.0
![Page 19: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/19.jpg)
2. Correção de OCR e Edição filológica (Edictor*)
Estratégias
1. Correção de OCRAbbyy 10.0
* Paixão de Sousa, Kepler e Faria (2010)
![Page 20: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/20.jpg)
Estratégias
Vantagens previstas: - Software livre: - Possibilidade de trabalho no código-fonte - Previsão de continuidade do programa - Transferibilidade garantida
- Ferramenta completa: - O resultado combina correção do reconhecimento e edição de variação de grafia
2. Correção de OCR e Edição filológica (EDictor)
1. Correção de OCRAbbyy 10.0
![Page 21: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/21.jpg)
Estratégias
Vantagens previstas: - Software livre: - Possibilidade de trabalho no código-fonte - Previsão de continuidade do programa - Transferibilidade garantida
- Ferramenta completa: - O resultado combina correção do reconhecimento e edição de variação de grafia
- Ferramenta não-“treinável”: - Resultados não transferíveis para o total do acervo - Resultados não transferíveis para outros projetos e acervos
Desvantagens previstas:
2. Correção de OCR e Edição filológica (EDictor)
1. Correção de OCRAbbyy 10.0
![Page 22: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/22.jpg)
Resultados
![Page 23: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/23.jpg)
-Financiamento: Pró-reitoria De Graduação - USP Programa Ensinar com Pesquisa
-Tempo de pesquisa: 12 meses -Pesquisadores envolvidos: 7 (
Bruna Baldini de Miranda Bruna Baldini de Miranda Fabiana Ferraz Fabiana Ferraz Fabio Kepler Fabio Kepler Jáderson Porto Jáderson Porto Márcia Ap. Santos MendesMárcia Ap. Santos MendesMaria Clara Paixão de Sousa (coord.)Maria Clara Paixão de Sousa (coord.)Mariane Cristine de Almeida Mariane Cristine de Almeida
Resultados:Números
![Page 24: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/24.jpg)
-Financiamento: Pró-reitoria De Graduação - USP Programa Ensinar com Pesquisa
-Tempo de pesquisa: 12 meses -Pesquisadores envolvidos: 7
-Textos corrigidos: 6-Total de palavras processadas: 39.000- Total de tokens de variação: 11.500
Resultados:Números
![Page 25: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/25.jpg)
Resultados:Números
Cf. relatório de pesquisa: http://lampiao.brasiliana.usp.br/lingua/node/92
![Page 26: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/26.jpg)
Resultados:Esquema Geral
Versões Disponíveis Para Cada Texto:
- Texto com OCR corrigido (equivalente a uma edição paleográfica)
- Edição Semi-diplomática
- Edição Modernizada
- Glossário de correções de OCR
- Glossário de edições
- Versão com Etiquetação Morfossintática
![Page 27: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/27.jpg)
Versões Disponíveis Para Cada Texto
- Texto com OCR corrigido (equivalente a uma edição paleográfica) XML, Html, TXTXML, Html, TXT
- Edição Semi-diplomática XML, Html, TXTXML, Html, TXT
- Edição Modernizada XML, Html, TXTXML, Html, TXT
- Glossário de correções de OCR XML, Html, TXT, CSVXML, Html, TXT, CSV - Glossário de edições XML, Html, TXT, CSVXML, Html, TXT, CSV
- Versão com Etiquetação Morfossintática XML, TXTXML, TXT
Resultados:Esquema Geral
![Page 28: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/28.jpg)
Resultados:Exemplos
- Documento submetido ao OCR
![Page 29: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/29.jpg)
-Resultado do OCR (treinado para o Português Clássico)
Treſlado do Latin na lin- goa Portugeza .
Trattado das " Tregoas efuspenſaó de todo o acto de hoſti / idadoebemaſſi de navegação , Comércio ejuntamente Soccorro , ſei- io , comefado eaccabado emHayadeHollandeaxìj . de Junho 164 ĩ . por tempo de des annos entre o Senhor Triſtaõ de Mcndoça Furtado , do Confelho e Embaixador do Serenijfimo epoderqfijſtmo Dom Ioao'
I V deſte nome Rey do Portugal e dosAlgarvos , Eos Senhores Depu- tados dos Muito poderoſos Senhores EJtados Geraés das Provincias Vnìdas dos Pai % es Baìxos .
Em a HAYA ,
Em caza da Viuva e Erdeiros de Ilebrandt Iacobſon van Wbuw , Impri-
midor Ordinario dos Muy altos e poderoſos Snnores EJlados Ge- nerais
, Anno 1 642 . Curn Privilegio .Resultados:Exemplos
![Page 30: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/30.jpg)
Treſlado do Latin na lin- goa Portugeza .
Trattado das " Tregoas efuspenſaó de todo o acto de hoſti / idadoebemaſſi de navegação , Comércio ejuntamente
Soccorro , ſei- io , comefado eaccabado emHayadeHollandeaxìj . de Junho 164 ĩ . por
tempo de des annos entre o Senhor Triſtaõ de Mcndoça Furtado , do Confelho e Embaixador do Serenijfimo epoderqfijſtmo Dom Ioao'
I V deſte nome Rey do Portugal e dosAlgarvos , Eos Senhores Depu- tados dos Muito poderoſos Senhores EJtados Geraés das Provincias
Vnìdas dos Pai % es Baìxos .
Em a HAYA ,
Em caza da Viuva e Erdeiros de Ilebrandt Iacobſon van Wbuw , Impri-
midor Ordinario dos Muy altos e poderoſos Snnores EJlados Ge- nerais
, Anno 1 642 . Curn Privilegio .
Resultados:Exemplos
Taxa média de acerto inicial:59%
Taxa média de acerto após treinamento:
86%
![Page 31: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/31.jpg)
-Texto com OCR corrigido no E-Dictor
Treſlado do Latin na lin- goa Portugeza .
Trattado das Tregoas e ſuspenſaó de todo o acto de hoſtilidade e bem aſſi de navegaçaó , Comercio ejuntamente Soccorro , fei-to ,começado eaccabado em Haya de Hollande a xÿ . de Iunho 1641 . por tempo de des annos entre o Senhor Triſtaõ de Mendoça Furtado , do Conſelho e Embaixador do Sereniſſimo e poderoſiſſimo Dom Ioao'
I V deſte nome Rey de Portugal e dosAlgarvos , Eos Senhores Depu- tados dos Muito poderoſos Senhores Eſtados Geraés das Provincias Vnidas dos Paizes Baixos .
Em a HAYA .
Em caza da Viuva e Erdeiros de Ilebrandt Iacobſon van Wouw , Impri-
midor Ordinario dos Muy altos e poderoſos Snnores Eſtados Ge- nerais
, Anno 1 642 . Cum Privilegio .Resultados:Exemplos
![Page 32: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/32.jpg)
- Edição Modernizada
Tratado das tréguas e suspensão de todo o ato de hostilidade e bem assim de navegação , comércio e juntamente socorro , feito,
começado e acabado em Haya de Hollande a XII . de Junho 1641 . por tempo de dez anos entre o senhor Tristão de Mendoça Furtado ,
do conselho e embaixador do sereníssimo e poderosíssimo Dom João
IV deste nome rei de Portugal e dos Algarvos , e os senhores deputados dos muito poderosos senhores estados gerais das províncias
vindas dos países baixos .
.
Resultados:Exemplos
Treslado do latim na língua portuguesa .
Em a HAYA .
Em casa da viúva e herdeiros de Ilebrandt Iacobſon van Wouw , imprimidor
ordinário dos mui altos e poderosos senhores estados generais,
Ano 1642 . Com privilégio
![Page 33: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/33.jpg)
- Glossário de edições XML, Html, TXT, CSVXML, Html, TXT, CSV
Resultados:Exemplos
![Page 34: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/34.jpg)
- Glossário de edições XML, Html, TXT, CSVXML, Html, TXT, CSV
Resultados:Exemplos
fubditos,,, ſubditos,,,subditos,,súditos
fubditos,,, ſubditos,,,subditos,,súditos
fubditos,,, ſubditos,,,subditos,,súditos
fubditos,,, ſubditos,,,subditos,,súditos
fubditos,,, ſubditos,,,subditos,,súditos
fubditos,,, ſubditos,,,subditos,,súditos
fubditos,,, ſubditos,,,subditos,,súditos
fubditos,,, ſubditos,,,subditos,,súditos
fubditos,,, ſubditos,,,subditos,,súditos
![Page 35: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/35.jpg)
- Anotação XMLXML
<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>
Resultados:Exemplos
![Page 36: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/36.jpg)
<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>
Estes dados poderiam ser utilizados como base para o desenvolvimento de programas de reconhecimento capazes de tratar textos escritos em português clássico.
Resultados:Produtos
1 Banco de erros de reconhecimento
Resultados:Produtos
![Page 37: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/37.jpg)
Estes dados poderiam ser utilizados como base para um programa de buscas no acervo de textos antigos.
2Banco de grafias em variação
Resultados:Produtos
<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>
![Page 38: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/38.jpg)
<w id="s_3#1" t="honor"><o>MARQVEZ</o><e t="mod">MARQUÊS</e><m v="NPR"/></w><w id="s_3#2" t="dep"><o>DE</o><m v="P"/></w><w id="s_3#3" t="antropo" name="Montalvão (Marquês de)"><o>MONTALVAM</o><e t="mod">MONTALVÃO</e><m v="NPR"/><comment>Jorge de Mascarenhas, Marquês de Montalvão. Fidalgo e administrador colonial português. Foi governador de Mazagão (1615-1619), de Tânger (1622-1624) e do Algarve. No contexto da Dinastia Filipina, tendo caído em desgraça o conde da Torre (sucedido por uma Junta Governativa tríplice), Mascarenhas foi nomeado por Filipe IV de Espanha como 1º vice-rei do Brasil (1640).</comment></w>
Banco de entidades nomeadas3
Resultados:Produtos
![Page 39: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/39.jpg)
Banco de entidades nomeadas3
Resultados:Produtos
![Page 40: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/40.jpg)
Banco de entidades nomeadas3
Resultados:Produtos
![Page 41: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/41.jpg)
Resultados:AplicaçõesPossíveis
Aplicações no acervo1
Resultados:Aplicações Possíveis
![Page 42: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/42.jpg)
Aplicações no acervo 1
Resultados:Aplicações Possíveis
![Page 43: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/43.jpg)
Aplicações no estudo linguístico2
Resultados:Aplicações Possíveis
![Page 44: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/44.jpg)
Novos Desafios
![Page 45: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/45.jpg)
O banco de palavras formado pela nossa anotação XML combina correção de reconhecimento automático, variação de grafia e classe de palavras.
Estes dados poderiam ser utilizados como base para o desenvolvimento de programas de reconhecimento automático capazes de tratar textos escritos em português clássico.
Novos Desafios
![Page 46: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/46.jpg)
O banco de palavras formado pela nossa anotação XML combina correção de reconhecimento automático, variação de grafia e classe de palavras.
Estes dados poderiam ser utilizados como base para o desenvolvimento de programas de reconhecimento automático capazes de tratar textos escritos em português clássico.
Novos Desafios
Quem precisa de programas de reconhecimento automático capazes de tratar textos escritos em português clássico?
![Page 47: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/47.jpg)
Novos Desafios
Quem precisa de programas de reconhecimento automático capazes de tratar textos escritos em português com ampla variação de grafias?
![Page 48: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/48.jpg)
Novos Desafios
As pesquisas em linguística de corpus dedicadas às fases antigas da língua portuguesa precisam unir-se às pesquisas em linguística de corpus dedicadas a língua atual - em especial, à língua escrita sujeita à ampla variação de grafia (a língua não-padrão).
![Page 49: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/49.jpg)
mas... e os Encontros e
Desencontros ?
![Page 50: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/50.jpg)
Novos Desafios
<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>
Itens gerados automaticamente pelas ferramentas (OCR, EDictor)
![Page 51: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/51.jpg)
Novos Desafios
<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>
Itens gerados automaticamente pelas ferramentas (OCR, EDictor)
Itens anotados semi-automaticamente pelos editores com auxílio do EDictor
![Page 52: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/52.jpg)
Novos Desafios
<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>
Itens gerados automaticamente pelas ferramentas (OCR, EDictor)
Itens anotados semi-automaticamente pelos editores com auxílio do EDictor
Itens acrescentados manualmente pelos editores
![Page 53: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/53.jpg)
Novos Desafios
<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>
Plano: Geração automática das alterações
![Page 54: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/54.jpg)
Novos Desafios
<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>
Plano: Geração automática das alterações
EDictor
![Page 55: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/55.jpg)
Novos Desafios
<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>
Plano: Geração automática das alterações
EDictor
OCR treinado?
![Page 56: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/56.jpg)
Novos Desafios
<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>
Esse trabalho envolveria o desenvolvimento de ferramentas baseadas em reconhecimento de padrões, estudos probabilísiticos, ...
![Page 57: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/57.jpg)
Novos Desafios
<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>
Esse trabalho envolveria a linguística computacional
![Page 58: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/58.jpg)
Novos Desafios
<w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w>
Esse trabalho envolveria a linguística computacional,a linguística de corpus,a linguística histórica, e a filologia
![Page 59: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/59.jpg)
eS
a
b
d
f
❡
ǣ
ẽĩ ũ
õ δ
ſʦӕ
ſ
Obrigada!
![Page 60: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/60.jpg)
eS
a
b
d
f
❡
ǣ
ẽĩ ũ
õ δ
ſʦӕ
ſ
Obrigada!
www.brasiliana.usp.brhttps://github.com/edictor
![Page 61: Linguística de Corpus e Linguística Computacional: Encontros e desencontros InPLA 2011 25 de junho, 2011 e a b f ũ õ ſ ӕ ſ](https://reader031.vdocuments.com.br/reader031/viewer/2022013003/552fc145497959413d8e0c5c/html5/thumbnails/61.jpg)
Linguística de Corpus e Linguística Computacional: Encontros e desencontros
InPLA 2011
A Anotação semi-automática de divergências de grafia
como fundamento para o processamento automático de textos antigos:
Uma experiência na Brasiliana DigitalMaria Clara Paixão de Sousa
Universidade de São Paulo
Faculdade de Filosofia, Letras e Ciências Humanas Brasiliana Digital
NUMEC - Núcleo de Matemática, Estatísica e Complexidade