in pla paixaodesousa_fim

71
Linguística de Corpus e LinguísticaComputacional: Encontrosedesencontros InPLA 2011 25 de junho, 2011 b

Upload: maria-clara-paixao-de-sousa

Post on 04-Jul-2015

49 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: In pla paixaodesousa_fim

Linguística de Corpus e

LinguísticaComputacional:

Encontrosedesencontros

InPLA 2011

25 de junho, 2011

e

a

bſ

Page 2: In pla paixaodesousa_fim

A Anotação semi-automática de divergências de grafia como fundamento para o processamento automático de textos

antigos:

Uma experiência na Brasiliana Digital

Maria Clara Paixão de Sousa

Universidade de São Paulo

Faculdade de Filosofia, LetraseCiênciasHumanas

Brasiliana Digital

NUMEC - Núcleo de Matemática, EstatísicaeComplexidade

Page 3: In pla paixaodesousa_fim

Nestacomunicaçãoapresentareiumaexperiência de aplicação de

técnicasdalinguística de corpus aoprocesso de formação de

umabiblioteca digital.

Utilizando a ferramenta E-Dictor, concebidacomoauxiliardaanotação

de grafiasdivergentespara fins de

etiquetagemmorfossintáticaautomática num corpus

histórico, procuramostransformar um conjunto de

seistextosportuguesesescritos entre 1600-1700 em material

processávelporoutrasferramentas de buscaeanotaçãoautomática.

Para isso, adotamos a técnicaoriginalmenteutilizadanaanotação de

divergência de grafiascomo um tratamentoparaoproblema dos

resultadossofríveis do reconhecimentoautomático de

caracteresnaquelestextos.

Na

comunicação, mostrareiosdesafiosenfrentadosaolongodessaexperiênci

a, seusresultadosiniciais, eoscaminhosque se abrem a partir disso no

sentido do aperfeiçoamento de processos de tratamentoautomático de

textosmaisantigos, tanto no queremeteaoreconhecimento de

caracteresquanto no quetange a indexaçãoparabuscas.

Page 4: In pla paixaodesousa_fim

Um Desafio

Page 5: In pla paixaodesousa_fim

Um Desafio

Construirumabiblioteca digital

com textosacessíveis a programas de buscas

www.brasiliana.usp.br

Page 6: In pla paixaodesousa_fim

Condição material

dos nossostextosmaisantigos

Um Desafio

Page 7: In pla paixaodesousa_fim

Condição material

dos nossostextosmaisantigos

Um Desafio

Page 8: In pla paixaodesousa_fim

Condição material

dos nossostextosmaisantigos

Um Desafio

Page 9: In pla paixaodesousa_fim

Condição material

dos nossostextosmaisantigos

Um Desafio

Page 10: In pla paixaodesousa_fim

Um Desafio

Page 11: In pla paixaodesousa_fim

Resultadodaaplicação

de programa de OCR

Um Desafio

OfirmaexperknctttptedomPhdippe I U Rey de Caííellaporforçaepodeir de armas- àc-cupouantigamente a Coroa de Portugal3 e polo covftgmteprittouao. Serenifjmaep^étQpo~dercfo-Rey Dotnloao* (4ntesl)iiqú^de l$aroanç4)do indubitaueldereitodesfiafie-ceffàoejuííiçaparaaditpaCoroa de "Portugal com) legitimoe pro-ximoberdekodaSerenifsimaSenhora,, dona Catharina: fmuitosannoscontinuas per/èueraraposfifeefmes.de ditto Rey^Ca$fL(a emauiolentàoccupaçaódadittaCoroade Portugal quebramandoos concertos epafâosd'amiffade , de confiançaedoComercioqueosSenhoraReysdaCoroa de Portugglcomosoutros P/mcepesEna-çotsd'Europaftntamentefemprerefpeitaraóprmando.aosbopsfub-ditoseuaffkllosda, mefmacoroadefeudereito de fias leys ecoftumes: talemdijjòcarngandoosinjufíamete de intoleraueismokjliaseoutrasdiuerfisefpecias de tirannia3juntas aexcefstuos tr'èutos3os quaesosReys de CaííellajuntamentecomopatrimôniodaCoroa Real de poKtugalconfomiraôedeftmiraócomguerrasefcufadas-.coni as quaescoufasfendoos dittos boòsSubditoseuaffkllosdaquellaCoroaeííi-muladosepromcadosdejuíío furor ^vencidoofofrimento 3 com grande animo3 oufaâaeadvertenàafacodiraòaquelleintoleraueleinjuflolugod El Rey de Caííellareftituindofeafsimefmos a fialiberdade} efinalmenteporapplaufocomuneUegraôeacclamaraó * deraòomenagem, ejuramentodefidelidadeaoãtto Rey Dom Io-ao* IV , OfmmtopoderofosSenhoresQrdeésGeraesfenúndojuxtamenteporfua parte 3 etendo be' conhecidoaintoleraueltiranyaedurifsimosencargos do ditto Rey de Caííellaefiadeteflauel determinaçãoparaalcançar a Monanhiadetanto tempo emtodaEuropa

Page 12: In pla paixaodesousa_fim

MOſtrouaexperienciaquedomPhelippe I I, Rey de Castellaporforçaepoder de armasoc-cupouantigamente a Coroa de Portugal, e polo conſeguintepriuouaoSereniſsimoemuitopo-deroſo Rey Dom Ioaõ (antes Duque de Bargança)doindubitaueldereito de ſuafuc-aſſaóejustiçaparaadittaCoroa de Portugal comolegitimoe proximoherdeirodaSereniſsimaSenhoradona Catharina: emuitosannoscontinuosperſeueraraóosfucceſsoresde ditto Rey de Castel-la emauiolentaoccupaçaõdadittaCoroade Portugal quebrantandoos concertos epactosd’amiſſade, de confiançaedoComercioqueosSenhoresReysdaCoroa de Portugal com osoutrosPrincepesEna-çoésd’Europaſantamenteſemprereſpeitaraópriuandoaosboósſub-ditoseuaſſallosdameſmacoroadeſeudereito de ſuas leys ecoftumes: ealemdiſſocarregandoosinjuſtamete de intoleraueismoleſtiaseoutrasdiuerſaseſpecias de tirannia,juntasaexceſsiuostributos, osquaesosReys de CastellajuntamentecomopatrimoniodaCoroa Real de Portugal conſomiraóedeftruiraócomguerraseſcuſadas:com as quaescouſasſendoos dittos boósSubditoseuaſſallosdaquellaCoroaesti--muladoseprouocadosdejusto furor vencidooſofrimento , com grandeanimo, ouſadiaeadvertenciaſacodiraóaquelleintoleraueleinjuſtoIugod’ El Rey de Castellareftituindoſeafsimeſmos a fualiberdade, efinalmenteporapplauſocomunellegeraóeacclamaraó , deraóomenagem, ejuramentódefidelidadeao ditto Rey Dom Ioaó IV , OſmnitopoderoſosSenhoresOrdeésGeraesſentindojuxtamenteporſua parte, etendo be' conhecidoaintoleraueltiranyaeduriſsimosencargos do ditto Rey de Castellaefuadeteſlauel determinaçaóparaalcançar a Monarchiadetanto tempo emtodaEuropa

Resultadodacorreção

do output de OCR

Um Desafio

Page 13: In pla paixaodesousa_fim

Mostrou a experiênciaquedom Felipe II, Rei de Castelaporforçaepoder de armas, ocupouantigamente a Coroa de Portugal, epeloconseguinteprivouaoSereníssimoemuitopoderosoRei Dom João (antes Duque de Bragança) do indubitáveldireito de suasucessãoejustiçapara a ditaCoroa de Portugal comolegiíimoepróximoherdeirodaSereníssimaSenhoradonaCataarina: emuitosanoscontínuosperseveraramossuccesores de ditoRei de Castelaem a violentaocupaçãodaditaCoroa de Portugal quebrantandoos concertos epactos de amizade, de confiançae do ComércioqueosSenhores Reis daCoroa de Portugal com osoutrosPríncipeseNaçõesdaEuropasantamentesemprerespeitaramprivandoaosbonssúditosevassalosdamesmacoroa de seudireito de suas leis e costumes: ealém disso carregando-osinjustamente de intoleráveismoléstiaseoutrasdiversasespécies de tirania,juntas a excessivostributos, osquaisosReis de Castelajuntamente com opatrimôniodaCoroa Real de Portugal consumiramedestruíram com guerrasescusadas: com as quaiscoisassendoosditosbonsSúditosevassalosdaquelaCoroaestimuladoseprovocados de justo furor vencidoosofrimento, com grandeânimo, ousadiaeadvertênciasacodiramaqueleintoleráveleinjustoJugod’ El Rei de Castelarestituindo-se a simesmos a sualiberdade, efinalmenteporaplausocomumelegerameaclamaram, deramhomenagem, ejuramento de fidelidadeaoditoRei Dom JoãoIV , osmuitopoderosossenhoresOrdensGeraissentindojustamenteporsua parte, etendobemconhecido a intoleráveltiraniaeduríssimosencargos do ditoRei de Castelaesuadetestáveldeterminaçãoparaalcançar a Monarquia de tanto tempo emtodaEuropa

Textoefetivamentelegível

Um Desafio

Page 14: In pla paixaodesousa_fim

Mostrou a experiênciaquedom Felipe

Rei de Castelaporforçaepoder de armas,

ocupouantigamente a Coroa de Portugal,

conseguinteprivouaoSereníssimoemuitopoderoso

Rei Dom João (antes Duque

Bragança) do indubitáveldireito de suasucessão

ejustiçapara a ditaCoroa de Portugal comolegiíimoepróximo

herdeirodaSereníssimaSenhoradonaCataarina:

anoscontínuosperseveraramossuccesores de ditoRei de Castela

em a violentaocupaçãodaditaCoroa de Portugal

os concertos epactos de amizade, de confiançae do

Senhores Reis daCoroa de Portugal com osoutrosPríncipeseNações

daEuropasantamentesemprerespeitaramprivandoaosbonssúditos

evassalosdamesmacoroa de seudireito de suas leis e

ealém disso carregando-osinjustamente de intoleráveismoléstiaseoutras

diversasespécies de tirania,juntas a excessivostributos,

Reis de Castelajuntamente com opatrimôniodaCoroa

Portugal consumiramedestruíram com guerrasescusadas: com

coisassendoosditosbonsSúditosevassalosdaquelaCoroaestimulados

eprovocados de justo furor vencidoosofrimento

grandeânimo, ousadiaeadvertênciasacodiramaqueleintolerável

einjustoJugod’ El Rei de Castelarestituindo-se a simesmos

liberdade, efinalmenteporaplausocomumelegerameaclamaram

deramhomenagem, ejuramento de fidelidadeaoditoRei Dom

IV , osmuitopoderosossenhoresOrdensGeraissentindo

justamenteporsua parte, etendobemconhecido a intoleráveltirania

eduríssimosencargos do ditoRei de Castelaesuadetestáveldeterminação

paraalcançar a Monarquia de tanto tempo emtodaEuropa

Condição material dos nossos textos mais antigos

Um Desafio

Page 15: In pla paixaodesousa_fim

Estratégias

Page 16: In pla paixaodesousa_fim

Estratégia

s

1. Correção de OCRAbbyy 10.0

Page 17: In pla paixaodesousa_fim

- Ferramenta “treinável”:

- Resultadostransferíveisparao total do acervo

- Resultadostransferíveisparaoutrosprojetose

acervos

Vantagensprevistas: Estratégia

s

Estratégia

s

1. Correção de OCRAbbyy 10.0

Page 18: In pla paixaodesousa_fim

- Ferramenta “treinável”:

- Resultadostransferíveisparao total do acervo

- Resultadostransferíveisparaoutrosprojetose

acervos

Vantagensprevistas: Estratégia

s1. Correção de OCR

Abbyy 10.0

Desvantagensprevistas:

- Software proprietário:

- Impossibilidade de trabalho no código-fonte

- Imprevisibilidade de continuidade do programa

- Transferibilidadecomprometidapelo alto preço

- Resultadosópode ser parcial:

- Necessidade de novo tratamentopara

variação de grafia

Estratégia

s

1. Correção de OCRAbbyy 10.0

Page 19: In pla paixaodesousa_fim

2. Correção de OCR e

Ediçãofilológica

(Edictor*)

Estratégia

s

1. Correção de OCRAbbyy 10.0

* Paixão de Sousa, Kepler e Faria (2010)

Page 20: In pla paixaodesousa_fim

Estratégia

s

Vantagens previstas:

- Software livre:

- Possibilidade de trabalho no código-fonte

- Previsão de continuidade do programa

- Transferibilidadegarantida

- Ferramentacompleta:

- O resultadocombinacorreção do

reconhecimentoeedição de variação de grafia

2. Correção de OCR e

Ediçãofilológica

(EDictor)

1. Correção de OCRAbbyy 10.0

Page 21: In pla paixaodesousa_fim

Estratégia

s

Vantagens previstas:

- Software livre:

- Possibilidade de trabalho no código-fonte

- Previsão de continuidade do programa

- Transferibilidadegarantida

- Ferramentacompleta:

- O resultadocombinacorreção do

reconhecimentoeedição de variação de grafia

- Ferramentanão-“treinável”:

- Resultadosnãotransferíveispara

o total do acervo

- Resultadosnãotransferíveispara

outrosprojetoseacervos

Desvantagens previstas:

2. Correção de OCR e

Ediçãofilológica

(EDictor)

1. Correção de OCRAbbyy 10.0

Page 22: In pla paixaodesousa_fim

Resultados

Page 23: In pla paixaodesousa_fim

-Financiamento:

Pró-reitoria De Graduação - USP

ProgramaEnsinar com Pesquisa

-Tempo de pesquisa:12 meses

-Pesquisadoresenvolvidos:7(

BrunaBaldini de Miranda

FabianaFerraz

Fabio Kepler

JádersonPorto

Márcia Ap. Santos Mendes

Maria Clara Paixão de Sousa (coord.)

MarianeCristine de Almeida

Resultados:

Números

Page 24: In pla paixaodesousa_fim

-Financiamento:

Pró-reitoria De Graduação - USP

ProgramaEnsinar com Pesquisa

-Tempo de pesquisa:12 meses

-Pesquisadoresenvolvidos:7

-Textoscorrigidos:6

-Total de palavrasprocessadas: 39.000

- Total de tokens de variação: 11.500

Resultados:

Números

Page 25: In pla paixaodesousa_fim

Resultados:

Números

Cf. relatório de pesquisa: http://lampiao.brasiliana.usp.br/lingua/node/92

Page 26: In pla paixaodesousa_fim

Resultados:

EsquemaGeral

VersõesDisponíveis Para CadaTexto:

- Texto com OCR corrigido(equivalente a umaediçãopaleográfica)

- Edição Semi-diplomática

- EdiçãoModernizada

- Glossário de correções de OCR

- Glossário de edições

- Versão com EtiquetaçãoMorfossintática

Page 27: In pla paixaodesousa_fim

VersõesDisponíveis Para CadaTexto

- Texto com OCR corrigido(equivalente a umaediçãopaleográfica)

XML, Html, TXT

- Edição Semi-diplomáticaXML, Html, TXT

- EdiçãoModernizadaXML, Html, TXT

- Glossário de correções de OCRXML, Html, TXT, CSV

- Glossário de ediçõesXML, Html, TXT, CSV

- Versão com EtiquetaçãoMorfossintáticaXML, TXT

Resultados:

EsquemaGeral

Page 28: In pla paixaodesousa_fim

Resultados:

Exemplos

- Documentosubmetidoao OCR

Page 29: In pla paixaodesousa_fim

-Resultadodo OCR

(treinadoparao

PortuguêsClássico)

Treſlado do Latin nalin-

goaPortugeza .

Trattado das " Tregoasefuspenſaó de todooacto de

hoſti / idadoebemaſſi de navegação , ComércioejuntamenteSoccorro , ſei-

io , comefadoeaccabadoemHayadeHollandeaxìj . de Junho 164 ĩ . por

tempo de des annos entre oSenhorTriſtaõ de McndoçaFurtado ,

do ConfelhoeEmbaixador do Serenijfimoepoderqfijſtmo Dom Ioao'

I V deſtenome Rey do Portugal edosAlgarvos , Eos SenhoresDepu-

tados dos MuitopoderoſosSenhoresEJtadosGeraés das Provincias

Vnìdas dos Pai % esBaìxos .

Em a HAYA ,

EmcazadaViuvaeErdeiros de IlebrandtIacobſon van Wbuw , Impri-

midorOrdinario dos Muy altos epoderoſosSnnoresEJladosGe- nerais

, Anno 1 642 . CurnPrivilegio .

Resultados:

Exemplos

Page 30: In pla paixaodesousa_fim

Treſlado do Latin nalin-

goaPortugeza .

Trattado das " Tregoasefuspenſaó de todooacto de

hoſti / idadoebemaſſi de navegação , ComércioejuntamenteSoccorro , ſei- io ,

comefadoeaccabadoemHayadeHollandeaxìj . de Junho 164 ĩ . por

tempo de des annos entre oSenhorTriſtaõ de McndoçaFurtado ,

do ConfelhoeEmbaixador do Serenijfimoepoderqfijſtmo Dom Ioao'

I V deſtenome Rey do Portugal edosAlgarvos , Eos SenhoresDepu-

tados dos MuitopoderoſosSenhoresEJtadosGeraés das Provincias

Vnìdas dos Pai % esBaìxos .

Em a HAYA ,

EmcazadaViuvaeErdeiros de IlebrandtIacobſon van Wbuw , Impri-

midorOrdinario dos Muy altos epoderoſosSnnoresEJladosGe- nerais

, Anno 1 642 . CurnPrivilegio .

Resultados:

Exemplos

Taxa média de acerto

inicial:

59%

Taxa média de acerto

após treinamento:

86%

Page 31: In pla paixaodesousa_fim

-Textocom OCR corrigido

no E-Dictor

Treſlado do Latin nalin-

goaPortugeza .

Trattado das Tregoaseſuspenſaóde todooacto de

hoſtilidadeebemaſſide navegaçaó, ComercioejuntamenteSoccorro , fei-to

,começadoeaccabadoemHaya de Hollande a xÿ. de Iunho 1641 . por

tempo de des annos entre oSenhorTriſtaõ de MendoçaFurtado ,

do ConſelhoeEmbaixador do SereniſſimoepoderoſiſſimoDom Ioao'

I V deſtenome Rey de Portugal edosAlgarvos , Eos SenhoresDepu-

tados dos MuitopoderoſosSenhoresEſtadosGeraés das Provincias

Vnidasdos PaizesBaixos.

Em a HAYA .

EmcazadaViuvaeErdeiros de IlebrandtIacobſon van Wouw, Impri-

midorOrdinario dos Muy altos epoderoſosSnnoresEſtadosGe- nerais

, Anno 1 642 . Cum Privilegio .

Resultados:

Exemplos

Page 32: In pla paixaodesousa_fim

- EdiçãoModernizada

Tratadodastréguasesuspensãode todooatode

hostilidadeebemassimde navegação, comércioejuntamentesocorro, feito,

começadoeacabadoemHaya de Hollande a XII . de Junho 1641 . por

tempo de dezanosentre osenhorTristãode MendoçaFurtado ,

do conselhoeembaixadordo sereníssimoepoderosíssimoDom João

IV destenomerei de Portugal edos Algarvos, eossenhoresdeputados

dos muitopoderosossenhoresestadosgeraisdas províncias

vindasdos paísesbaixos.

.

Resultados:

Exemplos

Tresladodo latimnalíngua

portuguesa.

Em a HAYA .

Emcasa daviúvaeherdeirosde IlebrandtIacobſon van Wouw, imprimidor

ordináriodos muialtos epoderosossenhoresestadosgenerais,

Ano 1642 . Com privilégio

Page 33: In pla paixaodesousa_fim

- Glossário de edições

XML, Html, TXT, CSV

Resultados:

Exemplos

Page 34: In pla paixaodesousa_fim

- Glossário de edições

XML, Html, TXT, CSV

Resultados:

Exemplos

fubditos,,, ſubditos,,,subditos,,súditos

fubditos,,, ſubditos,,,subditos,,súditos

fubditos,,, ſubditos,,,subditos,,súditos

fubditos,,, ſubditos,,,subditos,,súditos

fubditos,,, ſubditos,,,subditos,,súditos

fubditos,,, ſubditos,,,subditos,,súditos

fubditos,,, ſubditos,,,subditos,,súditos

fubditos,,, ſubditos,,,subditos,,súditos

fubditos,,, ſubditos,,,subditos,,súditos

Page 35: In pla paixaodesousa_fim

- Anotação

XML

<w id="s_6#86">

<o>amiſjade</o>

<e t="ocr">amiſſade</e>

<e t="gra">amissade</e>

<e t="mod">amizade</e>

<m v="N"/>

</w>

Resultados:

Exemplos

Page 36: In pla paixaodesousa_fim

<w id="s_6#86">

<o>amiſjade</o>

<et="ocr">amiſſade</e>

<et="gra">amissade</e>

<et="mod">amizade</e>

<mv="N"/>

</w>

Estes dados poderiam ser utilizadoscomo

base paraodesenvolvimento de

programas de reconhecimentocapazes

de

tratartextosescritosemportuguêsclássico.

Resultados:

Produtos

1 Banco de erros de reconhecimento

Resultados:

Produtos

Page 37: In pla paixaodesousa_fim

Estes dados poderiam ser

utilizadoscomo base para um

programa de buscas no acervo de

textosantigos.

2Banco de grafiasemvariação

Resultados:

Produtos

<w id="s_6#86">

<o>amiſjade</o>

<et="ocr">amiſſade</e>

<et="gra">amissade</e>

<et="mod">amizade</e>

<mv="N"/>

</w>

Page 38: In pla paixaodesousa_fim

<w id="s_3#1" t="honor">

<o>MARQVEZ</o>

<et="mod">MARQUÊS</e>

<mv="NPR"/>

</w>

<w id="s_3#2" t="dep">

<o>DE</o>

<mv="P"/>

</w>

<w id="s_3#3" t="antropo" name="Montalvão (Marquês de)">

<o>MONTALVAM</o>

<et="mod">MONTALVÃO</e>

<mv="NPR"/>

<comment>

Jorge de Mascarenhas, Marquês de Montalvão. Fidalgoeadministrador colonial

português. Foigovernador de Mazagão (1615-1619), de Tânger (1622-1624) e

do Algarve. No contextodaDinastia Filipina, tendocaídoemdesgraçaocondeda

Torre (sucedidoporuma Junta Governativatríplice),

Mascarenhasfoinomeadopor Filipe IV de Espanhacomo 1º vice-rei do Brasil

(1640).

</comment>

</w>

Banco de entidadesnomeadas3

Resultados:

Produtos

Page 39: In pla paixaodesousa_fim

Banco de entidadesnomeadas3

Resultados:

Produtos

Page 40: In pla paixaodesousa_fim

Banco de entidadesnomeadas3

Resultados:

Produtos

Page 41: In pla paixaodesousa_fim

Resultados:

Aplicações

Possíveis

Aplicações no acervo1

Resultados:

AplicaçõesPossíveis

Page 42: In pla paixaodesousa_fim

Aplicações no acervo1

Resultados:

AplicaçõesPossíveis

Page 43: In pla paixaodesousa_fim

Aplicações no estudolinguístico2

Resultados:

AplicaçõesPossíveis

Page 44: In pla paixaodesousa_fim

NovosDesafios

Page 45: In pla paixaodesousa_fim

O banco de

palavrasformadopelanossaanotação XML

combinacorreção de

reconhecimentoautomático, variação de

grafiaeclasse de palavras.

Estes dados poderiam ser utilizadoscomo base

paraodesenvolvimento de programas de

reconhecimentoautomáticocapazes de

tratartextosescritosemportuguêsclássico.

Novos

Desafios

Page 46: In pla paixaodesousa_fim

O banco de

palavrasformadopelanossaanotação XML

combinacorreção de

reconhecimentoautomático, variação de

grafiaeclasse de palavras.

Estes dados poderiam ser utilizadoscomo base

paraodesenvolvimento de programas de

reconhecimentoautomáticocapazes de

tratartextosescritosemportuguêsclássico.

Novos

Desafios

Quemprecisa de programas de

reconhecimentoautomáticocapaze

s de

tratartextosescritosemportuguêscl

ássico?

Page 47: In pla paixaodesousa_fim

Novos

Desafios

Quemprecisa de programas de

reconhecimentoautomáticocapazes de

tratartextosescritosem

português com amplavariação de

grafias?

Page 48: In pla paixaodesousa_fim

Novos

Desafios

As pesquisasemlinguísticade corpus

dedicadasàsfasesantigasdalínguaportu

guesaprecisamunir-se

àspesquisasemlinguísticade corpus

dedicadasa línguaatual - em

especial, àlínguaescritasujeitaàamplava

riação de grafia (a línguanão-padrão).

Page 49: In pla paixaodesousa_fim

mas... eos

EncontroseDese

ncontros ?

Page 50: In pla paixaodesousa_fim

Novos

Desafios

<w id="s_6#86">

<o>amiſjade</o>

<et="ocr">amiſſade</e>

<et="gra">amissade</e>

<et="mod">amizade</e>

<mv="N"/>

</w>

Itensgeradosautomaticamente

pelasferramentas (OCR, EDictor)

Page 51: In pla paixaodesousa_fim

Novos

Desafios

<w id="s_6#86">

<o>amiſjade</o>

<et="ocr">amiſſade</e>

<et="gra">amissade</e>

<et="mod">amizade</e>

<mv="N"/>

</w>

Itensgeradosautomaticamente

pelasferramentas (OCR, EDictor)

Itensanotados semi-automaticamente

peloseditores com auxílio do EDictor

Page 52: In pla paixaodesousa_fim

Novos

Desafios

<w id="s_6#86">

<o>amiſjade</o>

<et="ocr">amiſſade</e>

<et="gra">amissade</e>

<et="mod">amizade</e>

<mv="N"/>

</w>

Itensgeradosautomaticamente

pelasferramentas (OCR, EDictor)

Itensanotados semi-automaticamente

peloseditores com auxílio do EDictor

Itens acrescentados

manualmente

pelos editores

Page 53: In pla paixaodesousa_fim

Novos

Desafios

<w id="s_6#86">

<o>amiſjade</o>

<et="ocr">amiſſade</e>

<et="gra">amissade</e>

<et="mod">amizade</e>

<mv="N"/>

</w>

Plano:

Geraçãoautomática das alterações

Page 54: In pla paixaodesousa_fim

Novos

Desafios

<w id="s_6#86">

<o>amiſjade</o>

<et="ocr">amiſſade</e>

<et="gra">amissade</e>

<et="mod">amizade</e>

<mv="N"/>

</w>

Plano:

Geraçãoautomática das alterações

EDictor

Page 55: In pla paixaodesousa_fim

Novos

Desafios

<w id="s_6#86">

<o>amiſjade</o>

<et="ocr">amiſſade</e>

<et="gra">amissade</e>

<et="mod">amizade</e>

<mv="N"/>

</w>

Plano:

Geraçãoautomática das alterações

EDictor

OCR treinado?

Page 56: In pla paixaodesousa_fim

Novos

Desafios

<w id="s_6#86">

<o>amiſjade</o>

<et="ocr">amiſſade</e>

<et="gra">amissade</e>

<et="mod">amizade</e>

<mv="N"/>

</w>

Essetrabalhoenvolveria

odesenvolvimento de

ferramentasbaseadasemreconhecimento de

padrões,

estudosprobabilísiticos, ...

Page 57: In pla paixaodesousa_fim

Novos

Desafios

<w id="s_6#86">

<o>amiſjade</o>

<et="ocr">amiſſade</e>

<et="gra">amissade</e>

<et="mod">amizade</e>

<mv="N"/>

</w>

Essetrabalhoenvolveria

alinguísticacomputacional

Page 58: In pla paixaodesousa_fim

Novos

Desafios

<w id="s_6#86">

<o>amiſjade</o>

<et="ocr">amiſſade</e>

<et="gra">amissade</e>

<et="mod">amizade</e>

<mv="N"/>

</w>

Essetrabalhoenvolveria

alinguísticacomputacional,

alinguística de corpus,

a linguísticahistórica,

e a filologia

Page 59: In pla paixaodesousa_fim

e

S

a

b

d

f

ǣ

ĩ ũ

õ δ

ſʦ

ӕ

ſ

Obrigada!

Page 60: In pla paixaodesousa_fim

e

S

a

b

d

f

ǣ

ĩ ũ

õ δ

ſʦ

ӕ

ſ

Obrigada!

[email protected]

http://www.brasiliana.usp.br

https://github.com/edictor

Page 61: In pla paixaodesousa_fim

Linguística de Corpus e

LinguísticaComputacional:

Encontrosedesencontros

InPLA2011

A Anotação semi-automática de divergências de grafiacomofundamentoparaoprocessamentoautomático de textosantigos:

UmaexperiêncianaBrasiliana Digital

Maria Clara Paixão de Sousa

Universidade de São PauloFaculdade de Filosofia, LetraseCiênciasHumanas

Brasiliana Digital

NUMEC - Núcleo de Matemática, EstatísicaeComplexidade

Page 62: In pla paixaodesousa_fim

Novos

Desafios

https://github.com/edictor

Novos

Desafios

Page 63: In pla paixaodesousa_fim

e

S

a

b

d

f

ǣ

ĩ ũ

õ

δ

ſӕ

ſ

Obrigada!

[email protected]

Page 64: In pla paixaodesousa_fim

eS

ab

d

f

ǣ

ĩ ũ

õ δ ſ ʦӕ ſ

Page 65: In pla paixaodesousa_fim

eS

ab

d

f

ǣ

ĩ ũ

õ δ ſ ʦӕ ſ

Nesta comunicação apresentarei uma

experiência de aplicação de técnicas da

linguística de corpus ao processo de

formação de uma biblioteca digital.

Utilizando a ferramenta E-Dictor,

concebida como auxiliar da anotação

de grafias divergentes para fins de

etiquetagem morfossintática automática

num corpus histórico, procuramos

transformar um conjunto de seis textos

portugueses escritos entre 1600-1700

em material processável por outras

ferramentas de busca e anotação

automática. Para isso, adotamos a

técnica originalmente utilizada na

anotação de divergência de grafias

como um tratamento para o problema

dos resultados sofríveis do

reconhecimento automático de

caracteres naqueles textos.

Na comunicação, mostrarei os desafios

enfrentados ao longo dessa experiência,

seus resultados iniciais, e os caminhos

que se abrem a partir disso no sentido

do aperfeiçoamento de processos de

tratamento automático de textos mais

antigos, tanto no que remete ao

reconhecimento de caracteres quanto

no que tange a indexação para buscas.

Page 66: In pla paixaodesousa_fim

eS

ab

d

f

ǣ

ĩ ũ

õ δ ſ ʦӕ ſ

Page 67: In pla paixaodesousa_fim
Page 68: In pla paixaodesousa_fim
Page 69: In pla paixaodesousa_fim
Page 70: In pla paixaodesousa_fim

Um Desafio

Page 71: In pla paixaodesousa_fim

Novos

Desafios Grupo de Pesquisas em

Processamento da Linguagem,

Linguística Histórica e Filologia

e-Philo

Brasiliana USP

NUMEC - IME USP

DLCV - FFLCH USP