bigorna

16
Projecto Bigorna Andr´ e Santos [email protected] Dep. Inform´ atica, UM 13 de Abril de 2010

Upload: andrefsantos

Post on 17-Dec-2014

513 views

Category:

Technology


0 download

DESCRIPTION

Slides from a ligthning talk on "Bigorna – a toolkit for orthography migration challenges", at 3T (Time Trial Talks), an event organized by CeSIUM (http://cesium.di.uminho.pt).

TRANSCRIPT

Page 1: Bigorna

Projecto Bigorna

Andre [email protected]

Dep. Informatica, UM

13 de Abril de 2010

Page 2: Bigorna

Projecto Bigorna

conjunto de ferramentas para desafios de migracao ortografica

motivado pelo Acordo Ortografico de 1990

projecto para o Sapo Summerbits 2009

evoluiu para problemas genericos de migracoes de grafias

Andre Santos, MEI, UM

Jose Joao Almeida, DI, UM

Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho

Page 3: Bigorna

Contexto - Acordo Ortografico de 1990

alteracoes ditadas pelo acordo nao podem ser determinadasautomaticamente porque se baseiam em criterios foneticos epor vezes podem ser ambıguas;

e importante manter uma Base de Conhecimento do AcordoOrtografico, uma tabela contendo lemas, alteracoes e regrasbaseada nas listas existentes;

Como determinar quais as palavras candidatas a integrar aBCAO?

Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho

Page 4: Bigorna

Trabalho desenvolvido

recolher recursos ligados ao AO1990

criar um corrector ortografico para a actualizacao doPortugues

criar um conversor de textos para a nova versao

criar um classificador de textos

construir ferramentas capazes de inferir regras de mudanca apartir de bi-textos

Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho

Page 5: Bigorna

Recursos

dicionarios, conversores, listas de palavras

lista do ILTEC, com cerca de 9000 entradas

Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho

Page 6: Bigorna

Lista do ILTEC

PT :: BR :: OA1990 :: prefPT :: prefBR :: Comm

anciloide :: anciloide :: anciloide :: anciloide :: anciloide ::

anciroide :: anciroide :: anciroide :: anciroide :: anciroide ::

androginoide :: androginoide :: androginoide :: androginoide :: androginoide ::

androide :: androide :: androide :: androide :: androide ::

anecoico :: anecoico :: anecoico :: anecoico :: anecoico ::

anelectrico :: aneletrico, anelectrico :: aneletrico, anelectrico ::

aneletrico :: anelectrico,aneletrico :: anelectrico nPT

Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho

Page 7: Bigorna

Actualizacao do dicionario

Ponto de partida: jspell (gerado na UM, propagado paraoutros dicionarios com o Chuveiro de Dicionarios)

actualizacao a partir da lista do ILTEC

Depois de expandidas as actualizacoes, foram obtidas 11500palavras

Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho

Page 8: Bigorna

jspell

acalentar/#vt/XYPLD/coiote/#nm/p/laico/#a/fidp/zinco/#nm//

Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho

Page 9: Bigorna

Ferramentas de conversao

dois conversores: pt2ptao e br2brao

usadas as regras de expansao do jspell e a lista do ILTEC

Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho

Page 10: Bigorna

Conversao - Exemplo

$ pt2ptaoA adopc~ao do acordo implica a actualizac~ao de algumas ferramentas.A adoc~ao do acordo implica a atualizac~ao de algumas ferramentas.

$ br2braoEle fez um voo rasante sobre a areia.Ele fez um voo rasante sobre a areia.

Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho

Page 11: Bigorna

Classificador

procura cada palavra de um texto em dicionarios PT-PT ePT-BR

no fim, considera-se que o texto pertence a linguagem quefizer mais matches

Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho

Page 12: Bigorna

Classificacao - Exemplo

$ whichPT AmorPerd.ptPT AmorPerd.ptBRAmorPerd.ptPT ptAmorPerd.ptBR br

Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho

Page 13: Bigorna

Comparacao lexica

ferramentas capazes de, atraves da analise de textos, construirprogramas para auxiliar em migracoes

script para detectar diferencas linguısticas entre duas versoesde um texto

Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho

Page 14: Bigorna

lexdiff - Exemplo

$ lexdiff -s -ac AmorPerd.ptPT AmorPerd.ptBR | head32 academico => academico16 Vila Real => Vila-Real14 ideia => ideia12 redarguiu => redarguiu7 genio => genio6 cinquenta => cinquenta5 Antonio => Antonio4 reflectiu => refletiu4 projectos => projetos

Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho

Page 15: Bigorna

lexdiff - Exemplo

$ lexdiff -s -ac AmorPerd.ptPT AmorPerd.ptBR | head36 et => ect34 dem => dem18 dei => dei17 gui => gui15 que => que11 gen => gen9 mon => mon8 at => act7 qui => qui7 ec => ecc

Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho

Page 16: Bigorna

Projecto Bigorna

Andre [email protected]

Dep. Informatica, UM

13 de Abril de 2010