bigorna
DESCRIPTION
Slides from a ligthning talk on "Bigorna – a toolkit for orthography migration challenges", at 3T (Time Trial Talks), an event organized by CeSIUM (http://cesium.di.uminho.pt).TRANSCRIPT
Projecto Bigorna
conjunto de ferramentas para desafios de migracao ortografica
motivado pelo Acordo Ortografico de 1990
projecto para o Sapo Summerbits 2009
evoluiu para problemas genericos de migracoes de grafias
Andre Santos, MEI, UM
Jose Joao Almeida, DI, UM
Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho
Contexto - Acordo Ortografico de 1990
alteracoes ditadas pelo acordo nao podem ser determinadasautomaticamente porque se baseiam em criterios foneticos epor vezes podem ser ambıguas;
e importante manter uma Base de Conhecimento do AcordoOrtografico, uma tabela contendo lemas, alteracoes e regrasbaseada nas listas existentes;
Como determinar quais as palavras candidatas a integrar aBCAO?
Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho
Trabalho desenvolvido
recolher recursos ligados ao AO1990
criar um corrector ortografico para a actualizacao doPortugues
criar um conversor de textos para a nova versao
criar um classificador de textos
construir ferramentas capazes de inferir regras de mudanca apartir de bi-textos
Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho
Recursos
dicionarios, conversores, listas de palavras
lista do ILTEC, com cerca de 9000 entradas
Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho
Lista do ILTEC
PT :: BR :: OA1990 :: prefPT :: prefBR :: Comm
anciloide :: anciloide :: anciloide :: anciloide :: anciloide ::
anciroide :: anciroide :: anciroide :: anciroide :: anciroide ::
androginoide :: androginoide :: androginoide :: androginoide :: androginoide ::
androide :: androide :: androide :: androide :: androide ::
anecoico :: anecoico :: anecoico :: anecoico :: anecoico ::
anelectrico :: aneletrico, anelectrico :: aneletrico, anelectrico ::
aneletrico :: anelectrico,aneletrico :: anelectrico nPT
Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho
Actualizacao do dicionario
Ponto de partida: jspell (gerado na UM, propagado paraoutros dicionarios com o Chuveiro de Dicionarios)
actualizacao a partir da lista do ILTEC
Depois de expandidas as actualizacoes, foram obtidas 11500palavras
Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho
jspell
acalentar/#vt/XYPLD/coiote/#nm/p/laico/#a/fidp/zinco/#nm//
Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho
Ferramentas de conversao
dois conversores: pt2ptao e br2brao
usadas as regras de expansao do jspell e a lista do ILTEC
Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho
Conversao - Exemplo
$ pt2ptaoA adopc~ao do acordo implica a actualizac~ao de algumas ferramentas.A adoc~ao do acordo implica a atualizac~ao de algumas ferramentas.
$ br2braoEle fez um voo rasante sobre a areia.Ele fez um voo rasante sobre a areia.
Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho
Classificador
procura cada palavra de um texto em dicionarios PT-PT ePT-BR
no fim, considera-se que o texto pertence a linguagem quefizer mais matches
Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho
Classificacao - Exemplo
$ whichPT AmorPerd.ptPT AmorPerd.ptBRAmorPerd.ptPT ptAmorPerd.ptBR br
Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho
Comparacao lexica
ferramentas capazes de, atraves da analise de textos, construirprogramas para auxiliar em migracoes
script para detectar diferencas linguısticas entre duas versoesde um texto
Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho
lexdiff - Exemplo
$ lexdiff -s -ac AmorPerd.ptPT AmorPerd.ptBR | head32 academico => academico16 Vila Real => Vila-Real14 ideia => ideia12 redarguiu => redarguiu7 genio => genio6 cinquenta => cinquenta5 Antonio => Antonio4 reflectiu => refletiu4 projectos => projetos
Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho
lexdiff - Exemplo
$ lexdiff -s -ac AmorPerd.ptPT AmorPerd.ptBR | head36 et => ect34 dem => dem18 dei => dei17 gui => gui15 que => que11 gen => gen9 mon => mon8 at => act7 qui => qui7 ec => ecc
Andre Santos, Jose Joao Almeida, Alberto Simoes Projecto Bigorna, Dep. Informatica, UMinho