extracção de recursos para tradução automática

50
Mat´ eria Prima Dicion´ arios Bilingues Unidades de Tradu¸c˜ ao Terminologia Paralela Extrac¸c˜ ao de Recursos para Tradu¸c˜ ao Autom´ atica Alberto Manuel Brand˜ ao Sim˜ oes [email protected] Escola de Ver˜ ao – Junho 2009 Alberto Sim˜ oes Extrac¸c˜ ao de Recursos para Tradu¸c˜ ao Autom´ atica (1/40)

Upload: alberto-simoes

Post on 08-May-2015

688 views

Category:

Technology


0 download

DESCRIPTION

Apresentação sobre extracção de recursos para tradução automática, realizada na Escola de Verão em PLN realizada em 2009 na Faculdade de Letras da Universidade do Porto, Portugal.

TRANSCRIPT

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Recursos para Traducao Automatica

Alberto Manuel Brandao [email protected]

Escola de Verao – Junho 2009

Alberto Simoes Extraccao de Recursos para Traducao Automatica (1/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

1 Materia PrimaRecursos ParalelosCorpora ParalelosRecursos Escondidos

2 Dicionarios BilinguesProcesso de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

3 Unidades de TraducaoDefinicaoHipotese das Palavras Marca

4 Terminologia ParalelaExtraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

Alberto Simoes Extraccao de Recursos para Traducao Automatica (2/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Recursos ParalelosCorpora ParalelosRecursos Escondidos

Recursos Paralelos

Cada vez mais tipos de recursos disponıveis gratuitamente:corpora paralelos;corpora comparaveis (mascarados);dicionarios bilingues;

Recursos com maior crescimento nos ultimos tempos:corpora paralelos

COMPARA, PT–EN: 97 723 UTs

EuroParl v3 (11 Ling, 55 pares) PT–EN: 1 287 757 UTs

JRC-Acquis v3 (22 Ling, 231 pares) PT–EN: 1 315 907 UTs

Hansards, FR–EN: ≈ 1 300 000 UTs

Alberto Simoes Extraccao de Recursos para Traducao Automatica (3/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Recursos ParalelosCorpora ParalelosRecursos Escondidos

Recursos Paralelos

Cada vez mais tipos de recursos disponıveis gratuitamente:corpora paralelos;corpora comparaveis (mascarados);dicionarios bilingues;

Recursos com maior crescimento nos ultimos tempos:corpora paralelos

COMPARA, PT–EN: 97 723 UTs

EuroParl v3 (11 Ling, 55 pares) PT–EN: 1 287 757 UTs

JRC-Acquis v3 (22 Ling, 231 pares) PT–EN: 1 315 907 UTs

Hansards, FR–EN: ≈ 1 300 000 UTs

Alberto Simoes Extraccao de Recursos para Traducao Automatica (3/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Recursos ParalelosCorpora ParalelosRecursos Escondidos

Corpora Paralelos

Um texto paralelo (ou bitexto) e um texto numalıngua juntamente com a sua traducao numa outralıngua. Grandes coleccoes de bitextos sao chamadasde corpora paralelos.

Simoes, 2008

Habitualmente, ao falar de Corpora Paralelos pressupoe-se o seuAlinhamento a Frase (segmento).

Alberto Simoes Extraccao de Recursos para Traducao Automatica (4/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Recursos ParalelosCorpora ParalelosRecursos Escondidos

Corpora Paralelos

Um texto paralelo (ou bitexto) e um texto numalıngua juntamente com a sua traducao numa outralıngua. Grandes coleccoes de bitextos sao chamadasde corpora paralelos.

Simoes, 2008

Habitualmente, ao falar de Corpora Paralelos pressupoe-se o seuAlinhamento a Frase (segmento).

Alberto Simoes Extraccao de Recursos para Traducao Automatica (4/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Recursos ParalelosCorpora ParalelosRecursos Escondidos

Corpora Paralelos e Alinhamento

Dados textos paralelos U e V , um alinhamento euma segmentacao de U e V em n segmentos cada,tal que para cada i , 1 ≤ i ≤ n, ui e vi sao traducoesmutuas.Uma unidade de traducao ai e um par ordenado(ui , vi ). Desta forma, um alinhamento A tambempode ser definido como uma sequencia de segmentosalinhados: A ∼= 〈a1, a2, . . . , an〉.

Melamed, 2001

Processos de alinhamento cristalizados ha algum tempo:

Gale and Church + melhoramentos e sincronia variada;

Alberto Simoes Extraccao de Recursos para Traducao Automatica (5/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Recursos ParalelosCorpora ParalelosRecursos Escondidos

Corpora Paralelos e Alinhamento

Dados textos paralelos U e V , um alinhamento euma segmentacao de U e V em n segmentos cada,tal que para cada i , 1 ≤ i ≤ n, ui e vi sao traducoesmutuas.Uma unidade de traducao ai e um par ordenado(ui , vi ). Desta forma, um alinhamento A tambempode ser definido como uma sequencia de segmentosalinhados: A ∼= 〈a1, a2, . . . , an〉.

Melamed, 2001

Processos de alinhamento cristalizados ha algum tempo:

Gale and Church + melhoramentos e sincronia variada;

Alberto Simoes Extraccao de Recursos para Traducao Automatica (5/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Recursos ParalelosCorpora ParalelosRecursos Escondidos

Motivacao — Textos paralelos

Estes resultados constituem a base doPrograma Europeu de defesa do Mar deBarents e, por esse motivo, peco-lheque analise um projecto de carta quelhe expoe os factos mais importantes, eque, de acordo com as decisoes doParlamento, torne clara esta posicao naRussia. No entanto, somos tambem daopiniao de que deveria haver um debatesobre esta estrategia da comissao queseguisse um procedimento ordenado, enao so com base numa declaracao oralpronunciada aqui no ParlamentoEuropeu, mas tambem com base numdocumento que seja decidido nacomissao e que apresente umadescricao deste programa para umperıodo de cinco anos.

These findings form the basis of theEuropean Programmes to protect theBarents Sea, and that is why I wouldask you to examine a draft lettersetting out the most important factsand to make Parliament’s position, asexpressed in the resolutions which ithas adopted, clear as far as Russia isconcerned. We believe, however, thatthe commission’s strategic plan needsto be debated within a properprocedural framework, not only on thebasis of an oral statement here in theEuropean Parliament, but also on thebasis of a document which is adoptedin the commission and which describesthis programme over the five-yearperiod .

Alberto Simoes Extraccao de Recursos para Traducao Automatica (6/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Recursos ParalelosCorpora ParalelosRecursos Escondidos

Motivacao — Frases paralelas

Estes resultados constituem a base doPrograma Europeu de defesa do Mar deBarents e, por esse motivo, peco-lheque analise um projecto de carta quelhe expoe os factos mais importantes, eque, de acordo com as decisoes doParlamento, torne clara esta posicao naRussia.No entanto, somos tambem da opiniaode que deveria haver um debate sobreesta estrategia da comissao queseguisse um procedimento ordenado, enao so com base numa declaracao oralpronunciada aqui no ParlamentoEuropeu, mas tambem com base numdocumento que seja decidido nacomissao e que apresente umadescricao deste programa para umperıodo de cinco anos.

These findings form the basis of theEuropean Programmes to protect theBarents Sea, and that is why I wouldask you to examine a draft lettersetting out the most important factsand to make Parliament’s position, asexpressed in the resolutions which ithas adopted, clear as far as Russia isconcerned.We believe, however, that thecommission’s strategic plan needs to bedebated within a proper proceduralframework, not only on the basis of anoral statement here in the EuropeanParliament, but also on the basis of adocument which is adopted in thecommission and which describes thisprogramme over the five-year period .

Alberto Simoes Extraccao de Recursos para Traducao Automatica (7/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Recursos ParalelosCorpora ParalelosRecursos Escondidos

Motivacao — Dicionarios de traducao

Estes resultados constituem a base doPrograma Europeu de defesa do Mar deBarents e, por esse motivo, peco-lheque analise um projecto de carta quelhe expoe os factos mais importantes, eque, de acordo com as decisoes doParlamento, torne clara esta posicao naRussia.No entanto, somos tambem da opiniaode que deveria haver um debate sobreesta estrategia da comissao queseguisse um procedimento ordenado, enao so com base numa declaracao oralpronunciada aqui no ParlamentoEuropeu, mas tambem com base numdocumento que seja decidido nacomissao e que apresente umadescricao deste programa para umperıodo de cinco anos.

These findings form the basis of theEuropean Programmes to protect theBarents Sea, and that is why I wouldask you to examine a draft lettersetting out the most important factsand to make Parliament’s position, asexpressed in the resolutions which ithas adopted, clear as far as Russia isconcerned.We believe, however, that thecommission’s strategic plan needs to bedebated within a proper proceduralframework, not only on the basis of anoral statement here in the EuropeanParliament, but also on the basis of adocument which is adopted in thecommission and which describes thisprogramme over the five-year period .

Alberto Simoes Extraccao de Recursos para Traducao Automatica (8/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Recursos ParalelosCorpora ParalelosRecursos Escondidos

Motivacao — Nominais (terminologia?) paralelos

Estes resultados constituem a base doPrograma Europeu de defesa do Mar deBarents e, por esse motivo, peco-lheque analise um projecto de carta quelhe expoe os factos mais importantes, eque, de acordo com as decisoes doParlamento, torne clara esta posicao naRussia.No entanto, somos tambem da opiniaode que deveria haver um debate sobreesta estrategia da comissao queseguisse um procedimento ordenado, enao so com base numa declaracao oralpronunciada aqui no ParlamentoEuropeu, mas tambem com base numdocumento que seja decidido nacomissao e que apresente umadescricao deste programa para umperıodo de cinco anos.

These findings form the basis of theEuropean Programmes to protect theBarents Sea, and that is why I wouldask you to examine a draft lettersetting out the most important factsand to make Parliament’s position, asexpressed in the resolutions which ithas adopted, clear as far as Russia isconcerned.We believe, however, that thecommission’s strategic plan needs to bedebated within a proper proceduralframework, not only on the basis of anoral statement here in the EuropeanParliament, but also on the basis of adocument which is adopted in thecommission and which describes thisprogramme over the five-year period .

Alberto Simoes Extraccao de Recursos para Traducao Automatica (9/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Recursos ParalelosCorpora ParalelosRecursos Escondidos

Materia Prima

Os Corpora Paralelos sao recursos ricos:

frases paralelas(unidades de traducao — TAC, TA)

dicionarios biligues(uso comum, para alem de TM, TAC, TA)

entidades paralelas(essencialmente para TAC e TA)

terminologia bilingue(uso comum, para alem de TM, TAC, TA)

exempos de traducao(unidades de traducao — TAC, TA)

Alberto Simoes Extraccao de Recursos para Traducao Automatica (10/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Extraccao de Dicionarios

a flor cresce / a casa e grande / a casa azul tem flores

the flower grows / the house is big / the blue house has flowers

a flor cresce casa e grande azul tem flores

the 3 1 1 2 1 1 1 1 1flower 1 1 1 0 0 0 0 0 0grows 1 1 1 0 0 0 0 0 0house 2 0 0 2 1 1 1 1 1

is 1 0 0 1 1 1 0 0 0big 1 0 0 1 1 1 0 0 0

blue 1 0 0 1 0 0 1 1 1have 1 0 0 1 0 0 1 1 1

flowers 1 0 0 1 0 0 1 1 1

Alberto Simoes Extraccao de Recursos para Traducao Automatica (11/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Extraccao de Dicionarios

a flor cresce / a casa e grande / a casa azul tem flores

the flower grows / the house is big / the blue house has flowers

a flor cresce casa e grande azul tem flores

the 3 1 1 2 1 1 1 1 1flower 1 1 1 0 0 0 0 0 0grows 1 1 1 0 0 0 0 0 0house 2 0 0 2 1 1 1 1 1

is 1 0 0 1 1 1 0 0 0big 1 0 0 1 1 1 0 0 0

blue 1 0 0 1 0 0 1 1 1have 1 0 0 1 0 0 1 1 1

flowers 1 0 0 1 0 0 1 1 1

Alberto Simoes Extraccao de Recursos para Traducao Automatica (11/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Extraccao de Dicionarios

a flor cresce / a casa e grande / a casa azul tem flores

the flower grows / the house is big / the blue house has flowers

a flor cresce casa e grande azul tem flores

the 3 1 1 2 1 1 1 1 1flower 1 1 1 0 0 0 0 0 0grows 1 1 1 0 0 0 0 0 0house 2 0 0 2 1 1 1 1 1

is 1 0 0 1 1 1 0 0 0big 1 0 0 1 1 1 0 0 0

blue 1 0 0 1 0 0 1 1 1have 1 0 0 1 0 0 1 1 1

flowers 1 0 0 1 0 0 1 1 1

Alberto Simoes Extraccao de Recursos para Traducao Automatica (12/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Extraccao de Dicionarios

a flor cresce / a casa e grande / a casa azul tem flores

the flower grows / the house is big / the blue house has flowers

a flor cresce casa e grande azul tem flores

the 3 1 1 2 1 1 1 1 1flower 1 1 1 0 0 0 0 0 0grows 1 1 1 0 0 0 0 0 0house 2 0 0 2 1 1 1 1 1

is 1 0 0 1 1 1 0 0 0big 1 0 0 1 1 1 0 0 0

blue 1 0 0 1 0 0 1 1 1have 1 0 0 1 0 0 1 1 1

flowers 1 0 0 1 0 0 1 1 1

Alberto Simoes Extraccao de Recursos para Traducao Automatica (13/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Dicionarios Probabilısticos de Traducao

processo automatico de extraccao ;

usam corpora paralelos alinhados a frase;

associam a palavras wA de determinada lıngua A um conjuntode palavras wB da lıngua B;

na sua maioria, T (wA) = wB ;

mas tambem acontece, T (wA) = ¬wB ;

ou mesmo palavras aparentemente nada relacionadas...

Alberto Simoes Extraccao de Recursos para Traducao Automatica (14/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Dicionarios Probabilısticos de Traducao

processo automatico de extraccao ;

usam corpora paralelos alinhados a frase;

associam a palavras wA de determinada lıngua A um conjuntode palavras wB da lıngua B;

na sua maioria, T (wA) = wB ;

mas tambem acontece, T (wA) = ¬wB ;

ou mesmo palavras aparentemente nada relacionadas...

Alberto Simoes Extraccao de Recursos para Traducao Automatica (14/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Dicionario Probabilıstico de Traducao: ex.1

QUERY> europaOccurrences: 39917Translations:

88.50% europe5.73% european2.37% europa1.16% (none)0.57% eu0.23% unece0.17% the0.16% auto

Alberto Simoes Extraccao de Recursos para Traducao Automatica (15/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Dicionario Probabilıstico de Traducao: ex.2

QUERY> weOccurrences: 300431Translations:

17.81% (none)8.25% que6.02% temos

Alberto Simoes Extraccao de Recursos para Traducao Automatica (16/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Dicionario Probabilıstico de Traducao: ex.3

QUERY> read QUERY> representOccurrences: 2435 Occurrences: 2538Translations: Translations:

29.32% ler 17.87% representam13.75% li 11.57% representar8.36% read 8.93% represento5.96% lido 7.54% representamos3.54% lemos 4.93% constituem1.60% leio 3.63% representa1.46% estar 3.37% (none)1.45% leu 2.35% representante

Alberto Simoes Extraccao de Recursos para Traducao Automatica (17/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Dicionario Probabilıstico de Traducao: ex.3

QUERY> aceitavelOccurrences: 1713Translations:

71.48% acceptable8.56% unacceptable

Alberto Simoes Extraccao de Recursos para Traducao Automatica (18/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Dicionario Probabilıstico de Traducao: ex.4

QUERY> palavraOccurrences: 6337Translations:

35.75% floor16.88% word13.57% (none)9.28% speak

Floor?? What the hell?

Tem a palavra , em nome da comiss~ao , o senhor comissario Barnier .

Mr Barnier has the floor on behalf of the Commission .

Tem a palavra , em nome da comiss~ao , a senhora comissaria wallstrom .

Mrs wallstrom has the floor on behalf of the Commission .

Alberto Simoes Extraccao de Recursos para Traducao Automatica (19/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Dicionario Probabilıstico de Traducao: ex.4

QUERY> palavraOccurrences: 6337Translations:

35.75% floor16.88% word13.57% (none)9.28% speak

Floor?? What the hell?

Tem a palavra , em nome da comiss~ao , o senhor comissario Barnier .

Mr Barnier has the floor on behalf of the Commission .

Tem a palavra , em nome da comiss~ao , a senhora comissaria wallstrom .

Mrs wallstrom has the floor on behalf of the Commission .

Alberto Simoes Extraccao de Recursos para Traducao Automatica (19/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Dicionario Probabilıstico de Traducao: ex.4

QUERY> palavraOccurrences: 6337Translations:

35.75% floor16.88% word13.57% (none)9.28% speak

Floor?? What the hell?

Tem a palavra , em nome da comiss~ao , o senhor comissario Barnier .

Mr Barnier has the floor on behalf of the Commission .

Tem a palavra , em nome da comiss~ao , a senhora comissaria wallstrom .

Mrs wallstrom has the floor on behalf of the Commission .

Alberto Simoes Extraccao de Recursos para Traducao Automatica (19/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Caracterizacao dos PTD

A qualidade e abrangencia do dicionario crescem com otamanho do corpus.

A existencia de ruıdo diminui a qualidade dos dicionarios.

O comprimento excessivo das unidades de traducao prejudicaa qualidade dos dicionarios obtidos.

A criatividade na traducao prejudica a qualidade dosdicionarios.

O pre-processamento de corpora pode melhorar os dicionariosobtidos.

Alberto Simoes Extraccao de Recursos para Traducao Automatica (20/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Avaliacao Manual de PTD

Erradas Correctas

no de entradas 566 (56.6%) 434 (43.4%)

Prob Ocur Prob Ocur

valor mınimo 0.20 1 0.20 1valor maximo 1.00 6 755 1.00 1 103 267

media 0.40 63 0.52 3 699desvio padrao 0.21 418 0.24 53 376

Tabela: Resultados da avaliacao manual de um PTD (probabilidadessuperiores a 20%).

Alberto Simoes Extraccao de Recursos para Traducao Automatica (21/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Avaliacao Manual (2)

Total Erradas Correctas

no de entradas 1000 150 (15%) 850 (85%)

Prob Ocur Prob Ocur Prob Ocur

valor mınimo 0.20 50 0.20 50 0.20 50valor maximo 0.99 435 374 0.82 24 022 0.99 435 374

media 0.48 2 476 0.36 1 097 0.50 2 719desvio padrao 0.21 16 894 0.14 2 720 0.21 18 278

Tabela: Resultados da avaliacao manual de um PTD (probabilidadessuperiores a 20%, e com mais de 50 ocorrencias).

Alberto Simoes Extraccao de Recursos para Traducao Automatica (22/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Processo de ExtraccaoDicionarios Probabilısticos de TraducaoPTD: ExemplosDos PTD aos Dicionarios de Traducao

Filtragem de PTD

Remocao de:

numeros e nao-palavras;

traducoes com probabilidades baixas

entradas com poucas ocorrencias

traducao “vazia” e entradas vazias

Palavra (w) Td1 (w) P (Td1 (w)) Td2 (w) P (Td2 (w))

trinta 30 36.43% thirty 34.21%thirty 34.21% (none) 6.33%

necessite 1938 41.68% needs 25.65%needs 25.65%

revoltante 45 24.03% revolting 9.53%revolting 9.53%

representavam 19.3 18.33% accounted 18.13%a2 18.22% represented 7.53%

Alberto Simoes Extraccao de Recursos para Traducao Automatica (23/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

DefinicaoHipotese das Palavras Marca

Exemplos de Traducao: Definicao

Um Exemplo de Traducao e um par de segmentos depalavras 〈sA, sB〉 do tipo WA

? ×WB?, tal que T (sA) = sB.

Nao existe qualquer restricao relativa ao numero de palavrasde cada um dos segmentos, sendo que habitualmente osexemplos de traducao tem duas ou mais palavras, e raramenteexcedem as 8 a 10 palavras.

Simoes, 2008

Unidades de Traducao de tamanho pequeno...

Alberto Simoes Extraccao de Recursos para Traducao Automatica (24/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

DefinicaoHipotese das Palavras Marca

Exemplos de Traducao: Definicao

Um Exemplo de Traducao e um par de segmentos depalavras 〈sA, sB〉 do tipo WA

? ×WB?, tal que T (sA) = sB.

Nao existe qualquer restricao relativa ao numero de palavrasde cada um dos segmentos, sendo que habitualmente osexemplos de traducao tem duas ou mais palavras, e raramenteexcedem as 8 a 10 palavras.

Simoes, 2008

Unidades de Traducao de tamanho pequeno...

Alberto Simoes Extraccao de Recursos para Traducao Automatica (24/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

DefinicaoHipotese das Palavras Marca

Exemplos de Traducao: Como os delimitar?

Para delimitar (segmentar) unidades de traducao em exemplos detraducao usam-se:

Ad-Hoc (ao calhas):

baseados em convicoes fracas, como um par de palavras comprobabilidade de traducao alta.

Shallow Parsers:

ou heuristicas — Hipotese das Palavras Marca;

Analisadores Sintacticos;

possivelmente a melhor abordagem, mas mais complicada. . .

Alberto Simoes Extraccao de Recursos para Traducao Automatica (25/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

DefinicaoHipotese das Palavras Marca

Hipotese das Palavras Marca

Hoje, nao...

Alberto Simoes Extraccao de Recursos para Traducao Automatica (26/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

Extraccao de Entidades Paralelas

1 Dado um corpus alinhado ao nıvel da frase;

2 Realizar marcacao de Entidades Mencionadas(RENA, Rembrant, ...)

3 Contar Co-Ocorrencias de Entidades

Alberto Simoes Extraccao de Recursos para Traducao Automatica (27/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

Entidades Paralelas ExtraıdasEntidade em portugues Entidade em ingles #

Comissao Commission 5363Uniao Europeia European Union 2143Conselho Council 2077Parlamento Parliament 2041Europa Europe 1883Estados-Membros Member States 1528Parlamento Europeu European Parliament 986Estado-Membro Member State 250Comissao Europeia European Commission 210Conferencia Intergovernamental Intergovernmental Conference 206Estados Unidos United States 202Senhor Presidente Mr President 179Fundos Estruturais Structural Funds 145Livro Branco White Paper 144Carta dos Direitos Fundamentais Fundamental Rights 98Cimeira de Lisboa Lisbon Summit 71

Alberto Simoes Extraccao de Recursos para Traducao Automatica (28/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

Extraccao Baseada em Padroes

A traducao nao e linear. . .

dis

cuss

ion

about

alte

rnat

ive

sourc

es

of

finan

cing

for

the

euro

pea

n

radic

al

allia

nce

.

discussão 44 0 0 0 0 0 0 0 0 0 0 0

sobre 0 11 0 0 0 0 0 0 0 0 0 0

fontes 0 0 0 74 0 0 0 0 0 0 0 0

de 0 3 0 0 27 0 6 3 0 0 0 0

financiamento 0 0 0 0 0 56 0 0 0 0 0 0

alternativas 0 0 23 0 0 0 0 0 0 0 0 0

para 0 0 0 0 0 0 28 0 0 0 0 0

a 0 1 0 0 1 0 4 33 0 0 0 0

aliança 0 0 0 0 0 0 0 0 0 0 65 0

radical 0 0 0 0 0 0 0 0 0 80 0 0

europeia 0 0 0 0 0 0 0 0 59 0 0 0

. 0 0 0 0 0 0 0 0 0 0 0 80

Alberto Simoes Extraccao de Recursos para Traducao Automatica (29/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

Extraccao Baseada em Padroes

. . . existem reordenamentos. . .

dis

cuss

ion

about

alte

rnat

ive

sourc

es

of

finan

cing

for

the

euro

pea

n

radic

al

allia

nce

.

discussão 44 0 0 0 0 0 0 0 0 0 0 0

sobre 0 11 0 0 0 0 0 0 0 0 0 0

fontes 0 0 0 74 0 0 0 0 0 0 0 0

de 0 3 0 0 27 0 6 3 0 0 0 0

financiamento 0 0 0 0 0 56 0 0 0 0 0 0

alternativas 0 0 23 0 0 0 0 0 0 0 0 0

para 0 0 0 0 0 0 28 0 0 0 0 0

a 0 1 0 0 1 0 4 33 0 0 0 0

aliança 0 0 0 0 0 0 0 0 0 0 65 0

radical 0 0 0 0 0 0 0 0 0 80 0 0

europeia 0 0 0 0 0 0 0 0 59 0 0 0

. 0 0 0 0 0 0 0 0 0 0 0 80

Alberto Simoes Extraccao de Recursos para Traducao Automatica (30/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

Extraccao Baseada em Padroes

. . . existem reordenamentos. . . previsıveis!

dis

cuss

ion

about

alte

rnat

ive

sourc

es

of

finan

cing

for

the

euro

pea

n

radic

al

allia

nce

.

discussão 44 0 0 0 0 0 0 0 0 0 0 0

sobre 0 11 0 0 0 0 0 0 0 0 0 0

fontes 0 0 0 74 0 0 0 0 0 0 0 0

de 0 3 0 0 27 0 6 3 0 0 0 0

financiamento 0 0 0 0 0 56 0 0 0 0 0 0

alternativas 0 0 23 0 0 0 0 0 0 0 0 0

para 0 0 0 0 0 0 28 0 0 0 0 0

a 0 1 0 0 1 0 4 33 0 0 0 0

aliança 0 0 0 0 0 0 0 0 0 0 65 0

radical 0 0 0 0 0 0 0 0 0 80 0 0

europeia 0 0 0 0 0 0 0 0 59 0 0 0

. 0 0 0 0 0 0 0 0 0 0 0 80

Alberto Simoes Extraccao de Recursos para Traducao Automatica (31/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

Exemplo 1: Padrao ABBA

Jogo

s

Olım

pic

os

Olimpic X

Games X

Na pratica. . .

T (A · B) = T (B) · T (A)

Alberto Simoes Extraccao de Recursos para Traducao Automatica (32/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

Exemplo 2: Padrao IDH

ınd

ice

de

des

envo

lvim

ento

hu

man

o

human X

development X

index X

Na pratica. . .

T (I · ”de” · D · H) = T (H) · T (D) · T (I )

Alberto Simoes Extraccao de Recursos para Traducao Automatica (33/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

Exemplo 3: Padrao FTP

prot

oco

lo

de

tran

sfer

enci

a

de

fich

eiro

s

file X

transfer X

protocol X

Na pratica. . .

T (P · ”de” · T · ”de” · F ) = T (F ) · T (T ) · T (P)

Alberto Simoes Extraccao de Recursos para Traducao Automatica (34/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

Exemplo 4: Padrao NPoV

pon

to

de

vist

a

neu

tro

neutral X

point X

of ∆

view X

Na pratica. . .

T (P · ”de” · V · N) = T (N) · T (P) · ”of ” · T (V )

Alberto Simoes Extraccao de Recursos para Traducao Automatica (35/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

Extraindo estes blocos: exemplos de traducao

39214 ABBA comunidades europeias european communities32850 ABBA jornal oficial official journal32832 ABBA parlamento europeu european parliament32730 ABBA uniao europeia european union31650 ABBA comunidade europeia european community15602 ABBA paıses terceiros third countries

3614 ABBA livro verde green paper3520 ABBA saude publica public health3434 ABBA direito comunitario community law3227 ABBA nıvel comunitario community level3179 ABBA comite permanente standing committee3038 ABBA nomenclatura combinada combined nomenclature

1 ABBA orgaos orcamentais budgetary organs1 ABBA orgaos relevantes relevant bodies1 A ovulos de equino equine ova1 A oxido de albendazole albendazole oxide1 A oxido de cadmio cadmium oxide1 A oxido de estireno styrene oxide

Alberto Simoes Extraccao de Recursos para Traducao Automatica (36/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

A Linguagem de Padroes

Padroes EN–PT (jSpell)

[R1] A B = B[CAT<-/nc/] A[CAT<-/(a_nc|adj)/];

[R2] A B = B[CAT<-/nc/] "de"|"do"|"da"|"dos"|"das" A[CAT<-/(a_nc|nc)/];

[R3] A "of"|"in"|"for" B = A[CAT<-/nc/] "de"|"do"|"da" B[CAT<-/nc/];

[R4] A B C = C[CAT<-/nc/] A[CAT<-/(adj|a_nc)/] B[CAT<-/(adj|a_nc)/];

Padroes EN–GL (FreeLing)

[R1] A B = B[CAT<-/^NC/] A[CAT<-/^AQ0/];

[R2] A B = B[CAT<-/^NC/] "de"|"do"|"da"|"dos"|"das" A[CAT<-/^NC/];

[R3] A "of"|"in"|"for" B = A[CAT<-/^NC/] "de"|"do"|"da" B[CAT<-/^NC/];

[R4] A B C = C[CAT<-/^NC/] A[CAT<-/^AQ0/] B[CAT<-/^AQ0/];

Regras simplificadas, por questoes espaciais.

Alberto Simoes Extraccao de Recursos para Traducao Automatica (37/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

A Linguagem de Padroes

Padroes EN–PT (jSpell)

[R1] A B = B[CAT<-/nc/] A[CAT<-/(a_nc|adj)/];

[R2] A B = B[CAT<-/nc/] "de"|"do"|"da"|"dos"|"das" A[CAT<-/(a_nc|nc)/];

[R3] A "of"|"in"|"for" B = A[CAT<-/nc/] "de"|"do"|"da" B[CAT<-/nc/];

[R4] A B C = C[CAT<-/nc/] A[CAT<-/(adj|a_nc)/] B[CAT<-/(adj|a_nc)/];

Padroes EN–GL (FreeLing)

[R1] A B = B[CAT<-/^NC/] A[CAT<-/^AQ0/];

[R2] A B = B[CAT<-/^NC/] "de"|"do"|"da"|"dos"|"das" A[CAT<-/^NC/];

[R3] A "of"|"in"|"for" B = A[CAT<-/^NC/] "de"|"do"|"da" B[CAT<-/^NC/];

[R4] A B C = C[CAT<-/^NC/] A[CAT<-/^AQ0/] B[CAT<-/^AQ0/];

Regras simplificadas, por questoes espaciais.

Alberto Simoes Extraccao de Recursos para Traducao Automatica (37/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

E que tipo de resultado?

English Portuguese Oc.european union uniao europeia 12 465european parliament parlamento europeu 13 066european community comunidade europeia 18 251european communities comunidades europeias 19 545council decision decisao do conselho 1 665commission decision decisao da comissao 2 215basic regulation regulamento de base 3 390management committee comite de gestao 3 549act of accession acto de adesao 1 043exchange of letters troca de cartas 1 169court of justice tribunal de justica 1 198date of adoption data de adopcao 1 467french overseas departments departamentos franceses ultramarinos 137single european sky ceu unico europeu 78european agricultural fund fundo europeu agrıcola 48scientific veterinary committee comite cientıfico veterinario 44

Alberto Simoes Extraccao de Recursos para Traducao Automatica (38/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

Resultado Satisfatorio?

SIM!

nao...

algumas das entradas sao nominais “comuns”

O que fazer?

Calcular n-gramas sobre corpora monolingue “generico”(literario?)

Filtrar a terminologia encontrada por esses n-gramas.

Alberto Simoes Extraccao de Recursos para Traducao Automatica (39/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

Resultado Satisfatorio?

SIM!

nao...

algumas das entradas sao nominais “comuns”

O que fazer?

Calcular n-gramas sobre corpora monolingue “generico”(literario?)

Filtrar a terminologia encontrada por esses n-gramas.

Alberto Simoes Extraccao de Recursos para Traducao Automatica (39/40)

Materia PrimaDicionarios Bilingues

Unidades de TraducaoTerminologia Paralela

Extraccao de Entidades ParalelasExtraccao Baseada em PadroesExtraccao de Terminologia com Padroes

Conclusoes

os corpora paralelos sao recursos ricos. . .especialmente quando alinhados a frase

os dicionarios de traducao extraıdos sao:

estatısticos e possivelmente pouco precisos;podem ser filtrados e melhorados;

os exemplos de traducao sao:

a base dos sistemas de traducao estatıstica;tambem uteis para TAC;

e possıvel fazer extraccao terminologica.

usando ferramentas auxiliares;

Alberto Simoes Extraccao de Recursos para Traducao Automatica (40/40)