antananarivo - madagascar

73
Le bitexte et ses applications Philippe Langlais RALI Département d’informatique et de recherche opérationnelle Université de Montréal Antananarivo - Madagascar felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationn Les joies du bitexte Antananarivo - Madagascar 1 / 69

Upload: others

Post on 17-Jun-2022

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Antananarivo - Madagascar

Le bitexte et ses applications

Philippe Langlais

RALIDépartement d’informatique et de recherche opérationnelle

Université de Montréal

Antananarivo - Madagascar

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 1 / 69

Page 2: Antananarivo - Madagascar

Plan

1 Le RALIPrésentation généraleDémonstrations en ligne

2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle

3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier

4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation

5 TA et terminologie

6 Conclusion

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 2 / 69

Page 3: Antananarivo - Madagascar

Le laboratoire RALIRecherche Appliquée en Linguistique Informatique

3 profs : Guy Lapalme (question-réponse), Jian-Yun Nie(recherche d’information) et Philippe Langlais (applicationsbilingues)

responsable : Elliott Macklovitch

5 chercheurs invités

Des étudiants à la maîtrise et au doctorat

un site web : http://rali.iro.umontreal.ca

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 3 / 69

Page 4: Antananarivo - Madagascar

SILC : Identification de la langue

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 4 / 69

Page 5: Antananarivo - Madagascar

SILC : Identification de la langue

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 5 / 69

Page 6: Antananarivo - Madagascar

SILC : Identification de la langue

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 6 / 69

Page 7: Antananarivo - Madagascar

Lexiqum : accès à des bases monolingues

207 millions de mots

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 7 / 69

Page 8: Antananarivo - Madagascar

Lexiqum : accès à des bases monolingues

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 8 / 69

Page 9: Antananarivo - Madagascar

Lexiqum : accès à des bases monolingues

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 9 / 69

Page 10: Antananarivo - Madagascar

Lexiqum : accès à des bases monolingues

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 10 / 69

Page 11: Antananarivo - Madagascar

Lexiqum : accès à des bases monolingues

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 11 / 69

Page 12: Antananarivo - Madagascar

Réacc : Réaccentueur pour le français

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 12 / 69

Page 13: Antananarivo - Madagascar

Réacc : Réaccentueur pour le français

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 13 / 69

Page 14: Antananarivo - Madagascar

1 Le RALIPrésentation généraleDémonstrations en ligne

2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle

3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier

4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation

5 TA et terminologie

6 Conclusion

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 14 / 69

Page 15: Antananarivo - Madagascar

Corpus parallèle/BitexteUn peu d’histoire (très peu !)

(Melby, 1981)

intérêt des Mormons pour la TA et la TAOsauvegarder des textes sources et leur traduction à des finspédagogiques

(Harris, 1988) invente le terme bitexte

Un bitexte est constitué de deux documents parallèles où lesalignements (relations de traduction) sont explicitement marqués(habituellement au niveau de la phrase).

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 15 / 69

Page 16: Antananarivo - Madagascar

BitexteDocuments parallèles

Deux documents sont parallèles s’ils véhiculent le même contenu dansle même ordre.

Les bitextes sont générateurs de ressources et d’applications tellesque :

lexicographie bilingue (Langlois, 1996), terminologie

Acquisition d’une langue seconde

traduction

recherche d’information (trans-linguistique)

détection de paraphrases (Callisson-Burch, 2005)

concordanciers bilingues (ex : TSRALI.COM)

Lire (Véronis,2000)

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 16 / 69

Page 17: Antananarivo - Madagascar

Corpus parallèle / bitexte

Corpus parallèle :Monsieur le Président, noussuivons depuis quelques se-maines le déroulement desélections à Madagascar. Mal-gré un premier tour de scru-tin qui n’a pas donné de ré-sultat concluant, le candidatde l’opposition s’est déclarévainqueur et a depuis enjointses partisans à la grève gé-nérale et aux manifestations.Aux dernières nouvelles, il ya maintenant deux gouverne-ments parallèles et deux ca-pitales.

Mr. Speaker, over the pastfew weeks, we have been fol-lowing the general election inMadagascar. In spite of an in-conclusive first ballot, the op-position candidate declaredhimself the winner and thenenjoined his supporters to goon a general strike and to or-ganize protests. According tothe latest news, there are nowtwo parallel governments andtwo capitals.

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 17 / 69

Page 18: Antananarivo - Madagascar

Corpus parallèle / bitexte

Bitexte :Monsieur le Président, noussuivons depuis quelques se-maines le déroulement desélections à Madagascar.

Mr. Speaker, over the pastfew weeks, we have been fol-lowing the general election inMadagascar.

Malgré un premier tour descrutin qui n’a pas donné derésultat concluant, le candi-dat de l’opposition s’est dé-claré vainqueur et a depuisenjoint ses partisans à lagrève générale et aux mani-festations.

In spite of an inconclusive firstballot, the opposition can-didate declared himself thewinner and then enjoined hissupporters to go on a gene-ral strike and to organize pro-tests.

Aux dernières nouvelles, il ya maintenant deux gouverne-ments parallèles et deux ca-pitales.

According to the latest news,there are now two parallel go-vernments and two capitals.

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 17 / 69

Page 19: Antananarivo - Madagascar

Bitexte

Débat Artificial intelligenceL’intelligence artificielle A DebatDepuis 35 ans, les spécia-listes d’intelligence artificiellecherchent à construire desmachines pensantes.

Attempts to produce thinkingmachines have met duringthe past 35 years with a cu-rious mix of progress and fai-lure.

Leurs avancées et leurs in-succès alternent curieuse-ment.

Two further points are impor-tant.

Les symboles et les pro-grammes sont des notionspurement abstraites.

First, symbols and programsare purely abstract notions.

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 18 / 69

Page 20: Antananarivo - Madagascar

Corpus/Parallèles et Bitextes existants

Quelques corpus parallèles existent :

Débats parlementaires canadiens (français, anglais, inuktitut)Débats parlementaires de Hong-Kong (anglais, chinois)Débats parlementaires européens (français, italien, espagnol,portugais, anglais, allemand, hollandais, danois, suédois, grecque,finnois)Bible (nouveau testament ∼ 140 K tokens en Grec ; bible ∼ 30 Ktypes), Coran, charte des droits de l’homme (petit), Harry Potter,etc.

Peu nombreux et souvent peu adaptés

Internet !

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 19 / 69

Page 21: Antananarivo - Madagascar

1 Le RALIPrésentation généraleDémonstrations en ligne

2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle

3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier

4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation

5 TA et terminologie

6 Conclusion

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 20 / 69

Page 22: Antananarivo - Madagascar

Le web comme corpus parallèleIdée générale

Étude de Ma & Liberman (1997) :1 site sur 1000 est bi- ou multi-lingue

1 site sur 10 dans le domaine de est bilingue (allemand-anglais)

PT-Miner (Chen & Nie, 2000)

aspirer des sites potentiellement parallèles (sitesgouvernementaux, etc.)identifier la langue des documents (e.g : SILC)rechercher les noms parallèlesfiltrages variés (longueur des documents, structure html, lexiquebilingue, etc.)

Voir également :

STRAND (Resnik & Smith, 2000),BITS (Ma & Liberman, 2000)

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 21 / 69

Page 23: Antananarivo - Madagascar

Le web comme corpus parallèleIdentification de paires parallèles

Utiliser les noms d’URL

http ://www.gc.ca/main_f.htmlhttp ://www.gc.ca/main_e.html

http ://www2.ville.montreal.qc.ca/plan-urbanisme/index.shtmhttp ://www2.ville.montreal.qc.ca/plan-urbanisme/en/index.shtm

http ://applicatif.ville.montreal.qc.ca/fr/commfr.asp ?id=2993http ://applicatif.ville.montreal.qc.ca/en/comman.asp ?id=2994

Problèmes : politique des noms de fichiers non standardisée,traductions incomplètes, mauvaises, ou non maintenues

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 22 / 69

Page 24: Antananarivo - Madagascar

Le web comme corpus parallèleIdentification de paires parallèles

Apparier les documents qui partagent le plus de mots selon un lexique.

Pour chaque document source s, nous voulons le document cible tmaximisant :

Nombre de mots que s et t partagent selon le lexiqueNombre de mots dans s + Nombre de mots dans t

Resumption of the session Reanudación del período de sesiones(39

)Declaro reanudado el período de se-siones del Parlamento Europeo , in-terrumpido el viernes 17 de diciembrepasado.

( 520

)felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 23 / 69

Page 25: Antananarivo - Madagascar

Le web comme corpus parallèleIdentification de paires parallèles

Apparier les documents qui partagent le plus de mots selon un lexique.

Pour chaque document source s, nous voulons le document cible tmaximisant :

Nombre de mots que s et t partagent selon le lexiqueNombre de mots dans s + Nombre de mots dans t

Resumption of the session Reanudación del período de sesiones(39

)Declaro reanudado el período de se-siones del Parlamento Europeo , in-terrumpido el viernes 17 de diciembrepasado.

( 520

)felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 23 / 69

Page 26: Antananarivo - Madagascar

Le web comme corpus parallèleIdentification de paires parallèles

Se baser sur les liens contenus dans les documents HTML(Zweigenbaum)

<a href="A"><img src="X" alt="Y"></a><a href="A">Z</a>

avec X ou Y ou Z contenant Français ou EnglishAppliqué au site gouvernemental Santé Canada (∼100 000pages) : bitexte de 12 000 paires de pages.

Utiliser le plus d’indices possibles et entraîner un classificateur àprédire si une paire de documents est parallèle ou pas (Patry &Langlais, 2005)

Recette expresswget (gnu) + SILC (facultatif) + heuristiques (ou mieux si disponible)

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 24 / 69

Page 27: Antananarivo - Madagascar

1 Le RALIPrésentation généraleDémonstrations en ligne

2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle

3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier

4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation

5 TA et terminologie

6 Conclusion

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 25 / 69

Page 28: Antananarivo - Madagascar

Alignement de phrasesIndices structurel

Le processus de traduction tend à préserver la longueur (comptéeen mots ou en caractères) des phrases.

longueur source (en mots)

longueur

cib

le (

en m

ots

)

0

50

100

150

200

250

300

0 50 100 150 200 250 300

"b"0.91*x

longueur source (en car.)

longueur

cib

le (

en c

ar.

)

0

200

400

600

800

1000

1200

1400

0 200 400 600 800 1000 1200 1400 1600

"b"0.91*x

Bitexte de 7124 paires de phrases

Cette idée simple a été exploitée en premier lieu par (Brown et al.,1991 ; Gale & Church, 1993).

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 26 / 69

Page 29: Antananarivo - Madagascar

Alignement de phrasesIndices basés sur le contenu

The Legislative Assembly conve-ned at 3.30 pm.

sitamiq, ipuru 1, 1999

Mr. Quirke (Clerk-Designate) : maligaliurvik matuiqtaulauqtuq3 :30mi unnusakkut

THURSDAY, APRIL 1, 1999 mista kuak (titiraqti - tikkuaqtau-simajuq) :

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 27 / 69

Page 30: Antananarivo - Madagascar

Alignement de phrasesIndices basés sur le contenu

The Legislative Assembly conve-ned at 3.30 pm.

sitamiq, ipuru 1, 1999

Mr. Quirke (Clerk-Designate) : maligaliurvik matuiqtaulauqtuq3 :30mi unnusakkut

THURSDAY, APRIL 1, 1999 mista kuak (titiraqti - tikkuaqtau-simajuq) :

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 27 / 69

Page 31: Antananarivo - Madagascar

Alignement de phrasesIndices basés sur le contenu

The Legislative Assembly conve-ned at 3.30 pm.

sitamiq, ipuru 1, 1999

Mr. Quirke (Clerk-Designate) : maligaliurvik matuiqtaulauqtuq3 :30mi unnusakkut

THURSDAY, APRIL 1, 1999 mista kuak (titiraqti - tikkuaqtau-simajuq) :

préfixes communs de 4 lettres ou identité (alphanum.) = cognate(Simard et al., 1992) accès/access, activité/activity, 123a/123amais librairie/library

distance d’édition proche = cognate (Ribeiro, 2001)gouvernement/government

+ ACL, translitération

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 27 / 69

Page 32: Antananarivo - Madagascar

Alignement de phrasesRecette

Certains aligneurs sont disponibles :

le code de l’aligneur (Gale & Church, 1993) est dans le papier !

(Moore, 2002), programme disponible

www.iro.umontreal.ca/~Japa

etc.

Lire aussi (Langlais et al., 1998) et (Singh & Husain, 2005) pour uneévaluation de ces techniques d’alignement.

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 28 / 69

Page 33: Antananarivo - Madagascar

1 Le RALIPrésentation généraleDémonstrations en ligne

2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle

3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier

4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation

5 TA et terminologie

6 Conclusion

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 29 / 69

Page 34: Antananarivo - Madagascar

TransSearch (Macklovitch et al., 2000)

mis en service sur le web en 1996 sans publicité

plus de 20 000 requêtes par mois en 2000

profil des utilisateurs :

51% traducteurs32% étudiants12% terminologistes et rédacteurs professionnels

réalisateur : Michel Simard

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 30 / 69

Page 35: Antananarivo - Madagascar

TSRALI.com (concordanccier bilingue)

TransSearch est maintenant un service offert en ligne parabonnement : TSRALI.com (Terminotix Inc.)

∼ 1 500 abonnés∼ 75 000 requêtes par mois

Bitextes offerts :

hansard débats à la chambre des communes depuis 1986 (235 M.de mots)cours canadiennes décisions de la Cour suprême du Canada, de laCour fédérale et de la Cour canadienne de l’impôt (88 M. de mots)

http://transsearch.iro.umontreal.causer : madapwd : gascar

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 31 / 69

Page 36: Antananarivo - Madagascar

TSRALI.com (concordancier bilingue)

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 32 / 69

Page 37: Antananarivo - Madagascar

TSRALI.com (concordancier bilingue)

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 33 / 69

Page 38: Antananarivo - Madagascar

TSRALI.com (concordancier bilingue)

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 34 / 69

Page 39: Antananarivo - Madagascar

TSRALI.com (concordancier bilingue)

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 35 / 69

Page 40: Antananarivo - Madagascar

TSRALI.com (concordancier bilingue)

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 36 / 69

Page 41: Antananarivo - Madagascar

1 Le RALIPrésentation généraleDémonstrations en ligne

2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle

3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier

4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation

5 TA et terminologie

6 Conclusion

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 37 / 69

Page 42: Antananarivo - Madagascar

Les modèles IBM (Brown et al., 1993)

Entrée : un bitexte (découpé en phrases et mots)

Sortie : des probabilités de transfert (lexique bilingue probabilisé) :

the (3/149) (le,0.18) (la,0.15) (de,0.12)minister (2/27) (ministre,0.8) (le,0.12)people (3/66) (gens,0.25) (les,0.16) (personnes,0.1)years (3/24) (ans,0.38) (années,0.31) (depuis,0.12)

Pas de code nécessaire : GIZA++ (Och & Ney, 2000)

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 38 / 69

Page 43: Antananarivo - Madagascar

Les modèles IBMDistribution d’alignement p(i|j, 20, 40)

position cible position source

0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1

05

1015

2025

3035

405

1015

20

00.10.20.30.40.50.60.70.80.9

1

Note : les probabilités d’alignement ne dépendent pas des mots

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 39 / 69

Page 44: Antananarivo - Madagascar

Les modèles IBM

c’ •

est •

traduit •

automatiquement•

NULL•

it•

is•

automatically•

translated•

@@

@@

HHHH

����

a = (2, 2, 2, 2)

c’ •

est •

traduit •

automatiquement•

NULL•

it•

is•

automatically•

translated•

HHHHHHHH@

@@

@

a = (1, 2, 4, 3)

c’ •

est •

traduit •

automatiquement•

NULL•

it•

is•

automatically•

translated•

����

HHHHHHHH

a = (0, 0, 3, 4)

c’ •

est •

traduit •

automatiquement•

NULL•

it•

is•

automatically•

translated•

HHHH@

@@

@HHHH�

��

a = (1, 3, 3, 1)

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 40 / 69

Page 45: Antananarivo - Madagascar

Des modèles IBM à l’alignement

L’alignement de viterbi :V (f |e) = argmaxa p(a|e, f ) = argmaxa p(f , a|e)

Pour IBM2, on trouve l’alignement de viterbi très facilement(O(l ×m)) :

am1 = argmaxam

1p(f m

1 , am1 |el

1)

= argmaxam1

∏mj=1 t(fj |eaj )a(aj |j , m, l)

: aj = argmaxajt(fj |eaj )a(aj |j , m, l)

Note : pour les modèles IBM 3, 4 & 5, il n’existe pas de moyen decalculer cet alignement efficacement.

Bonne nouvelle : GIZA++ produit également l’alignement au niveaudes mots du bitexte d’entraînement.

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 41 / 69

Page 46: Antananarivo - Madagascar

Alignement de viterbi IBM 1

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 42 / 69

Page 47: Antananarivo - Madagascar

Alignement de viterbi IBM 2

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 43 / 69

Page 48: Antananarivo - Madagascar

Alignement de mots

Les techniques d’alignement font l’objet de nombreuses études

moins d’hypothèse d’indépendance (Vogel et al., 1996)comparaison de différentes techniques (Och & Ney, 2000)intégration d’informations syntaxiques (Cherry & Lin, 2003)sans probabilité (lexique + heuristiques syntaxiques) (Ozdowskaet Claveau, 2005)spécifique à des paires de langues particulières (WPT, 2003 ;WPT, 2005)

in •regards •

to •elders •

and •youth •

pijjutigillugu (3-1)•

innatuqait (1-1)•

amma (1-1)•

makkuttu (1-1)•

((((((((((((

������������

�������������

������������

������������

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 44 / 69

Page 49: Antananarivo - Madagascar

1 Le RALIPrésentation généraleDémonstrations en ligne

2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle

3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier

4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation

5 TA et terminologie

6 Conclusion

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 45 / 69

Page 50: Antananarivo - Madagascar

Traduction statistique

Problème : on cherche la traduction e d’une phrase source f :

e = argmaxe∈E p(e|f )

= argmaxe∈Ep(f |e)×p(e)

p(f )

= argmaxe∈E p(f |e)︸ ︷︷ ︸traduction

× p(e)︸︷︷︸langue (cible)

opération NP-complète (si on ne présuppose pas d’ordre à priorisur les mots) (Knight et al., 1999)

plusieurs approximations décrites (pour différents modèles IBM)

Il existe des décodeurs (argmax) disponibles ReWrite (Germann,2001), Pharaoh (Koehn, 2004)

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 46 / 69

Page 51: Antananarivo - Madagascar

Modèle de langue

Définition : un modèle de langue probabiliste est un modèle quispécifie une distribution p(s) sur les chaînes s de la langue modélisée :∑

s

Pr(s) = 1

Exemples de s (il en existe une infinité)

Paul aime VirginieIl pleut sur cette belle îleRhum boire il aussi veut. . .

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 47 / 69

Page 52: Antananarivo - Madagascar

Modèle de langue

Pr(John aime Marie qui aime Paul) =

Pr(John | BOS)×Pr(aime | BOS John)×

Pr(Marie | BOS John aime)×Pr(qui | BOS John aime Marie)×

Pr(aime | BOS John aime Marie qui)×Pr(Paul | BOS John aime Marie qui aime)

Chaque paramètre (ex : Pr(aime | BOS John)) est estimé à partir d’un

corpus d’entraînement (ex : |BOS John aime||BOS John| ).

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 48 / 69

Page 53: Antananarivo - Madagascar

Modèle de langue

Trop de paramètres à estimer, on simplifie par un modèle trigramme :

p(s) =N∏

i=1

p(wi |wi−2wi−1)

Pr(John aime Marie qui aime Paul) =

Pr(John | BOS BOS)×Pr(aime | BOS John)×Pr(Marie |John aime)×

Pr(qui |aime Marie)×Pr(aime |Marie qui)×

Pr(Paul |qui aime)

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 49 / 69

Page 54: Antananarivo - Madagascar

Modèle de langueNote

si dans certains cas, cette approximation est "correcte" :

p(et|mais au fur) = p(et |au fur)

ça reste souvent grossier

p(x |manger de la) = p(x |président de la) = p(x |de la)

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 50 / 69

Page 55: Antananarivo - Madagascar

Modèle de traduction

∀s,∑

t

p(t |s) = 1

p(M. Speaker | Monsieur le président) = 0.08p(Speaker M. | Monsieur le président) = 0.07p(M. Deputy | Monsieur le président) = 0.005p(Harry Potter | Monsieur le président) = 0.0001p(Blue box | Monsieur le président) = 0.000001. . .

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 51 / 69

Page 56: Antananarivo - Madagascar

Exemple de traductions avec des modèles de mot

SRCE j’ ai parlé plus tôt du déséquilibre financier .IBM4 i have talked about more than ever before for the fiscal imbalance .IBM2 i mentioned earlier , the fiscal imbalance .

SRCE nous devons revenir sur la question de la péréquation au canada .IBM4 we must go back to the question of the equalization in canada .IBM2 we must address the issue of the equalization of canada .

SRCE la péréquation constitue un programme social très important .IBM4 the equalization is a social program is very important .IBM2 on equalization program is extremely important social

SRCE ce n’ est pas le comité qui n’ en a pas tenu compte .IBM4 this is the committee that has to be held to account .IBM2 this is not the committee , which has been ignored .

SRCE nous avons mis fin à une période de 28 ans de déficit .IBM4 we have to put an end to a period of 28 years of deficit .IBM2 we have developed an end of seven years $ 28 billion .

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 52 / 69

Page 57: Antananarivo - Madagascar

De la T.A(utomatique) à la T.A(ssistée)TransType (Foster et al., 1996)

rali.iro.umontreal.ca/Transtype2/Demo/index.fr.html

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 53 / 69

Page 58: Antananarivo - Madagascar

1 Le RALIPrésentation généraleDémonstrations en ligne

2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle

3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier

4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation

5 TA et terminologie

6 Conclusion

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 54 / 69

Page 59: Antananarivo - Madagascar

Traduction par segments contigus(Koehn, 2003 ; Vogel, 2003, Tillmann, 2003)

ne pas reformer ||| not reconstitute ||| 1japonais et américains ||| Japanese and American ||| 1Une recriminalisation ||| Re-criminalization violates ||| 1serait moins inquiétant ||| would be less disturbing ||| 0.5serait moins inquiétante ||| would be less disturbing ||| 0.5nous aurons tous noté avec intérêt ||| we all noted with interest ||| 1accepté cet amendement pour répondre ||| accepted this amendmentto respond ||| 1n’ ont pas toutes ||| there was not unanimity of feeling throughout thecountry with regard to all ||| 1augmenter plus vite que le taux ||| grow faster than the rate ||| 1dommages faits par ||| damage that is being done by ||| 1on ne peut pas demander ||| they cannot seek ||| 1une erreur d’ interprétation . ||| a misinterpretation . ||| 1Monsieur le Président , ce gouvernement est symbole ||| Mr. Speaker ,this Government is synonymous ||| 1a été présenté aux ||| was presented to ||| 0.285714

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 55 / 69

Page 60: Antananarivo - Madagascar

Traduction par segments contigusPros

réordonnancement passif des motsex : montagne bleue / blue montain

formes idiomatiques capturéespasser un sapin / pulling a fast one

simplicité (d’obtention) / souplesse (adjonction de dictionnairesfacile)

contraint le modèle de langue

tolérance aux langues difficiles à segmenter en motsex : le chinois

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 56 / 69

Page 61: Antananarivo - Madagascar

Traduction par segments contigusCons

aucun pouvoir de généralisation

passer un sapin ||| pulling a fast one ||| 1nous passer un sapin ||| pull a fast one on us ||| 1passer un sapin . ||| pull a fast one on us . ||| 0.5nous passer un sapin . ||| pull a fast one on us . ||| 0.5passer un sapin ||| pull a fast one ||| 1passer un sapin . ||| play a fast one ||| 1

gros volumes de données à manipulerex : 1Gig ou plus pour 1.7 M de paires de phrases

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 57 / 69

Page 62: Antananarivo - Madagascar

Traduction par segments contigusRecette

1 Aligner le bitexte d’entraînement dans deux directions2 En déduire un alignement <

Les alignements de l’intersection sont fiablesLes étendre avec certains alignements de l’union

3 Stocker toute paire ((x1, x2), (y1, y2)) telle que :

∀x ∈ [x1, x2],∀y : <(x , y), y ∈ [y1, y2]∀y ∈ [y1, y2],∀x : <(x , y), x ∈ [x1, x2]

4 Associer un ou plusieurs scores à chaque paramètre (paire deséquence)

5 Utiliser Pharaoh (Koehn, 2004) pour le décodage

∼ Performances "état de l’art" !

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 58 / 69

Page 63: Antananarivo - Madagascar

Traduction par segments contigus

. . . . . . . . . . . . . XSUNNY . . . . . . . . . . . X .MAINLY . . . . . . . . . . X . .OTHERWISE . . . . . . . . . X . . .PATCHES . . . . . . X ↖ . . . . .FOG . . . . X . . . . . . . .MORNING . . . . . . . . X . . . ... . . . X . . . . . . . . .TODAY . X ↖ . . . . . . . . . .NULL . . . . . ↖ . . . . . . .

N A H . B D B E M P G E .U U U . A E R N A U E NL J I N O T I N SL O C U I S E O

U S I N R LR L E A ED L E L I

A E LR M LD E E

NT

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 59 / 69

Page 64: Antananarivo - Madagascar

Traduction par segments contigus

FOG ||| BANCS ||| 1MAINLY SUNNY . ||| GENERALEMENT ENSOLEILLE . ||| 1OTHERWISE MAINLY SUNNY ||| PUIS GENERALEMENT ENSOLEILLE ||| 1OTHERWISE ||| PUIS ||| 1MORNING FOG PATCHES OTHERWISE MAINLY ||| BROUILLARD EN MATINEE PUIS GENERALEMENT ||| 1MORNING FOG PATCHES ||| BROUILLARD EN MATINEE ||| 1TODAY .. MORNING FOG ||| AUJOURD HUI .. BANCS ||| 1. ||| . ||| 1MORNING FOG PATCHES OTHERWISE MAINLY SUNNY . ||| MATINEE PUIS GENERALEMENT ENSOLEILLE . ||| 1MORNING FOG PATCHES OTHERWISE ||| BROUILLARD EN MATINEE PUIS ||| 1MORNING FOG PATCHES OTHERWISE MAINLY SUNNY . ||| BROUILLARD EN MATINEE PUIS GENERALEMENT ENSOLEILLE . ||| 1.. ||| .. ||| 1OTHERWISE MAINLY ||| PUIS GENERALEMENT ||| 1MORNING FOG PATCHES OTHERWISE ||| MATINEE PUIS ||| 1TODAY .. ||| AUJOURD HUI .. ||| 1OTHERWISE MAINLY SUNNY . ||| PUIS GENERALEMENT ENSOLEILLE . ||| 1TODAY ||| AUJOURD HUI ||| 1SUNNY ||| ENSOLEILLE ||| 1PATCHES ||| BROUILLARD EN ||| 1MORNING FOG PATCHES OTHERWISE MAINLY ||| MATINEE PUIS GENERALEMENT ||| 1SUNNY . ||| ENSOLEILLE . ||| 1MORNING FOG PATCHES OTHERWISE MAINLY SUNNY ||| BROUILLARD EN MATINEE PUIS GENERALEMENT ENSOLEILLE ||| 1.. MORNING FOG ||| .. BANCS ||| 1. . .

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 60 / 69

Page 65: Antananarivo - Madagascar

Phrase-Based translation

De très nombreux travaux autour de cette approche

comment se passer de l’alignement de mots ? (Vogel et al., 2003)comment mieux généraliser le corpus d’entraînement (Simard et al,2005, Chiang, 2005)relations entre SMT et EBMTétudes de différentes langues (à morphologie riche, agglutinative,etc.)

De nombreuses compétitions (NIST, WPT, IWSLT, Technolangue)

Pas de code nécessaire (ou presque) pour produire un systèmeproche de l’état de l’art !

Giza++ (Och & Ney, 2000),SRILM (Stolcke, 2002),PHARAOH (Koehn, 2004)

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 61 / 69

Page 66: Antananarivo - Madagascar

Exemple (WPT’2005 - Spanish-English)

Sabemos muy bien que los Tratados actuales no bastan y que , en el futuro ,será necesario desarrollar una estructura mejor y diferente para la UniónEuropea , una estructura más constitucional que también deje bien clarascuáles son las competencias de los Estados miembros y cuáles pertenecena la Unión . Mensajes de preocupación en primer lugar ante las dificultadeseconómicas y sociales por las que atravesamos , y ello a pesar de uncrecimiento sostenido , fruto de años de esfuerzo por parte de todosnuestros conciudadanos ...

we know very well that the current treaties are not enough and that it will benecessary in future to develop a structure more efficient and different for theeuropean union , a structure which clearly indicates what are the competenceof member states and what are the powers of the european union . longerconstitutional messages of anxiety , firstly prefix the economic and socialproblems that we are experiencing , despite the sustained statesmanshipmany years of effort on the part of all our citizens . the current situation ,particularly unbearable for many companies of transport and ...

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 62 / 69

Page 67: Antananarivo - Madagascar

1 Le RALIPrésentation généraleDémonstrations en ligne

2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle

3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier

4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation

5 TA et terminologie

6 Conclusion

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 63 / 69

Page 68: Antananarivo - Madagascar

Traduction de termes par un moteur de traductiongénéraliste(Langlais, 2004)

Entraînement d’un moteur sur le Hansard (débats parlementaires)

Traduction de :

armée (sur les tireurs d’élite)sniper, reticle, mm, parallax, cockingpolitique commercialeDFAIT (Department of Foreign Affairs and International Trade),PIBD (Program for International Business Development), TPE(Export Programs Division), PWGSD (Public Works andGovernment Services Canada), ITPB (International Trade BusinessPlan)

Fort impact sur la perception de la qualité de la traduction (Miller, 2001)

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 64 / 69

Page 69: Antananarivo - Madagascar

Traduction de termes par un moteur de traductiongénéraliste

terme source oracle traductionâme bore heart

huile polyvalente general purpose oil oil polyvalentechambre chamber house of common

tireur d’ élite sniper issuer of elitela longueur de la crosse butt length the length of the crosse

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 65 / 69

Page 70: Antananarivo - Madagascar

Extraction de termes

Listes compilées par des terminologues

Termium (plus de 3 500 000 termes)www.termium.gc.ca/site/accueil_home_f.html

Extraction à partir de corpus

Beaucoup de travauxCESART (Campagne d’Evaluation de Systèmes d’Acquisition deRessources terminologiques) - Technolanguehttp://www.technolangue.net/article58.html

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 66 / 69

Page 71: Antananarivo - Madagascar

1 Le RALIPrésentation généraleDémonstrations en ligne

2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle

3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier

4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation

5 TA et terminologie

6 Conclusion

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 67 / 69

Page 72: Antananarivo - Madagascar

Conclusion

Relativement facile d’obtenir un corpus // (reste cependantcompliqué pour les langues peu dotées)

Alignement facile d’un corpus // au niveau des phrases et desmots sans même nécessiter de code (il faut cependant êtretolérant aux erreurs)

Il est alors facile de dériver des ressources comme :

des lexiques (probabilisés ou pas)des moteurs de traductiondes générateurs de paraphrases (Callisson-Burch, 2005)

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 68 / 69

Page 73: Antananarivo - Madagascar

Faut-il encore travailler ?

Malheureusement oui (mais nous aimons cela) . . .

Mieux appréhender les bitextes de petite taille, les languesfaiblement dotées∼ 7 000 langues, 600 ont de bonnes chances de survivre

Mieux exploiter les corpus comparables (Monteanu et al., 2003,Morin et al. 2004)

De meilleurs modèles (syntaxe, sémantique, apprentissagemachine)

Adaptation d’une application (ex : traduction) à un domaineparticulier

felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 69 / 69