Download - Antananarivo - Madagascar
Le bitexte et ses applications
Philippe Langlais
RALIDépartement d’informatique et de recherche opérationnelle
Université de Montréal
Antananarivo - Madagascar
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 1 / 69
Plan
1 Le RALIPrésentation généraleDémonstrations en ligne
2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle
3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier
4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation
5 TA et terminologie
6 Conclusion
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 2 / 69
Le laboratoire RALIRecherche Appliquée en Linguistique Informatique
3 profs : Guy Lapalme (question-réponse), Jian-Yun Nie(recherche d’information) et Philippe Langlais (applicationsbilingues)
responsable : Elliott Macklovitch
5 chercheurs invités
Des étudiants à la maîtrise et au doctorat
un site web : http://rali.iro.umontreal.ca
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 3 / 69
SILC : Identification de la langue
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 4 / 69
SILC : Identification de la langue
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 5 / 69
SILC : Identification de la langue
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 6 / 69
Lexiqum : accès à des bases monolingues
207 millions de mots
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 7 / 69
Lexiqum : accès à des bases monolingues
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 8 / 69
Lexiqum : accès à des bases monolingues
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 9 / 69
Lexiqum : accès à des bases monolingues
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 10 / 69
Lexiqum : accès à des bases monolingues
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 11 / 69
Réacc : Réaccentueur pour le français
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 12 / 69
Réacc : Réaccentueur pour le français
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 13 / 69
1 Le RALIPrésentation généraleDémonstrations en ligne
2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle
3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier
4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation
5 TA et terminologie
6 Conclusion
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 14 / 69
Corpus parallèle/BitexteUn peu d’histoire (très peu !)
(Melby, 1981)
intérêt des Mormons pour la TA et la TAOsauvegarder des textes sources et leur traduction à des finspédagogiques
(Harris, 1988) invente le terme bitexte
Un bitexte est constitué de deux documents parallèles où lesalignements (relations de traduction) sont explicitement marqués(habituellement au niveau de la phrase).
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 15 / 69
BitexteDocuments parallèles
Deux documents sont parallèles s’ils véhiculent le même contenu dansle même ordre.
Les bitextes sont générateurs de ressources et d’applications tellesque :
lexicographie bilingue (Langlois, 1996), terminologie
Acquisition d’une langue seconde
traduction
recherche d’information (trans-linguistique)
détection de paraphrases (Callisson-Burch, 2005)
concordanciers bilingues (ex : TSRALI.COM)
Lire (Véronis,2000)
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 16 / 69
Corpus parallèle / bitexte
Corpus parallèle :Monsieur le Président, noussuivons depuis quelques se-maines le déroulement desélections à Madagascar. Mal-gré un premier tour de scru-tin qui n’a pas donné de ré-sultat concluant, le candidatde l’opposition s’est déclarévainqueur et a depuis enjointses partisans à la grève gé-nérale et aux manifestations.Aux dernières nouvelles, il ya maintenant deux gouverne-ments parallèles et deux ca-pitales.
Mr. Speaker, over the pastfew weeks, we have been fol-lowing the general election inMadagascar. In spite of an in-conclusive first ballot, the op-position candidate declaredhimself the winner and thenenjoined his supporters to goon a general strike and to or-ganize protests. According tothe latest news, there are nowtwo parallel governments andtwo capitals.
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 17 / 69
Corpus parallèle / bitexte
Bitexte :Monsieur le Président, noussuivons depuis quelques se-maines le déroulement desélections à Madagascar.
Mr. Speaker, over the pastfew weeks, we have been fol-lowing the general election inMadagascar.
Malgré un premier tour descrutin qui n’a pas donné derésultat concluant, le candi-dat de l’opposition s’est dé-claré vainqueur et a depuisenjoint ses partisans à lagrève générale et aux mani-festations.
In spite of an inconclusive firstballot, the opposition can-didate declared himself thewinner and then enjoined hissupporters to go on a gene-ral strike and to organize pro-tests.
Aux dernières nouvelles, il ya maintenant deux gouverne-ments parallèles et deux ca-pitales.
According to the latest news,there are now two parallel go-vernments and two capitals.
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 17 / 69
Bitexte
Débat Artificial intelligenceL’intelligence artificielle A DebatDepuis 35 ans, les spécia-listes d’intelligence artificiellecherchent à construire desmachines pensantes.
Attempts to produce thinkingmachines have met duringthe past 35 years with a cu-rious mix of progress and fai-lure.
Leurs avancées et leurs in-succès alternent curieuse-ment.
Two further points are impor-tant.
Les symboles et les pro-grammes sont des notionspurement abstraites.
First, symbols and programsare purely abstract notions.
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 18 / 69
Corpus/Parallèles et Bitextes existants
Quelques corpus parallèles existent :
Débats parlementaires canadiens (français, anglais, inuktitut)Débats parlementaires de Hong-Kong (anglais, chinois)Débats parlementaires européens (français, italien, espagnol,portugais, anglais, allemand, hollandais, danois, suédois, grecque,finnois)Bible (nouveau testament ∼ 140 K tokens en Grec ; bible ∼ 30 Ktypes), Coran, charte des droits de l’homme (petit), Harry Potter,etc.
Peu nombreux et souvent peu adaptés
Internet !
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 19 / 69
1 Le RALIPrésentation généraleDémonstrations en ligne
2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle
3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier
4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation
5 TA et terminologie
6 Conclusion
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 20 / 69
Le web comme corpus parallèleIdée générale
Étude de Ma & Liberman (1997) :1 site sur 1000 est bi- ou multi-lingue
1 site sur 10 dans le domaine de est bilingue (allemand-anglais)
PT-Miner (Chen & Nie, 2000)
aspirer des sites potentiellement parallèles (sitesgouvernementaux, etc.)identifier la langue des documents (e.g : SILC)rechercher les noms parallèlesfiltrages variés (longueur des documents, structure html, lexiquebilingue, etc.)
Voir également :
STRAND (Resnik & Smith, 2000),BITS (Ma & Liberman, 2000)
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 21 / 69
Le web comme corpus parallèleIdentification de paires parallèles
Utiliser les noms d’URL
http ://www.gc.ca/main_f.htmlhttp ://www.gc.ca/main_e.html
http ://www2.ville.montreal.qc.ca/plan-urbanisme/index.shtmhttp ://www2.ville.montreal.qc.ca/plan-urbanisme/en/index.shtm
http ://applicatif.ville.montreal.qc.ca/fr/commfr.asp ?id=2993http ://applicatif.ville.montreal.qc.ca/en/comman.asp ?id=2994
Problèmes : politique des noms de fichiers non standardisée,traductions incomplètes, mauvaises, ou non maintenues
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 22 / 69
Le web comme corpus parallèleIdentification de paires parallèles
Apparier les documents qui partagent le plus de mots selon un lexique.
Pour chaque document source s, nous voulons le document cible tmaximisant :
Nombre de mots que s et t partagent selon le lexiqueNombre de mots dans s + Nombre de mots dans t
Resumption of the session Reanudación del período de sesiones(39
)Declaro reanudado el período de se-siones del Parlamento Europeo , in-terrumpido el viernes 17 de diciembrepasado.
( 520
)felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 23 / 69
Le web comme corpus parallèleIdentification de paires parallèles
Apparier les documents qui partagent le plus de mots selon un lexique.
Pour chaque document source s, nous voulons le document cible tmaximisant :
Nombre de mots que s et t partagent selon le lexiqueNombre de mots dans s + Nombre de mots dans t
Resumption of the session Reanudación del período de sesiones(39
)Declaro reanudado el período de se-siones del Parlamento Europeo , in-terrumpido el viernes 17 de diciembrepasado.
( 520
)felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 23 / 69
Le web comme corpus parallèleIdentification de paires parallèles
Se baser sur les liens contenus dans les documents HTML(Zweigenbaum)
<a href="A"><img src="X" alt="Y"></a><a href="A">Z</a>
avec X ou Y ou Z contenant Français ou EnglishAppliqué au site gouvernemental Santé Canada (∼100 000pages) : bitexte de 12 000 paires de pages.
Utiliser le plus d’indices possibles et entraîner un classificateur àprédire si une paire de documents est parallèle ou pas (Patry &Langlais, 2005)
Recette expresswget (gnu) + SILC (facultatif) + heuristiques (ou mieux si disponible)
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 24 / 69
1 Le RALIPrésentation généraleDémonstrations en ligne
2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle
3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier
4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation
5 TA et terminologie
6 Conclusion
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 25 / 69
Alignement de phrasesIndices structurel
Le processus de traduction tend à préserver la longueur (comptéeen mots ou en caractères) des phrases.
longueur source (en mots)
longueur
cib
le (
en m
ots
)
0
50
100
150
200
250
300
0 50 100 150 200 250 300
"b"0.91*x
longueur source (en car.)
longueur
cib
le (
en c
ar.
)
0
200
400
600
800
1000
1200
1400
0 200 400 600 800 1000 1200 1400 1600
"b"0.91*x
Bitexte de 7124 paires de phrases
Cette idée simple a été exploitée en premier lieu par (Brown et al.,1991 ; Gale & Church, 1993).
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 26 / 69
Alignement de phrasesIndices basés sur le contenu
The Legislative Assembly conve-ned at 3.30 pm.
sitamiq, ipuru 1, 1999
Mr. Quirke (Clerk-Designate) : maligaliurvik matuiqtaulauqtuq3 :30mi unnusakkut
THURSDAY, APRIL 1, 1999 mista kuak (titiraqti - tikkuaqtau-simajuq) :
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 27 / 69
Alignement de phrasesIndices basés sur le contenu
The Legislative Assembly conve-ned at 3.30 pm.
sitamiq, ipuru 1, 1999
Mr. Quirke (Clerk-Designate) : maligaliurvik matuiqtaulauqtuq3 :30mi unnusakkut
THURSDAY, APRIL 1, 1999 mista kuak (titiraqti - tikkuaqtau-simajuq) :
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 27 / 69
Alignement de phrasesIndices basés sur le contenu
The Legislative Assembly conve-ned at 3.30 pm.
sitamiq, ipuru 1, 1999
Mr. Quirke (Clerk-Designate) : maligaliurvik matuiqtaulauqtuq3 :30mi unnusakkut
THURSDAY, APRIL 1, 1999 mista kuak (titiraqti - tikkuaqtau-simajuq) :
préfixes communs de 4 lettres ou identité (alphanum.) = cognate(Simard et al., 1992) accès/access, activité/activity, 123a/123amais librairie/library
distance d’édition proche = cognate (Ribeiro, 2001)gouvernement/government
+ ACL, translitération
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 27 / 69
Alignement de phrasesRecette
Certains aligneurs sont disponibles :
le code de l’aligneur (Gale & Church, 1993) est dans le papier !
(Moore, 2002), programme disponible
www.iro.umontreal.ca/~Japa
etc.
Lire aussi (Langlais et al., 1998) et (Singh & Husain, 2005) pour uneévaluation de ces techniques d’alignement.
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 28 / 69
1 Le RALIPrésentation généraleDémonstrations en ligne
2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle
3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier
4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation
5 TA et terminologie
6 Conclusion
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 29 / 69
TransSearch (Macklovitch et al., 2000)
mis en service sur le web en 1996 sans publicité
plus de 20 000 requêtes par mois en 2000
profil des utilisateurs :
51% traducteurs32% étudiants12% terminologistes et rédacteurs professionnels
réalisateur : Michel Simard
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 30 / 69
TSRALI.com (concordanccier bilingue)
TransSearch est maintenant un service offert en ligne parabonnement : TSRALI.com (Terminotix Inc.)
∼ 1 500 abonnés∼ 75 000 requêtes par mois
Bitextes offerts :
hansard débats à la chambre des communes depuis 1986 (235 M.de mots)cours canadiennes décisions de la Cour suprême du Canada, de laCour fédérale et de la Cour canadienne de l’impôt (88 M. de mots)
http://transsearch.iro.umontreal.causer : madapwd : gascar
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 31 / 69
TSRALI.com (concordancier bilingue)
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 32 / 69
TSRALI.com (concordancier bilingue)
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 33 / 69
TSRALI.com (concordancier bilingue)
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 34 / 69
TSRALI.com (concordancier bilingue)
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 35 / 69
TSRALI.com (concordancier bilingue)
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 36 / 69
1 Le RALIPrésentation généraleDémonstrations en ligne
2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle
3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier
4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation
5 TA et terminologie
6 Conclusion
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 37 / 69
Les modèles IBM (Brown et al., 1993)
Entrée : un bitexte (découpé en phrases et mots)
Sortie : des probabilités de transfert (lexique bilingue probabilisé) :
the (3/149) (le,0.18) (la,0.15) (de,0.12)minister (2/27) (ministre,0.8) (le,0.12)people (3/66) (gens,0.25) (les,0.16) (personnes,0.1)years (3/24) (ans,0.38) (années,0.31) (depuis,0.12)
Pas de code nécessaire : GIZA++ (Och & Ney, 2000)
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 38 / 69
Les modèles IBMDistribution d’alignement p(i|j, 20, 40)
position cible position source
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
05
1015
2025
3035
405
1015
20
00.10.20.30.40.50.60.70.80.9
1
Note : les probabilités d’alignement ne dépendent pas des mots
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 39 / 69
Les modèles IBM
c’ •
est •
traduit •
automatiquement•
NULL•
it•
is•
automatically•
translated•
@@
@@
HHHH
����
a = (2, 2, 2, 2)
c’ •
est •
traduit •
automatiquement•
NULL•
it•
is•
automatically•
translated•
HHHHHHHH@
@@
@
a = (1, 2, 4, 3)
c’ •
est •
traduit •
automatiquement•
NULL•
it•
is•
automatically•
translated•
����
HHHHHHHH
a = (0, 0, 3, 4)
c’ •
est •
traduit •
automatiquement•
NULL•
it•
is•
automatically•
translated•
HHHH@
@@
@HHHH�
��
�
a = (1, 3, 3, 1)
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 40 / 69
Des modèles IBM à l’alignement
L’alignement de viterbi :V (f |e) = argmaxa p(a|e, f ) = argmaxa p(f , a|e)
Pour IBM2, on trouve l’alignement de viterbi très facilement(O(l ×m)) :
am1 = argmaxam
1p(f m
1 , am1 |el
1)
= argmaxam1
∏mj=1 t(fj |eaj )a(aj |j , m, l)
: aj = argmaxajt(fj |eaj )a(aj |j , m, l)
Note : pour les modèles IBM 3, 4 & 5, il n’existe pas de moyen decalculer cet alignement efficacement.
Bonne nouvelle : GIZA++ produit également l’alignement au niveaudes mots du bitexte d’entraînement.
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 41 / 69
Alignement de viterbi IBM 1
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 42 / 69
Alignement de viterbi IBM 2
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 43 / 69
Alignement de mots
Les techniques d’alignement font l’objet de nombreuses études
moins d’hypothèse d’indépendance (Vogel et al., 1996)comparaison de différentes techniques (Och & Ney, 2000)intégration d’informations syntaxiques (Cherry & Lin, 2003)sans probabilité (lexique + heuristiques syntaxiques) (Ozdowskaet Claveau, 2005)spécifique à des paires de langues particulières (WPT, 2003 ;WPT, 2005)
in •regards •
to •elders •
and •youth •
pijjutigillugu (3-1)•
innatuqait (1-1)•
amma (1-1)•
makkuttu (1-1)•
((((((((((((
������������
�������������
������������
������������
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 44 / 69
1 Le RALIPrésentation généraleDémonstrations en ligne
2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle
3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier
4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation
5 TA et terminologie
6 Conclusion
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 45 / 69
Traduction statistique
Problème : on cherche la traduction e d’une phrase source f :
e = argmaxe∈E p(e|f )
= argmaxe∈Ep(f |e)×p(e)
p(f )
= argmaxe∈E p(f |e)︸ ︷︷ ︸traduction
× p(e)︸︷︷︸langue (cible)
opération NP-complète (si on ne présuppose pas d’ordre à priorisur les mots) (Knight et al., 1999)
plusieurs approximations décrites (pour différents modèles IBM)
Il existe des décodeurs (argmax) disponibles ReWrite (Germann,2001), Pharaoh (Koehn, 2004)
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 46 / 69
Modèle de langue
Définition : un modèle de langue probabiliste est un modèle quispécifie une distribution p(s) sur les chaînes s de la langue modélisée :∑
s
Pr(s) = 1
Exemples de s (il en existe une infinité)
Paul aime VirginieIl pleut sur cette belle îleRhum boire il aussi veut. . .
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 47 / 69
Modèle de langue
Pr(John aime Marie qui aime Paul) =
Pr(John | BOS)×Pr(aime | BOS John)×
Pr(Marie | BOS John aime)×Pr(qui | BOS John aime Marie)×
Pr(aime | BOS John aime Marie qui)×Pr(Paul | BOS John aime Marie qui aime)
Chaque paramètre (ex : Pr(aime | BOS John)) est estimé à partir d’un
corpus d’entraînement (ex : |BOS John aime||BOS John| ).
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 48 / 69
Modèle de langue
Trop de paramètres à estimer, on simplifie par un modèle trigramme :
p(s) =N∏
i=1
p(wi |wi−2wi−1)
Pr(John aime Marie qui aime Paul) =
Pr(John | BOS BOS)×Pr(aime | BOS John)×Pr(Marie |John aime)×
Pr(qui |aime Marie)×Pr(aime |Marie qui)×
Pr(Paul |qui aime)
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 49 / 69
Modèle de langueNote
si dans certains cas, cette approximation est "correcte" :
p(et|mais au fur) = p(et |au fur)
ça reste souvent grossier
p(x |manger de la) = p(x |président de la) = p(x |de la)
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 50 / 69
Modèle de traduction
∀s,∑
t
p(t |s) = 1
p(M. Speaker | Monsieur le président) = 0.08p(Speaker M. | Monsieur le président) = 0.07p(M. Deputy | Monsieur le président) = 0.005p(Harry Potter | Monsieur le président) = 0.0001p(Blue box | Monsieur le président) = 0.000001. . .
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 51 / 69
Exemple de traductions avec des modèles de mot
SRCE j’ ai parlé plus tôt du déséquilibre financier .IBM4 i have talked about more than ever before for the fiscal imbalance .IBM2 i mentioned earlier , the fiscal imbalance .
SRCE nous devons revenir sur la question de la péréquation au canada .IBM4 we must go back to the question of the equalization in canada .IBM2 we must address the issue of the equalization of canada .
SRCE la péréquation constitue un programme social très important .IBM4 the equalization is a social program is very important .IBM2 on equalization program is extremely important social
SRCE ce n’ est pas le comité qui n’ en a pas tenu compte .IBM4 this is the committee that has to be held to account .IBM2 this is not the committee , which has been ignored .
SRCE nous avons mis fin à une période de 28 ans de déficit .IBM4 we have to put an end to a period of 28 years of deficit .IBM2 we have developed an end of seven years $ 28 billion .
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 52 / 69
De la T.A(utomatique) à la T.A(ssistée)TransType (Foster et al., 1996)
rali.iro.umontreal.ca/Transtype2/Demo/index.fr.html
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 53 / 69
1 Le RALIPrésentation généraleDémonstrations en ligne
2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle
3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier
4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation
5 TA et terminologie
6 Conclusion
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 54 / 69
Traduction par segments contigus(Koehn, 2003 ; Vogel, 2003, Tillmann, 2003)
ne pas reformer ||| not reconstitute ||| 1japonais et américains ||| Japanese and American ||| 1Une recriminalisation ||| Re-criminalization violates ||| 1serait moins inquiétant ||| would be less disturbing ||| 0.5serait moins inquiétante ||| would be less disturbing ||| 0.5nous aurons tous noté avec intérêt ||| we all noted with interest ||| 1accepté cet amendement pour répondre ||| accepted this amendmentto respond ||| 1n’ ont pas toutes ||| there was not unanimity of feeling throughout thecountry with regard to all ||| 1augmenter plus vite que le taux ||| grow faster than the rate ||| 1dommages faits par ||| damage that is being done by ||| 1on ne peut pas demander ||| they cannot seek ||| 1une erreur d’ interprétation . ||| a misinterpretation . ||| 1Monsieur le Président , ce gouvernement est symbole ||| Mr. Speaker ,this Government is synonymous ||| 1a été présenté aux ||| was presented to ||| 0.285714
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 55 / 69
Traduction par segments contigusPros
réordonnancement passif des motsex : montagne bleue / blue montain
formes idiomatiques capturéespasser un sapin / pulling a fast one
simplicité (d’obtention) / souplesse (adjonction de dictionnairesfacile)
contraint le modèle de langue
tolérance aux langues difficiles à segmenter en motsex : le chinois
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 56 / 69
Traduction par segments contigusCons
aucun pouvoir de généralisation
passer un sapin ||| pulling a fast one ||| 1nous passer un sapin ||| pull a fast one on us ||| 1passer un sapin . ||| pull a fast one on us . ||| 0.5nous passer un sapin . ||| pull a fast one on us . ||| 0.5passer un sapin ||| pull a fast one ||| 1passer un sapin . ||| play a fast one ||| 1
gros volumes de données à manipulerex : 1Gig ou plus pour 1.7 M de paires de phrases
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 57 / 69
Traduction par segments contigusRecette
1 Aligner le bitexte d’entraînement dans deux directions2 En déduire un alignement <
Les alignements de l’intersection sont fiablesLes étendre avec certains alignements de l’union
3 Stocker toute paire ((x1, x2), (y1, y2)) telle que :
∀x ∈ [x1, x2],∀y : <(x , y), y ∈ [y1, y2]∀y ∈ [y1, y2],∀x : <(x , y), x ∈ [x1, x2]
4 Associer un ou plusieurs scores à chaque paramètre (paire deséquence)
5 Utiliser Pharaoh (Koehn, 2004) pour le décodage
∼ Performances "état de l’art" !
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 58 / 69
Traduction par segments contigus
. . . . . . . . . . . . . XSUNNY . . . . . . . . . . . X .MAINLY . . . . . . . . . . X . .OTHERWISE . . . . . . . . . X . . .PATCHES . . . . . . X ↖ . . . . .FOG . . . . X . . . . . . . .MORNING . . . . . . . . X . . . ... . . . X . . . . . . . . .TODAY . X ↖ . . . . . . . . . .NULL . . . . . ↖ . . . . . . .
N A H . B D B E M P G E .U U U . A E R N A U E NL J I N O T I N SL O C U I S E O
U S I N R LR L E A ED L E L I
A E LR M LD E E
NT
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 59 / 69
Traduction par segments contigus
FOG ||| BANCS ||| 1MAINLY SUNNY . ||| GENERALEMENT ENSOLEILLE . ||| 1OTHERWISE MAINLY SUNNY ||| PUIS GENERALEMENT ENSOLEILLE ||| 1OTHERWISE ||| PUIS ||| 1MORNING FOG PATCHES OTHERWISE MAINLY ||| BROUILLARD EN MATINEE PUIS GENERALEMENT ||| 1MORNING FOG PATCHES ||| BROUILLARD EN MATINEE ||| 1TODAY .. MORNING FOG ||| AUJOURD HUI .. BANCS ||| 1. ||| . ||| 1MORNING FOG PATCHES OTHERWISE MAINLY SUNNY . ||| MATINEE PUIS GENERALEMENT ENSOLEILLE . ||| 1MORNING FOG PATCHES OTHERWISE ||| BROUILLARD EN MATINEE PUIS ||| 1MORNING FOG PATCHES OTHERWISE MAINLY SUNNY . ||| BROUILLARD EN MATINEE PUIS GENERALEMENT ENSOLEILLE . ||| 1.. ||| .. ||| 1OTHERWISE MAINLY ||| PUIS GENERALEMENT ||| 1MORNING FOG PATCHES OTHERWISE ||| MATINEE PUIS ||| 1TODAY .. ||| AUJOURD HUI .. ||| 1OTHERWISE MAINLY SUNNY . ||| PUIS GENERALEMENT ENSOLEILLE . ||| 1TODAY ||| AUJOURD HUI ||| 1SUNNY ||| ENSOLEILLE ||| 1PATCHES ||| BROUILLARD EN ||| 1MORNING FOG PATCHES OTHERWISE MAINLY ||| MATINEE PUIS GENERALEMENT ||| 1SUNNY . ||| ENSOLEILLE . ||| 1MORNING FOG PATCHES OTHERWISE MAINLY SUNNY ||| BROUILLARD EN MATINEE PUIS GENERALEMENT ENSOLEILLE ||| 1.. MORNING FOG ||| .. BANCS ||| 1. . .
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 60 / 69
Phrase-Based translation
De très nombreux travaux autour de cette approche
comment se passer de l’alignement de mots ? (Vogel et al., 2003)comment mieux généraliser le corpus d’entraînement (Simard et al,2005, Chiang, 2005)relations entre SMT et EBMTétudes de différentes langues (à morphologie riche, agglutinative,etc.)
De nombreuses compétitions (NIST, WPT, IWSLT, Technolangue)
Pas de code nécessaire (ou presque) pour produire un systèmeproche de l’état de l’art !
Giza++ (Och & Ney, 2000),SRILM (Stolcke, 2002),PHARAOH (Koehn, 2004)
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 61 / 69
Exemple (WPT’2005 - Spanish-English)
Sabemos muy bien que los Tratados actuales no bastan y que , en el futuro ,será necesario desarrollar una estructura mejor y diferente para la UniónEuropea , una estructura más constitucional que también deje bien clarascuáles son las competencias de los Estados miembros y cuáles pertenecena la Unión . Mensajes de preocupación en primer lugar ante las dificultadeseconómicas y sociales por las que atravesamos , y ello a pesar de uncrecimiento sostenido , fruto de años de esfuerzo por parte de todosnuestros conciudadanos ...
we know very well that the current treaties are not enough and that it will benecessary in future to develop a structure more efficient and different for theeuropean union , a structure which clearly indicates what are the competenceof member states and what are the powers of the european union . longerconstitutional messages of anxiety , firstly prefix the economic and socialproblems that we are experiencing , despite the sustained statesmanshipmany years of effort on the part of all our citizens . the current situation ,particularly unbearable for many companies of transport and ...
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 62 / 69
1 Le RALIPrésentation généraleDémonstrations en ligne
2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle
3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier
4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation
5 TA et terminologie
6 Conclusion
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 63 / 69
Traduction de termes par un moteur de traductiongénéraliste(Langlais, 2004)
Entraînement d’un moteur sur le Hansard (débats parlementaires)
Traduction de :
armée (sur les tireurs d’élite)sniper, reticle, mm, parallax, cockingpolitique commercialeDFAIT (Department of Foreign Affairs and International Trade),PIBD (Program for International Business Development), TPE(Export Programs Division), PWGSD (Public Works andGovernment Services Canada), ITPB (International Trade BusinessPlan)
Fort impact sur la perception de la qualité de la traduction (Miller, 2001)
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 64 / 69
Traduction de termes par un moteur de traductiongénéraliste
terme source oracle traductionâme bore heart
huile polyvalente general purpose oil oil polyvalentechambre chamber house of common
tireur d’ élite sniper issuer of elitela longueur de la crosse butt length the length of the crosse
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 65 / 69
Extraction de termes
Listes compilées par des terminologues
Termium (plus de 3 500 000 termes)www.termium.gc.ca/site/accueil_home_f.html
Extraction à partir de corpus
Beaucoup de travauxCESART (Campagne d’Evaluation de Systèmes d’Acquisition deRessources terminologiques) - Technolanguehttp://www.technolangue.net/article58.html
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 66 / 69
1 Le RALIPrésentation généraleDémonstrations en ligne
2 Les corpus parallèlesDocuments parallèles existantsLe web comme corpus parallèle
3 Corpus parallèle + alignement de phrases = bitexteTechniques d’alignementApplication : concordancier
4 Bitexte + alignement de mots = TADe l’alignement à la traductionPhrase-based Translation
5 TA et terminologie
6 Conclusion
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 67 / 69
Conclusion
Relativement facile d’obtenir un corpus // (reste cependantcompliqué pour les langues peu dotées)
Alignement facile d’un corpus // au niveau des phrases et desmots sans même nécessiter de code (il faut cependant êtretolérant aux erreurs)
Il est alors facile de dériver des ressources comme :
des lexiques (probabilisés ou pas)des moteurs de traductiondes générateurs de paraphrases (Callisson-Burch, 2005)
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 68 / 69
Faut-il encore travailler ?
Malheureusement oui (mais nous aimons cela) . . .
Mieux appréhender les bitextes de petite taille, les languesfaiblement dotées∼ 7 000 langues, 600 ont de bonnes chances de survivre
Mieux exploiter les corpus comparables (Monteanu et al., 2003,Morin et al. 2004)
De meilleurs modèles (syntaxe, sémantique, apprentissagemachine)
Adaptation d’une application (ex : traduction) à un domaineparticulier
felipe@RALI, UdeM ( RALI Département d’informatique et de recherche opérationnelle Université de Montréal )Les joies du bitexte Antananarivo - Madagascar 69 / 69