text data - est.ufmg.brmarcosop/est171-ml/slides/larissaseminarsetembro.pdf · (forte) pressuposto:...
TRANSCRIPT
freegoogleslidestemplates.comFGST
2
About/Caracterís
ticasIR POS tagger
Conclusion/Next steps
Tradução Máquina Wordnet
Agenda
freegoogleslidestemplates.comFGST
About 3
2007 2011 2013 2015 2017 2018 2019
Bachelor in Statistics,
Universidade de BrasíliaMaster in Statistics,
Universidade Federal de Minas Gerais
Doctorate in Statistics,
Universidade Federal de Minas Gerais
Doctoral Sandwich,
University of Wolverhampton
freegoogleslidestemplates.comFGST
Characteristics4
❖ Variabilidade de domínios❖ Aspectos sócio econômicos❖ Palavras são polissêmicas❖ Formas abreviadas❖ Gírias❖ Linguagem informal ❖ Erros gramaticais❖ Erros de ortografia❖ Pontuação imprópria
freegoogleslidestemplates.comFGST
6
Vector space model
Representação“Somebody stole my neighbor’s bike in front of his house”
“Mary didn’t notice anything.”
“Gang which applied larceny since 2001 is arrested.”
“Homicide scares residents of an upscale neighborhood.”
“A man accused of rape is arrested for homicide in New Orleans.”
Corpus
Token
Document⋮
Token ~ Feature ~ variableDocument ~ Instance ~elements
freegoogleslidestemplates.comFGST
7Modelo Bag of WordsCada palavra do texto, qualquer que seja a sua posição, é escolhida do dicionário com as mesmas probabilidades e independentemente das demais.
O texto resume-se ao vetor: X = (N1, N2, N3, …, NM), Ni = nº de vezes que a i-ésima palavra do dicionário ocorreu no texto
Esse é um modelo MUIIITO simplista…
Mas útil!
freegoogleslidestemplates.comFGST
8Modelo Bag of Words - Peso
⋯
TF: Frequência do termo no documento
freegoogleslidestemplates.comFGST
9Modelo Bag of Words - Peso
IDF: Inverso frequência do termo no Corpus
freegoogleslidestemplates.comFGST
10Modelo Bag of Words - Peso
IDF: Inverso frequência do termo no Corpus
TF: Frequência do termo no documento
freegoogleslidestemplates.comFGST
11
Redução de dimensão
Vocabulário (after pre-processing)
Representação do texto
D d
d << D
freegoogleslidestemplates.comFGST
12Vector Space Model(Forte) pressuposto:
A ordem dos termos não importa
Doc. representado pela presença dos seus termos:
A lebre é mais veloz que a tartaruga A tartaruga é mais veloz que a lebre
Características:Grande dimensãoEsparsidade
freegoogleslidestemplates.comFGST
13POS - taggerPOS Tagging: “O processo de atribuir um rótulo de classe gramatical para cada termo em um Corpus.”
freegoogleslidestemplates.comFGST
14POS - tagger
PreposiçõesConjunçõesArtigosPronomesNumerais
SubstantivosVerbosAdjetivosAdverbios
Modelo estatístico:“Um modelo para uma sequência de palavras”
freegoogleslidestemplates.comFGST
15POS - tagger
The dog ate the boneSubstantivoVerboAdjetivoAdverbio
Artigo
Artigo
SubstantivoVerboAdjetivoAdverbio
SubstantivoVerboAdjetivoAdverbio
freegoogleslidestemplates.comFGST
16POS - tagger
The dog SubstantivoVerboAdjetivoAdverbio
Artigo P(Substantivo|Artigo) = 0.64
P(Verbo|Artigo) = 0.07
P(Adjetivo|Artigo) = 0.29
P(Advérbio|Artigo) = 0
freegoogleslidestemplates.comFGST
17POS - tagger
dog ate SubstantivoVerboAdjetivoAdverbio
P(Verbo|Substantivo) = 0.17
P(Substantivo|Substantivo) = 0.08
P(Adjetivo|Substantivo) = 0
P(Advérbio|Substantivo) = 0
SubstantivoVerbo
AdjetivoAdverbio
P(Verbo|Adjetivo) = 0
P(Substantivo|Adjetivo) = 0.72
P(Adjetivo|Adjetivo) = 0.03
P(Advérbio|Adjetivo) = 0
freegoogleslidestemplates.comFGST
18POS - tagger
ate the SubstantivoVerboAdjetivoAdverbio
P(Artigo|Verbo) = 0.17
P(Artigo|Substantivo) = 0.08
P(Artigo|Adjetivo) = 0
P(Artigo|Advérbio) = 0
Artigo
freegoogleslidestemplates.comFGST
19POS - tagger
The bone SubstantivoVerboAdjetivoAdverbio
P(Verbo|Artigo) = 0.17
P(Substantivo|Artigo) = 0.08
P(Adjetivo|Artigo) = 0
P(Advérbio|Artigo) = 0
Artigo
freegoogleslidestemplates.comFGST
20The dog ate the bone
P(Substantivo|Artigo)P(Verbo|Artigo)P(Adjetivo|Artigo)P(Adverbio|Artigo)
P(Artigo)
P(Substantivo|Substantivo)P(Verbo|Substantivo)P(Adjetivo|Substantivo)P(Adverbio|Substantivo)
P(Substantivo|Verbo)P(Verbo|Verbo)P(Adjetivo|Verbo)P(Adverbio|Verbo)
P(Substantivo|Adjetivo)P(Verbo|Adjetivo)P(Adjetivo|Adjetivo)P(Adverbio|Adjetivo)P(Substantivo|Adverbio)P(Verbo|Adverbio)P(Adjetivo|Adverbio)P(Adverbio|Adverbio)
P(Substantivo|Artigo)P(Verbo|Artigo)P(Adjetivo|Artigo)P(Adverbio|Artigo)
P(Artigo|Substantivo)P(Artigo|Verbo)P(Artigo|Adjetivo)P(Artigo|Adverbio)
freegoogleslidestemplates.comFGST
21The dog ate the boneP(Substantivo|Artigo)P(Verbo|Artigo)P(Adjetivo|Artigo)P(Adverbio|Artigo)
P(Artigo)
P(Substantivo|Substantivo)P(Verbo|Substantivo)P(Adjetivo|Substantivo)P(Adverbio|Substantivo)
P(Substantivo|Verbo)P(Verbo|Verbo)P(Adjetivo|Verbo)P(Adverbio|Verbo)
P(Substantivo|Adjetivo)P(Verbo|Adjetivo)P(Adjetivo|Adjetivo)P(Adverbio|Adjetivo)P(Substantivo|Adverbio)P(Verbo|Adverbio)P(Adjetivo|Adverbio)P(Adverbio|Adverbio)
P(Substantivo|Artigo)P(Verbo|Artigo)P(Adjetivo|Artigo)P(Adverbio|Artigo)
P(Artigo|Substantivo)P(Artigo|Verbo)P(Artigo|Adjetivo)P(Artigo|Adverbio)
A sequência de
anotações mais plausível é a de
maior probabilidade
freegoogleslidestemplates.comFGST
22POS - tagger
Probabilidades estimadas como Frequências relativas
Exige o emprego de um Corpus representativo da língua
A ordem de dependência da cadeia (n-gram) é um parâmetro a ser considerado. Grandes dimensões são reconhecidamente pouco representativas da língua
freegoogleslidestemplates.comFGST
24Aplicação - Tradução de Máquina
Completo entendimento Conhecimento sofisticado, poético e criativo
FONTE: ALVO:
freegoogleslidestemplates.comFGST
25Aplicação - Tradução de Máquina“Diferenças sintáticas estão relacionadas com diferenças semânticas em como as línguas mapeiam conceitos em palavras.” (Jurafsky)
“Algumas línguas dividem um dado conceito em mais detalhes do que outras.” (Jurafsky)
freegoogleslidestemplates.comFGST
26Tradução de Máquina
Ideia geral:Alterar a estrutura da língua Fonte para que esteja em conformidade com as regras da língua Alvo.
SVO: SOV: VSO:AlemãoFrancêsInglês
HinduJaponês
IrlandêsÁrabe clássicoHebraico bíblico
freegoogleslidestemplates.comFGST
27Tradução de MáquinaIdeia geral:Alterar a estrutura da língua Fonte para que esteja em conformidade com as regras da língua Alvo.
freegoogleslidestemplates.comFGST
28Tradução de Máquina - Transformações Sintáticas
Conjunto distinto de regras de referência por par de língua
freegoogleslidestemplates.comFGST
29Tradução de Máquina - Interlingua
Necessidade de uma Ontologia: inventário de conceitos e relações
freegoogleslidestemplates.comFGST
30Tradução de Máquina - Tradução Direta
Tendência a serem conservadores
freegoogleslidestemplates.comFGST
32Tradução de Máquina - Tradução Estatística
Transfer, Interlingua, Direct Models:Qual representação empregarQuais passos seguir para traduzir
Focar no resultado e não no processo
Tradução Estatística
Traduzir: Adona roi
The lord is my shepherdThe lord will look after meThe lord is for me like somebody who looks after animals with cotton-like hair
Conclusão: Sempre há uma metáfora, construção, palavra ou tempo verbal sem um paralelo na língua alvo
freegoogleslidestemplates.comFGST
33Tradução de Máquina
Fidelidade à língua Fonte
Naturalidade/Fluência para a língua Alvo
O que define uma boa tradução?
freegoogleslidestemplates.comFGST
34Tradução de Máquina
Fidelidade à língua Fonte
Naturalidade/Fluência para a língua Alvo
O que define uma boa tradução?
Encontram o tolerável para os dois critérios ?
freegoogleslidestemplates.comFGST
35Tradução de Máquina
Função que represente a importância da fidelidade e da fluência da tradução
freegoogleslidestemplates.comFGST
36Tradução de Máquina
P(T) ~ Fluência:Pode ser estimada com modelos do tipo n-gram
1. The car was fast2. The fast car was3. Fast the was car
Qual tradução é mais fluente?
freegoogleslidestemplates.comFGST
37Tradução de Máquina - P(S|T) ~ Fidelidade
2-gram (reliable Corpus):P(car|the) = aP(was|car) = bP(fast|was) = cP(fast|the) = dP(car|fast) = eP(the|fast) = fP(was|the) = gP(car|was) = h
1. The car was fast2. The fast car was3. Fast the was car
freegoogleslidestemplates.comFGST
38Tradução de Máquina - P(T) ~ Fluência
1. The car was fast2. The car was red3. The bicycle was blue
Das auto was schnell
freegoogleslidestemplates.comFGST
39Tradução de Máquina - P(T) ~ Fluência
1. The(1) car(.9) was(1) fast(.9)2. The(1) car(.9) was(1) red(.05)3. The(1) bicycle(.1) was(1) blue(.05)
Bilingual Probabilistic Dictionary
Alinhamento a nível de palavra
freegoogleslidestemplates.comFGST
40Semantic tagger
Semantic Tags:
“Sets of words related at some level of generality with the same mental
concept.”
freegoogleslidestemplates.comFGST
41Semantic tagger
Qual a similaridade entre:
Menina e Menino?Abelha e Colméia?Bola e futebol?
freegoogleslidestemplates.comFGST
48Wordnet/Semantics
● Dicionário digital (muito completo)
● Feito por lexicógrafos
● Disponível para um número limitado de línguas
freegoogleslidestemplates.comFGST
49Conclusions and Future Work
Uma ferramenta de NLP é input para outra ferramenta de NLP. Os erros só aumentam.
Ferramentas de NLP crescentemente incorporam redes Neurais
Ferramentas de NLP são desenvolvidas com especificidade para domínios.
Ferramentas de NLP dependem (demais) da base de dados. Muita relevância para quem constrói os Corpus.
Ferramentas de NLP são desenvolvidas prioritariamente no mercado, não na academia.