text data - est.ufmg.brmarcosop/est171-ml/slides/larissaseminarsetembro.pdf · (forte) pressuposto:...

49
text data Larissa Sayuri Futino Castro dos Santos 14th August 2018 1

Upload: ngodien

Post on 03-Mar-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

text data

Larissa Sayuri Futino Castro dos Santos14th August 2018

1

freegoogleslidestemplates.comFGST

2

About/Caracterís

ticasIR POS tagger

Conclusion/Next steps

Tradução Máquina Wordnet

Agenda

freegoogleslidestemplates.comFGST

About 3

2007 2011 2013 2015 2017 2018 2019

Bachelor in Statistics,

Universidade de BrasíliaMaster in Statistics,

Universidade Federal de Minas Gerais

Doctorate in Statistics,

Universidade Federal de Minas Gerais

Doctoral Sandwich,

University of Wolverhampton

freegoogleslidestemplates.comFGST

Characteristics4

❖ Variabilidade de domínios❖ Aspectos sócio econômicos❖ Palavras são polissêmicas❖ Formas abreviadas❖ Gírias❖ Linguagem informal ❖ Erros gramaticais❖ Erros de ortografia❖ Pontuação imprópria

freegoogleslidestemplates.comFGST

5Aplicação - Recuperação de Informação

freegoogleslidestemplates.comFGST

6

Vector space model

Representação“Somebody stole my neighbor’s bike in front of his house”

“Mary didn’t notice anything.”

“Gang which applied larceny since 2001 is arrested.”

“Homicide scares residents of an upscale neighborhood.”

“A man accused of rape is arrested for homicide in New Orleans.”

Corpus

Token

Document⋮

Token ~ Feature ~ variableDocument ~ Instance ~elements

freegoogleslidestemplates.comFGST

7Modelo Bag of WordsCada palavra do texto, qualquer que seja a sua posição, é escolhida do dicionário com as mesmas probabilidades e independentemente das demais.

O texto resume-se ao vetor: X = (N1, N2, N3, …, NM), Ni = nº de vezes que a i-ésima palavra do dicionário ocorreu no texto

Esse é um modelo MUIIITO simplista…

Mas útil!

freegoogleslidestemplates.comFGST

8Modelo Bag of Words - Peso

TF: Frequência do termo no documento

freegoogleslidestemplates.comFGST

9Modelo Bag of Words - Peso

IDF: Inverso frequência do termo no Corpus

freegoogleslidestemplates.comFGST

10Modelo Bag of Words - Peso

IDF: Inverso frequência do termo no Corpus

TF: Frequência do termo no documento

freegoogleslidestemplates.comFGST

11

Redução de dimensão

Vocabulário (after pre-processing)

Representação do texto

D d

d << D

freegoogleslidestemplates.comFGST

12Vector Space Model(Forte) pressuposto:

A ordem dos termos não importa

Doc. representado pela presença dos seus termos:

A lebre é mais veloz que a tartaruga A tartaruga é mais veloz que a lebre

Características:Grande dimensãoEsparsidade

freegoogleslidestemplates.comFGST

13POS - taggerPOS Tagging: “O processo de atribuir um rótulo de classe gramatical para cada termo em um Corpus.”

freegoogleslidestemplates.comFGST

14POS - tagger

PreposiçõesConjunçõesArtigosPronomesNumerais

SubstantivosVerbosAdjetivosAdverbios

Modelo estatístico:“Um modelo para uma sequência de palavras”

freegoogleslidestemplates.comFGST

15POS - tagger

The dog ate the boneSubstantivoVerboAdjetivoAdverbio

Artigo

Artigo

SubstantivoVerboAdjetivoAdverbio

SubstantivoVerboAdjetivoAdverbio

freegoogleslidestemplates.comFGST

16POS - tagger

The dog SubstantivoVerboAdjetivoAdverbio

Artigo P(Substantivo|Artigo) = 0.64

P(Verbo|Artigo) = 0.07

P(Adjetivo|Artigo) = 0.29

P(Advérbio|Artigo) = 0

freegoogleslidestemplates.comFGST

17POS - tagger

dog ate SubstantivoVerboAdjetivoAdverbio

P(Verbo|Substantivo) = 0.17

P(Substantivo|Substantivo) = 0.08

P(Adjetivo|Substantivo) = 0

P(Advérbio|Substantivo) = 0

SubstantivoVerbo

AdjetivoAdverbio

P(Verbo|Adjetivo) = 0

P(Substantivo|Adjetivo) = 0.72

P(Adjetivo|Adjetivo) = 0.03

P(Advérbio|Adjetivo) = 0

freegoogleslidestemplates.comFGST

18POS - tagger

ate the SubstantivoVerboAdjetivoAdverbio

P(Artigo|Verbo) = 0.17

P(Artigo|Substantivo) = 0.08

P(Artigo|Adjetivo) = 0

P(Artigo|Advérbio) = 0

Artigo

freegoogleslidestemplates.comFGST

19POS - tagger

The bone SubstantivoVerboAdjetivoAdverbio

P(Verbo|Artigo) = 0.17

P(Substantivo|Artigo) = 0.08

P(Adjetivo|Artigo) = 0

P(Advérbio|Artigo) = 0

Artigo

freegoogleslidestemplates.comFGST

20The dog ate the bone

P(Substantivo|Artigo)P(Verbo|Artigo)P(Adjetivo|Artigo)P(Adverbio|Artigo)

P(Artigo)

P(Substantivo|Substantivo)P(Verbo|Substantivo)P(Adjetivo|Substantivo)P(Adverbio|Substantivo)

P(Substantivo|Verbo)P(Verbo|Verbo)P(Adjetivo|Verbo)P(Adverbio|Verbo)

P(Substantivo|Adjetivo)P(Verbo|Adjetivo)P(Adjetivo|Adjetivo)P(Adverbio|Adjetivo)P(Substantivo|Adverbio)P(Verbo|Adverbio)P(Adjetivo|Adverbio)P(Adverbio|Adverbio)

P(Substantivo|Artigo)P(Verbo|Artigo)P(Adjetivo|Artigo)P(Adverbio|Artigo)

P(Artigo|Substantivo)P(Artigo|Verbo)P(Artigo|Adjetivo)P(Artigo|Adverbio)

freegoogleslidestemplates.comFGST

21The dog ate the boneP(Substantivo|Artigo)P(Verbo|Artigo)P(Adjetivo|Artigo)P(Adverbio|Artigo)

P(Artigo)

P(Substantivo|Substantivo)P(Verbo|Substantivo)P(Adjetivo|Substantivo)P(Adverbio|Substantivo)

P(Substantivo|Verbo)P(Verbo|Verbo)P(Adjetivo|Verbo)P(Adverbio|Verbo)

P(Substantivo|Adjetivo)P(Verbo|Adjetivo)P(Adjetivo|Adjetivo)P(Adverbio|Adjetivo)P(Substantivo|Adverbio)P(Verbo|Adverbio)P(Adjetivo|Adverbio)P(Adverbio|Adverbio)

P(Substantivo|Artigo)P(Verbo|Artigo)P(Adjetivo|Artigo)P(Adverbio|Artigo)

P(Artigo|Substantivo)P(Artigo|Verbo)P(Artigo|Adjetivo)P(Artigo|Adverbio)

A sequência de

anotações mais plausível é a de

maior probabilidade

freegoogleslidestemplates.comFGST

22POS - tagger

Probabilidades estimadas como Frequências relativas

Exige o emprego de um Corpus representativo da língua

A ordem de dependência da cadeia (n-gram) é um parâmetro a ser considerado. Grandes dimensões são reconhecidamente pouco representativas da língua

freegoogleslidestemplates.comFGST

23Aplicação - Tradução de Máquina

freegoogleslidestemplates.comFGST

24Aplicação - Tradução de Máquina

Completo entendimento Conhecimento sofisticado, poético e criativo

FONTE: ALVO:

freegoogleslidestemplates.comFGST

25Aplicação - Tradução de Máquina“Diferenças sintáticas estão relacionadas com diferenças semânticas em como as línguas mapeiam conceitos em palavras.” (Jurafsky)

“Algumas línguas dividem um dado conceito em mais detalhes do que outras.” (Jurafsky)

freegoogleslidestemplates.comFGST

26Tradução de Máquina

Ideia geral:Alterar a estrutura da língua Fonte para que esteja em conformidade com as regras da língua Alvo.

SVO: SOV: VSO:AlemãoFrancêsInglês

HinduJaponês

IrlandêsÁrabe clássicoHebraico bíblico

freegoogleslidestemplates.comFGST

27Tradução de MáquinaIdeia geral:Alterar a estrutura da língua Fonte para que esteja em conformidade com as regras da língua Alvo.

freegoogleslidestemplates.comFGST

28Tradução de Máquina - Transformações Sintáticas

Conjunto distinto de regras de referência por par de língua

freegoogleslidestemplates.comFGST

29Tradução de Máquina - Interlingua

Necessidade de uma Ontologia: inventário de conceitos e relações

freegoogleslidestemplates.comFGST

30Tradução de Máquina - Tradução Direta

Tendência a serem conservadores

freegoogleslidestemplates.comFGST

31Tradução de Máquina - Tradução Direta

freegoogleslidestemplates.comFGST

32Tradução de Máquina - Tradução Estatística

Transfer, Interlingua, Direct Models:Qual representação empregarQuais passos seguir para traduzir

Focar no resultado e não no processo

Tradução Estatística

Traduzir: Adona roi

The lord is my shepherdThe lord will look after meThe lord is for me like somebody who looks after animals with cotton-like hair

Conclusão: Sempre há uma metáfora, construção, palavra ou tempo verbal sem um paralelo na língua alvo

freegoogleslidestemplates.comFGST

33Tradução de Máquina

Fidelidade à língua Fonte

Naturalidade/Fluência para a língua Alvo

O que define uma boa tradução?

freegoogleslidestemplates.comFGST

34Tradução de Máquina

Fidelidade à língua Fonte

Naturalidade/Fluência para a língua Alvo

O que define uma boa tradução?

Encontram o tolerável para os dois critérios ?

freegoogleslidestemplates.comFGST

35Tradução de Máquina

Função que represente a importância da fidelidade e da fluência da tradução

freegoogleslidestemplates.comFGST

36Tradução de Máquina

P(T) ~ Fluência:Pode ser estimada com modelos do tipo n-gram

1. The car was fast2. The fast car was3. Fast the was car

Qual tradução é mais fluente?

freegoogleslidestemplates.comFGST

37Tradução de Máquina - P(S|T) ~ Fidelidade

2-gram (reliable Corpus):P(car|the) = aP(was|car) = bP(fast|was) = cP(fast|the) = dP(car|fast) = eP(the|fast) = fP(was|the) = gP(car|was) = h

1. The car was fast2. The fast car was3. Fast the was car

freegoogleslidestemplates.comFGST

38Tradução de Máquina - P(T) ~ Fluência

1. The car was fast2. The car was red3. The bicycle was blue

Das auto was schnell

freegoogleslidestemplates.comFGST

39Tradução de Máquina - P(T) ~ Fluência

1. The(1) car(.9) was(1) fast(.9)2. The(1) car(.9) was(1) red(.05)3. The(1) bicycle(.1) was(1) blue(.05)

Bilingual Probabilistic Dictionary

Alinhamento a nível de palavra

freegoogleslidestemplates.comFGST

40Semantic tagger

Semantic Tags:

“Sets of words related at some level of generality with the same mental

concept.”

freegoogleslidestemplates.comFGST

41Semantic tagger

Qual a similaridade entre:

Menina e Menino?Abelha e Colméia?Bola e futebol?

freegoogleslidestemplates.comFGST

42Wordnet/Semantics

freegoogleslidestemplates.comFGST

43Wordnet/Semantics

freegoogleslidestemplates.comFGST

44Wordnet/Semantics

freegoogleslidestemplates.comFGST

45Wordnet/Semantics

freegoogleslidestemplates.comFGST

46Wordnet/Semantics

freegoogleslidestemplates.comFGST

47Wordnet/Semantics

freegoogleslidestemplates.comFGST

48Wordnet/Semantics

● Dicionário digital (muito completo)

● Feito por lexicógrafos

● Disponível para um número limitado de línguas

freegoogleslidestemplates.comFGST

49Conclusions and Future Work

Uma ferramenta de NLP é input para outra ferramenta de NLP. Os erros só aumentam.

Ferramentas de NLP crescentemente incorporam redes Neurais

Ferramentas de NLP são desenvolvidas com especificidade para domínios.

Ferramentas de NLP dependem (demais) da base de dados. Muita relevância para quem constrói os Corpus.

Ferramentas de NLP são desenvolvidas prioritariamente no mercado, não na academia.