casamento aproximado entre strings semântica e...

73
1 Casamento aproximado entre strings Semântica e similaridade de palavras - Parte I MCZA017-13 Processamento de Linguagem Natural Prof. Jesús P. Mena-Chalco [email protected] 2Q-2019

Upload: others

Post on 18-Nov-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

1

Casamento aproximado entre strings

Semântica e similaridade de palavras - Parte I

MCZA017-13Processamento de Linguagem Natural

Prof. Jesús P. Mena-Chalco

[email protected]

2Q-2019

Page 2: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

2

Casamento aproximado entre strings

Page 3: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

3

String matching

No contexto de correção ortográfica

“Graffe”

É mais próximo a?GrafGraftGrailGiraffe

Page 4: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

4

String matching

No contexto de biologia computacional

As sequências de aminoacidos

Pode ser alinhado a:

Page 5: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

5

Distância de Hamming

Utilizado para detectar erros nas transmissões binárias de comprimento fixo.

A distancia de Hamming é a quantidade de bits usado na mudança de uma transmissão para a recepção.

Page 6: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

6

Distância de Hamming

Page 7: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

7

Distância de Levenshtein

É usada para medir a quantidade de diferenças entre duas strings.

Usando-se de operaçoes como inserção, exclusão e substituição, esta distância métrica define o número mínimo de edições para transformar uma string em outra.

Por exemplo, a distância de Levenshtein entre “casa” e “pata” é 2

Pois não há maneira de o fazer com menos de 2 edições.

A conversão de “casa” para “pata” é obtida substituindo-se “c” por “p”, logo substituindo-se “s” por “t”.

Page 8: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

8

Distância de Levenshtein

Sejam a e b duas strings.Sejam i e j o comprimento de a e b, respectivamente.

Se o comprimento de uma string for zero, então a distância será igual ao comprimento da outra string.

Page 9: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

9

Distância de Levenshtein

Page 10: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

10

Distância de Levenshtein

https://www.geeksforgeeks.org/edit-distance-dp-using-memoization/

Page 11: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

11

Distância de Levenshtein

Pesos+1 = Inserção+1 = Eliminação+2 = Substituição

http://www.let.rug.nl/~kleiweg/lev/

Page 12: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

12

Distância de Levenshtein

Pesos+1 = Inserção+1 = Eliminação+2 = Substituição

http://www.let.rug.nl/~kleiweg/lev/

Page 13: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

13

http://www.let.rug.nl/kleiweg/lev/

Page 14: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

14

Page 15: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

15

Page 16: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

16

Page 17: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

17

Bibliografia

Daniel Jurafsky & James H. Martin.Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. Pearson/Prentice Hall.

University of Colorado, Boulder

Stanford University

2000 2009

2019?

Page 18: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

18

Bibliografia – Capítulo 6

https://web.stanford.edu/~jurafsky/slp3/

Page 19: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

19

Cinco definições importantes sobre ‘significado’ de palavras

Page 20: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

20

Da aula 04: Stemming x Lemmatization

Stemming (a ação de reduzir em stems)

Stem: Parte de uma palavraStemmer: O artefato (programa)

Lemmatization (a ação de reduzir em Lemmas)Lemma: Forma básica da palavraLemmatizer: O artefato (programa)

Produc

Produce

Produced

Page 21: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

21

Lemma e Wordform

Lemma: é a forma básica da palavra (sem inflexão).

Wordform: é uma palavra com inflexão.

wordform Lemma

Banks Bank

Sung Sing

Durmiu dormir

Bancos Banco

Page 22: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

22

Diferentes significados?

Um determinado lemma pode ter significados diferentes.

Page 23: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

23

Diferentes significados?

Um determinado lemma pode ter significados diferentes.

Exemplo:

“… um banco pode manter investimentos dos correntistas ...”

“… os métodos implementados em um banco de dados...”

“… trocaram de cor o banco de madeira ...”

Inst. Financeira

Artefato

Assento

Page 24: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

24

1) Homônimos

São palavras que compartilham a mesma forma mas com significados diferentes (origens diferentes).

Banco: Instituição financeira.Banco: Artefato para armazenamento de dados. Banco: Assento.

Homônimos podem ser:Homógrafos, i.e., mesma forma de escrita (banco/banco)

Homófonos, i.e., mesma forma de fala (Concerto/conserto)

Page 25: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

25

Homônimos criam problemas em PLN

Em recuperação de informação

“banco quebrado” (a instituição ou o assento?)

Em tradução de textos

bat: “morcego”

bat: “bastão”

Em aplicações text-to-speech (a pronuncia é diferente)

bass (instumento musical)

bass (peixe)

Page 26: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

26

2) Polissemia (muitos significados)

É a propriedade de uma palavra tem de apresentar vários significados.

Uma palavra polissêmica tem significados relacionados. (origens similares):

Letra: Elemento básico de um alfabeto.Letra: Texto de uma canção.Letra: Caligrafia de uma determinado indivíduo.

Vela: … de um barcoVela: … para iluminarVela: … de vigilante

Page 27: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

27

Relações sistemáticas (metonímia)

Muitos tipos de polissemia são sistemáticos:

RádioUniversidadeEscolaHospital

Prédio ↔ Organização

Page 28: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

28

Relações sistemáticas (metonímia)

Muitos tipos de polissemia são sistemáticos:

RádioUniversidadeEscolaHospital

Outros tipos de relações sistemáticas:

Eu amo J. K. RowlingEu amo (as obras de) J. K. Rowling

Maracujá tem lindas floresOntem experimentei maracujá

Prédio ↔ Organização

Autor ↔ Trabalhos de autorAutor ↔ Trabalhos de autor

Árvore ↔ Fruto

Page 29: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

29

Como determinar se uma palavra tem mais de um significado?

Page 30: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

30

Como determinar se uma palavra tem mais de um significado?

Usando o teste “Zeugma” (figura de linguagem ou estilo)

... construirá uma universidade de mármore … … pedirá à universidade de João ...

Page 31: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

31

Como determinar se uma palavra tem mais de um significado?

Usando o teste “Zeugma” (figura de linguagem ou estilo)

... construirá uma universidade de mármore … … pedirá à universidade de João ...

Teste:Se a construção não faz sentido (coerente), provavelmente a palavra seja polissêmica: “construirá uma universidade de mármore e de João?”

Page 32: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

32

3) Sinônimos

Palavras que tem o mesmo significado em alguns ou todos os contextos.

Caderno CadernetaCarro AutomóvelSofá DiváAgua H

2O

Computador PC

Duas palavras são sinônimas se:Ambas podem ser substituídas em todas as situações.Ambas têm o mesmo significado proposicional.

Page 33: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

33

4) Antônimos

Palavras que tem significado oposto em relação a uma característica.

escuro claroquente friocurto longopara cima para baixorápido lento

Page 34: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

34

5) Hiponímia e Hiperonímia

Indicam relação hierarquica de significados entre palavras.

Uma palavra A é hiponímia de B, se o significado de A é mais específico que B:

Carro é uma hiponímia de AutomóvelSandália é uma hiponímia de Calçado

Se modo inverso:Automóvel é uma hiperonímia de CarroCalçado é uma hiperonímia de Sandália

sub super

Page 35: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

35

Wordnet:Um repositório (tesauro) muito útil em PLN

Page 36: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

36

Wordnet – wordnet.princeton.edu

A Wordnet é uma base de dados (1985) usada na área de linguística computacional, em inglês.

Wordnet está organizado em base de relações (hierárquicas).

Usado para desambiguar o significado das palavras.

← Versão 3.0, contem mais substantivos

É um tesauro, isto é, um dicionário de ‘ideias comuns’

Page 37: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

37

Page 38: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

38

Page 39: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

39

Synset = Synonym set

É um conjunto de sinônimos (próximos) a uma palavra

Page 40: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

40

Synset = Synonym set

Hierarquia de hiperonomios

Page 41: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

41

Wordnet – diferentes iniciativas

http://www.globalwordnet.org/gwa/wordnet_table.html

Page 42: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

42

Wordnet – em português

http://wnpt.brlcloud.com/wn/search?term=banana

Page 43: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

43

Similaridade entre palavra?

Page 44: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

44

Similaridade entre palavras

Duas palavras são similares se ambas compartilham o mesmo significado.

As palavras similares mantem uma relação de significado.

Instituição financeira:

Banco é similar a fundo

Objeto:

Caderno é similar a caderneta

Page 45: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

45

Porque é importante avaliar similaridade?

A similaridade de palavras pode ser útil em diferentes tipos de aplicações, como por exemplo:

Recuperação de Informação (IR)

Busca por elementos similares

Detecção de plágio

Busca por regiões similares

Agrupamento de textos

Busca por conjuntos de textos similares

Page 46: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

46

Porque é importante avaliar similaridade?

Page 47: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

47

Similaridade entre palavras e palavras correlatas

Versão mais flexível:

A similaridade entre palavras pode ser estimadada por uma medida de proximidade de significado: “Quase sinônimos”

Carro é similar a Bicicleta

Exemplo de palavras correlatas:

Carro está relacionado com Gasolina

Page 48: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

48

Algoritmos

Duas abordagens para identificar similaridade entre palavras:

(1) Algoritmos baseados em tesauro:

Duas palavras são similares se uma é hiponímia de outra

Carro é uma hiponímia de AutomóvelSandália é uma hiponímia de Calçado

Ou se compartilham a mesma definição

Page 49: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

49

Algoritmos

Duas abordagens para identificar similaridade entre palavras:

(2) Algoritmos baseados em distribuição de palavras:

Não precisam de um tesauro, mas de um corpus grande no qual sejam evidenciados diferentes pares de palavras...

Page 50: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

50

(1) Algoritmos de similaridade de palavrasbasedos em tesauro(s)

Page 51: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

51

Similaridade usando tesauro

Denomiado de “path based similarity”:

Duas palavras são similares se ambas estão na mesma hierarquia (ou bem próximas).

Pensamento computacional:

distância do menor caminho entre eles.

Assumindo que as palavras tem comprimento igual a 1 para si mesmos

Page 52: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

52

Formalizando as medidas

Pathlen(c1, c

2) = 1 + comprimento do caminho entre c

1 e c

2 na

árvore de hiponímia.

Page 53: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

53

Exemplo

Page 54: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

54

Problema

Podemos discutir um problema dessa abordagem:

Assumimos que cada aresta representa distância uniforme.

simpath(nickel, money) == simpath(nickel, standard)

Os vértices em hierarquias

superiores são mais

abstratos!

Page 55: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

55

Problema

Podemos discutir um problema dessa abordagem:

Assumimos que cada aresta representa distância uniforme.

simpath(nickel, money) == simpath(nickel, standard)

Os vértices em hierarquias

superiores são mais

abstratos!

Palavras conectadas porum vértice abstrado deveriam ser

menos similares

Deveria ser possível representar o custo decada aresta de forma independente

Page 56: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

56

Contornando o problema

Utiliza um corpus para “captar” da melhor forma a distância entre 2 conceitos ou 2 palavras

Page 57: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

57

Contornando o problema

Utiliza um corpus para “captar” da melhor forma a distância entre 2 conceitos ou 2 palavras

1988

Page 58: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

58

Contornando o problema

Page 59: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

59

Interfaces

NLTK oferece métodos para cálculo de similaridade de palavras baseada em wordnet.

Por outro lado existem outras iniciativas on line:

http://maraca.d.umn.edu/cgi-bin/similarity/similarity.cgi

Page 60: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

60

Interfaces

Page 61: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

61

(2) Algoritmos de similaridade de palavrasbasedos em distribuição de palavras

Porque?

Page 62: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

62

Por que é necessário este tipo de abordagem?

As métricas apresentadas nos slides anteriores são dependentes de um tesauro.

Dependem da completude das palavras (dicionário), ie. não são flexíveis.

No Tesauro algumas relações não estão representadas.

Adjetivos e verbos são menos representados nos tesauros:

Wordnet Versão 3.0, contem mais substantivos

Page 63: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

63

Por que é necessário este tipo de abordagem?

A semantica muda/evolue ao longo do tempo

Page 64: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

64

Abordagem baseada em distribuição de palavras

Obras similares estão “geralmente” próximas

Em PLN:

Palavras que estão em contextos similares, tendem a ser semanticamente similares

Page 65: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

65

Abordagem baseada em distribuição de palavras

Na literatura isso é conhecido como:

Distributional semantics.

Vector semantics.

O significado de uma palavra é calculada a partir da distribuição de palavras que estão ao redor dela.

As palavras são representadas como um vetor de números.

Page 66: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

66

Abordagem baseada em distribuição de palavras

Page 67: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

67

Abordagem baseada em distribuição de palavras

Page 68: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

68

Abordagem baseada em distribuição de palavras

Podemos não saber o que é “tesguino” (certamente não estará presente em algum tesauro), mas pelo contexto podemos intuir que trata-se de uma bebida alcoólica.

--> Duas palavras serão similares se ambas estão em contextos similares.

Page 69: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

69

Matriz termo-documento

Page 70: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

70

Matriz: termo-documento

Dois documentos são similares se os vetores são similares

A dimensão do vetor éo tamanho do vocabulário: N|V|

V

Page 71: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

71

Matriz: termo-documento

Duas palavras são similares se os vetores são similares

A dimensão do vetor éo número de documentos: N|D|

Page 72: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

72

Agrupamento hierárquico

Page 73: Casamento aproximado entre strings Semântica e ...professor.ufabc.edu.br/~jesus.mena/courses/pln-2q-2019/...1 Casamento aproximado entre strings Semântica e similaridade de palavras

73

Capturar significa relacional