descoberta de conhecimento :

23
Descoberta de Descoberta de Conhecimento Conhecimento: Edimar Manica Fahad Kalil Centroid-Based Document Classification: Analysis & Experimental Results Autores: Eui-Hong (Sam) Han e George Karypis Ano de publicação: 2000 2009

Upload: lieu

Post on 16-Jan-2016

29 views

Category:

Documents


0 download

DESCRIPTION

Descoberta de Conhecimento :. Centroid-Based Document Classification:  Analysis & Experimental Results Autores: Eui-Hong (Sam) Han e George Karypis Ano de publicação: 2000. Edimar Manica Fahad Kalil. 2009. Roteiro.  Objetivo  Pré-processamento Remoção de Stopwords Stemming - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Descoberta de Conhecimento :

Descoberta de Descoberta de ConhecimentoConhecimento:

Edimar ManicaFahad Kalil

Centroid-Based Document Classification: 

Analysis & Experimental Results  

Autores: Eui-Hong (Sam) Han e George KarypisAno de publicação: 2000

2009

Page 2: Descoberta de Conhecimento :

Roteiro

•  Objetivo•  Pré-processamento

o Remoção de Stopwordso Stemming

•  Conceitos o Poderação de Termos (TF-IDF)o Cosine Functiono Centroid Vectoro Modelo Vetorial (Vector-Space Model)

•  Funcionamento•  Experimentos e Comparativo•  Conclusões

Page 3: Descoberta de Conhecimento :

Objetivo

•  Dado um conjunto de treinamento o Doc1 {termo1, termo2, ..., termon} -> Classe 1o Doc2 {termo1, termo2, ..., termon} -> Classe 2o Doc3 {termo1, termo2, ..., termon} -> Classe 2o Doc4 {termo1, termo2, ..., termon} -> Classe 1 

•  Classificar um novo documento com base em seus termoso Doc5 {termo1, termo2, ..., termon} -> Classe ? 

 •  Considerando que um documento pertence a apenas uma

classe

Page 4: Descoberta de Conhecimento :

Pré-processamento do documento

•  Objetivoo Limpeza dos dados

•  Remoção de stopwordso Remover palavras que não são significantes para 

representar o documento (palavras comuns)o Remoção realizada através de uma stop-listo Ex: A Varig Log pediu a impugnação dos votos das

empresas ...•  Stemming

o O usuário consulta uma palavra e um documento relevante contém apenas formas variantes desta palavra

o Consulta: como comer com saúdeo Documento: comendo com saúde

Page 5: Descoberta de Conhecimento :

Pré-processamento do documento

•  Stemming (continuação)o Stem = radicalo Palavra                 Radical

          comendo                 com          comer                     com

o Algoritmo utilizado: Porter's suffix-stripping Remoção de sufixos Baseia-se em regras que são aplicadas se

determinadas condições são satisfeitas Ex: Regra de Redução de plural

sses -> ss              stresses -> stress ies    -> i                 ponies -> poni s       -> nada         cats -> cat

Page 6: Descoberta de Conhecimento :

Conceitos•  Poderação de Termos

o Em um documento alguns termos são mais importantes que outros (tem um peso maior)

o TF-IDF (Term Frequency Times Inverse Document Frequency) Objetivo:

Beneficiar termos que ocorrem bastante no documento e em poucos documentos

Atribui ao termo t uma importância no documento d que é: Alta se t ocorrer muitas vezes em um número

pequeno de documentos Menor se t ocorrer poucas vezes no documento OU

muitas vezes na coleção Muito baixa se t ocorrer em quase todos os

documentos

Page 7: Descoberta de Conhecimento :

Conceitos•  Poderação de Termos (continuação)

o TF-IDF (Term Frequency Times Inverse Document Frequency)                                                                                                      

TF: freqt,d  = número de ocorrências do termo t no documento.

maxt =  número de ocorrência do termo mais frequente em d. 

(Isso para não beneficiar documentos longos)

IDF: N = número de documentos na coleção

nt = número de ocorrências do termo t na coleção

TF IDF

Page 8: Descoberta de Conhecimento :

TF-IDFExemplo

Termo (t): bestFreq. de t no Doc1: 14Freq. de t na coleção: 14+0+17=31Freq. do termo que mais ocorre no Doc1: 27 (car)Nº docs na coleção: 3

Wt,doc1 = (14/27) * log2 3/31 = -1,75

Page 9: Descoberta de Conhecimento :

Centróides

• Um centróide representa uma classe

• É a média dos pesos dos vários termos presentes nos documentos de uma mesma classe do conjunto de treinamento.

Page 10: Descoberta de Conhecimento :

)9,4,3(1d

)7,2,1(4d

)0,15,20(2d

)2,20,22(3d

Classe A

Classe B

Classe B

Classe A

Centróides

Page 11: Descoberta de Conhecimento :

Centróides

)9,4,3(1d

)7,2,1(4d

)0,15,20(2d

)2,20,22(3d

Classe A

Classe B

Classe B

Classe A

)8,3,2()2

79,

2

24,

2

13(

C A

– Calculando o centróide da classe A

Page 12: Descoberta de Conhecimento :

)9,4,3(1d

)7,2,1(4d

)0,16,20(2d

)2,20,22(3d

Classe A

Classe B

Classe B

Classe A

)1,18,21()2

20,

2

2016,

2

2220(

CB

Centróides – Calculando o centróide da classe B

Page 13: Descoberta de Conhecimento :

Cosine Function - Idéia• Documentos que estão próximos no espaço vetorial tem conteúdo similar

• Similaridade computada usando o co-seno do ângulo entre os documentos

Page 14: Descoberta de Conhecimento :

• O comprimento dos valores não é levado em consideração, apenas suas direções.

• Consultas e centróides são considerados pseudo-documentos.

Cosine Function - Idéia

Page 15: Descoberta de Conhecimento :

bnbbanaa

bnanbaba

BA

BABAsim

222222

2121

)()22()11(

||||)cos(),(

Cosine Function - Cálculo

Page 16: Descoberta de Conhecimento :

Cosine Function - Cálculo

bnbbanaa

bnanbaba

BA

BABAsim

222222

2121

)()22()11(

||||)cos(),(

),,,(,,2,1 wwwd djndjdjj

),,,(,,2,1 wwwc cknckckk

• O vetor de um documento j é definido por:

• O vetor de um centróide k é definido por:

Page 17: Descoberta de Conhecimento :

Cosine Function - Cálculo

bnbbanaa

bnanbaba

BA

BABAsim

222222

2121

)()22()11(

||||)cos(),(

)8,5,2(1d )8,1,4(

1c

89,0*

)8*8()1*5()4*2(),(

81485222222211

cdsim

Page 18: Descoberta de Conhecimento :

Modelo proposto• Centroid-Based Document Classifier

Baseado no modelo espaço-vetorial, que parte da premissa de que o significado de um documento pode ser representado pelos termos presentes nele.

O modelo representa documentos como um vetor de termos (1) onde o termo no vetor é um valor não-negativo denotando a não ocorrência, ocorrência única ou múltipla de um termo i em um documento d.

ntf tftftfd ,...,, 21 (1)

Tendo um conjunto S de documentos e sua representação na forma de vetores, são utilizadas as funções Cosine e de definição dos centróides.

Page 19: Descoberta de Conhecimento :

FuncionamentoPassos necessários:     Treinamento: - Cálculo do TF-IDF; - Cálculo dos centróides;  

Novos documentos: - Cálculo do TF-IDF; - Similaridade entre o novo documento e todos os centróides

gerados no treinamento, usando Cosine Function.

 

Page 20: Descoberta de Conhecimento :

FuncionamentoExemplo didático!

- 4 documentos de treino;

- 1 novo documento;

- 2 classes

Page 21: Descoberta de Conhecimento :

Experimentos- Comparativo entre outros algoritmos classificadores

17 de 23 documentos classificados corretamente

- Foram usados 80% dos documentos para treino e 20% como conjunto de teste.

Page 22: Descoberta de Conhecimento :

Comparativo

Centroid-based X Naive Bayes

-Melhor que o classificador Naive Bayes pela forma como é computada a similaridade entre um documento teste e uma classe.

-Naive Bayes usa a regra Bayes, assumindo que quando condicionado em cada classe, a ocorrência de diferentes termos é independente. Porém, na realidade isso não acontece freqüentemente.

-Dependência entre termos pode ser vista pela freqüência com que aparecem juntos em documentos da mesma classe.

Page 23: Descoberta de Conhecimento :

Considerações FinaisVANTAGENS - Algoritmo com complexidade linear e melhores resultados que o Naive Bayes (que é um dos melhores).

- A essência do algoritmo está na sua forma de calcular a similaridade entre um documento de teste e o centróide da classe.

- É levada em conta a similaridade, freqüência e dependência entre os termos presentes no documento com os documentos da classe.

DESVANTAGEM - O algoritmo determina que um documento só pode pertencer a uma classe específica.