descoberta de conhecimento :

Descoberta de Descoberta de ConhecimentoConhecimento:

Edimar ManicaFahad Kalil

Centroid-Based Document Classification:

Analysis & Experimental Results

Autores: Eui-Hong (Sam) Han e George KarypisAno de publicação: 2000

2009

Roteiro

• Objetivo• Pré-processamento

o Remoção de Stopwordso Stemming

• Conceitos o Poderação de Termos (TF-IDF)o Cosine Functiono Centroid Vectoro Modelo Vetorial (Vector-Space Model)

• Funcionamento• Experimentos e Comparativo• Conclusões

Objetivo

• Dado um conjunto de treinamento o Doc1 {termo1, termo2, ..., termon} -> Classe 1o Doc2 {termo1, termo2, ..., termon} -> Classe 2o Doc3 {termo1, termo2, ..., termon} -> Classe 2o Doc4 {termo1, termo2, ..., termon} -> Classe 1

• Classificar um novo documento com base em seus termoso Doc5 {termo1, termo2, ..., termon} -> Classe ?

• Considerando que um documento pertence a apenas uma

classe

Pré-processamento do documento

• Objetivoo Limpeza dos dados

• Remoção de stopwordso Remover palavras que não são significantes para

representar o documento (palavras comuns)o Remoção realizada através de uma stop-listo Ex: A Varig Log pediu a impugnação dos votos das

empresas ...• Stemming

o O usuário consulta uma palavra e um documento relevante contém apenas formas variantes desta palavra

o Consulta: como comer com saúdeo Documento: comendo com saúde

Pré-processamento do documento

• Stemming (continuação)o Stem = radicalo Palavra Radical

comendo com comer com

o Algoritmo utilizado: Porter's suffix-stripping Remoção de sufixos Baseia-se em regras que são aplicadas se

determinadas condições são satisfeitas Ex: Regra de Redução de plural

sses -> ss stresses -> stress ies -> i ponies -> poni s -> nada cats -> cat

Conceitos• Poderação de Termos

o Em um documento alguns termos são mais importantes que outros (tem um peso maior)

o TF-IDF (Term Frequency Times Inverse Document Frequency) Objetivo:

Beneficiar termos que ocorrem bastante no documento e em poucos documentos

Atribui ao termo t uma importância no documento d que é: Alta se t ocorrer muitas vezes em um número

pequeno de documentos Menor se t ocorrer poucas vezes no documento OU

muitas vezes na coleção Muito baixa se t ocorrer em quase todos os

documentos

Conceitos• Poderação de Termos (continuação)

o TF-IDF (Term Frequency Times Inverse Document Frequency)

TF: freqt,d = número de ocorrências do termo t no documento.

maxt = número de ocorrência do termo mais frequente em d.

(Isso para não beneficiar documentos longos)

IDF: N = número de documentos na coleção

nt = número de ocorrências do termo t na coleção

TF IDF

TF-IDFExemplo

Termo (t): bestFreq. de t no Doc1: 14Freq. de t na coleção: 14+0+17=31Freq. do termo que mais ocorre no Doc1: 27 (car)Nº docs na coleção: 3

Wt,doc1 = (14/27) * log2 3/31 = -1,75

Centróides

• Um centróide representa uma classe

• É a média dos pesos dos vários termos presentes nos documentos de uma mesma classe do conjunto de treinamento.

)9,4,3(1d

)7,2,1(4d

)0,15,20(2d

)2,20,22(3d

Classe A

Classe B

Classe B

Classe A

Centróides

Centróides

)9,4,3(1d

)7,2,1(4d

)0,15,20(2d

)2,20,22(3d

Classe A

Classe B

Classe B

Classe A

)8,3,2()2

79,

2

24,

2

13(

C A

– Calculando o centróide da classe A

)9,4,3(1d

)7,2,1(4d

)0,16,20(2d

)2,20,22(3d

Classe A

Classe B

Classe B

Classe A

)1,18,21()2

20,

2

2016,

2

2220(

CB

Centróides – Calculando o centróide da classe B

Cosine Function - Idéia• Documentos que estão próximos no espaço vetorial tem conteúdo similar

• Similaridade computada usando o co-seno do ângulo entre os documentos

• O comprimento dos valores não é levado em consideração, apenas suas direções.

• Consultas e centróides são considerados pseudo-documentos.

Cosine Function - Idéia

bnbbanaa

bnanbaba

BA

BABAsim

222222

2121

)()22()11(

||||)cos(),(

Cosine Function - Cálculo


bnbbanaa

bnanbaba

BA

BABAsim

222222

2121

)()22()11(

||||)cos(),(

),,,(,,2,1 wwwd djndjdjj

),,,(,,2,1 wwwc cknckckk

• O vetor de um documento j é definido por:

• O vetor de um centróide k é definido por:


bnbbanaa

bnanbaba

BA

BABAsim

222222

2121

)()22()11(

||||)cos(),(

)8,5,2(1d )8,1,4(

1c

89,0*

)8*8()1*5()4*2(),(

81485222222211

cdsim

Modelo proposto• Centroid-Based Document Classifier

Baseado no modelo espaço-vetorial, que parte da premissa de que o significado de um documento pode ser representado pelos termos presentes nele.

O modelo representa documentos como um vetor de termos (1) onde o termo no vetor é um valor não-negativo denotando a não ocorrência, ocorrência única ou múltipla de um termo i em um documento d.

ntf tftftfd ,...,, 21 (1)

Tendo um conjunto S de documentos e sua representação na forma de vetores, são utilizadas as funções Cosine e de definição dos centróides.

FuncionamentoPassos necessários: Treinamento: - Cálculo do TF-IDF; - Cálculo dos centróides;

Novos documentos: - Cálculo do TF-IDF; - Similaridade entre o novo documento e todos os centróides

gerados no treinamento, usando Cosine Function.

FuncionamentoExemplo didático!

- 4 documentos de treino;

- 1 novo documento;

- 2 classes

Experimentos- Comparativo entre outros algoritmos classificadores

17 de 23 documentos classificados corretamente

- Foram usados 80% dos documentos para treino e 20% como conjunto de teste.

Comparativo

Centroid-based X Naive Bayes

-Melhor que o classificador Naive Bayes pela forma como é computada a similaridade entre um documento teste e uma classe.

-Naive Bayes usa a regra Bayes, assumindo que quando condicionado em cada classe, a ocorrência de diferentes termos é independente. Porém, na realidade isso não acontece freqüentemente.

-Dependência entre termos pode ser vista pela freqüência com que aparecem juntos em documentos da mesma classe.

Considerações FinaisVANTAGENS - Algoritmo com complexidade linear e melhores resultados que o Naive Bayes (que é um dos melhores).

- A essência do algoritmo está na sua forma de calcular a similaridade entre um documento de teste e o centróide da classe.

- É levada em conta a similaridade, freqüência e dependência entre os termos presentes no documento com os documentos da classe.

DESVANTAGEM - O algoritmo determina que um documento só pode pertencer a uma classe específica.

descoberta de conhecimento :

Documents