classificação de texto baseada na aula de henrique borges e Ícaro medeiros alterada por flávia...

38
Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Upload: levi-da-silva

Post on 07-Apr-2016

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Classificação de Texto

Baseada na aula de Henrique Borges e Ícaro MedeirosAlterada por Flávia Barros

Page 2: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Roteiro

• Definição e conceitos básicos• Técnicas de construção de classificadores

– Manual– Automática

• Aplicações• Avaliação/Comparação de classificadores• Conclusão

Page 3: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Classificação de Texto

• Objetivo– Classificar documentos de acordo com classes pré-definidas

• E.g., Email a ser classificado como SPAM ou NÃO-SPAM

• A classificação de documentos visa:– Melhorar a organização da base de documentos– Facilitar a busca e a visualização de documentos

• E.g., Hierarquias do Yahoo

– Evitar retornar documentos irrelevantes e/ou indesejáveis para o usuário

– Entre outras...

Page 4: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Classificação de TextoAlgumas aplicações...

• Classificação e indexação de documentos– Ex.: Categorização de páginas Web

• Sistemas de recomendação e filtragem– Ex.: Filtros de spam

• Sistemas de extração de informação– Ex.: Extração em referências bibliográficas

• etc…

Page 5: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Documentos

Classe 1

Classe 2

Classe 3

Classificação de Texto

Page 6: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Classificação x RI

• O problema de RI pode ser visto como um problema de classificação – RI = Classificação “binária” entre documentos relevantes ou

não relevantes

• Contudo, as duas áreas apresentam particularidades que merecem a divisão

Page 7: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Classificação de Texto

• A tarefa de classificar documentos pode ser realizada de forma– Manual

• Realizada por um especialista– Automática

• Realizada por um sistema automático de classificação• Problema!

– Como construir o classificador?

Page 8: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Classificação manual

• Realizada por um especialista– Vantagens

• Alta precisão na classificação– Desvantagens

• Tarefa demorada e trabalhosa

Page 9: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Classificação automática

• É necessário construir um sistema que fará a classificação automática dos documentos automaticamente– Vantagens

• Rapidez na classificação– Desvantagens

• Dificuldades na construção do sistema• Perda de precisão na classificação

Page 10: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Classificação Automática

• Abordagens para construção do classificador– Construção manual

• Engenharia do Conhecimento– Construção automática

• Aprendizagem de máquina

Page 11: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

• Engenharia do conhecimento– Um especialista no domínio da aplicação propõe regras para

classificar os documentos– O sistema é implementado pelo engenheiro do conhecimento– Dependendo do sistema, meta-informações podem ser

consideradas• como localização das palavras no texo (título, autor, ...)

• Abordagem dominante até a década de 80 – Sistemas Especialistas

Construção manual do classificador

Page 12: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Construção manual do classificador

• Componentes básicos:– Base de Conhecimento com regras de classificação– Máquina de Inferência

Testese

Validação

Nível deConhecimento

Aquisiçãodo

Conhecimento

Nível Lógico

Formulaçãoda Base de

Conhecimento

Nível deImplementação

Construçãoda Base de

Conhecimento

Page 13: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Construção manual do classificador

• Preparação de Documentos – Como em RI, podemos

• excluir stopwords• usar stemming e• redução de dimensionalidade

– Normalmente esses procedimentos melhoram a precisão e facilitam a criação de regras de classificação

Page 14: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

• Base de Conhecimento:– Regras de Produção

• Exemplo: – Regras para o reconhecimento de um bloco de citação em uma

página de publicação (CitationFinder)

SE houver uma cadeia de Autores E houver uma cadeia de Intervalo de Páginas E houver uma cadeia de Trabalho Impresso E houver uma cadeia de Data ENTÃO o texto é uma citação (chance 1.0)

Construção manual do classificador

Page 15: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Construção manual do classificador

• Vantagens– Execução rápida do classificador

•  Desvantagens– Necessário um especialista para codificar as regras – Muito trabalho para criar, atualizar e manter a base de regras

Page 16: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Construção automática do classificador

• Abordagem dominante a partir da década de 90• Baseada em Aprendizagem de Máquina

Page 17: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Construção automática do classificador

• Classes são mais simples de serem definidas através de exemplos

• Exemplos são facilmente obtidos– Especialista:

• "Essas 20 emails são Spam, essas 50 não."

• Necessidade de atualizar ou modificar freqüentemente o classificador– Usuário:

• "Agora eu quero trabalhar no domínio de produtos eletrônicos."

• Solução: Aprendizagem de Máquina

Page 18: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Construção automática do classificador

• Aprendizagem de Máquina – Um processo indutivo e geral que

• automaticamente constrói um classificador por aprendizagem • usando um conjunto predefinido de categorias e suas

características.– Ou seja

• o algoritmo "analisa" um conjunto de treinamento e "aprende" o que diferencia uma categoria das outras

Page 19: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Passos da construção automática

Representação

Representação dos documentos(e.g. lista de termos)

Redução da dimensionalidade

Seleção ou extração de características

Treinamento

TextosEtiquetados

Indução do classificador

Classificador

Corpus de treinamento

Validação

Ajuste de parâmetros

Page 20: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

CIn/UFPE 20

• Textos devem ser representados através de características apropriadas

• Representação de Textos – Listas de termos que ocorrem no texto

• Pode-se excluir stopwords, usar stemming...• Abordagens

– Bag of Words (com TF-IDF) – Características relevantes do domínio– Características lingüísticas

Passos da construção automática

Page 21: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

• Quando o vocabulário da base é muito grande, o algoritmo de aprendizagem poderá perder em desempenho.

• Redução de dimensionalidade – Seleção ou Extração das características mais relevantes–  Isso melhora significativamente a eficácia e a eficiência do

aprendizado

Passos da construção automática

Page 22: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

• Fase de Treinamento – Usa-se uma técnica/algoritmo de Aprendizagem de Máquina

• KNN• Classificador Linear (Rocchio, etc)• Naive Bayes• Árvores de Decisão• Redes Neurais• Sopport Vector Machine (SVM)

Passos da construção automática

Page 23: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

• Validação e Ajuste de Parâmetros – Alguns classificadores precisam de parâmetros de entrada

escolhidos empiricamente:• Um inteiro (K) para KNN• Número de nós numa Rede Neural

– Parte dos documentos são separados para o algoritmo automaticamente ajustar seus parâmetros, testando a precisão, por exemplo

Passos da construção automática

Page 24: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

• Testes – Por fim, os classificadores são avaliados

• se necessário, ajustes são realizados, reiniciando o ciclo

Passos da construção automática

Page 25: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

• Exemplo usando KNN – Durante o treinamento, o classificador simplesmente armazena

todos os exemplos• Num formato apropriado para facilitar a comparação entre

documentos• Cada documento é um vetor

Passos da construção automática

Page 26: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Construção automática do classificador

• Exemplo usando KNN – Na classificação, escolher os K documentos do conjunto de

treinamento mais similares a entrada• Medidas de distância: cosseno, distância euclidiana, entre

outras– Atribuir à entrada uma classe baseada nas classes dos

documentos recuperados• Exemplos a seguir

Page 27: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Com k=1 : Classe +Com k=5 :  Classe -

KNN - Maioria

Page 28: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

KNN - Ponderada

Page 29: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Avaliação de Classificadores

Page 30: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

• Como em RI, as avaliações são feitas experimentalmente

• Corpus de documentos são geralmente divididos em:– Conjunto de Treinamento

• Para o algoritmo aprender– Conjunto de Validação

• Para permitir ajuste de parâmetros do sistema– Conjunto de Teste

• Para avaliar a eficácia

Avaliação de Classificadores

Page 31: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Avaliação de Classificadores

• Nomenclatura em inglês:– Tp = True positive

• Num. de exemplos corretamente classificados como positivos

– Fp = False positive• Num. de exemplos erroneamente classificados como positivos

– Tn = True negative• Num. de exemplos corretamente classificados como negativos

– Fn = False negative• Num. de exemplos erroneamente classificados como negativos

Page 32: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Avaliação de Classificadores

• Medidas (para uma classe):– Precisão e cobertura– Taxa de erro– Acurácia

• Uma média dá a efetividade geral do classificador• Vale para as abordagens de engenharia do conhecimento

e aprendizagem de máquina

Page 33: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Avaliação de Classificadores

• Matriz de Confusão (Confusion Matrix)– Número de classificações corretas em oposição às classificações

preditas para cada classe

• Seja Ci uma dada classe i

Predito → Real ↓

Classe Ci Classe ~Ci Erro por classe

Classe Ci Tp Fn Fn/(Tp+Fn)

Classe ~Ci Fp Tn Fp/(Fp+Tn)

Page 34: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Avaliação de Classificadores

• Precisão para a classe Ci– Porcentagem de exemplos corretamente classificados como

positivos– Tp / (Tp + Fp)

• Cobertura para a classe Ci– Porcentagem de exemplos corretamente classificados como

positivos em relação ao total de instâncias da classe• i.e., total de exemplos da classe Ci

– Tp / (Tp + Fn)

Page 35: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Avaliação de Classificadores

• # total de exemplos é dado por – N = Tp + Tn + Fp + Fn

• Precisão total = acurácia• número de exemplos classificados corretamente /total de exemplos

da amostra

• (Tp + Tn) / N

• Erro total– (Fp + Fn) / N

Page 36: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Avaliação de Classificadores

• Micromédia

– Somam-se as decisões individuais para calcular precisão e cobertura para uma classe (média local) 

– Pode não ser uma boa medida quando há classes majoritárias (muitas instâncias positivas)  

Page 37: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

• Macromédia

– Precisão e cobertura são calculadas em relação a todas as classes (média global)

– É melhor quando as classes são desbalanceadas

Avaliação de Classificadores

Page 38: Classificação de Texto Baseada na aula de Henrique Borges e Ícaro Medeiros Alterada por Flávia Barros

Próxima aula

• Extração de informação