análise comparativa de técnicas de inteligência computacional para a detecção de spam

32
Jim Lau; Ramices dos Santos Silva DAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil . {jim; ramices} @das.ufsc.br Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Upload: ariel-moss

Post on 01-Jan-2016

27 views

Category:

Documents


2 download

DESCRIPTION

Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam. Agenda. Introdução Justificativa Objetivo Detecção de Spam Técnicas de Inteligência Comparação de Resultados Conclusão. Introdução. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Jim Lau; Ramices dos Santos SilvaDAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil .

{jim; ramices} @das.ufsc.br

Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Page 2: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Agenda

Introdução Justificativa Objetivo Detecção de Spam Técnicas de Inteligência Comparação de Resultados Conclusão

Page 3: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Introdução

O spam pode ser definido como o envio abusivo e não solicitado de mensagens de correio eletrônico

causa um grande desperdício de recursos – Custo: consome tempo de processamento e

espaço de armazenamento– Fraude: facilita o uso de fraude– Destituição do e-mail normal

Page 4: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Justificativa

Quando o spam é recebido em pequenas quantidades, pode causar aborrecimento aos destinatários

Para o recebimento de grandes quantidades de e-mail, o spam consome tempo e dificulta a descoberta de mensagens legítimas.

Freqüentemente possui conteúdo de linguagem pornográfica,que ofende a muitos destinatários.

Page 5: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Justificativa

Uma solução é a utilização de filtro de spam– Automáticos– Semi-automáticos

Amplamente utilizados por ISP´s(provedores) O problema em utilizar esses filtros é que não

se consegue obter 100% de precisão na taxa de detecção de spam

Com isso vários métodos têm sido propostos para a implementação de filtros de spam

Page 6: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Justificativa

O maior interesse tem sido no uso de técnicas de aprendizado de máquina.– Naive Bayes – Árvores de Decisão– Redes Neurais– Sistemas Nebulosos (Fuzzy)– Support Vector Machine – SVM– Sistemas Imunológicos Artificiais

Page 7: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Justificativa

Como conceito básico e comum a estes métodos é que os classificadores utilizam treinamento supervisionado de dados, realizado manualmente, que resulta em um melhor desempenho.

Precisava-se comparar técnicas para definir qual tem o melhor desempenho

Page 8: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Objetivo

O objetivo do trabalho estudado foi realizar uma análise comparativa do desempenho de diversas técnicas de Aprendizado de Máquina para uso em filtros de detecção de spam baseados em conteúdo As técnicas escolhidas foram: Neuro-Fuzzy, Redes Neurais utilizando Perceptron e MLP.

Page 9: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Detecção de Spam - Fatores

Fatores que contribuem para envio de spam– Facilidade no envio de e-mail: alguns programas

permitem enviar centenas de mensagens de e-mail e adquirir, milhares de contas válidas

– Endereços são de fácil obtenção: A maior parte das técnicas para filtragem de e-mail indesejado envolve filtros de mensagens baseadas no endereço do remetente

Page 10: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Detecção de Spam - Técnicas

Utilização de Filtros: As soluções automáticas removem o e-mail suspeito, enquanto que soluções semi-automáticas deixam que o usuário detecte

Medidas de contra ataque: Usuários podem responder às mensagens de spam para bombardear

Treinamento de Usuários: Uma das soluções existentes está relacionada ao gerenciamento de spam e treinamento de usuários sobre as opções existentes

Page 11: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Detecção de Spam - Filtros

Definidos pelos usuários: permitem a criação de regras pelos usuários

Cabeçalhos: analisam os cabeçalhos para detectar se são falsificados ou não

Conteúdo: tipo de filtro mais comum, verificam a ocorrência de palavras no corpo do e-mail.

E o problema do image spam?

Page 12: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Técnicas de Inteligência

Redes Neurais– As Redes Neurais além fornecem um caminho mais

fácil para modelar relações complexas, também oferecem adaptabilidade e habilidade de aprendizagem implícita. O fato das Redes Neurais funcionarem bem para Classificação de Textos implica em confiança para a aplicação em filtros de spam.

Page 13: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Técnicas de Inteligência

Redes Neurais– A propriedade mais importante das redes neurais é a

habilidade de aprender de seu ambiente e com isso melhorar seu desempenho. Isso é feito através de um processo iterativo de ajustes aplicado a seus pesos: o treinamento.

– Aprendizado supervisionado, não supervisionado e híbrido

Page 14: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Técnicas de Inteligência

Neuro-Fuzzy– Fuzzy: (sistema de lógica nebulosa) é uma

generalização da teoria dos conjuntos clássica e visa implementar uma forma de pensamento humano na máquina. Porém tem o problema da adaptabilidade.

– Já as Redes Neurais são eficientes para a detecção de padrões, entretanto não são boas para explicar como estes padrões são alcançados.

A limitação destas técnicas impulsionou a criação de sistemas neuro-fuzzy

Page 15: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Resultados

Foram realizadas comparações com diferentes algoritmos:– Neuro-Fuzzy com taxa ótima de aprendizado– Redes Neurais utilizando Perceptron– Redes Neurais utilizando MLP.

A ferramenta utilizada nesta comparação entre esses algoritmos foi o Matlab.

Page 16: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Resultados

Foi utilizado como base de dados um repositório de aprendizado de maquina da Universidade da Califórnia Irvine

Utilizou-se a mesma quantidade de padrões de treinamento (3500 padrões, 76%) e de validação (1101 padrões, 24% do total).

Foram processados utilizando a base de dados completa e

Com a mesma configuração, após a seleção dos atributos de maior relevância

Page 17: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Resultados

Os resultados foram analisados de acordo com:– os valores das taxas de acertos;– falsos positivos; e– falsos negativos.

Page 18: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Resultados

Neuro-Fuzzy– O treinamento Neuro-Fuzzy após a aplicação dos

coeficientes da correlação, os algoritmos foram processados novamente pela variação do número de funções de pertinência.

Page 19: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Neuro-Fuzzy (Sem correlação)

Page 20: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Neuro-Fuzzy (com correlação)

Page 21: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Neuro-Fuzzy (com X sem correlação)

Page 22: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Resultados

Perceptron Simples– Para esta técnica foram feitos dois experimentos– Também se considerou a base completa e a base

reduzida de acordo com a análise de correlação– Observou-se a diminuição do tempo de

treinamento em função da diminuição do número de neurônios de entrada da rede

Page 23: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Perceptron Simples(sem correlação)

Page 24: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Perceptron Simples(com correlação)

Page 25: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Perceptron (com X sem correlação)

Page 26: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Resultados

MPL– A observação dos resultados obtidos pelo

treinamento da rede MLP, mostra que a aplicação dos coeficientes de correlação acarretou em um aumento dos valores dos falsos positivos de uma média de 3,96% para uma média de 4,29%.

Page 27: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

MPL (sem correlação)

Page 28: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

MPL (com correlação)

Page 29: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

MPL (com X sem correlação)

Page 30: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Análise Comparativa

Page 31: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Conclusão

Dificuldade com a implementação dos algoritmos propostos

Descoberta do comportamento destes algoritmos Várias execuções dos algoritmos, para diferentes

definições dos parâmetros Foram executados no mínimo seis vezes O trabalho foi facilitado pelas implementações de

redes neurais do Matlab

Page 32: Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

Jim Lau; Ramices dos Santos SilvaDAS/CTC – Universidade Federal de Santa Catarina (UFSC) - Fpolis – SC – Brasil .

{jim; ramices} @das.ufsc.br

Análise Comparativa de Técnicas de Inteligência Computacional para a Detecção de Spam

?