apresentação de inteligência artificial: cluterização de dados utilizando técnicas de...

Post on 29-Jul-2015

128 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Clusterização de Dados Utilizando

Técnicas de Detecção de Comunidades

em Redes Complexas

Thiago Christiano Silva

Leonardo Nascimento Ferreira

Conteúdo � Introdução

• Motivações

• Objetivos

� Tópicos Relevantes • Redes Complexas

• Clusterização de Dados

Conteúdo

� Clusterização de Dados Utilizando Redes Complexas

� Descrição da Técnica

� Resultados e Simulações Computacionais

� Considerações Finais

� Referências

Introdução 1. Motivações

• Redes Complexas

• Faz parte essencial da comunidade moderna

• Capacidade de aplicação em diversas áreas

• Internet, rede elétrica, redes de estrada

• Apresenta vantagens na sua análise

• Considera a estrutura topológica

• Auxilia na Clusterização de Dados

• As técnicas são robustas

Introdução 1. Objetivos

• Utilização do processo de Mineração de Dados em Redes Complexas

• Aquisição de conhecimento

• Detalhamento de todas as fases

• A extração de padrões será conduzida com os seguintes parâmetros:

• Modo de Aprendizado (atividade): Não-supervisionado

• Tarefa: Clusterização de Dados

• Capaz de detectar diversas formas de clusters

• Que ofereça uma estrutura hierárquica de clusters

Introdução • Objetivos

• Aplicação em Redes Sociais para Detecção de Comunidades e posterior tomada de decisão

• Academia de Karate Zachary

Tópicos Relevantes 1. Redes Complexas

• Compostas por milhares de vértices

• Possuem topologia não-trivial

• Distribuição de grau complexa

• Características que as descrevem

• Complexidade estrutural

• Comportamento evolucional

• Diversidade de conexões entre vértices

• Dinâmica complexa

• Exemplos

• Internet, Redes Neurais Biológicas, Sociais, Elétricas

Tópicos Relevantes 1. Clusterização de dados

• Consiste em agrupar uma coleção de vértices em clusters

• Necessita de uma medida de similaridade

• Difícil classificar corretamente clusters de formas arbitrárias

• Características • Algoritmo divisivo

• Algoritmo aglomerativo

• Exemplos • K-Means, CHAMELEON

Clusterização de Dados 1. Descrição da Técnica

• Algoritmo baseado no CHAMELEON

• Simplifica e melhora o processo de formação de clusters

• Capaz de detectar clusters de formas e densidades arbitrárias

• Oferece uma estrutura hierárquica dos clusters

• Dividido em 2 fases

• Formação de Rede

• Partição da rede em sub-redes

Formação da Rede

η = 50 e k = 5

k-nearest neighbour

η = 50 e ζ = 150

Ligações com todos da ζ-vizinhança

Partição em sub-redes � A medida utilizada foi a modularidade, proposta por

Newman

� Modularidade

� Indica o quanto uma certa divisão da rede é boa

� Leva em consideração o número de arestas inter e intracomunidades

� Algoritmo aglomerativo hierárquico

Simulações

Simulações – Dados Reais � Descrição do Problema

� Rede social: Academia de Karate Zachary

� Afinidade

� Identificação do Problema

� “Clima ruim”

� Diretor:

� Quem está do meu lado?

� Quem devo convencer a vir para meu lado?

Simulações – Dados Reais � Pré-Processamento

• Transformação:

• Disposição os dados para visualização

• Vértice nome -> Vértice ID inteiro

DE PARA

Director John

Instructor Kenny

John William

Director Andy

Instructor Director

Simulações – Dados Reais � Extração de Padrões

� Atividade:

� Descritiva:

� Não-supervisionado

� Tarefa:

� Clusterização

� Execução:

� Implementação da Rede Complexa

Simulações – Dados Reais � Execução:

� Academia de caratê de Zachary: η = 34

Configuração Inicial Configuração com Q máximo de 0.4

Simulações – Dados Reais � Pós-Processamento

� Clusterização não rotula classes

� Através dos IDs dos clusters obtêm-se os nomes dos membros

� Geração de relatório com a separação dos grupos

� Permite saber quem possivelmente irá se desligar da academia

� Grande chance de serem aqueles em que o algoritmo classificou como seguidores do instrutor

Simulações – Dados Reais � Utilização do Conhecimento:

� Tomada de Decisão:

� Convencer os membros a não efetivarem o desligamento:

� Através de estratégias de marketing

� Descontos na mensalidade

� Bônus mensal de fidelização ao cliente

� Prêmios por antiguidade

� etc.

Simulação – Dados Artificiais � Rede Artificial

η = 7320

Arestas = 190450

Qmáx = 0.80

ζnorm = 0.004

Simulação – Dados Artificiais

Comunidades = 9 Comunidades = 7

Simulação – Dados Artificiais

Comunidades = 5 Comunidades = 4

Simulação – Dados Artificiais

Simulação – Dados Artificiais

Simulação – Dados Artificiais

Simulação – Dados Artificiais

Simulação – Dados Artificiais

Simulação – Dados Artificiais

Simulação – Dados Artificiais

Simulação – Dados Artificiais

Simulação – Dados Artificiais

Considerações Finais � Consonante ao grande volume de dados produzido no

mundo atual, a Mineração de Dados se tornou um processo essencial às corporações e às pesquisas atuais

� Permite estabelecer relações e descobertas de padrões e comportamentos

� Auxilia na tomada de decisões

� Este trabalho apresentou uma aplicação hipotética simples, porém factível, de utilização de Mineração de Dados no campo de Clusterização de Dados utilizando Redes Complexas para Detecção de Comunidades

Referências [1] Silva, T. C., Zhao L. (2007) Pixel Clustering by Using Complex Network

Community Detection Technique. In: 7th International Conference on Intelligent Systems Design and Applications, 2007, Rio de Janeiro. Proceedings of 7th International Conference on Intelligent Systems Design and Applications. Danvers, MA, USA : IEEE Computer Society. v. 1. p. 925-930

[2] Newman, M. E. J. (2004) Fast algorithm for detecting community structure in networks, Physical Review E, v. 69, p. 066133(1-5)

[3] Newman, M.E.J., Girvan, M. (2004) Finding and evaluating community structure in networks, Physical Review E, v. 69, p. 026113(1-15)

[4] Strogatz, S.H. (2001) Exploring complex networks, Nature, v. 410, p. 268-276

Referências [5] Barabási, A.-L., Albert, R. (1999) Emergence of scaling in random

networks, Science, v. 286, p. 509-512

[6] Linda G. Shapiro and George C. Stockman (2001): "Computer Vision", pp 279-325, New Jersey, Prentice-Hall

[7] Ron Ohlander, Keith Price, and D. Raj Reddy (1978): "Picture Segmentation Using a Recursive Region Splitting Method", Computer Graphics and Image Processing, volume 8, pp 313-333

[8] Höppner, F., Klawonn, F., Kruse, R., Runkler, T. (1999) Fuzzy cluster analysis: methods for classification, data analysis and image recognition, John Wiley & Sons, Inc., Hoboken, NJ,USA

[9] Chávez G. C, “Video Content Analysis by Active Learning”. (2007) Tese (Doutorado em Ciências da Computação) - Universidade Federal de Minas Gerais

top related