aprendizado de máquina supervisionado na predição de links em redes complexas - uma revisão...

24
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas Uma Revisão Sistemática Orlando da Silva Junior Dra. Ana Carolina Lorena

Upload: orlando-junior

Post on 01-Jul-2015

621 views

Category:

Documents


2 download

DESCRIPTION

Como fazer aplicações em redes incompletas? Por que esses nós não estão conectados? Esses nós poderiam se conectar no futuro? Objetivo: investigar como o Aprendizado de Máquina Supervisionado resolve o problema da Predição de Links em Redes Complexas. Como? Utilizando Revisão Sistemática.

TRANSCRIPT

Page 1: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Aprendizado de Máquina Supervisionado na Predição de Links

em Redes Complexas Uma Revisão Sistemática

Orlando da Silva Junior Dra. Ana Carolina Lorena

Page 2: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Contexto

• Redes Complexas são estudadas em diversas áreas do conhecimento – Pesquisa em ciências humanas

– Pesquisa em ciências exatas

• Avanços na pesquisa – Proposição de novas tarefas

– Proposição de novas aplicações

– Proposição de novos estudos

PREDIÇÃO DE LINKS

Page 3: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Contexto

• Predição de Links – Trata do problema das ligações nas redes

• Como fazer aplicações em redes incompletas?

• Por que esses nós não estão conectados?

• Esses nós poderiam se conectar no futuro?

– Técnicas para solucionar esses problemas • Aprendizado de Máquina

– Não-Supervisionado

– Supervisionado

Page 4: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Objetivo do Trabalho

• Investigar como o Aprendizado de Máquina Supervisionado resolve o problema da Predição de Links em Redes Complexas

• Como? Utilizando Revisão Sistemática

– Processo sistemático para realização de revisão bibliográfica

Page 5: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática

• Estudo secundário

– Auxilia na definição de uma metodologia para identificar, analisar e interpretar todas as evidências disponíveis em questão de pesquisa específica

• Identificação das

necessidades da revisão

• Definição do protocolo de revisão

Planejamento

• Aplicação do protocolo

• Extração de informações

Condução

• Formato da publicação

• Meios de divulgação

Publicação

Page 6: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática

• Objetivos da revisão

– Identificar uma teoria geral sobre Predição de Links;

– Buscar como a abordagem supervisionada é utilizada para resolver o problema da Predição de Links;

– Encontrar bases de dados para benchmarking;

– Identificar a forma como a Predição de Links colabora para a Teoria das Redes.

Page 7: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática | Planejamento

• Necessidade: nenhuma outra publicação semelhante encontrada

• Questões de pesquisa

– Como o paradigma da aprendizagem supervisionada resolve o problema da Predição de Links?

– Como funciona a Predição de Links?

Page 8: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática | Planejamento

• Pergunta 1: Como o paradigma da aprendizagem supervisionada resolve o problema da Predição de Links?

– Quais são as principais técnicas de Aprendizado Supervisionado utilizadas na

Predição de Links?

– Qual é o tipo de problema supervisionado na Predição de Links?

– Como os conjuntos de dados são estruturados?

– Quais são os principais atributos e métricas utilizados?

– Qual é a metodologia experimental adotada?

– Quais são os algoritmos base usados na comparação de resultados?

Page 9: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática | Planejamento

• Pergunta 2: Como funciona a Predição de Links?

– Quais são as bases de dados comumente usadas?

– Que tipo de aplicações tratam do problema da Predição de Links?

Page 10: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática | Planejamento

• Aprendizado de Máquina Supervisionado – supervised machine learning – supervised learning – pattern recognition – data mining

• Predição de Links – link prediction – link mining – link analysis

• Redes Complexas – network – networks

Portais de Referências Bibliográficas escolhidos • Portal ACM (ACM Digital Library) • Portal IEEE (IEEE Xplore) • Science Direct • Web of Science • CiteSeerX

• Scopus

Expressão geral de busca

Page 11: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática | Planejamento

• Critérios de exclusão – Publicações que não tratam de Predição de Links

• Aplicação ou utilização no tema

– Publicações restritas • Acesso não limitado à UFABC ou UNIFESP

– Publicações com idioma inacessível • Português, inglês ou espanhol

– Restrição por tipo de publicação • Conferências ou periódicos

Page 12: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática | Planejamento

Título do Trabalho

• Relação com os tópicos de pesquisa

Resumo

• Referência a Predição de Links

Texto

• Leitura parcial

• Predição de Links com Aprendizado Supervisionado

Extração de Informações • Título do Trabalho • Autores • Tipo de publicação • Local e ano • Portal bibliográfico • Observações

Page 13: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática | Condução

• Aplicação do protocolo anterior

– Adaptação da expressão de busca aos portais escolhidos

Portal Bibliográfico Quantidade

Scopus 107

Portal IEEE 76

Web of Science 36

CiteSeerX 25

Portal ACM 12

Science Direct 3

Final: 33

Trabalhos

Page 14: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Revisão Sistemática | Condução

• Pesquisa entre 07/novembro/2012 e 17/novembro/2012

Publicações por ano

Page 15: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados e Discussão

Page 16: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados |Modelagem

• 𝑮(𝒕) é um grafo que sumariza de algum modo a sequência temporal 𝑮 = (𝑮(𝟏), … , 𝑮(𝒕))

• Toda rede em G é do tipo 𝑮 = (𝑽, 𝑬): – 𝑽 é o conjunto de vértices – 𝑬 é o conjunto de arestas, com 𝒆 = (𝒖, 𝒗)

• 𝑮(𝒕 + 𝟏) é rotulado

– Presença de links +1 – Ausência de links -1

• Os vértices u e v pertencem aos grafos 𝑮(𝒕) e 𝑮(𝒕 + 𝟏), mas o par (𝒖, 𝒗) – aresta – só existe em 𝑮(𝒕 + 𝟏)

Problema Binário

Page 17: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados |Conjuntos de Dados

Tipo de Rede Tipo ou Fonte de Dados

Rede Social

DBLP

Facebook

arXiv

Rede de Informação

Enron

CiteSeer

Wikipedia

Rede Biológica KEGG PATHWAY

Proteína-proteína

Rede Tecnológica Chamadas Telefônicas

Utilizadas como Redes Sociais

Principal

Page 18: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados | Métricas

• As métricas são as medidas de Análise de Redes Complexas

– Qualificam a topologia e definem as configurações da rede

• Análise da estrutura da rede sem necessidade de representações gráficas

– Cálculos estatísticos

Rede de interações proteína-proteína em Saccharomyces cerevisiae

(http://www.visualcomplexity.com)

Page 19: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados | Métricas

Métrica Quantidade

+

Vizinhos Comuns (VC) 18

Coeficiente de Adamic-Adar (AA) 16

Coeficiente de Jaccard (JC) 16

Conexão Preferencial (CP) 14

Katz (K) 13

- Caminho Mais Curto (CMC) 9

Graus do Nó (g) 8

𝚪(𝐱) é o conjunto de vizinhos do nó x.

𝑉𝐶 𝑢, 𝑣 = |Γ 𝑢 ∩ Γ 𝑣 |

𝐴𝐴 𝑢, 𝑣 = 1

log |Γ 𝑤 | 𝑤 ∈ Γ(u,v)

𝐽𝐶 𝑢, 𝑣 =|Γ 𝑢 ∩ Γ 𝑣 |

|Γ 𝑢 ∪ Γ 𝑣 |

𝐶𝑃 𝑢, 𝑣 = |Γ 𝑢 | ∙ |Γ 𝑣 | 𝐾 𝑢, 𝑣 = 𝛽𝑙 ∙ 𝑝𝑎𝑡ℎ𝑠 𝑙 𝑢,𝑣

𝑙=1

𝑔 𝑢 = |Γ 𝑢 |

Page 20: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados | Métodos

Técnica Quantidade

Árvore de Decisão 10

SVM 9

Naive Bayes 5

Regressão 6

Rede Neural 3

k-NN 3

Técnica Quantidade

Modelos probabilísticos 7

Ensembles 8

Outras técnicas 5

Proposições 5

Principais

Bons Resultados

Bons Resultados

C4.5

Page 21: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados | Algoritmos de Base

• São algoritmos não-supervisionados utilizados pelos trabalhos a fim de comparar com os algoritmos supervisionados.

• Quais foram os algoritmos? – Comparação entre predidores – Classificador aleatório – Medidas de rede: Katz e Coeficiente de Adamic-Adar

• Mas: nem todos os trabalhos realizaram essa

comparação ou não deixaram claro – Deficiência na literatura de Predição de Links

Page 22: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados | Metodologia

• Como conduzir e avaliar os experimentos? – Amostragem – Avaliação

• Amostragem – Validação Cruzada – 10 subconjuntos

• Avaliação – Área Abaixo da Curva ROC (AUC); ou – Precisão, Acurácia e Revocação

Abordagem Mais Frequente

Alto Desbalanceamento De Classes

Page 23: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Resultados | Aplicações

Aplicações de Segurança

Segurança física

Segurança virtual Academia e Pesquisa

Coautoria

Citações Sistemas de Recomendação

Recomendação de produtos

Recomendação de especialistas

Mineração de Links

Classificação de Objetos

Entity Resolution

Page 24: Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas - Uma Revisão Sistemática

Conclusão

• O trabalho investigou como o Aprendizado de Máquina Supervisionado resolve o problema da Predição de Links em Redes Complexas – Revisão Sistemática

• Formulação de questões de pesquisa • Elaboração e execução de protocolo de pesquisa

• Os resultados da pesquisa mostram: – Vantagens e desvantagens da abordagem supervisionada – Método padrão de construção de conjuntos de dados – Principais métricas de redes – Principais bases para benchmarking – Algoritmos mais frequentemente utilizados – Abordagens experimentais mais adotadas

• Trabalhos futuros: redes dinâmicas e métodos de avaliação experimental