oficina - analytics - ricardo costa
DESCRIPTION
Oficina - Analytics palestrante Ricardo Costa. Palestra ocorreu durante o Rio Info 2014.TRANSCRIPT
Agenda
• Apresentação Inicial
• Teoria das Redes
• Anatomia da Análise do Senado
16/09/2014 2
Expectativas do Workshop
• Não é um curso de data science ou estatística
• Não discutiremos fórmulas matemáticas
• Vou tentar exercícios práticos para vocês
16/09/2014 3
TEORIA DAS REDES Workshop
Teoria dos Graphos
• Ramo da matemática que estuda as relações entre os objetos de um determinado conjunto
• Em 1736, Leonhard Euler publicou um artigo que foi considerado o primeiro resultado da Teoria dos Grafos
16/09/2014 5
Teoria dos Grafos
• “Sete Pontes de Königsberg” – Antiga Prússia
– Cidade cortada pelo Rio Prególia, com um complexo de sete pontes entre duas ilhas
– Discussão “urbana” sobre como atravessar todas as pontes sem repetir nenhuma
16/09/2014 6
Sete Pontes de Königsberg
16/09/2014 7
Com lápis e papel, ou imaginação, tente traçar um caminho onde se passa por todas as pontes uma única vez!
Sete Pontes de Königsberg
16/09/2014 8
3
5
3
3 2 4
Teoria dos Grafos
16/09/2014 9 9
V
V
V
V
A
A
A
AA
A A
• V é um conjunto não vazio de objetos denominados Vértices • Em Inglês, seriam
“Nodes”
• A é um conjunto de pares não ordenados de V, chamado Arestas • Em Inglês, seriam
“Edges”
Teoria dos Grafos
• Grafos Direcionados – Mais de uma aresta
é permitida entre dois vértices
• Grafos Não Direcionados – Apenas uma aresta
existe entre dois vértices
16/09/2014 10
Teoria dos Grafos
• Em um Grafo, podemos ter pesos entre as arestas
• Podemos representá-los matematicamente ou de forma gráfica
16/09/2014 11
Teoria dos Grafos
• Há Grafos Completos e Incompletos
• Grafo Completo – Todas os vértices se
ligam a todos os outros por arestas
16/09/2014 12
Ciência de Redes
• “Por trás de cada sistema estudado em complexidade, existe um intrincado diagrama de conexões, ou uma rede, definindo os relacionamentos entre os elementos do sistema.”
• “Jamais entenderemos um sistema complexo até que possamos mapear as redes de conexões por trás dele.”
Prof. Albert-László Barabási
Redes Sociais
• Não, não é só aquele negócio com um monte de gente com tempo de sobra!
• É uma estrutura de pessoas ou organizações com valores e objetivos comuns
• Relacionamentos horizontais e não hierárquicos
• São abertas e “porosas”
• “Quase estrutura”, que se faz e desfaz rapidamente
16/09/2014 14
Em 1 minuto…
16/09/2014 15
Ciência de Redes
• Campo acadêmico multidisciplinar do estudo de redes complexas
• Une teorias da: – Matemática – Estatística – Física – Computação – Sociologia
• Vamos conhecer alguns fundamentos importantes para a análise?
Ciência de Redes
• Centralidade – Indica a importância
de um vértice
• Inúmeras aplicações: – Influência de pessoas
em uma rede – Pontos críticos de
comunicação Internet – Pontos críticos de
tráfego de pessoas – etc
16/09/2014 17
Ciência de Redes
• Há 4 tipos básicos de medida de Centralidade – Grau (Degree)
• Número de ligações de um vértice
– Proximidade (Closeness) • Mede a distância de um
vértice – Intermediação
(Betweenness) • Mede quantas vezes um
vértice serve de ponte para outros
– Vetor Próprio (Eigenvector) • Mede a influência de um
vértice na rede
16/09/2014 18
A
B C
E F
G
D
H I
J
Ciência de Redes
• Outro conceito importante é o de comunidades
• São detectadas em redes complexas, com base em similaridades entre os vértices
• Há vários modelos matemáticos complexos para esse fim
16/09/2014 19
Exemplo: Epidemia de Ebola
16/09/2014 20
Fonte: http://www.kurzweilai.net/
Exemplo: Concentração de Pessoas
16/09/2014 21
Exemplo: Células Criminosas
16/09/2014 22
Exemplo: Sentimentos
16/09/2014 23
EXERCÍCIO PRÁTICO Workshop
Lembre-se!
16/09/2014 25
Instalando o “Gephi”
• Vá na pasta onde copiou o conteúdo do ‘pen drive’
• Abra a pasta chamada “Gephi-Install” – Escolha sua
plataforma (Windows ou Mac)
– Estilo NNF • Next-Next-Finish
16/09/2014 26
ANÁLISE DO SENADO FEDERAL
Workshop
16/09/2014
Resumo: Análise do Senado • Projeto apresentado ao
término do curso de Big Data Analytics da FGV/Emap
• Linha de Trabalho – Social Network Analysis
• Orientadores – Prof Carlos Reis – Prof Alexandre Evsukoff
• Ferramentas “Livres” – Firebug – R e Rstudio – Gephi – Excel
• Ok, esse não é “software livre”
Primeiro Passo: Investigação
16/09/2014 29
Primeiro Passo: Investigação
16/09/2014 30
Primeiro Passo: Investigação
16/09/2014 31
Primeiro Passo: Investigação
16/09/2014 32
Primeiro Passo: Investigação
16/09/2014 33
Comunidade
Rede
Vér6ces
Arestas
Resultado da Investigação
• O Senado Federal poderia ser classificado como uma “Rede”
• Cada comissão poderia ser uma “Rede” dentro da “Rede”, ou uma comunidade
• Pergunta: – Quem seriam os
Senadores mais relacionados nessa rede?
• Números: – 81 Senadores
• 3 por UF • Mandato de 8 anos
– 15 Comissões Permanentes • 17 Subcomissões
• Algumas Observações – Nem todas as comissões
tinham componentes • Ainda sendo montadas,
finalizadas, etc – Foram ignoradas as
Comissões Temporárias • Maioria não estava em
funcionamento
16/09/2014 34
Resultado da Investigação
• Pelo menos 77 dos 81 Senadores participavam em alguma Comissão
• Estratégia de Grafo Não Direcionado – Ignorado o caminho
da relação
• Preocupação – Possível Grafo
Completo
16/09/2014 35
• Com 77 Senadores, o Grafo poderia ter 2.926 arestas para avaliar!
DEMONSTRAÇÃO PRÁTICA DA ANÁLISE DO SENADO
Workshop
OBRIGADO!
Ricardo Costa | [email protected]