data mining em redes sociais
Post on 19-Jun-2015
237 Views
Preview:
DESCRIPTION
TRANSCRIPT
Data mining em redes sociais
SigaSeuTime (BREAKING NEWS)
Uso de taxa de cliques por minuto em notícias enviadas
para o Twitter para determinar notícias
importantes / urgentes.
Primeiro experimento:
SigaSeuTime (BREAKING NEWS)
Aprendizado:O tempo de reação de
informações enviadas em redes sociais é muito rápido, e portanto permite análises
em tempo real bastante úteis.
Primeiro experimento:
Uso de streaming real time Twitter para determinar a
“temperatura” de torcedores de futebol em tempo real
Tuitômetro das torcidas
Segundo experimento:
Na (trágica) eliminação do Corinthians pelo Tolima,
capturamos5500 tweets / minuto
(e depois o servidor caiu…)
Tuitômetro das torcidas
Segundo experimento:
Aprendizado 1:O fenômeno de second
screen é real, e permite que se analise em tempo real a
opinião das pessoas em relação a eventos.
“IBOPE SOCIAL”
Tuitômetro das torcidas
Segundo experimento:
Aprendizado 2:O Streaming real time
gratuito do Twitter é uma fonte de informações
valiosíssima e muito rápida. 4MM tweets / dia
Tuitômetro das torcidas
Segundo experimento:
Experimento cujo objetivo é verificar se o valor de uma marca se reflete no buzz
online que ela gera.
http://mosttweetedbrands.com
Most Tweeted Brands
Terceiro experimento:
Em média, 2MM de Tweets / dia
A marca mais citada no Twitter é….O Facebook
Most Tweeted Brands
Terceiro experimento:
BrandMagz
Quarto experimento:
Revista digital que mede o pulso de uma marca /
celebridade / tema nas redes sociais
Quais as fontes de dados?APIs, APIs, APIs…
• Palavras chave
• Regras de exclusão
• Hints
Como os dados são coletados?
Detecção de lingua: • CLD (chromium compact language detector)• https://code.google.com/p/chromium-
compact-language-detector/
Wordcloud• NLTK (Natural Language Toolkit)• http://www.nltk.org/
Quais dados são extraídos?Texto
• 50% dos tweets geolocalizados–Minoria adiciona informação de lat/long
no tweet (-5%)– Análise de texto livre • Base de dados própria com nomes de
cidades em diversas linguas– 3744 nomes de cidades– 1900 nomes de países– 90 provincias
Quais dados são extraídos?Geolocalização
• Fotos– Instagram–Facebook–Twitter
• Video–Facebook–Vine–Youtube–Vimeo
Quais dados são extraídos?Mídia
• Links externos encontrados em posts são tratados separadamente
• Conteúdos de blogs e notícias são processados por algoritmo de “limpeza” de HTML– Heurísticas para extração do conteúdo que
realmente importa de uma página web– Fork próprio do readability-lxml
• https://github.com/mgalves/python-readability
Quais dados são extraídos?Links externos
Quais tecnologias são utilizadas?
Youtube
Vimeo
Vine
CELERY BROKER
REDIS
MySQL
CeleryWorker
CeleryWorker
CeleryWorker
CeleryWorker
Qual a arquitetura?
WEB
• Amazon AWS• Duas instâncias EC2 m3.large – 7.5GB RAM, 2vCPU, 6.5 ECU
• RDS MySQL• OpsWork + Chef • S3 para armazenamento de arquivos
estáticos• CloudWatch • Apenas um devops: eu.
Como é feito o deploy?
• Em média, 400 tweets / minuto
• Em 24h:– 150k posts– 5.5k links de conteúdo– 23k imagens– 3k videos
Qual o volume de dados processados?
• Em dia de jogo do Barça, Neymar recebe em média 150k menções.
• Quando o Corinthians foi campeão da Libertadores, foram 2MM de menções em 3 horas.
Algumas curiosidades
mgalves@gmail.com
Obrigado!
top related