data mining em redes sociais

Post on 19-Jun-2015

237 Views

Category:

Documents

4 Downloads

Preview:

Click to see full reader

DESCRIPTION

Análise de algumas ferramentas para data mining em redes sociais

TRANSCRIPT

Data mining em redes sociais

SigaSeuTime (BREAKING NEWS)

Uso de taxa de cliques por minuto em notícias enviadas

para o Twitter para determinar notícias

importantes / urgentes.

Primeiro experimento:

SigaSeuTime (BREAKING NEWS)

Aprendizado:O tempo de reação de

informações enviadas em redes sociais é muito rápido, e portanto permite análises

em tempo real bastante úteis.

Primeiro experimento:

Uso de streaming real time Twitter para determinar a

“temperatura” de torcedores de futebol em tempo real

Tuitômetro das torcidas

Segundo experimento:

Na (trágica) eliminação do Corinthians pelo Tolima,

capturamos5500 tweets / minuto

(e depois o servidor caiu…)

Tuitômetro das torcidas

Segundo experimento:

Aprendizado 1:O fenômeno de second

screen é real, e permite que se analise em tempo real a

opinião das pessoas em relação a eventos.

“IBOPE SOCIAL”

Tuitômetro das torcidas

Segundo experimento:

Aprendizado 2:O Streaming real time

gratuito do Twitter é uma fonte de informações

valiosíssima e muito rápida. 4MM tweets / dia

Tuitômetro das torcidas

Segundo experimento:

Experimento cujo objetivo é verificar se o valor de uma marca se reflete no buzz

online que ela gera.

http://mosttweetedbrands.com

Most Tweeted Brands

Terceiro experimento:

Em média, 2MM de Tweets / dia

A marca mais citada no Twitter é….O Facebook

Most Tweeted Brands

Terceiro experimento:

BrandMagz

Quarto experimento:

Revista digital que mede o pulso de uma marca /

celebridade / tema nas redes sociais

Quais as fontes de dados?APIs, APIs, APIs…

• Palavras chave

• Regras de exclusão

• Hints

Como os dados são coletados?

Detecção de lingua: • CLD (chromium compact language detector)• https://code.google.com/p/chromium-

compact-language-detector/

Wordcloud• NLTK (Natural Language Toolkit)• http://www.nltk.org/

Quais dados são extraídos?Texto

• 50% dos tweets geolocalizados–Minoria adiciona informação de lat/long

no tweet (-5%)– Análise de texto livre • Base de dados própria com nomes de

cidades em diversas linguas– 3744 nomes de cidades– 1900 nomes de países– 90 provincias

Quais dados são extraídos?Geolocalização

• Fotos– Instagram–Facebook–Twitter

• Video–Facebook–Vine–Youtube–Vimeo

Quais dados são extraídos?Mídia

• Links externos encontrados em posts são tratados separadamente

• Conteúdos de blogs e notícias são processados por algoritmo de “limpeza” de HTML– Heurísticas para extração do conteúdo que

realmente importa de uma página web– Fork próprio do readability-lxml

• https://github.com/mgalves/python-readability

Quais dados são extraídos?Links externos

Quais tecnologias são utilizadas?

Twitter

Youtube

Vimeo

Vine

Facebook

Instagram

CELERY BROKER

REDIS

MySQL

CeleryWorker

CeleryWorker

CeleryWorker

CeleryWorker

Qual a arquitetura?

WEB

• Amazon AWS• Duas instâncias EC2 m3.large – 7.5GB RAM, 2vCPU, 6.5 ECU

• RDS MySQL• OpsWork + Chef • S3 para armazenamento de arquivos

estáticos• CloudWatch • Apenas um devops: eu.

Como é feito o deploy?

• Em média, 400 tweets / minuto

• Em 24h:– 150k posts– 5.5k links de conteúdo– 23k imagens– 3k videos

Qual o volume de dados processados?

• Em dia de jogo do Barça, Neymar recebe em média 150k menções.

• Quando o Corinthians foi campeão da Libertadores, foram 2MM de menções em 3 horas.

Algumas curiosidades

mgalves@gmail.com

Obrigado!

top related