data mining em redes sociais

Data mining em redes sociais

SigaSeuTime (BREAKING NEWS)

Uso de taxa de cliques por minuto em notícias enviadas

para o Twitter para determinar notícias

importantes / urgentes.

Primeiro experimento:

SigaSeuTime (BREAKING NEWS)

Aprendizado:O tempo de reação de

informações enviadas em redes sociais é muito rápido, e portanto permite análises

em tempo real bastante úteis.

Primeiro experimento:

Uso de streaming real time Twitter para determinar a

“temperatura” de torcedores de futebol em tempo real

Tuitômetro das torcidas

Segundo experimento:

Na (trágica) eliminação do Corinthians pelo Tolima,

capturamos5500 tweets / minuto

(e depois o servidor caiu…)

Aprendizado 1:O fenômeno de second

screen é real, e permite que se analise em tempo real a

opinião das pessoas em relação a eventos.

“IBOPE SOCIAL”

Aprendizado 2:O Streaming real time

gratuito do Twitter é uma fonte de informações

valiosíssima e muito rápida. 4MM tweets / dia

Experimento cujo objetivo é verificar se o valor de uma marca se reflete no buzz

online que ela gera.

http://mosttweetedbrands.com

Most Tweeted Brands

Terceiro experimento:

Em média, 2MM de Tweets / dia

A marca mais citada no Twitter é….O Facebook

Most Tweeted Brands

Terceiro experimento:

BrandMagz

Quarto experimento:

Revista digital que mede o pulso de uma marca /

celebridade / tema nas redes sociais

Quais as fontes de dados?APIs, APIs, APIs…

• Palavras chave

• Regras de exclusão

• Hints

Como os dados são coletados?

Detecção de lingua: • CLD (chromium compact language detector)• https://code.google.com/p/chromium-

compact-language-detector/

Wordcloud• NLTK (Natural Language Toolkit)• http://www.nltk.org/

Quais dados são extraídos?Texto

• 50% dos tweets geolocalizados–Minoria adiciona informação de lat/long

no tweet (-5%)– Análise de texto livre • Base de dados própria com nomes de

cidades em diversas linguas– 3744 nomes de cidades– 1900 nomes de países– 90 provincias

Quais dados são extraídos?Geolocalização

• Fotos– Instagram–Facebook–Twitter

• Video–Facebook–Vine–Youtube–Vimeo

Quais dados são extraídos?Mídia

• Links externos encontrados em posts são tratados separadamente

• Conteúdos de blogs e notícias são processados por algoritmo de “limpeza” de HTML– Heurísticas para extração do conteúdo que

realmente importa de uma página web– Fork próprio do readability-lxml

• https://github.com/mgalves/python-readability

Quais dados são extraídos?Links externos

Quais tecnologias são utilizadas?

Twitter

Youtube

Facebook

Instagram

CELERY BROKER

CeleryWorker

Qual a arquitetura?

• Amazon AWS• Duas instâncias EC2 m3.large – 7.5GB RAM, 2vCPU, 6.5 ECU

• RDS MySQL• OpsWork + Chef • S3 para armazenamento de arquivos

estáticos• CloudWatch • Apenas um devops: eu.

Como é feito o deploy?

• Em média, 400 tweets / minuto

• Em 24h:– 150k posts– 5.5k links de conteúdo– 23k imagens– 3k videos

Qual o volume de dados processados?

• Em dia de jogo do Barça, Neymar recebe em média 150k menções.

• Quando o Corinthians foi campeão da Libertadores, foram 2MM de menções em 3 horas.

Algumas curiosidades

mgalves@gmail.com

Obrigado!

data mining em redes sociais

Documents

redes sociais - movimentos sociais

redes sociais prof. guilherme tomizawa. redes sociais redes...

data mining em redes sociais -...

nh consultoria data mining técnicas não supervisionadas...

redes sociais e redes digitais

redes neurais aplicado a data mining -...

redes sociais conheÇaa histÓriadas redes sociais · redes...

redes de arquivos /redes sociais

redes sociais

data mining em redes sociais -...

problemas sociais - redes sociais

tema 5 redes sociais...tema 5 redes sociais 9978...

ações sociais - redes sociais

sustentabilidade e redes sociais: certificados verdes pelas...