estudo do comprimento de mensagens em fóruns online · i api bem documentada com comunidade ativa...

20
Estudo do comprimento de mensagens em oruns online Brian K. - 7161121 15 de dezembro de 2017

Upload: dinhkhanh

Post on 10-Dec-2018

212 views

Category:

Documents


0 download

TRANSCRIPT

Estudo do comprimento de mensagens emforuns online

Brian K. - 7161121

15 de dezembro de 2017

Sumario

MotivacaoO trabalho original

A distribuicao log-normal

O experimento

ResultadosErrataHistogramas

Agradecimentos

Motivacao

I Trabalhar com “grande” volume de dados.I Utilizar a internet como fonte de dados.I Introducao a distribuicao log-normal.

Sobkowicz et al. (2007)

I Lognormal distributions of user post lengths in Internetdiscussions - a consequence of the Weber-Fechner law?

I Trabalho com base em datasets dos foruns da BBC,Myspace e Youtube em ingles, e foruns poloneses.

I Comprimentos dos comentarios seguem uma distribuicaolog-normal.

I Hipotetizam que a forma log-normal esta associada com alei de Weber-Fechner atraves do tempo gasto escrevendo ocomentario a percepcao de seu comprimento pelo proprioautor.

Distribuicao log-normal

I Pode ser parametrizada com:

1xσ√

2πe−

12

(ln(x)−µ

σ

)2

(1)

I Se X segue uma distribuicao log-normal entaoln(X )∼N (µ,σ2)

I Obedece uma forma multiplicativa do TLC.

Distribuicao log-normal(cont.)

I Mas µ e σ2 nao sao a media e variancia da distribuicaolog-normal!

Moda Mediana Media Variancia

eµ−σ2eµ eµ+ σ2

2 (eσ2−1)e2µ+σ2

I Utilizada frequentemente em analise de riscos financeiros.

Procedimento

I Coleta de comentarios de foruns em diversas lınguashospedados no reddit.

I Limpeza de comentarios.I Ajuste a distribuicao log-normal utilizando MMV.I Analise resultados.

Reddit

I Agregador e plataforma de discussao.I 8º lugar no Alexa.I Abriga comunidades falantes de diversos idiomas ao redor

do globo.I API bem documentada com comunidade ativa de

desenvolvedores.

Reddit - Problemas

I Comunidade anglofona enorme e difusa.I Limites da API/servidores.I Bots.I Formatacao.

Dados coletados

I Pouco mais de 12 milhoes de comentarios processados emaproximadamente duas semanas.

I 28 subreddits em 16 idiomas completamente arquivados.

Resultados dos ajustes

Errata

Imagem da apresentacao original

Errata(cont.)

Discrepantes das demais comunidades ocidentais.

Errata(cont.)

I Alguns subreddits apenas parcialmente arquivados foramacidentalmente selecionados para analise.

I Para estes subs apenas a primeira postagem de cadadiscussao havia sido arquivada.

I Sobkowicz ja havia mostrado que as primeiras postagenstendem a ser mais longas que comentarios subsequentes.

I Exatamente o que aconteceu com os subs destacados.

Resultados - Graficos

Histogramas de alguns ajustes.

Principais subs Argentina e Brasil

Resultados - Graficos

Principais subs Austria e Alemanha

Resultados - Graficos

Principais subs japoneses, geral e notıcias

Resultados - Graficos

Principais subs, Estonia e Finlandia

Resultados(discussao)

I Os comentarios seguem uma log-normal de forma bastanteclara.

I Os parametros µ e σ das distribuicoes nao parecem refletirsimilaridades entre idiomas.

I De fato comunidades falantes do mesmo idioma podem terdistribuicoes com parametros extremamentediscrepantes(eg Argentina e Colombia)

I Ha a possibilidade de os parametros representarem bemdiferencas em sistemas de escrita(cf comunidadesjaponesas).

Agradecimentos

I A comunidade de desenvolvedores do Reddit.I Em particular ao /u/GoldenSights pelo auxılio e por

disponibilizar o timesearch.