redes de sensoriamento participativo: desafios e...

50
Capítulo 6 Redes de Sensoriamento Participativo: Desafios e Oportunidades Thiago H. Silva, Pedro O. S. Vaz de Melo, João B. B. Neto, Anna I. J. T. Ribeiro, Clayson S. F. de S. Celes, Vinícius F. S. Mota, Felipe D. da Cunha, Ana P. G. Ferreira, Kássio L. da S. Machado, Raquel A. de F. Mini, Jussara M. Almeida e Antonio A. F. Loureiro Abstract The popularization of portable devices such as smartphones and tablets, as well as the worldwide adoption of social media sites makes it increasingly possible to be connected and share data from anywhere, anytime, enabling the participatory sensing. Systems that enable this new source of sensing are called participatory sensor networks (PSNs). In this scenario, people participate as social sensors voluntarily providing data that capture their experiences of daily life. This large amount of social data can provide new valuable forms to obtain information that are currently not available with the same global reach, which can be used to improve decision-making processes of different entities (eg, people, groups, services, applications). The objective of this short course is to discuss the main elements of participatory sensor networks, presenting an overview of the area, challenges and opportunities. We aim to show that PSNs (e.g., Instagram, Foursquare and Waze) can act as valuable sources for large scale sensing, providing access to important charac- teristics of city dynamics and urban social behavior, more quickly and comprehensively. This short course will discuss how to work with PSNs, analysing its properties and its usefulness in the development of more sophisticated applications in several areas. In ad- dition, we will discuss research challenges and opportunities in the particular domain of networks and distributed systems. Resumo A popularização de dispositivos portáteis, como smartphones e tablets, assim como a adoção mundial de sites de mídia social permitem cada vez mais a um usuário estar co- nectado e compartilhar dados de qualquer lugar, a qualquer momento, possibilitando o sensoriamento participativo. Sistemas que permitem essa nova fonte de sensoriamento

Upload: others

Post on 08-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

Capítulo

6

Redes de Sensoriamento Participativo:Desafios e Oportunidades

Thiago H. Silva, Pedro O. S. Vaz de Melo, João B. B. Neto, Anna I. J. T.Ribeiro, Clayson S. F. de S. Celes, Vinícius F. S. Mota, Felipe D. da Cunha,Ana P. G. Ferreira, Kássio L. da S. Machado, Raquel A. de F. Mini, JussaraM. Almeida e Antonio A. F. Loureiro

Abstract

The popularization of portable devices such as smartphones and tablets, as well as the

worldwide adoption of social media sites makes it increasingly possible to be connected

and share data from anywhere, anytime, enabling the participatory sensing. Systems that

enable this new source of sensing are called participatory sensor networks (PSNs). In

this scenario, people participate as social sensors voluntarily providing data that capture

their experiences of daily life. This large amount of social data can provide new valuable

forms to obtain information that are currently not available with the same global reach,

which can be used to improve decision-making processes of different entities (eg, people,

groups, services, applications). The objective of this short course is to discuss the main

elements of participatory sensor networks, presenting an overview of the area, challenges

and opportunities. We aim to show that PSNs (e.g., Instagram, Foursquare and Waze)

can act as valuable sources for large scale sensing, providing access to important charac-

teristics of city dynamics and urban social behavior, more quickly and comprehensively.

This short course will discuss how to work with PSNs, analysing its properties and its

usefulness in the development of more sophisticated applications in several areas. In ad-

dition, we will discuss research challenges and opportunities in the particular domain of

networks and distributed systems.

Resumo

A popularização de dispositivos portáteis, como smartphones e tablets, assim como a

adoção mundial de sites de mídia social permitem cada vez mais a um usuário estar co-

nectado e compartilhar dados de qualquer lugar, a qualquer momento, possibilitando o

sensoriamento participativo. Sistemas que permitem essa nova fonte de sensoriamento

Page 2: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

são chamados de redes de sensoriamento participativo (RSPs). Nesse cenário, as pes-

soas participam como sensores sociais, fornecendo dados voluntariamente que capturam

as suas experiências de vida diária. Essa grande quantidade de dados sociais facilita a

obtenção de informações que não estão disponíveis prontamente com a mesma abrangên-

cia praticamente global, podendo ser usadas para melhorar os processos de tomada de

decisão de diferentes entidades (e.g., pessoas, grupos, serviços, aplicações). O objetivo

deste minicurso é discutir os principais elementos das redes de sensoriamento participa-

tivo, apresentando uma visão geral da área, desafios e oportunidades. Visamos mostrar

que as RSPs (e.g., Instagram, Foursquare, e Waze) podem atuar como valiosas fontes de

sensoriamento em larga escala, proporcionando acesso a características importantes da

dinâmica de cidades e do comportamento social urbano, de forma rápida e abrangente.

Este minicurso discutirá como trabalhar com RSPs, analisando as suas propriedades e

a sua utilidade no desenvolvimento de aplicações mais sofisticadas em diversas áreas.

Além disso, discutiremos os desafios e as oportunidades de pesquisa no domínio de redes

de computadores e sistemas distribuídos.

6.1. Introdução

O estudo de redes de sensoriamento participativo (RSPs) é um tema recente de pesquisaque tem se mostrado bastante útil para o entendimento da dinâmica de cidades e do com-portamento social urbano [Silva et al. 2014a]. Redes de sensoriamento participativo per-mitem a observação das ações de pessoas em larga escala e em (quase) tempo real durantelongos períodos de tempo. As RSPs têm o potencial de se tornar uma ferramenta funda-mental para compreender melhor a interação entre as pessoas e os ambientes populadospor elas. A mineração de dados de RSPs pode aumentar significativamente o nosso co-nhecimento sobre diferentes aspectos de nossas vidas, o que pode ser bastante útil nodesenvolvimento de aplicações mais sofisticadas em diversos segmentos como, por exem-plo, na área de sistemas distribuídos.

Além disso, as RSPs têm o potencial para complementar as tradicionais redes desensores sem fio (RSSFs) [Loureiro et al. 2003] em diversos aspectos. Enquanto as RS-SFs foram projetadas para sensoriar áreas de tamanho limitado, como florestas e vulcões,as RSPs podem alcançar áreas de tamanhos variados e de larga escala, como grandesmetrópoles, países ou até mesmo todo o planeta [Silva et al. 2014a]. Além disso, umaRSSF está sujeita a falhas, uma vez que o seu funcionamento depende da correta co-ordenação das ações dos seus nós sensores, que possuem severas restrições de energia,processamento e memória. Por outro lado, RSPs são formadas por entidades autônomase independentes, ou seja, os seres humanos com seus dispositivos móveis. Isso torna atarefa de sensoriamento altamente resiliente a falhas individuais.

Assim, o objetivo deste minicurso é discutir as redes de sensoriamento participa-tivo, apresentando uma visão geral da área, desafios e oportunidades. Visamos mostrarque as RSPs (e.g., Instagram1, Foursquare2, e Waze3) podem atuar como valiosas fontespara sensoriamento em larga escala, proporcionando acesso a características importantes

1http://www.instagram.com2http://www.foursquare.com3http://www.waze.com

Page 3: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

da dinâmica de cidades e do comportamento social urbano, de forma rápida e abrangente.Este trabalho discute como trabalhar com RSPs, analisando as suas propriedades e a suautilidade no desenvolvimento de aplicações mais sofisticadas em diversas áreas como, porexemplo, em sistemas distribuídos. Além disso, discutimos os desafios e as oportunida-des de pesquisa nas grandes áreas do Simpósio Brasileiro de Redes de Computadores eSistemas Distribuídos (SBRC).

O restante deste trabalho está organizado da seguinte forma. A Seção 6.2 discuteo emergente conceito de redes de sensoriamento participativo. A Seção 6.3 apresentaas propriedades de RSPs estudadas sobre diversos sistemas. A Seção 6.4 discute comotrabalhar com RSPs, incluindo a obtenção de dados. Ela também apresenta exemplos deabordagens já realizadas para extrair e gerar informações contextuais a partir de dadosde redes de sensoriamento participativo. A Seção 6.5 apresenta os desafios e as oportuni-dades para diversos tópicos de pesquisa atuais relacionados com redes de sensoriamentoparticipativo. Finalmente, a Seção 6.6 apresenta as conclusões e os trabalhos futuros.

6.2. Redes de Sensoriamento Participativo

Esta seção descreve as redes de sensoriamento participativo (RSPs) [Silva et al. 2014a,Burke et al. 2006]. A Seção 6.2.1 apresenta a definição de uma RSP. A Seção 6.2.2 dis-cute o funcionamento de uma RSP, enquanto a Seção 6.2.3 ilustra exemplos de RSPs.

6.2.1. O que é uma rede de sensoriamento participativo?

O sensoriamento participativo pode ser definido como um processo distribuído de coletade dados pessoais. Tal processo requer a participação ativa das pessoas para comparti-lhar voluntariamente informação contextual e/ou tornar seus dados sensoriados disponí-veis [Burke et al. 2006]. Ou seja, o usuário determina manualmente como, quando, oquê e aonde amostrar. Assim, através das RSPs, é possível monitorar o comportamentocoletivo de pessoas conectadas à Internet em tempo (quase) real.

As RSPs têm se tornado populares graças ao aumento do uso de dispositivosportáteis, como smartphones e tablets, assim como a adoção mundial de sites de mí-dia social. Com isso, um elemento central de uma rede de sensoriamento participativoé um usuário capaz de sensoriar a cidade com um dispositivo computacional portátil.Nesse cenário, as pessoas participam como sensores sociais, fornecendo dados volun-tariamente sobre um determinado aspecto de um local, que implicitamente capturam assuas experiências de vida diária. Esses dados podem ser obtidos com a ajuda de dis-positivos de sensoriamento, por exemplo, sensores incorporados em smartphones (GPS,acelerômetro, microfone, e outros) ou por meio de sensores humanos (por exemplo, vi-são). Neste último caso os dados são observações subjetivas produzidas pelos usuá-rios [Silva et al. 2014a, Burke et al. 2006].

As RSPs oferecem oportunidades sem precedentes de acesso a dados de senso-riamento em escala planetária. Essa grande quantidade de dados facilita a obtenção deinformações que não estão disponíveis prontamente com a mesma abrangência pratica-mente global, podendo ser usadas para melhorar os processos de tomada de decisão dediferentes entidades (e.g., pessoas, grupos, serviços, aplicações).

Page 4: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

Vale ressaltar que vários termos definidos recentemente, por exemplo, Humans as

Data Sources e Ubiquitous Crowdsourcing, refletem basicamente a definição de redes desensoriamento participativo [Srivastava et al. 2012, Mashhadi and Capra 2011, Ganti et al. 2011].É importante também mencionar que o termo sensoriamento oportunista [Lane et al. 2010],que denomina uma forma de sensoriamento que também utiliza dispositivos móveis dosusuários no processo de sensoriamento, pode gerar confusão com o termo sensoriamentoparticipativo. O sensoriamento participativo difere de sensoriamento oportunista, princi-palmente, pela participação do usuário, onde, neste último tipo, a etapa de coleta de dadosé automatizada, sem a participação do usuário [Lane et al. 2010].

6.2.2. O funcionamento de uma RSP

De forma similar às tradicionais redes de sensores sem fio (RSSFs) [Loureiro et al. 2003],o dado sensoriado em uma RSP é enviado para o servidor, ou “nó sorvedouro”, onde osdados podem ser acessados (usando, por exemplo, APIs, como a API do Instagram4). Mas,diferentemente das RSSFs, RSPs têm as seguintes características: (a) nós são entidadesmóveis autônomas, ou seja, uma pessoa com um dispositivo móvel; (b) o custo da rede édistribuído entre os nós, proporcionando uma escalabilidade global; (c) o sensoriamentodepende da vontade das pessoas participarem no processo de sensoriamento; (d) nós nãosofrem de severas limitações de energia.

Assim, as RSPs têm o potencial para complementar as RSSFs em diversos aspec-tos. As tradicionais redes de sensores sem fio foram projetadas para sensoriar áreas detamanho limitado, como florestas e vulcões. Em contrapartida, as RSPs podem alcançaráreas de tamanhos variados e de larga escala, como grandes metrópoles, países ou atémesmo todo o planeta [Silva et al. 2014a]. Além disso, uma RSSF está sujeita a falhas,uma vez que o seu funcionamento depende da correta coordenação das ações dos seusnós sensores, que possuem severas restrições de energia, processamento e memória. Já asRSPs são formadas por entidades autônomas e independentes, os seres humanos, o quetorna a tarefa de sensoriamento mais resiliente a falhas individuais. Obviamente, RSPstrazem também vários novos desafios, por exemplo, o seu sucesso está diretamente ligadoà popularização dos smartphones e serviços de mídia social.

A Figura 6.1 ilustra uma RSP constituída de usuários com seus dispositivos mó-veis enviando dados sensoriados sobre suas localizações para sistemas Web. A figuramostra as atividades de compartilhamento (representados por pontos vermelhos) de qua-tro usuários em três instantes diferentes no tempo, rotulados como “Tempo 1”, “Tempo2” e “Tempo 3”. Note que um usuário não participa necessariamente no sistema em todosos instantes. Após um certo tempo, podemos analisar estes dados de diferentes manei-ras. Por exemplo, a parte inferior mais à direita da figura mostra, por meio de uma visãoagregada, um grafo dirigido em que os nós representam os locais onde os dados foramcompartilhados e com arestas que conectam localidades que foram compartilhadas pelomesmo usuário. Usando este grafo podemos extrair, por exemplo, padrões de mobilidadedos usuários, que podem ser utilizados para efetuar um gerenciamento de carga de formamais eficiente na infraestrutura urbana de redes sem fio. Na verdade, a descoberta de co-nhecimento em RSPs caminha junto com uma vasta gama de estudos que utilizam a teoria

4http://instagram.com/developer.

Page 5: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

Figura 6.1. Ilustração de uma rede de sensoriamento participativo [Silva et al. 2014a].

dos grafos para análise de redes sociais [Scott and Carrington 2011].

Os principais componentes deste tipo emergente de rede são ilustrados na Fi-gura 6.2. Esta figura destaca os três componentes mais importantes: (i) sensoriamentoparticipativo; (ii) gerenciamento de grandes amostras de dados; e (iii) análise de informa-ção contextual. O componente “sensoriamento participativo” representa, como o próprionome sugere, o processo de coleta de dados das pessoas por participação voluntária. Ocomponente “gerenciamento de grandes amostras de dados” é responsável pelo gerenci-amento de dados. Como podemos ver, o processo de coleta de dados pode ser repetido,por exemplo, para obter dados redundantes ou complementares do mesmo ou de outrossistemas. Depois disso, os dados coletados precisam ser processados para serem armaze-nados. Como a quantidade de dados provenientes de RSPs pode ser muito grande, todosos componentes precisam ser cuidadosamente projetados, principalmente se o objetivo éobter informações em tempo (quase) real sobre a cidade. Uma discussão mais detalhadade alguns dos desafios é apresentada na Seção 6.5.

Após a etapa de gerenciamento de dados, os dados estão prontos para serem ana-lisados. O componente “análise de informação contextual” ilustra cinco tipos de análisesque podem ser realizadas: (1) padrões sociais; (2) mobilidade; (3) entendendo cidades;(4) comportamento humano; e (5) detecção de eventos. Todos esses exemplos de análisessão discutidos na Seção 6.4.

6.2.3. Exemplos de RSPs

As redes sociais baseadas em localização, que são um tipo especial de mídia social quecombinam características de rede social online5 e serviços baseados em localização, sãoos exemplos mais populares de sistemas que podem fornecer dados às RSPs. É possívelencontrar vários exemplos de tais sistemas em funcionamento, tais como o Waze, queserve para relatar condições de tráfego em tempo real, o Foursquare, para compartilhar olocal onde o usuário está visitando, ou o Instagram, para enviar imagens em tempo real

5Plataforma virtual que constroe e reflete as relações sociais da vida real entre as pessoas.

Page 6: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

Figura 6.2. Visão geral dos componentes de uma rede de sensoriamento partici-pativo [Silva et al. 2013a].

para o sistema. Em particular, o Instagram pode ser visto como uma das mais popula-res RSPs atualmente, com 200 milhões de usuários [Instagram 2014]. Considerando, porexemplo, o Instagram, o dado sensoriado é uma foto de um lugar específico. Podemosextrair informação desse tipo de dado de diversas maneiras. Uma das possibilidades évisualizar em tempo real como está a situação de uma certa área da cidade. Outras possi-bilidades são discutidas na Seção 6.4.

Note que todos os sistemas descritos anteriormente são compostos de uma redesocial online. No entanto, existem vários exemplos de RSPs que não contêm redes so-ciais. Por exemplo, o Weddar6, para relatar condições meteorológicas ou o NoiseTube7,para o compartilhamento de nível de barulho em determinada região da cidade. Alémdesses exemplos, podemos também citar o GarbageWatch [CENS/UCLA ], para monito-rar aspectos do lixo de uma cidade, e o DietSense [Reddy et al. 2007], para monitoraralimentos ingeridos pelos usuários através de fotografias dos alimentos tiradas durante asrefeições. Repare ainda que a utilização da Web também não é mandatória em uma RSP.Os dados sensoriados podem ser enviados para uma aplicação específica que esteja forada Web.

6.3. Propriedades de RSPs

Muitas perguntas surgem a partir do conceito emergente de redes de sensoriamento par-ticipativo. Quais são as propriedades de RSPs? Quais os tipos de aplicações em quepodemos utilizar dados de RSPs? Quais são as limitações de RSPs?

Como os dados fornecidos por RSPs podem ser muito complexos, um passo fun-damental em qualquer investigação é caracterizar os dados coletados, a fim de entendersuas limitações e utilidade. Com isso, nesta seção vamos estudar as propriedades de trêsRSPs para compartilhamento de localização, a saber, Foursquare, Gowalla e Brightkite8,uma RSP para compartilhamento de fotos, particularmente o Instagram, bem como umaRSP para compartilhamento de alerta de trânsito (Waze).

6http://www.weddar.com7http://noisetube.net8As RSPs para compartilhamento de localização Gowalla e Brightkite não estão mais em funciona-

mento.

Page 7: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

Tabela 6.1. Descrição dos datasets utilizados.

Serviços de compartilhamento de localização

Sistema # check-ins IntervaloFoursquare1 ≈5 milhões abril de 2012 (1 semana)Foursquare2 ≈12 milhões fev2010-jan2011Foursquare3 ≈4 milhões maio de 2013 (2 semanas)

Gowalla ≈6 milhões fev2009-out2010Brightkite ≈4 milhões abr2008-out2010

Serviços de compartilhamento de fotos

Sistema # fotos IntervaloInstagram1 ≈2 milhões jun2012-jul2012Instagram2 ≈2 milhões maio 2013 (2 semanas)

Serviços de alertas de trânsito

Sistema # alertas IntervaloWaze +212 mil dez2012-jun2013

Primeiramente, a Seção 6.3.1 descreve os datasets das RSPs usados neste mini-curso. Em seguida, a Seção 6.3.2 analisa a cobertura dessas RSPs em diferentes granu-laridades espaciais. A Seção 6.3.3 discute a frequência de sensoriamento em que os nóscompartilham dados em regiões individuais do nosso dataset. A Seção 6.3.4 discute asazonalidade no processo de sensoriamento. Finalmente a Seção 6.3.5 estuda o compor-tamento dos nós das RSPs.

6.3.1. Descrição dos Dados

A Tabela 6.1 apresenta todos os datasets aqui considerados. Todos os dados foram cole-tados através do Twitter9, que é um serviço de microblogging, ou seja, ele permite queos seus usuários enviem e recebam atualizações pessoais de outros contatos em textosde até 140 caracteres, conhecidos como “tweets”. Além de tweets de texto simples, osusuários também podem compartilhar fotos a partir de uma integração com o Instagram,Foursquare ou Waze. Neste caso, fotos do Instagram, check-ins do Foursquare ou alertasdo Waze anunciadas no Twitter passam a ficar disponíveis publicamente, o que por pa-drão não acontece quando o dado é publicado unicamente nos sistemas analisados. Comopodemos ver na Tabela 6.1, os dados refletem diferentes períodos. Além disso, os data-sets incluem uma quantia bastante significativa de dados: mais de 25 milhões de registrosconsiderando todas as fontes.

Cada dado sensoriado (foto, check-in ou alerta) é composto de coordenadas GPS(latitude e longitude), o horário do compartilhamento do dado e o id do usuário comparti-lhador. O dataset Foursquare1 possui informações extras sobre o tipo de local: categoria(por exemplo, comida) e um identificador do local. Mais informações sobre os datasets ecomo eles foram obtidos podem ser encontradas em [Cheng et al. 2011, Silva et al. 2012,Silva et al. 2013c, Silva et al. 2013d, Silva et al. 2013e].

6.3.2. Cobertura da Rede

Nesta seção, analisamos a cobertura das RSPs analisadas em diferentes granularidadesespaciais, começando por todo o planeta, depois cidades e, por fim, áreas específicas deuma cidade. A Figura 6.3 mostra a cobertura no planeta de RSPs distintas: Foursquare

9http://www.twitter.com

Page 8: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

Longitude

Latit

ude

−100 0 100

−50

0

50

0

5

10

φ

(a) Foursquare1

Longitude

Latit

ude

−100 0 100

−50

0

50

0

5

10

φ

(b) Gowalla

Longitude

Latit

ude

−100 0 100

−50

0

50

0

5

10

φ

(c) Brightkite

Longitude

La

titu

de

−100 0 100

−50

0

50

0

5

10

φ

(d) Instagram1

Longitude

Latit

ude

−100 0 100

−50

0

50

0

2

4

6

8

10

φ

(e) Waze

Figura 6.3. Cobertura de RSPs. Número de dados n por pixel indicado pelo valorde φ mostrado na figura, em que n = 2φ − 1 [Silva et al. 2013b, Silva et al. 2013e].

(dataset Foursquare1, Figura 6.3a), Gowalla (Figura 6.3b), Brightkite (Figura 6.3c); Ins-tagram (dataset Instagram1, Figura 6.3d); e Waze (Figura 6.3e). Os dados dessas figurasrepresentam dados na forma de um mapa de calor da participação dos usuários: coresmais escuras representam um maior número de dados compartilhados em determinadaárea. Como podemos ver, a cobertura é bastante abrangente e tem escala planetária.

Avaliamos agora a participação dos usuários em diversas cidades grandes locali-zadas em regiões distintas, mas mostramos os resultados para algumas delas: Nova York,Rio de Janeiro e Cairo. A figura 6.4 mostra o mapa de calor da atividade de sensori-amento para cada uma dessas cidades. Mais uma vez, cores mais escuras representamum maior número de fotos em determinada área. Observamos uma alta cobertura paraalgumas cidades, como mostrado nas Figuras 6.4a e 6.4d (Nova York). No entanto, comopodemos observar nas Figuras 6.4b e 6.4e, o sensoriamento no Cairo, que também possuium número elevado de habitantes, é significativamente mais baixo. Tamanha diferençana cobertura pode ser explicada por diversos fatores. Além dos aspectos econômicos,diferenças na cultura dos habitantes desta cidade quando comparadas com as culturas pre-sentes nas outras cidades estudadas podem ter um impacto significativo na adoção e usodesses sistemas considerados [Barth 1969].

Além disso, pode-se observar que a cobertura em algumas cidades, como no Riode Janeiro (Figuras 6.4c e 6.4f), é bem mais heterogênea quando comparada com a co-bertura de Nova York. Isto ocorre provavelmente por causa dos aspectos geográficos par-ticulares dessas cidades, ou seja, grandes áreas verdes e grandes porções d’água. O Riode Janeiro tem a maior floresta urbana do mundo, localizada no meio da cidade, além demuitas colinas de difícil acesso humano. Estes aspectos geográficos limitam a coberturado sensoriamento. Além disso, os pontos de interesse público, tais como pontos turísticos

Page 9: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

(a) Nova Iorque - Foursquare (b) Cairo - Foursquare (c) Rio de Janeiro - Foursquare

(d) Nova Iorque - Instagram (e) Cairo - Instagram (f) Rio de Janeiro - Instagram

Figura 6.4. Cobertura espacial da RSP do Foursquare e Instagram em 3 cidadespopulosas ao redor do mundo [Silva et al. 2013b, Silva et al. 2013c].

Figura 6.5. Cobertura espacial da RSP para compartilhamento de alerta de trân-sito no Rio de Janeiro [Silva et al. 2013e].

e centros comerciais, são distribuídos de forma desigual pela cidade. Há grandes áreas re-sidenciais com poucos pontos desse tipo, enquanto outras áreas têm grande concentraçãodesses pontos.

A cobertura espacial dos dados da RSP para alertas de trânsito não é tão abran-gente como das RSPs para compartilhamento de localização e de foto. Isso pode serobservado na Figura 6.5, que mostra o número de alertas em diferentes regiões do Rio deJaneiro por um mapa de calor. Um fator que pode ajudar a explicar isso é a populaçãode usuários do dataset de alertas de trânsito, que é menor do que os outros estudados.Outro fator é que os usuários podem ter menos oportunidades para compartilhar alertasde trânsito em comparação com oportunidades para compartilhar fotos ou check-ins.

Como a atividade de participação pode ser bastante heterogênea dentro de uma ci-dade, analisamos a cobertura de RSPs em áreas específicas de uma cidade. Para ter um idde uma área específica da cidade para os datasets do Instagram e Waze, propomos dividir

Page 10: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

(a) Foursquare (b) Instagram (c) Waze

Figura 6.6. Distribuição do número de dados em áreas específicas (escala log-log) [Silva et al. 2013b, Silva et al. 2013b, Silva et al. 2013e].

a área das cidades em espaços retangulares menores, como em uma grade10. Chamare-mos cada área retangular de uma área específica dentro de uma cidade. Consideramosque uma área específica possui a seguinte delimitação: 1·10−4◦ (latitude) × 1·10−4◦ (lon-gitude). Isso representa uma área de aproximadamente 8×11 metros em Nova Iorque e10×11 metros no Rio de Janeiro. Para outras cidades, as áreas também podem variar umpouco, mas não a ponto de afetar significativamente as análises realizadas.

A Figura 6.6 apresenta a função de distribuição acumulada complementar (com-

plementary cumulative distribution function - CCDF) do número de dados compartilha-dos (check-ins, fotos ou alertas) por área específica de todas as localidades em nossosdatasets. Primeiramente, observe que, em ambos os casos, uma lei de potência11 des-creve bem esta distribuição. Isso implica que, na maioria das áreas específicas, há pou-cos dados compartilhados, enquanto existem algumas poucas áreas com centenas de da-dos compartilhados. Estes resultados estão consistentes com os resultados apresentadosem [Noulas et al. 2011], trabalho que estudou a participação de usuários em sistemas decompartilhamento de localização. Nos sistemas analisados, é natural que algumas áreaspossuam mais atividade que outras. Por exemplo, em áreas turísticas o número de fotoscompartilhadas tende a ser maior do que em um supermercado, apesar de um supermer-cado ser geralmente um local bastante popular. Se uma determinada aplicação requer umacobertura mais abrangente, é necessário incentivar os usuários a participarem em locaisque eles usualmente não o fariam. Micro-pagamentos ou sistemas de pontuação são exem-plos de alternativas que poderiam funcionar nesse caso. Discutimos essas oportunidadesna Seção 6.5.3.

Mostramos que uma RSP pode ter uma cobertura em escala planetária. No entanto,essa cobertura pode ser bastante desigual, em que grandes áreas ficam praticamente des-cobertas. Com isso em mente, a Figura 6.7 mostra a percentagem de locais distintos ondeos usuários compartilharam dados em um determinado intervalo de tempo no Instagram eFoursquare12, que possuem 598.397 e 725.419 locais, respectivamente. O percentual má-ximo de locais distintos compartilhados por hora é inferior a 3% para todos os sistemas.

10Note que nas áreas selecionadas não são consideradas fronteiras.11Matematicamente, uma quantidade x segue uma lei de potência se ela pode ser obtida de uma distribui-

ção de probabilidade p(x)∝ x−α , onde α é um parâmetro constante conhecido como expoente ou parâmetroescalar, e é um valor tipicamente entre 2 < α < 3 [Clauset et al. 2009].

12Consideramos os datasets Instagram2 e Foursquare3, pois representam o mesmo intervalo de tempo.

Page 11: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

0 100 200 3000

1

2

3

4

Tempo (horas)

% d

e lo

calid

. sen

so.

FoursquareInstagram

Figura 6.7. Porcentagem de áreas específicas sensoriadas ao longo dotempo [Silva et al. 2014a].

100

1050

0.5

1

Dt (min)

P [

x >

X]

(a) Instagram

Figura 6.8. Distribuição acumulada do intervalo de tempo entre compartilhamen-tos de fotos em uma área específica popular [Silva et al. 2013c].

Isto indica que a cobertura instantânea destas RSPs é muito limitada quando considera-mos todas as localidades que poderiam ser sensoriadas no planeta (considerando todas aslocalidades já sensoriadas pelo menos uma vez). Em outras palavras, a probabilidade deuma área específica aleatória ser sensoriada em um horário aleatório é bem baixa.

6.3.3. Intervalo de Sensoriamento

As RSPs são bastante escaláveis porque seus nós são autônomos, ou seja, os usuários sãoresponsáveis pela sua própria operação e funcionamento. Como o custo da infraestrutura édistribuído entre os participantes, esta enorme escalabilidade e cobertura é alcançada maisfacilmente. O sucesso desse tipo de rede consiste em ter participação sustentável e de altaqualidade. Em outras palavras, o sensoriamento é eficiente desde que os usuários sejammantidos motivados a compartilharem seus recursos e dados sensoriados frequentemente.

Isso motiva o estudo da frequência com que usuários realizam o compartilhamentode dados em RSPs. Em [Silva et al. 2013c, Silva et al. 2013e, Silva et al. 2013b] mostra-mos que há momentos em que muitos dados são compartilhados em intervalos de poucosminutos e momentos em que não há compartilhamento por horas. Isso pode indicar quea maioria do compartilhamento de dados acontece em intervalos específicos, provavel-mente relacionados ao ciclo circadiano (ou rotina) das pessoas . Por exemplo, o comparti-lhamento de fotos em restaurantes tende a acontecer mais nos horários de almoço e jantar.Aplicações baseadas nesse tipo de sensoriamento devem considerar que a participação dousuário pode variar significativamente ao longo do tempo.

A Figura 6.8 mostra a função de distribuição acumulada (cumulative distribution

Page 12: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

function - CDF) do intervalo entre fotos compartilhadas pelo mesmo usuário em um qua-drante popular. Podemos observar que uma fatia significativa dos usuários realiza com-partilhamento consecutivo de fotos em um curto intervalo de tempo. Por exemplo, cercade 20% de todo o compartilhamento de fotos observado acontece em até 10 minutos. Issosugere que os usuários tendem a compartilhar mais de uma foto na mesma área. Noulas etal. [Noulas et al. 2011] também observaram que uma parcela significativa dos check-ins

no Foursquare são realizados dentro de um curto intervalo de tempo. Por exemplo, maisdo que 10% de check-ins ocorrem dentro de 10 minutos.

6.3.4. Rotinas e o Compartilhamento de Dados

Analisamos agora como a rotina dos humanos afeta o compartilhamento dos dados. AFigura 6.9 mostra o padrão semanal de compartilhamento de dados em todos os tipos deRSPs analisadas13. Como esperado, os dados compartilhados nas RSPs apresentam umpadrão diurno, o que implica que durante a madrugada a atividade de sensoriamento ébastante baixa.

Considerando dias de semana, é possível observar um ligeiro aumento da atividadeao longo da semana, com poucas exceções quando há um pico de atividade. O trabalhode Cheng et al. [Cheng et al. 2011], que analisou sistemas para compartilhamento de lo-calização, foi observado esse mesmo comportamento, sem nenhum dia como exceção.

Podemos ainda observar que alguns picos de atividade variam ao longo do dia deacordo com o propósito da RSP. Como podemos ver na Figura 6.9, na RSP para com-partilhamento de localizações (Figuras 6.9a–c) existem três picos evidentes por voltada hora do café da manhã, almoço e jantar. Isso também foi observado por Cheng etal. [Cheng et al. 2011]. Já na RSP para compartilhamento de fotos (Figura 6.9d) existemapenas dois picos evidentes, que ocorrem por volta da hora do almoço e jantar. E no casoda RSP para compartilhamento de alertas de trânsito (Figura 6.9e) também existem doispicos evidentes, um por volta de 7:00 e 8:00 da manhã e outro por volta de 6:00 da tarde,coincidindo com horários típicos de maior intensidade no trânsito.

Analisando os diferentes padrões de comportamento para dias de semana e finalde semana podemos observar que o padrão é significativamente diferente. Note que ospicos observados nos dias de semana não são evidentes nos finais de semana. A falta derotina bem definida nos fins de semana é uma das possíveis explicações para esse fato.Além disso, as diferenças entre dias de semana e final de semana possuem relação como tipo de sistema analisado. Por exemplo, como nos fins de semana muitas pessoas nãoprecisam dirigir, é natural esperar um volume menor de dados no Waze.

A Figura 6.10 mostra o padrão temporal de compartilhamento para o Instagram eo Foursquare considerando todos os datasets. Essa figura apresenta o número médio dedados compartilhados por hora durante, durante os dias de semana (de segunda a sexta-feira) e também durante o fim de semana (sábado e domingo). Surpreendentemente, ve-mos o mesmo padrão de compartilhamento para cada curva cé muito semelhante, apesardo enorme intervalo entre as coletas (aproximadamente um ano). Isso acontece para osdias de semana e fins de semana, sugerindo que o comportamento do usuário em ambos

13O horário do compartilhamento foi normalizado de acordo com o local onde o dado foi compartilhado,utilizando para isso a informação geográfica do local.

Page 13: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

Seg Ter Qua Qui Sex Sab Dom0

5

10

15x 104

Tempo (dias)

Freq

. de

sens

oria

men

to

(a) Foursquare

Seg Ter Qua Qui Sex Sab Dom0

2

4

6

8

10x 104

Tempo (dias)

Freq

. de

sens

oria

men

to

(b) Gowalla

Seg Ter Qua Qui Sex Sab Dom0

1

2

3

4

5x 104

Tempo (dias)

Freq

. de

sens

oria

men

to

(c) Brightkite

seg ter qua qui sex sab dom0

1

2

3x 104

Tempo (dias)

Fre

q.

de

se

nso

ria

me

nto

(d) Instagram

Seg Ter Qua Qui Sex Sab Dom0

500

1000

1500

2000

2500

3000

3500

Tempo (dias)

Fre

q. d

e se

nsor

iam

ento

(e) Waze

Figura 6.9. Padrão do compartilhamento de fotos durante os dias da se-mana [Silva et al. 2013b, Silva et al. 2013c, Silva et al. 2013e].

2 4 6 8 10 12 14 16 18 20 220

0.2

0.4

0.6

0.8

1

Tempo (horas)

# de

foto

s

Instagram 2Instagram 1

(a) Instagram – dia desemana

2 4 6 8 10 12 14 16 18 20 220

0.2

0.4

0.6

0.8

1

Tempo (hours)

# de

foto

s

Instagram 3Instagram 1

(b) Instagram – fim desemana

2 4 6 8 10 12 14 16 18 20 220

0.2

0.4

0.6

0.8

1

Tempo (hours)

# de

che

ck−

ins

Foursquare 3Foursquare 1

(c) Foursquare – dia desemana

2 4 6 8 10 12 14 16 18 20 220

0.2

0.4

0.6

0.8

1

Tempo (hours)

# de

che

ck−

ins

Foursquare 3Foursquare 1

(d) Foursquare – fim desemana

Figura 6.10. Padrão de compartilhamento temporal no Instagram e Fours-quare [Silva et al. 2013d].

os sistemas tende a se manter consistente ao longo do tempo. Esse é um resultado inte-ressante e importante, pois mostra que podemos usar diferentes datasets para propósitossimilares.

Mostramos agora como as rotinas impactam no comportamento de compartilha-mento durante a semana. Para essa análise, consideramos os datasets do Instagram eFoursquare para Nova York, São Paulo e Tóquio. Os resultados são mostrados na Fi-gura 6.1114. Em todas as figuras nós exibimos dados dos datasets do mesmo período(Instagram2 e Foursquare3) para duas cidades do mesmo país, e dados de um dataset

com período anterior (Instagram1 e Foursquare1) para uma dessas cidades, como umareferência de comparação.

Primeiramente, observe a distinção entre as curvas de cada cidade no mesmo sis-

14Cada curva é normalizada pelo número máximo de conteúdo compartilhado em uma região específicarepresentando a cidade.

Page 14: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

tema (por exemplo, Instagram, Figuras 6.11a, c, e) e também em diferentes sistemas (porexemplo, as Figuras 6.11a e 6.11b para Nova Iorque). Em seguida, observe que o padrãode compartilhamento para cada cidade no mesmo país é bastante semelhante, o que podeser consequência dos padrões culturais dos habitantes desses países. Isso representa, decerta maneira, uma assinatura de aspectos culturais, o que ilustra, mais uma vez, o poten-cial desse tipo de dado para o estudo de dinâmica de cidades e do comportamento socialurbano.

2 4 6 8 10 12 14 16 18 20 220

0.2

0.4

0.6

0.8

1

Tempo (horas)

# de

foto

s

NY instagram 2Chicago inst. 2NY instagram 1

(a) Nova Iorque – Instagram

2 4 6 8 10 12 14 16 18 20 220

0.2

0.4

0.6

0.8

1

Tempo (horas)

# de

che

ck−

ins

NY 4sq 3Chicago 4sq 3NY 4sq 1

(b) Nova Iorque – Foursquare

2 4 6 8 10 12 14 16 18 20 220

0.2

0.4

0.6

0.8

1

Tempo (horas)

# de

foto

s

SP instagram 2Rio instagram 2SP instagram 1

(c) São Paulo – Instagram

2 4 6 8 10 12 14 16 18 20 220

0.2

0.4

0.6

0.8

1

Tempo (horas)

# de

che

ck−

ins

SP 4sq 3Rio 4sq 3SP 4sq 1

(d) São Paulo – Foursquare

2 4 6 8 10 12 14 16 18 20 220

0.2

0.4

0.6

0.8

1

Tempo (horas)

# de

foto

s

Toquio inst. 2Osaka inst. 2Tokyo inst. 1

(e) Tóquio – Instagram

2 4 6 8 10 12 14 16 18 20 220

0.2

0.4

0.6

0.8

1

Tempo (horas)

# de

che

ck−

ins

Toquio 4sq 3Osaka 4sq 3Tokyo 4sq 1

(f) Tóquio – Foursquare

Figura 6.11. Padrão de compartilhamento temporal do Instagram eFoursquare para Nova Iorque, São Paulo e Tóquio durante dias de se-mana [Silva et al. 2013d].

6.3.5. Comportamento dos Nós

Nesta seção é analisado o desempenho dos nós da RSP (i.e., dos usuários) quanto ao com-partilhamento de dados. A Figura 6.12 mostra a distribuição do número de dados (fotose alertas) compartilhados por cada usuário da nossa base de dados. Como podemos ob-servar, a distribuição possui cauda pesada, o que significa que a participação dos usuáriospode ser muito desigual. Por exemplo, aproximadamente 40% dos usuários contribuíramcom apenas uma foto no período considerado, enquanto que somente 17% e 0,1% dosusuários contribuíram com mais que 10 e 100 fotos, respectivamente. É natural que essavariabilidade aconteça por diversos motivos. Por exemplo, alguns usuários podem darmais importância para quesitos de privacidade do que outros. Uma cauda pesada tambémé observada na distribuição do número de check-ins, como foi mostrado por Noulas etal. [Noulas et al. 2011]. Cerca de 20% dos usuários realizaram apenas um check-in, 40 %acima de 10, ao passo que cerca de 10 % realizaram mais de 100 check-ins.

Page 15: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

(a) Instagram (b) Waze

Figura 6.12. Distribuição do número de dados compartilhadas pelos usuá-rios [Silva et al. 2013c, Silva et al. 2013e].

6.3.6. Considerações Finais

Nessa seção estudamos as propriedades de RSPs derivadas de serviços de compartilha-mento de localização, de serviços de compartilhamento de fotos e de serviços de alertade trânsito. Essas RSPs possuem várias propriedades em comum: (i) possuem escalaplanetária; (ii) possuem uma frequência altamente desigual de compartilhamento de da-dos, tanto espacialmente quanto temporalmente, o que é altamente correlacionado com arotina típica das pessoas; (iii) a participação do usuário em relação ao número de dadoscompartilhados e onde esses dados são compartilhados pode variar significativamente;(iv) o padrão de temporal de compartilhamento parece não variar consideravelmente aolongo do tempo para o mesmo tipo de sistema.

As propriedades identificadas aqui revelam o potencial de RSPs para conduzirvários estudos sobre a dinâmica da cidade e do comportamento social urbano, como édiscutido na próxima seção (Seção 6.4).Além disso, o entendimento do comportamentodo usuário é o primeiro passo para modelá-lo. Com modelos que explicam o comporta-mento do usuário podemos fazer previsões de ações e desenvolver melhores sistemas paraplanejamento de capacidade de carga do sistema.

É importante salientar algumas possíveis limitações dos nossos datasets. Em pri-meiro lugar, eles refletem o comportamento de uma fração dos cidadãos da cidade. Nossosdatasets são baseados em dados compartilhados pelos usuários do Foursquare, Instagrame Waze no Twitter. Portanto, os dados são enviesados para os cidadãos que utilizam essessistemas. Em segundo lugar, nossos datasets são baseados em uma amostra limitada dedados. Isso significa que temos apenas uma amostra das atividades realizadas. Fatoresexternos, tais como condições meteorológicas desfavoráveis, podem ter afetado o númerototal de dados que coletamos para alguns lugares, especialmente em locais ao ar livre. Poresse motivo, antes de tirar conclusões com dados de RSPs, é altamente recomendado acomparação dos resultados com dados obtidos de uma maneira tradicional (offline), comofeito, por exemplo, em [Silva et al. 2014c].

6.4. Trabalhando com RSPs

Nesta seção discutimos como trabalhar com RSPs. O primeiro passo, discutido na Se-ção 6.4.1, é a obtenção de dados. Em seguida discutimos algumas abordagens já reali-zadas para extrair e gerar informações contextuais a partir de dados de redes de senso-

Page 16: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

riamento participativo. Esses estudos foram agrupados em quatro classes: Entendendocidades (Seção 6.4.2); Mobilidade (Seção 6.4.3); Padrões Sociais, Econômicos e Cultu-rais (Seção 6.4.4); e Detecção de Eventos e Interesses (Seção 6.4.5).

6.4.1. Obtenção de dados

Nesta seção apresentamos três das principais formas de obtenção de dados de RSPs: APIs(Seção 6.4.1.1); crawler (Seção 6.4.1.2); e aplicações (Seção 6.4.1.3).

6.4.1.1. APIs

A Web está repleta de fontes de informação, dentre elas as RSPs, o que representa umagrande oportunidade para pesquisadores de diversas áreas coletarem dados em larga es-cala e extrair conhecimentos a partir deles [Benevenuto et al. 2011].

Algumas RSPs disponibilizam APIs (access programming interfaces) que podemser utilizadas para a extração de dados. Através desse processo é possível obter dados deRSPs que podem ser utilizados em outras aplicações ou em análises específicas. VáriasRSPs populares, como Twitter, Flickr e Foursquare, possuem APIs de acesso aos dadoscompartilhados pelos usuários. Entretanto, é comum existirem regras diferentes para asua utilização.

Existem basicamente duas formas principais de funcionamento das APIs: (1) base-adas em streaming; (2) baseadas em requisições. Uma API baseada em streaming permitecoletar em tempo real os dados que são publicados em uma determinada RSP. No entanto,é comum existir um limite no número de informações disponibilizadas. A API de strea-

ming do Twitter, por exemplo, permite coletar em (quase) tempo real aproximadamente1% da base total de tweets públicos publicados. Já uma API baseada em requisiçõesdisponibilizam dados a medida que são solicitados. É comum as solicitações serem perso-nalizadas, por exemplo delimitando uma área específica para a obtenção de dados, assim apossibilidade de coletar dados pode ser maior do que uma API baseada em streaming. Noentanto é bastante comum existir uma limitação do número de requisições. Por exemplo,o Flickr permite 3600 requisições por hora em sua API. Isso pode inviabilizar alguns tiposde análises que necessitam de um número maior de amostras no período de uma hora, porexemplo.

De fato, talvez pela simplicidade de utilização, o uso de APIs é uma forma bastantepopular para a obtenção de dados. Dados obtidos através da API do Twitter, por exemplo,foram utilizados das mais variadas formas. Desde medir a influência de usuários na rede[Cha et al. 2010], até a previsão de terremotos [Sakaki et al. 2010a].

Existem RSPs que possuem APIs mas com acesso bastante restrito aos dados.Esse é o caso do Foursquare, pois poucos dados são possíveis de serem coletados sema autorização do usuário. A maioria dos dados disponíveis nessa API são referentes aoslocais, como dicas, listas, localização e fotos. Essas limitações estimulam a obtenção dedados de forma indireta ou alternativas. Por exemplo, em [Ferreira et al. 2014] os dadosdo Foursquare foram obtidos através de mensagens compartilhadas no Twitter contendocheck-ins do Foursquare. Dessa forma dados sobre o check-in do usuário podem ser

Page 17: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

obtidos, já que foram publicamente disponibilizados pelos usuários. Esse tipo de dadoespecífico não é acessível pela API do Foursquare. De posse dos dados dos check-ins, osautores complementaram esses dados utilizando a API do Foursquare para obter dadossobre os locais, que não disponíveis nas mensagens do Twitter. No final desse processo, adiversidade de dados obtidos é maior e mais rica.

Um exemplo de uso da API de streaming do Twitter, escrito em (pseudo) Pythone utilizando a biblioteca TwitterAPI15, é mostrado no Algoritmo 1. Nesse algoritmo fa-zemos acesso aos tweets buscando pela palavra-chave "sbrc". Como podemos ver, empoucas linhas de código é possível coletar facilmente dados do Twitter.

Algoritmo 1: Exemplo de obtenção de dados do Twitter.1 from TwitterAPI import TwitterAPI // Biblioteca que facilita a

interação com a API do Twitter

2 twitter_api = TwitterAPI(consumer_key=’XXXX’,3 consumer_secret=’XXXX’,4 access_token_key=’XXXX’,5 access_token_secret=’XXXX’)// Um registro no website da API fornece

as credenciais indicadas aqui.

6 filters = "track": ["sbrc"] // Procurando tweets com a palavra SBRC

7 stream = twitter_api.request(’statuses/filter’, filters)8 foreach item in stream.get_iterator() do

9 print item[’text’] // exibe texto do tweet

10 end

6.4.1.2. Crawler

Nem todas as fontes de dados disponíveis na Internet fornecem acesso direto a esses dadosatravés de APIs. Por isso é necessário utilizar outras formas de obtenção de dados. Umadessas alternativas é a chamada Web crawler, que são programas que analisam páginasWeb em busca de dados relevantes [Anbukodi and Manickam 2011]. Um Web crawler

funciona como um robô que acessa páginas Web predeterminadas e recupera dados apartir dessas páginas.

A coleta através de Web crawler depende da estrutura da fonte que desejamosobter dados, bem como da abordagem utilizada. A estrutura da fonte é onde os dados quequeremos extrair estão disponibilizadas nas páginas Web, por exemplo, são tags HTMLque apresentam os dados ao usuário. Com isso a construção de um Web crawler demandatipicamente a mineração de texto para a extração dos dados necessários na página Webestudada. No entanto, outras formas não convencionais de extração de dados é possívelde páginas Web. Por exemplo, em [Tostes et al. 2014] os autores construíram um Webcrawler para coletar informações de tráfego tirando fotos (screenshots) de mapas comessas informações, como as disponíveis no Bing Maps16. Mais informações sobre esseprocedimento são fornecidas na Seção 6.5.5.4.

15https://github.com/geduldig/TwitterAPI.16http://www.bing.com/maps.

Page 18: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

Na construção de um Web crawler podemos utilizar diferentes estratégias para aescolha dos dados que serão coletados. Duas importantes estratégias para buscar sitesinteiros (ou uma amostra deles) é a busca em largura e a técnica Snowball. A busca emlargura varre todas as URLs de maneira sistemática, onde captura todas as URLs a partirde uma URL inicial e realiza novamente a busca nas URLs encontradas, até que nãoexista mais nenhuma URL disponível. Ao realizar coletas baseadas na busca em largura,conseguimos captar todas as páginas de uma fonte. Entretanto, nem sempre é possível ouviável coletar todas as páginas [Benevenuto et al. 2011]..

Com isso, a estratégia de Snowball é uma alternativa para coletar uma amostrados dados. Ao invés de buscar todas as URLs até que tenham-se esgotado, selecionamosum grupo chamado de seeds. A busca em largura será usada neste grupo até que sejainterrompida, de acordo com um critério preestabelecido de acordo com os objetivos daamostra. Estes critérios podem ser o tempo de execução da busca ou ter encontrado umcomponente conectado [Benevenuto et al. 2011].

6.4.1.3. Aplicações

Uma outra alternativa para a coleta de dados é a criação de aplicações em plataformas jáexistentes. Algumas mídias sociais populares, como Facebook, Instagram e Runkeeper,permitem a criação de aplicativos dentro de suas plataformas. Com isso, desenvolvedorespodem oferecer serviços utilizando dados que são compartilhados nesses aplicativos porusuários dessas mídias sociais.

O Facebook, por exemplo, não permite a coleta de informações direta de seususuários por APIs ou Web crawlers. No entanto, como permitem a criação de aplicaçõesé possível obter dados compartilhados por seus usuários. Quando o usuário do Facebookinstala um aplicativo e autoriza a leitura de seus dados, o desenvolvedor da aplicação podeler e armazenar diversos dados, como dados disponibilizados pelos usuários, por exemplo,o conteúdo compartilhado com seus amigos.

Em [Nazir et al. 2008] os autores utilizaram essa abordagem de coleta de dados.Eles criaram aplicações do Facebook especificamente coletar dados que possibilitassemo estudo do comportamento das pessoas que fazem uso dessas aplicações no Facebook.Outro exemplo foi o aplicativo utilizado em [Youyou et al. 2015]. Os autores criaram umaaplicação no Facebook que captura os últimos likes17 do usuário para traçar um perfil depersonalidade.

De posse de dados de RSPs, que podem ser obtidos por alguma dessas formascitadas, podemos extrair conhecimento. Como discutido nas próximas seções.

6.4.2. Entendendo o Funcionamento de Cidades

As informações obtidas a partir de RSPs têm o poder de mudar os nossos limites físicospercebidos, bem como ajudar a compreender melhor a dinâmica de cidades. Esta seçãoconcentra na apresentação de estudos nessas direções.

17Um like é uma interação do usuário com o Facebook em que ele demonstra que gostou de um itemcompartilhado.

Page 19: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

Usando dados do Foursquare, Cranshaw et al. [Cranshaw et al. 2012] propuseramum modelo para identificar regiões distintas de uma cidade que refletem padrões atuais deatividades coletivas, apresentando novos limites para os bairros. Long et al. [Long et al. 2012]classificaram lugares em uma cidade com base nas trajetórias dos usuários, capturadascom o auxílio de check-ins do Foursquare. O trabalho desses autores se baseia no pres-suposto de que os locais que aparecem juntos nas trajetórias de muitos usuários, pro-vavelmente, são considerados como “tópicos geográficos”, representando, por exemplo,restaurantes que as pessoas costumam ir após fazer compras em um shopping.

Em [Silva et al. 2014d] propusemos uma técnica chamada City Image, que for-nece um resumo visual da dinâmica da cidade com base nos movimentos das pessoas.Esta técnica explora grafos de transição urbana para mapear os movimentos dos usuá-rios entre locais da cidade. Um grafo de transição urbana é um grafo dirigido ponderadoG(V,E), em que um nó vi ∈ V é a categoria de um local específico (por exemplo, f ood)e uma aresta direcionada (i, j) ∈ E marca uma transição entre duas categorias. Ou seja,uma aresta existe a partir do nó vi para o nó v j se pelo menos um usuário compartilhou umdado em um local categorizado por v j logo após compartilhar um dado em um local cate-gorizado por vi. O peso w(i, j) de uma aresta é o número total de transições que ocorrerama partir de vi para v j. Somente dados consecutivos compartilhados pelo mesmo usuáriodentro de 24 horas, com início às 5:00, são considerados no cálculo de uma transição.

A City Image é uma técnica promissora que permite uma melhor compreensão dadinâmica de cidades, ajudando na visualização das rotinas comuns de seus cidadãos. Cadacélula da City Image representa o quão favorável é uma transição de uma determinadacategoria em um determinado lugar (eixo vertical) para outra categoria (eixo horizontal).As cores vermelhas representam rejeição, as cores azuis representam favorabilidade e acor branca representa indiferença. Nós exemplificamos a técnica City Image para duascidades18: São Paulo (Figures 6.13a and 6.13b); e Kuwait (Figures 6.13c e 6.13d). Paraambos os casos, consideramos dias de semana durante o dia, que é o período típico derotinas, e fim de semana durante a noite, que é um período representativo de atividades delazer (fora da rotina).

Destination

Food

Shop

EduOut

d

Home

A&E NLTrv

lOffi

So

urc

e

Food

Shop

Edu

Outd

Home

A&E

NL

Trvl

Offi

0 200 400 600 800

(a) SP (Dia - Dia de se-mana)

Destination

Food

Shop

EduOut

d

Home

A&E NLTrv

lOffi

So

urc

e

Food

Shop

Edu

Outd

Home

A&E

NL

Trvl

Offi

0 50 100 150 200 250 300

(b) SP (Noite - Fim desemana)

Destination

Food

Shop

EduOut

d

Home

A&E NLTrv

lOffi

So

urc

e

Food

Shop

Edu

Outd

Home

A&E

NL

Trvl

Offi

0 50 100 150 200

(c) KU (Dia - Dia de se-mana)

Destination

Food

Shop

EduOut

d

Home

A&E NLTrv

lOffi

So

urc

e

Food

Shop

Edu

Outd

Home

A&E

NL

Trvl

Offi

0 20 40 60 80 100 120 140

(d) KU (Noite - Fim desemana)

Figura 6.13. Images produzidas com a técnica City Image para São Paulo (SP) eKuwait (KU) em diferentes períodos. Abreviaturas das categorias de locais (No-mes usados pelo Foursquare): Arts & Entertainment (A&E); College & Education

(Edu); Great Outdoors (Outd); Nightlife Spot (NL); Shop & Service (Shop); andTravel Spot (Trvl) [Silva et al. 2014a].

Primeiramente, observe que transições para office (locais de trabalho) são mais

18Utilizando dados do dataset Foursquare1.

Page 20: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

prováveis de acontecer nos dias de semana e durante o dia para ambas as cidades, comoesperado. No entanto, note que as imagens da cidade de São Paulo e Kuwait tambémtêm diferenças significativas que refletem diversidades culturais entre ambas as cidades.Note, por exemplo, que a imagem que representa transições nas noites do fim de semana(Figure 6.13d) mostra a falta de transições favoráveis para a categoria nightlife no Kuwait.Este não é o caso de São Paulo (Figure 6.13b), em que a transição food → nightlife éaltamente favorável de acontecer. Isso sugere que em São Paulo as pessoas gostam de fre-quentar locais relacionados com comida (food) antes de ir para casas noturnas (nightlife).No Kuwait, em vez disso, as pessoas são provavelmente mais favoráveis a realizarem astransições shop → food e food → home nas noites do fim de semana.

Técnicas para fornecer visualizações de fácil interpretação das rotinas de habitan-tes de uma cidade, tais como as mencionadas aqui, são ferramentas valiosas para ajudaros urbanistas a entender melhor a dinâmica de cidades e, por conseguinte, tomar decisõesmais eficazes.

6.4.3. Mobilidade

Nesta seção apresentaremos trabalhos que se concentram em estudar padrões de mo-bilidade dos usuários com dados de RSPs. Esses dados incluem informações espaço-temporal, por exemplo, check-ins e fotos geolocalizadas. O estudo da mobilidade é útilpara muitas finalidades. Com dados de RSPs é possível entender, por exemplo, como osusuários alocam tempo para diferentes atividades, sendo, portanto, uma questão funda-mental nas ciências sociais. Além disso, é possível projetar novas ferramentas para ajudaros engenheiros de tráfego a entender o fluxo de pessoas na cidade.

A modelagem dos padrões de mobilidade vem atraindo a atenção de pesquisadoresem diferentes áreas, como física e computação [Brockmann et al. 2006, Zheng et al. 2009,Gonzalez et al. 2008]. É importante ressaltar que os dados derivados das RSPs são dife-rentes de dados provenientes de traces de GPS ou de dados tradicionais do uso do telefonecelular, como ligações telefônicas, e apresentam características especiais e variados con-textos. Por exemplo, os check-ins em serviços de compartilhamento de localização oufotos em um serviço de compartilhamento de fotos trazem informações extras sobre umlugar particular. Por exemplo, um check-in está associado com um tipo de local, e.g. bar,e uma foto pode trazer informações sobre a situação atual dentro deste local. Com isso,nosso foco aqui são estudos que analisam dados de RSPs.

Cheng et al. [Cheng et al. 2011] analisaram check-ins compartilhados em váriosserviços de compartilhamento de localização. Eles descobriram que os usuários pos-suem padrões simples e reproduzíveis, e também que o status social, além de fatoresgeográficos e econômicos, colaboram com a mobilidade. Da mesma forma, Cho etal. [Cho et al. 2011] investigaram padrões de movimentos e como os laços sociais po-dem impactar esses movimentos. Os autores observaram que viagens de curta distânciasão espacialmente e temporalmente periódicas e não são afetadas pela estrutura de redesocial, enquanto as viagens de longa distância são mais influenciadas por laços da redesocial.

Esses esforços ilustram o crescente interesse e o potencial de utilização de dadoscompartilhados em RSPs para estudar padrões de mobilidade de humanos em larga escala.

Page 21: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

6.4.4. Padrões Sociais, Econômicos e Culturais

Os dados de RSPs também podem ser usados para estudar aspectos sociais, econômicose culturais dos habitantes de cidades. Por exemplo, pode-se argumentar que uma pequenaquantidade de dados compartilhados em uma área da cidade pode indicar uma falta deacesso à tecnologia por parte da população local, pois o uso de serviços de compartilha-mento de localização muitas vezes dependem de smartphones e planos de dados 3G ou4G que, geralmente, são caros. Nessa direção, em [Silva et al. 2013b] nós mostramos quea análise de dados de RSPs permitem a visualização de fatos interessantes relacionadoscom questões socioeconômicas de uma cidade. Por exemplo, dados de uma RSP paracompartilhamento de localização para a cidade do Rio de Janeiro são escassos em áreaspobres, incluindo as que são localizadas muito perto de áreas ricas. Essa informação podeser útil para gerar melhores políticas públicas nessas áreas. Note que a mesma informa-ção pode ser obtida utilizando métodos tradicionais, tais como questionários, mas esseprocesso é muito mais lento e caro.

Com o intuito de melhor entender padrões sociais a partir da análise de dados deRSPs, Quercia et al. [Quercia et al. 2012] estudaram como comunidades virtuais, obser-vadas nos sistemas analisados, se assemelham às comunidades da vida real. Os autorestestaram se teorias sociológicas estabelecidas de redes sociais da vida real são válidas nonessas comunidades virtuais.

Ao estudar o comportamento social de áreas específicas, uma das primeiras per-guntas que surgem é: o quão diferente uma da cultura é de outra? Sabemos que os hábitosalimentares e de bebidas são capazes de descrever fortes diferenças culturais. Com basenisso, em [Silva et al. 2014c] propomos uma nova metodologia para a identificação defronteiras culturais e semelhanças entre sociedades, considerando hábitos alimentares ede bebida. Para isso, foram usados check-ins do Foursquare para representar as prefe-rências do usuário em relação ao que se come e bebe localmente, por exemplo, em umadeterminada cidade. Estudamos como essas preferências mudam de acordo com a horado dia e localizações geográficas.

Essa análise surpreendentemente diz muito sobre as diferenças e semelhançasentre as culturas. A Figura 6.14 mostra o coeficiente de correlação de Pearson entreos check-ins dados em diferentes tipos de restaurantes para várias cidades ao redor domundo. Como podemos ver, as cidades de um mesmo país, onde os habitantes normal-mente possuem cultura e hábitos alimentares semelhantes, têm as correlações mais fortescom relação às preferências de restaurante. Além de preferências para as categorias dealimentos, também podemos ver diferenças nos horários em que as pessoas vão a restau-rantes e compartilham dados. As Figuras 6.15a e 6.15b19 mostram o número de check-ins

realizados em restaurantes ao longo das horas do dia, durante os dias de semana, em di-ferentes cidades do Brasil e dos Estados Unidos. Estes resultados capturaram diferençasimportantes entre as culturas dos dois países: enquanto o jantar é a refeição principal paraos americanos, o almoço desempenha um papel mais importante nos hábitos alimentaresdos brasileiros. Isso mostra que aspectos temporais também podem fornecer informaçõesvaliosas sobre as diferenças culturais entre as cidades. Essas análises permitiram a pro-posição de uma metodologia para a identificação de culturas semelhantes, que pode ser

19Os valores são normalizados pelo valor máximo encontrado em qualquer hora para a cidade específica.

Page 22: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

Nat

alR

ecife

Bel

o H

oriz

onte

Rio

Sao

Pau

loP

orto

Ale

gre

Man

aus

Mia

mi

New

Yor

kC

hica

goD

alla

sD

enve

rLa

s V

egas

San

Fra

ncis

coP

aris

Lond

onIs

tanb

ulM

osco

wB

angk

okK

uala

Lum

pur

Sin

gapo

reJa

kart

aB

andu

ngS

urab

aya

Man

ilaO

saka

Tok

yo

NatalRecife

Belo HorizonteRio

Sao PauloPorto Alegre

ManausMiami

New YorkChicago

DallasDenver

Las VegasSan Francisco

ParisLondonIstanbulMoscowBangkok

Kuala LumpurSingapore

JakartaBandungSurabaya

ManilaOsakaTokyo −1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

Figura 6.14. Correlação entre preferências de restaurante em cidades distintasao redor do mundo [Silva et al. 2014a].

2 4 6 8 10 12 14 16 18 20 220

0.2

0.4

0.6

0.8

1

Hora

# de

che

ck−

ins

Belo HorizontePorto AlegreSao Paulo

(a) Cidades brasileiras

2 4 6 8 10 12 14 16 18 20 220

0.2

0.4

0.6

0.8

1

Hora

# de

che

ck−

ins

DenverNova IorqueSao Francisco

(b) Cidades dos EUA

Figura 6.15. Número médio de check-ins em restaurantes durante dias de se-mana ao longo das horas do dia [Silva et al. 2014a].

aplicada em regiões de tamanhos variados, como países, cidades ou até mesmo bairross [Silva et al. 2014c].

As diferenças culturais utilizando dados de RSPs também foram estudadas porHochman et al. [Hochman and Schwartz 2012], que investigaram as preferências de co-res em fotos compartilhadas no Instagram. Os autores encontraram diferenças conside-ráveis entre imagens de países com culturas distintas. Na mesma direção, Poblete etal. [Poblete et al. 2011] investigou como o comportamento de divulgação de conteúdo noTwitter varia entre alguns países, bem como as possíveis explicações para essas diferen-ças. A investigação das diferenças culturais entre diferentes cidades e países é valiosa emmuitas áreas e pode auxiliar várias aplicações. Por exemplo, como cultura é um aspectoimportante por razões econômicas, a identificação de semelhanças entre os lugares que es-tão geograficamente separados pode ser necessária para empresas que possuem negóciosem um país e querem avaliar a compatibilidade de preferências entre diferentes mercados.

6.4.5. Detecção de Eventos e Interesses

A identificação de eventos e pontos de interesse através de dados de RSPs é beneficiadapela natureza de (quase) tempo real das RSPs. Eventos podem ser naturais, tais comoterremotos, ou não naturais, tais como a identificação/previsão de mudanças no mercadode ações. Por sua vez, um ponto de interesse é uma localização específica que alguémpode achar útil ou interessante, como um restaurante ou um estádio de futebol.

Em relação à detecção de eventos, Bollen et al. [Bollen et al. 2011] estudaram seos estados coletivos de humor derivados de mensagens do Twitter são correlacionadoscom o valor da bolsa Dow Jones ao longo do tempo. Seus resultados indicam que é possí-

Page 23: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

vel obter uma boa precisão na previsão das mudanças diárias de alta e queda dos valores defechamento da dessa bolsa de valores. Gomide et al. [Gomide et al. 2011] analisou comoa epidemia de Dengue é refletida no Twitter e em que medida essa informação pode serusada na vigilância dessa doença. Os autores mostraram que o Twitter pode ser usado paraprever, espacial e temporalmente, epidemias de dengue. Sakaki et al.[Sakaki et al. 2010b]estudaram a interação em tempo real de acontecimentos no Twitter, por exemplo, terre-motos, e propuseram um algoritmo para monitorar mensagens no Twitter para detectar aocorrência de eventos.

Além de eventos que tendem a acontecer esporadicamente, toda cidade possuium conjunto de áreas que desperta um maior interesse dos residentes ou visitantes, asaqui denominadas pontos de interesse (PDI). Dentre os PDIs mais visitados, podemosmencionar os pontos turísticos da cidade. No entanto, nem todos os PDIs de uma cidadesão pontos turísticos. Por exemplo, uma área de bares pode ser bastante popular entre osresidentes da cidade, mas sem atrativos para turistas. Além disso, PDIs são dinâmicos, ouseja, áreas que são populares hoje podem não ser mais amanhã. Assim, uma aplicaçãoque emerge naturalmente a partir da análise de dados de algumas RSPs, por exemplopara compartilhamento de fotos ou localização, é a identificação de PDIs. Isso é possívelporque cada foto ou check-in representa, implicitamente, um interesse de um indivíduoem um determinado instante. Com isso, quando muitas fotos de um determinado localsão compartilhadas dentro de um certo intervalo de tempo, esse local pode ser um PDI.

Uma vantagem de usar RSPs para identificar pontos de interesse na cidade é quepodemos obter resultados robustos a mudanças dinâmicas. Ou seja, pelo fato das RSPsfornecerem dados dinâmicos, elas podem capturar automaticamente as alterações nos in-teresses das pessoas ao longo do tempo, ajudando a identificar rapidamente as áreas quepor ventura se tornem um PDI (por exemplo, devido à abertura de um novo restaurante)ou que deixem de ser popular.

A identificação de pontos de interesse em uma cidade foi investigada por Crandallet al. [Crandall et al. 2009], que mostraram como inferir a localização de uma foto semusar os dados geoespaciais. Na mesma direção, Kisilevich et al. [Kisilevich et al. 2010]usaram fotos georeferenciadas para analisar e comparar eventos temporais que acontece-ram em uma cidade, e também para classificar locais turísticos.

Além disso, em [Silva et al. 2013c] nós também apresentamos uma técnica paraidentificar PDIs e, a partir deles, identificar pontos turísticos. A técnica considera quecada par i de coordenadas (longitude, latitude) (x,y)i está associada a um ponto pi, querepresenta um dado compartilhado, e.g. uma foto. Nós começamos calculando distânciageográfica entre cada par de pontos (pi, p j) e agrupamos todos os pontos pi que estãopróximos uns dos outros. Para capturar os PDIs, usamos um modelo aleatório para ex-cluir grupos que possam ter sido gerados por situações aleatórias (ou seja, movimentosde pessoas aleatórias), e, portanto, não refletem a dinâmica da cidade. Para identificaros grupos, analisamos o número de compartilhamento de dados em cada grupo e usamossimples métodos estatísticos, como descrito em [Silva et al. 2013c]. Em seguida, separa-mos os pontos turísticos dos PDIs assumindo que turistas possuem rotas conhecidas nacidade (mais detalhes em [Silva et al. 2013c]).

Quando aplicada para a cidade de Belo Horizonte considerando dados do Fours-

Page 24: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

quare e Instagram, essa técnica foi capaz de encontrar a maioria dos seus PDIs e pontosturísticos. Os resultados também mostram que diferentes RSPs podem fornecer dadoscomplementares, pois nenhuma RSP encontrou todos os pontos turísticos. Tais diferen-ças podem refletir mudanças na cidade durante o intervalo de tempo em que um dataset

específico foi coletado. Por exemplo, durante a coleta do dataset Instagram1, Belo Ho-rizonte não estava recebendo jogos de futebol. Isso explica por que o estádio de futebolnão foi identificado como um PDI utilizando esse dataset. Por outro lado, a análise de umdataset do mesmo sistema coletado mais recentemente (Instagram2), identificou correta-mente o estádio como um ponto turístico importante da cidade. Isso ilustra como os dadosde RSPs podem capturar automaticamente alterações da dinâmica da cidade, sendo úteispara detectar locais incomuns e populares, bem como descobrir possivelmente padrõesinesperados.

6.4.6. Discussão

As RSPs oferecem informações atualizadas sobre locais, bem como opiniões e preferên-cias de seus usuários. Além disso, elas têm o potencial de tratar as questões acima menci-onadas em (quase) tempo real, atingindo um elevado número de regiões do globo. Nestaseção mostramos vários estudos que servem como exemplos de como trabalhar com dadosde RSPs. As informações obtidas por esses estudos podem ser úteis para o desenvolvi-mento de serviços e aplicações mais inteligentes nas áreas de interesse da comunidade doSBRC.

Por exemplo, entender o padrão de comportamento em determinados locais nacidade, bem como a identificação de comportamentos fora do padrão esperado, pode sermuito útil para o planejamento de carga de uma rede celular urbana. Estudos que visamoferecer soluções para desafogar a transmissão de dados móveis (mobile data offloading)podem ter grandes benefícios ao utilizar essas informações como uma ferramenta paradiminuir surpresas em demandas atuais, bem como novas demandas que podem surgir,já que a cidade está em constante mudanças. Várias outras oportunidades, bem como osdesafios associados a elas são discutidas na próxima seção (Seção 6.5).

6.5. Desafios e Oportunidades

Esta seção apresenta diversos tópicos de pesquisa atuais relacionados com redes de sen-soriamento participativo. Para cada um deles serão também discutidos os desafios e asoportunidades de pesquisa.

6.5.1. Camadas de Sensoriamento

6.5.1.1. Definição

Uma camada de sensoriamento consiste de dados descrevendo aspectos específicos deuma localização geográfica. O conceito de camada de sensoriamento é bastante amplo:ele representa dados, com seus atributos, provenientes de uma determinada fonte de dados,por exemplo uma RSP particular. Cada RSP fornece acesso aos dados relacionados a certoaspecto de uma região geográfica predefinida (por exemplo, condições de tráfego, fotosde locais, etc.), e, com isso, cada RSP distinta pode ser representada como uma camada

Page 25: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

Figura 6.16. Ilustração do compartilhamento de dados em três RSPs ao longo dotempo, resultando em camadas de sensoriamento [Silva et al. 2014b].

de sensoriamento [Silva et al. 2014b].

Além de RSPs, outras fontes de dados podem ser: dados disponíveis na Web nãogerados por usuários, por exemplo a condição climática fornecida pela empresa ClimaTempo20; ou dados de redes de sensores sem fio tradicionais. Discutimos aqui o conceitode camadas de sensoriamento para RSPs. No entanto todos os conceitos discutidos podemser utilizados para outras fontes de dados associadas a regiões geográficas predefinidas,com as adaptações necessárias.

A Figura 6.16 ilustra o conceito de camadas de sensoriamento. Essa figura mostradados compartilhados em três RSPs diferentes (p1, p2 e p3), por três usuários distintosem diferentes instantes de tempo. Como discutimos na Seção 6.2, esses dados devem sercoletados (por exemplo, usando uma API) e processados, passo que inclui as tarefas deanálise e padronização dos dados. Cada plano na figura representa uma camada de senso-riamento para uma região específica, por exemplo o centro de Belo Horizonte, com dadosprovenientes de três fontes distintas. Com isso, as camadas de sensoriamento ilustradassão: check-ins (r1), proveniente, por exemplo, do Foursquare; alertas de tráfego (r2), pro-veniente, por exemplo, do Waze; e fotos de lugares (r3), proveniente do Instagram, porexemplo.

Em uma camada cada dado possui os seguintes atributos: instante t em que odado foi compartilhado; localização a onde o dado foi compartilhado; especialidade s dacamada (e.g., uma foto ou um alerta sobre trânsito); e o id u do usuário que compartilhouo dado.

O uso de camadas de sensoriamento de forma independente pode ser muito útil.Por exemplo, uma camada contendo informações de trânsito pode possibilitar a identifi-cação em tempo real de rodovias com acidentes e buracos, cuja detecção é difícil comsensores tradicionais, mas torna-se mais factível quando os usuários participam do pro-cesso de sensoriamento. Os exemplos mencionados na Seção 6.4 também contribuempara esse ponto. No entanto, a grande motivação é realizar uma análise conjunta de múl-tiplas camadas para a construção de aplicações mais sofisticadas.

Sabemos que uma queixa comum dos habitantes das grandes cidades é o congesti-onamento. Com isso, uma aplicação que emerge naturalmente é uma que possui o objetivode inferir as causas de congestionamento, passo fundamental para tratar o problema. Esta

20http://www.climatempo.com.br.

Page 26: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

Tabela 6.2. Fluxo de dados descrevendo a atividade de usuários em três RSPdiferentes: Foursquare, Waze e Instagram.

Fluxo de dados do FoursquareAtributos (m)

Tempo (t) Área (a) Usuário (u) Especialidade (s)T1 a1 1 “Times Square”T1 a1 2 “Times Square”T2 a2 1 “Fifth Av.”T3 a4 1 “Statue of Liberty”

Fluxo de dados do WazeAtributos (m)

Tempo (t) Área (a) Usuário (u) Especialidade (s)T1 a1 3 “Congestionamento”T2 a3 2 “Acidente”T2 a3 3 “Controle policial”

Fluxo de dados do InstagramAtributos (m)

Tempo (t) Área (a) Usuário (u) Especialidade (s)T1 a1 3 “dados da foto”T3 a4 1 “dados da foto”

não é uma tarefa fácil de realizar, e o resultado pode variar entre diferentes cidades, umavez que dependem de aspectos geográficos, culturais, econômicos, dentre outros. No en-tanto, a análise conjunta de diferentes camadas de sensoriamento na cidade poderia con-tribuir para essa aplicação. Por exemplo, poderíamos cruzar as informações fornecidaspelas camadas alertas de tráfego, check-ins e foto de lugares. A primeira camada fornecedados em (quase) tempo real sobre onde estão acontecendo congestionamentos, a segundafornece dados sobre os tipos de lugares localizados nas áreas dos congestionamentos, comisso é possível entender melhor as áreas de interesse, por exemplo, identificando o tipoda área. Finalmente, através da análise da camada fotos de lugares nós podemos obterevidência visual do que acontece em tempo real próximo das áreas durante os congestio-namentos. Ao analisar conjuntamente dados destas três camadas podemos detectar, porexemplo, carros bloqueando cruzamentos, e inferir as possíveis causas disso. Obviamente,outras camadas podem também ser utilizadas, tal como a condição do clima.

6.5.1.2. Arcabouço para a Integração de Múltiplas Camadas

Nesta seção apresentamos a ideia geral de um arcabouço para trabalhar com múltiplascamadas de sensoriamento definido por Silva et al. [Silva et al. 2014b]. Cada usuário u

pode compartilhar dados ilimitados em qualquer RSP p. Cada j-ésimo dado d j comparti-lhado na RSP pk possui o formato d

pk

j =< t,m >, em que t refere-se ao instante em queo usuário u compartilhou o dado em pk e m é uma tupla contendo os atributos deste dado,ou seja, m = (a,u,s), como descrito anteriormente.

Os dados compartilhados em uma RSP podem ser vistos como um fluxo de dadosB. Definimos que um fluxo de dados Bpk é composto por todos os dados compartilhadospelos usuários em uma RSP pk em um determinado intervalo de tempo. Desta forma, Bpk

é utilizado para representar uma camada de sensoriamento rpk. A Tabela 6.2 mostra os

dados das camadas de sensoriamento que foram compartilhados nas três RSPs considera-das na Figura 6.16. Observe que dados no mesmo fluxo podem ter a mesma informaçãode tempo, pois podem ter sido compartilhados por diferentes usuários simultaneamente.

Page 27: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

Para trabalhar com camadas precisamos representá-las em um plano de trabalho,que contém uma ou mais camadas. Esse plano de trabalho representa uma combinaçãodos dados das camadas que desejamos trabalhar. Como efetuar essa combinação dosdados depende da funcionalidade da camada, do que ela captura. A abstração usadaaqui para representar uma combinação é um dicionário de dados M, que representa umacoleção de pares chave : valor. Esta estrutura foi escolhida por causa da sua simplicidade,o que facilita a compreensão dos conceitos. Mantenha em mente que outras estruturaspoderiam ser usadas.

Definimos que a função responsável para realizar esse passo chama-seCOMBINATION(F ,relation()), em que F = {Bp1, ...,Bpn} é um conjunto de fluxo dedados, e relation() é uma função que define a relação entre os dados dos fluxos de dadoscontidos em F . A função relation() define as chaves do dicionário M, bem como osdados que essas chaves irão referenciar, que são as demais observações do dado d

pk

i nãoutilizadas como chave. A operação COMBINATION resulta em um dicionário M. Noteque algumas ferramentas da área de SIG (sistema de informação geográfica) poderiam serutilizados para apoiar o arcabouço discutido, por exemplo, no processo de combinação.

Nós ilustramos aqui um tipo de relação utilizada para agregar os dados por locais.Para exemplificar um plano de trabalho contendo os dados combinados por localidade,vamos considerar a atividade representada na Figura 6.16. O plano de trabalho M repre-senta essa atividade, onde M = {a1 : {dr1′

1 ,dr1′2 ,dr2′

1 ,dr3′1 },a2 : {dr1′

3 ,dr2′2 },a3 : {dr2′

3 },a4 :{dr1′

4 ,dr3′2 }}. Nesse plano de trabalho uma chave é representada por ai, que é uma área

única dentre todas as áreas de todos os dados compartilhados nas camadas consideradas:

r1, r2 e r3. Já dr j′

j refere-se às observações não utilizadas como chave do dado d j da ca-mada r, ou seja < t,u,s >. Assim, todas as áreas únicas tornaram-se uma chave no planode trabalho M. Os dados compartilhados em um mesmo local foram agrupados e sãoindexados pela chave que representa o local. O plano de trabalho M, como descrito, estárepresentado na Figura 6.17. Veja que o plano de trabalho representa dados que foramcompartilhados em todas as camadas consideradas. A cor do símbolo que representa umdado d′

j indica de qual camada ele foi extraído, por exemplo, a cor vermelha é referente àcamada r1.

Figura 6.17. Combinação por localidade.

De posse de um plano de trabalho podemos aplicar operações para derivar ou-tras estruturas e também extrair conhecimento. Por exemplo, operações para habilitarou desabilitar uma camada, operações para a criação de grafo direcionado, entre ou-tras [Silva et al. 2014b].

Page 28: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

6.5.1.3. Desafios e Oportunidades

Há vários desafios, bem como oportunidades, ao lidar com dados de várias camadas si-multaneamente, como os descritos a seguir.

1. Combinação de dados: A fim de realizar a combinação de dados, tal como menci-onado na seção anterior (Seção 6.5.1.2), nós temos que certificar que os dados sãoconsistentes em todas as camadas. Esta é uma condição obrigatória para a corretaextração de informações. Considere que queremos combinar duas camadas A e Bpor locais (todas as áreas únicas como chaves no plano de trabalho). O formato delocalização de dados na camada A é expresso em latitude e longitude, enquanto nacamada B a localização é fornecida como nome de rua ou avenida. Uma maneirade resolver essa inconsistência é realizando um processo de geocodificação, utili-zando, por exemplo, uma API própria para essa finalidade, como a disponibilizadapela Yahoo!21. Desta forma, os endereços oriundos da camada B serão transforma-dos em uma coordenada geográfica.

Outra questão que pode acontecer ao combinar dados por localização é com relaçãoàs áreas que se sobrepõem parcialmente. Como definir uma chave neste caso? Umapossibilidade é considerar várias chaves, uma para a intersecção entre essas áreas,e uma ou duas22 para as áreas não sobrepostas.

A combinação por usuários, ou seja, todos os usuários únicos são uma chave noplano de trabalho, pode ser um problema em RSPs, porque o mesmo usuário podeparticipar em diferentes camadas com diferentes identificadores. Vamos supor quequeremos combinar dados dos usuários compartilhados na camada de check-ins ena camada foto de lugares. Como estamos lidando com sistemas independentes, osusuários podem possuir identificações diferentes. Uma forma de tentar contornaresse problema é verificar outras redes com o intuito de mapear o ID do usuário deuma camada em outra. Por exemplo, os usuários do Foursquare e Instagram tendema ser também usuários do Twitter. Desta forma, a chave do processo de combinaçãopoderia ser a identificação usada no Twitter.

2. Validade dos dados: Diferentes camadas podem se referir a dados válidos paradiferentes intervalos de tempo. Isso é natural porque algumas fontes de dados for-necem dados em (quase) tempo real, outras não. Por exemplo, um alerta no Wazerefere-se a uma situação de trânsito que pode não existir cinco minutos mais tarde.No entanto, dados do censo geralmente são válidos por um grande intervalo detempo, meses ou anos, até o próximo censo ser publicado. Temos de estar cientesde todas essas questões ao projetar novas aplicações.

3. Volume de dados: Se não temos dados significativos para uma determinada ca-mada, a sua utilização pode não levar à extração de informações corretas. Diferen-tes fontes de dados podem apresentar características diferentes para esse problema.Por exemplo, em uma RSP muitos fatores influenciam o volume de dados, dentre

21https://developer.yahoo.com/boss/geo.22Se uma área não está completamente dentro de outra.

Page 29: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

eles, aspectos geográficos, culturais e econômicos, como discutido na Seção 6.3. Agranularidade de áreas também pode influenciar algumas fontes de dados. Se consi-derarmos, por exemplo, dados das tradicionais redes de sensores sem fio podemosnão ter dados para uma metrópole inteira, por limitações de escalabilidade.

4. Modelagem: Temos ainda oportunidades com relação à modelagem das camadasde sensoriamento, pois numa mesma camada as entidades podem possuir relaçõesdistintas entre elas. Para ilustrar essa oportunidade considere a camada de check-

ins. Como ilustramos anteriormente, essa camada pode representar a mobilidadeurbana considerando a relação entre lugares e pessoas, sendo útil para entender,por exemplo, a frequência de transição entre diferentes lugares (entidades). Outrapossibilidade é modificar a modelagem do problema, para, por exemplo, estudar aspreferências de pessoas. Nesse caso, a entidade a ser analisada passa a ser o usuário.Note que dados de uma mesma camada podem ser modelados de formas distintaspara responder perguntas diferentes. O arcabouço que discutimos nesta seção ofe-rece suporte básico para essa questão. No entanto, existem várias oportunidadespara extensão desse arcabouço para oferecer serviços mais sofisticados.

Em resumo, observe a importância de um processo de caracterização, como mos-trado na Seção 6.3. Temos de conhecer as propriedades das camadas que queremos utili-zar, a fim de verificar se a sua utilização simultânea com outras pode levar à extração deinformação que desejamos. A função relation() informada como parâmetro para a funçãoCOMBINATION encapsula a solução escolhida para lidar com dados heterogêneos, queé dependente da aplicação. Se nenhuma solução for encontrada para eliminar a inconsis-tência entre os dados de duas camadas, então elas não podem ser usadas conjuntamente.

6.5.2. Análise da Dinâmica Temporal das Redes de Sensoriamento Participativo

6.5.2.1. Definição e Iniciativas

Como foi mostrado anteriormente, os dados compartilhados em RSPs podem ser apro-veitados para diferentes finalidades, sendo útil para diversas aplicações, por exemplo,para recomendação de pontos de interesses. No entanto um aspecto pouco exploradona análises dos dados de RSPs é o temporal. Nesse contexto, a análise de característi-cas temporais permite aprimorar tais aplicações, bem como gerar novas oportunidades depesquisa [Gao et al. 2013, Yuan et al. 2013].

A maioria dos estudos encontrados na literatura consideram que os dados compar-tilhados por usuários formam RSPs estáticas, sendo a dinâmica temporal negligenciada.Isso pode acarretar em perda de informações importantes. Por exemplo, enquanto duasregiões de uma cidade podem apresentar comportamento similar nos dados agregados du-rante um dia, elas podem ter diferenças quando uma perspectiva temporal é consideradana análise das atividades mais populares em cada turno. Nesse sentido, a seguir são apre-sentados alguns esforços que tentam explorar a dimensão temporal na análise de dados deRSPs.

Bannur e Alonso [Bannur and Alonso 2014] analisaram dados de check-in do Fa-cebook para compreender a participação temporal dos usuários em diversas categorias de

Page 30: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

locais (e.g., restaurantes, cinemas, get-away23). Os autores definiram uma métrica, cha-mada polaridade, que é uma relação entre o número de check-ins de uma categoria emuma dada região em uma estação do ano e o número total de check-ins nessa mesma re-gião o ano inteiro. A Figura 6.18 mostra a variação da polaridade da categoria get-away

entre os estados dos Estados Unidos ao longo das quatro estações do ano. A polaridadeé representada por um mapa de calor. A intensidade da polaridade varia da mais baixa,cor clara, para a mais alta, cor escura. Como podemos observar, no inverno e primavera,estados com temperaturas elevadas ao longo da costa oeste, regiões da Flórida e Havaítêm uma polaridade muito maior em comparação com os estados da costa leste. Por outrolado, no verão, estados com temperatura baixa como Alaska e Montana aparecem comoestados com alta polaridade. Este tipo de análise é interessante para explicar determinadoscomportamentos humanos baseados em fenômenos sazonais. Por exemplo, no outono, oestado de Nebraska possui polaridade alta. Nebraska é sujeito a tornados e trovoadas du-rante o verão e primavera, enquanto no inverno sofre com tempestades de gelo, de formaa influenciar no comportamento humano para a categoria get-away.

Figura 6.18. Visualização de checkins para a categoria get-away emcada estado dos Estados Unidos ao longo das quatro estações do ano[Bannur and Alonso 2014].

Zhang et al. [Zhang et al. 2013] analisaram atividades urbanas a partir de dadosdo Foursquare considerando a dinâmica temporal. Para isso, eles adotaram um algoritmopara detecção de grupos de atividades com características similares, considerando as ca-tegorias de locais do Foursquare. A Figura 6.19 mostra o resultado da aplicação do al-goritmo com os dados agregados (Figura 6.19a) e com dados particionados em períodosdo dia (manhã, tarde e noite, Figuras 6.19b, 6.19c 6.19d, respectivamente). Na Figura6.19a, o grupo C2 possui a categoria Food como atividade predominante, enquanto nasFiguras 6.19b, 6.19c 6.19d, observa-se uma separabilidade maior na detecção de grupos,de forma que algumas células24 no desagregado possuem rótulos de grupos diferentes aolongo do dia que podem possuir outras atividades predominantes. Por exemplo, a ativi-dade Food pode não ser tão ativa no período da tarde, mas sim, nos períodos da manhãe noite, de forma que na visão agregada não se perceba essa diferença. Essa abordagemé interessante para mostrar que determinadas atividades são pertinentes em um determi-nado período do dia, mas quando analisadas de forma agregada podem não ser relevantesou podem não capturar o real comportamento dos usuários.

Outro exemplo é a técnica City Image que apresentamos na Seção 6.4.2. No exem-plo da Figura 6.13, a perspectiva temporal utilizada é o particionamento dos dados em dias

23Categoria que representa locais como praias, montanhas e parques.24Os autores dividiram a região em células.

Page 31: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

Figura 6.19. Visualização dos grupos comparando dados agregados e por turnosda cidade de Nova Iorque[Zhang et al. 2013].

de semana/final de semana durante o dia e a noite, a partir disso foi feita uma análise dosdados por partições. Podemos perceber com o auxílio dessas imagens que existe variaçãosignificativa entre dia e noite nas duas cidades analisadas. Além disso, a imagem agregada(sem considerar partições) é bastante diferente das desagregadas, como foi mostrado porSilva et al. [Silva et al. 2012].

6.5.2.2. Desafios e Oportunidades

Os trabalhos descritos anteriormente fornecem indícios das vantagens da utilização deinformação temporal dos dados obtidos de RSPs. No entanto, se por um lado investigar adinâmica temporal de uma RSP é uma oportunidade para obtenção de informações maispróximas da realidade do comportamento da rede, por outro, surgem novos desafios aoadicionarmos uma dimensão temporal ao estudo, como os descritos a seguir:

1. Informação temporal: Uma dificuldade inicial é como representar e armazenara informação temporal. Como os dados podem ser oriundos de várias fontes, nosdeparamos com problemas relacionados à inconsistência, redundância e granulari-dade para extrair a informação temporal relevante. Além disso, há questões abertasquanto a validade da informação obtida, ou seja, por quanto tempo essa informaçãopoderá ser útil e a que frequência deve ser atualizada;

2. Janelas de tempo: Trabalhos que analisam a questão temporal geralmente frag-mentam os dados em intervalos de tempo (e.g., manhã, tarde e noite) denominadosjanelas. No entanto, a definição adequada do tamanho da janela é um problema,pois é necessário definir um tamanho de janela que capture dinâmicas relevantes.Nesse caso, existem inúmeras oportunidades para novas abordagens que conside-ram janelas com tamanhos flexíveis;

3. Participação dinâmica: Como a estrutura de uma RSP é composta por nós autô-nomos (seres humanos), ela é sensível à participação desses nós ao longo do tempo.Isso traz uma gama de desafios relacionados com a evolução da participação dosusuários nessas redes. Exemplos são: identificação de comportamentos periódicos,detecção de outliers e rastreamento de atividades. Nessa direção existem váriasoportunidades para o desenvolvimento de novas técnicas/abordagens;

Page 32: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

4. Modelagem: Geralmente, dados de uma RSP são representados como um conjuntode entidades, por exemplo, usuários ou PDIs (pontos de interesses), e suas relações(e.g., transições ou comunicação). Como a contribuição desses dados pode variarmuito ao longo do tempo um modelo baseado em grafos estáticos pode não ser su-ficiente para capturar essa dinamicidade. Por exemplo, dados obtidos a partir doFoursquare possuem informações espaço-temporais, tais como posicionamento dosusuários e os momentos de interação. Portanto, um desafio é modelar a dinâmicaespaço-temporal a fim de entender melhor, por exemplo, diversos aspectos dessaparticipação dos usuários. Nesse sentido, Grafos Temporais [Kostakos 2009] surgecomo alternativa promissora que pode ser utilizada para entendimento da dinâmicaespaço-temporal. Em um Grafo Temporal, as relações entre as entidades podemser modeladas como arestas que podem ser criadas e destruídas ao longo do tempo.Por exemplo, entender aspectos temporais de interações entre usuários com cer-tos locais na cidade. Dessa forma, utilizando grafos temporais para modelar umaRSP, podemos aplicar tanto conceitos de grafos (e.g., componentes conectados ecaminhamento) como medidas de centralidade (e.g., betweenness, closeness) paraauxiliar no entendimento da dinâmica das RSPs [Nicosia et al. 2013].

5. Técnicas de visualização: A adoção de técnicas de visualização que forneçam oentendimento correto do comportamento da rede é fundamental para auxiliar nastomadas de decisões. Dessa forma, visualizações que exploram a dinâmica tempo-ral de dados de RSPs são de suma importância. Por exemplo, uma visualizaçãoadequada das transições dos usuários na cidade ao longo do tempo é bastante útilpara urbanistas e outros profissionais que precisam tomar decisões relacionadas aoplanejamento urbano.

A dinâmica espacial em RSPs tem sido alvo de estudo em diversos trabalhos pre-sentes na literatura. No entanto, a dinâmica temporal é pouco explorada. Nessa seção,mostramos alguns dos principais desafios e oportunidades de pesquisas que considerama dinâmica temporal em estudos de dados de RSPs. Acreditamos que entender a dinâ-mica temporal dos usuários é essencial para a construção de novas aplicações, bem comomelhorar os serviços fornecidos atualmente.

6.5.3. Mecanismos de Incentivo nas RSPs

6.5.3.1. Definições e Iniciativas

O comportamento social do ser humano, como egoísmo, altruísmo e cooperação / colabo-ração25, têm sido extensivamente estudados na filosofia, biologia, psicologia, economia eno contexto da ciência da computação. O egoísmo pode ser definido como o ato de benefi-ciar somente a si próprio, ao invés do outro. Por outro lado, o comportamento altruísta ougeneroso leva a pessoa a favorecer aos outros em detrimento de si próprio [Levine 1998].A colaboração ocorre quando um indivíduo dedica um esforço, que implica em um custo,em alguma atividade coletiva de forma que o benefício obtido seja maior que o custo para

25Mesmo sabendo que o conceito de cooperação vai além do significado de colaboração, neste minicursoesses dois termos são tratados como sinônimos.

Page 33: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

todos os participantes da atividade [Bowles and Gintis 2003]. A diferença da colabora-ção para o altruísmo é que na colaboração o indivíduo espera algum benefício por tercolaborado.

Um ponto fundamental para as RSPs é a colaboração dos usuários, pois as apli-cações em uma RSP dependem de que os usuários estejam dispostos a coletarem, pro-cessarem e transmitirem os dados sensoriados [Lee and Hoh 2010]. A colaboração entreos participantes de uma RSP reflete diretamente na qualidade e quantidade dos dadossensoriados e, consequentemente, na melhoria dos serviços oferecidos pelas RSPs.

No entanto, como estas aplicações consomem recursos do dispositivo do usuá-rio, o mesmo pode ser relutante em contribuir com a rede. Diversos são os motivos quepodem fazer um usuário usufruir, porém não colaborar com a RSP, tais como pouparbateria, evitar gastos com a transmissão de dados, ou mesmo por questões de privaci-dade [Lee and Hoh 2010].

Deste modo, mecanismos de incentivo visam aumentar a motivação dos usuáriospara colaborarem com a RSP. A motivação para a colaboração pode ser extrínseca, naqual os participantes recebem uma recompensa direta pela participação, ou intrínseca, naqual os participantes devem ser satisfeitos psicologicamente [Kaufmann et al. 2011].

Nos últimos anos, foram propostos dezenas de mecanismos de incentivo e reali-zados diversos experimentos para entender o comportamento cooperativo. Estes mecanis-mos podem ser propostas de pagamento ao usuário por contribuir na rede ou a utilizaçãode técnicas de jogos para engajar o usuário.

Gao et al. [Gao et al. 2015] fizeram uma análise de trinta mecanismos de incentivoteóricos, de oito estudos experimentais e nove implementações de mecanismos de incen-tivo aplicados as RSPs nos últimos dez anos . Os autores classificaram os mecanismos deincentivo como monetários (extrínseco) e não-monetários (intrínseco). Os estudos experi-mentais mostraram que pagar um valor de acordo com o esforço da tarefa, a combinaçãode estratégias e adição de um ambiente de disputa apresentaram melhores resultados.

Como os mecanismos extrínsecos podem recompensar o participante por meio depagamentos reais, virtuais ou outros prêmios, neste minicurso iremos nos referir a estesmecanismos como baseados em recompensas. Os mecanismos intrínsecos baseiam-se emtransformar a tarefa de sensoriamento em uma tarefa mais prazerosa e estimulante parao usuário, adicionando elementos comuns em jogos, como elementos de disputa entreos usuários. Por isto, abordaremos estes mecanismos como baseados em gamificação26

[Deterding et al. 2011].

6.5.3.2. Colaboração do Usuário nas RSPs

A colaboração no contexto das RSPs depende de uma relação entre o custo e o benefíciopara participar da mesma [Fitzek et al. 2013]. Para Fitzek et al., a colaboração ocorrerásempre que o usuário tiver a sensação que o benefício é superior ao custo de colaborar.

26A utilização destes elementos característicos de jogos para tornar a realização de tarefas mais prazero-sas é conhecido na literatura como gamificação.

Page 34: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

Este benefício pode ser desde a qualidade das informações obtidas até ao sentimentoaltruísta de contribuir com a RSP.

A Figura 6.20 ilustra um cenário de utilização de um usuário colaborativo em umaRSP. O usuário acessa as informações de uma RSP por meio da rede móvel (3G por exem-plo), enquanto obtém sua localização utilizando a rede GPS e coleta novas informações,as quais serão transmitidas para a RSP. Para realizar esta tarefa, podemos listar comocustos: o consumo de energia, a transmissão de dados pela rede móvel e o esforço pararealizar a tarefa de sensoriamento durante um tempo. Podemos listar como benefíciospara o participante: obter informações atualizadas em tempo real e o sentimento de estarajudando outros participantes da rede (em caso de usuário altruísta). Por outro lado, umusuário egoísta ou que tenha restrições de recursos poderia obter as informações da RSPsem colaborar com novas informações para a mesma.

Figura 6.20. Etapas envolvidas para a coleta de informações e transmissão dosdados sensoriados para as RSPs.

Existem ainda as situações nas quais o benefício recebido por colaborar com aRSP não é claro para o participante. Em Burke et al. [Burke et al. 2006], os autores citamcomo exemplos de RSPs para a coleta massiva de informações sobre poluição e sobrea saúde do indivíduo. Nestes exemplos, o participante não tem acesso em tempo realsobre as informações agregadas e os beneficiários das informações coletadas seriam osagentes públicos e centros de saúde, respectivamente. Nestas situações, os mecanismosde incentivo funcionam como "motivadores"para os usuários participarem do sistema.

6.5.3.3. Mecanismos de Incentivo Baseados em Recompensa

Os mecanismos de incentivo baseados em recompensa partem do pressuposto de que osparticipantes não contribuirão ou deixarão de contribuir com a RSP se os benefícios foremmenores que suas expectativas [Lee and Hoh 2010].

Existem mecanismos que visam permitir que o usuário participe da decisão sobrea tarefa que irá realizar e sobre o pagamento que irá receber da RSP. Outros visam me-lhorar a qualidade dos dados obtidos e minimizar os custos com sensoriamento. Podemosmencionar também mecanismos em que o usuário negocia com a plataforma o valor da re-compensa pelos dados sensoriados antes de enviá-los e, ainda, os que a plataforma decidequanto irá pagar pelos dados já enviados pelo usuário.

Yang et al. [Yang et al. 2012] propuseram dois incentivos de mecanismo: MSen-

sing Platform-Centric e MSensing Auction. No MSensing Platform-Centric, a RSP anun-cia uma certa recompensa para uma determinada tarefa que será dividida entre os partici-

Page 35: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

pantes da rede, proporcionalmente ao tempo em que cada participante se dedicou à tarefa.Um problema deste modelo é que com o aumento no número de participantes ativos, arecompensa recebida por cada um diminuirá.

No MSensing Auction, a plataforma anuncia um conjunto de tarefas e o usuárioescolhe um subconjunto de sua preferência. Para cada tarefa que o usuário selecionou,ele submete uma tupla (tarefa-lance) para a plataforma, em que o “lance” é o valor darecompensa que ele deseja para executar a tarefa. Após receber as ofertas dos usuários, aplataforma decide um conjunto de usuários como os vencedores de um leilão para executaras tarefas. Um problema encontrado neste tipo de mecanismo é a explosão dos custos deincentivo [Lee and Hoh 2010]. Os custos que o provedor terá com sensoriamento podeminviabilizar o mecanismo. Além disto, mesmo que um usuário receba um pagamento pelavenda dos dados, o mesmo pode ficar desmotivado ao longo do tempo e abandonar a RSP.

Para tentar contornar este problema, diversos trabalhos modelam os mecanismosde incentivo baseados em teoria dos jogos [Xie et al. 2009, Lee and Hoh 2010, Yang et al. 2012].Todos esses trabalhos visam atingir o equilíbrio do sistema, ou seja, maximizar o ganhodo usuário, enquanto minimizam os custos para a plataforma.

Reddy et al. [Reddy et al. 2010] realizaram uma série de experimentos em pe-quena escala para avaliar o efeito de pagamentos para realização de sensoriamento par-ticipativo. Os autores concluem que os incentivos funcionaram melhor quando os micropagamentos foram combinados com outros fatores, como altruísmo do usuário e quandohavia competição entre os participantes. Além disto, mostraram que um pagamento justopara todos os participantes os mantinham mais motivados do que micro pagamentos.

De fato, pagamentos podem ser até contra produtivos em certos casos como de-monstrou Kamenica [Kamenica 2012]. Esse autor revisou diversos estudos realizadosno campo da psicologia e economia sobre o efeito de pagamentos como mecanismos deincentivos. Em muitos casos, pagar um valor alto ou pagar um valor muito baixo, oumesmo oferecer muitas formas de pagamento a um participante, mostrou-se contraprodu-cente para induzi-lo a um comportamento colaborativo.

6.5.3.4. Mecanismos de Incentivo Baseados em Gamificação

Gamificação, ou gamification, pode ser definido como o uso de elementos e design de

jogos em contextos não relacionados a jogos [Deterding et al. 2011]. Elementos e de-

sign de jogos são o uso dos elementos comuns aos jogos tradicionais. Exemplos desteselementos são: tabelas de pontuação e classificação; troféus ou medalhas para premiaros usuários que alcançam determinado objetivo; desafios; avatares; níveis de dificuldade;progressão; e grafos sociais, ver o que os “amigos” estão fazendo ou como evoluem natarefa, de forma que quem executou mais tarefas ou tenha coletado mais dados tenhamuma visibilidade maior no ranking.

O que difere a gamificação de um jogo tradicional é o seu objetivo. A gamificaçãousa elementos de jogos para tarefas não relacionadas ao jogo, mas sim para um outro obje-tivo [Werbach and Hunter 2012]. Essas tarefas podem ser, por exemplo, com o propósitode melhorar uma habilidade, incentivar a prática de exercícios, ou no contexto de uma

Page 36: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

RSP, participar ativamente da rede durante mais tempo.

Como exemplos de redes de sensoriamento participativo que utilizam gamificaçãopara incentivarem a participação dos usuários, podemos citar o Waze. O Waze apresentadiversas informações de interesse para o usuário como alertas de trânsito, o preço docombustível nos postos próximos, além do tradicional cálculo de rotas. Para que estasinformações estejam atualizadas, ele requer a participação ativa do usuário, ou seja, oparticipante do Waze deve informar manualmente a situação que ele observa (e.g., umacidente). Com isso, no Waze, os elementos de jogos são representados pelo uso de avata-res e do sistema de pontuação. O objetivo é melhorar o volume de dados compartilhados,bem como a qualidade da informação de trânsito para todos os usuários.

Os motivos que levam um usuário a colaborar ativamente com o Waze, comoavisar um acidente de trânsito para outros condutores, podem variar do simples altruísmoà motivação gerada pela gamificação do mesmo. Visto que colaborar com o Waze gerauma pontuação que serve para melhorar o status do participante na RSPs.

6.5.3.5. Desafios e Oportunidades

Além dos desafios técnicos inerentes às RSPs, engajar os usuários a se tornarem partici-pantes ativos nas RSPs trazem também desafios sociais e psicológicos. Um mecanismode incentivo é eficiente se ele recruta mais participantes para RSP e mantém esses osparticipantes ativos no sistema. Nesta seção, resumimos os desafios nas propostas demecanismos de incentivos para as RSPs:

1. Custos nos mecanismos baseados em recompensa: Para que o desenvolvimentode mecanismos de incentivo monetários sejam eficientes, deve-se considerar os cus-tos para a plataforma da RSP e os ganhos para o participante da rede. Estes meca-nismos utilizam um custo máximo para a plataforma RSP que será pago aos parti-cipantes ativos da rede. No entanto, encontrar e decidir um valor que minimize ocusto para plataforma e, ao mesmo tempo, motive o usuário requer investigaçõesfuturas [Gao et al. 2015].

2. Uso de múltiplas estratégias: A maioria das propostas para incentivar a colabora-ção nas RSPs focam em apenas uma estratégia. Porém, como Reddy et al.[Reddy et al. 2010] observaram em seus experimentos, a utilização de mais de umaestratégia simultaneamente pode apresentar melhores resultados.

3. Validação das propostas: A maioria das propostas de mecanismos de incentivoutilizam uma validação teórica ou pequenos experimentos controlados. No entanto,estes experimentos podem não predizer com alta precisão a participação dos usuá-rios ao longo do tempo na plataforma. No caso de mecanismos baseados em gamifi-cação, embora diversas RSPs de sucesso no mercado utilizem este conceito, aplicaruma estratégia com sucesso prévio em uma nova RSP não é garantia que funcionará.Talvez exista alguns elementos que funcionem para determinados tipos de RSPs eoutros não.

Page 37: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

6.5.4. Qualidade de Dados

6.5.4.1. Definição e Iniciativas

A qualidade de dados é um tópico amplamente estudado pela comunidade científica, desdea definição de métricas para avaliar qualitativamente um determinado dado até soluçõespara garantir a geração e recuperação de um dado com qualidade. A qualidade diz respeitoao atendimento dos requisitos estabelecidos para um sistema e, com isso, são definidasmétricas que sumarizam características dos dados, com o intuito de avaliar se os requisitosdefinidos foram contemplados.

Em geral, como ilustrado na Figura 6.2, os dados coletados de RSPs são, apósprocessados, utilizados para a extração de informações contextuais, que são fundamen-tais para os sistemas sensíveis ao contexto [Dey and Abowd 2000]. A qualidade destesdados é avaliada conforme a qualidade esperada para a informação contextual que elesproporcionam, definida pelo conceito de Quality of Context (QoC).

Buchholz e Schiffers [Buchholz and Schiffers 2003] definem QoC como qualquerinformação que descreva a qualidade do contexto inferido. Os autores também discutema diferença entre QoC com os termos Quality of Service (QoS) e Quality of Device (QoD).QoS se refere a qualquer informação que descreva o quão bem um serviço opera. JáQoD significa qualquer informação sobre as propriedades técnicas e as capacidades deum determinado dispositivo. De acordo com esta diferenciação, são propostas as seguin-tes métricas de QoC: precisão, probabilidade de corretude, confiabilidade, resolução eatualização.

Em um cenário de RSP, a precisão de um dado está relacionada a o quão bemele reflete o estado atual de um determinado fenômeno ou localidade. A probabilidade

de corretude denota a probabilidade de um determinado dado estar correto. Esta métricapode ser vista como uma estatística que reflete um conhecimento a priori do dado oudo usuário que o gerou. A Confiabilidade é similar à probabilidade de corretude, mas éutilizada para classificar a qualidade do usuário que gerou o dado. A Resolução denota agranularidade da informação, que, como discutido na Seção 6.3, pode representar os deta-lhes de cobertura de uma determinada região. Por fim, a atualização descreve a idade deum dado, sendo essencial para se verificar a validade de um dado quando existe requisitosde tempo real.

Na mesma direção, Li et al. [Li et al. 2012] estenderam as definições de QoC paraavaliar a qualidade de dados oriundos de ambientes pervasivos. Ao investigarem os de-safios de se prover dados com qualidade nestes ambientes, foram propostas três métricaspara avaliar os dados e suas fontes geradoras: circulação, disponibilidade e validade. Acirculação está relacionada com a métrica de atualização, previamente discutida. Ela re-presenta a utilidade temporal do dado, desde o momento que ele é criado até que torne-seinútil. A disponibilidade mede a capacidade de uma entidade gerar um dado que, no con-texto de RSPs, por exemplo, pode ser encarado como a esperança de que um determinadodado tenha sido gerado por um usuário, quando se precisa de uma informação atualizadasobre uma determinada região. A validade é definida como um conjunto de regras quepodem ser usadas para validar o dado compartilhado, de acordo com um conhecimentoprévio do tipo de dado e do padrão comportamental de seus usuários.

Page 38: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

6.5.4.2. Desafios e Oportunidades

Podemos resumir os principais requisitos esperados para os dados gerados nas RSPs emdois aspectos: (i) a confiabilidade que se tem no dado; e (ii) a credibilidade de seususuários. Desta forma, alguns dos principais desafios que podem afetar a qualidade dosdados em uma RSP são:

1. Representatividade da amostra: Este desafio é relacionado ao quão representativouma amostra é sobre um determinado fenômeno, baseado na quantidade dos dadoscoletados. Por causa da sua alta relevância, esse é um ponto bastante discutidoem vários trabalhos que lidam com amostragem de dados. Do ponto de vista dasRSPs, como discutido na Seção 6.3, os dados coletados representam uma parcela dapopulação de uma determinada cidade, por exemplo. As informações extraídas sãobaseadas nesta amostra. Dependendo da amostragem, é possível que as informaçõesinferidas não representem bem o fenômeno analisado. Por isso, como mencionamosanteriormente, antes de tirar algumas conclusões com amostras de dados de RSPsé preciso contrastá-las com resultados obtidos utilizando outras fontes (e.g., dadoscoletados de forma offline).

2. Erros de leitura: Outro desafio que pode afetar a precisão dos dados das RSPs sãopossíveis erros de leitura de equipamentos. Por exemplo, um GPS pode estar malcalibrado e gerar dados cuja imprecisão está além do limite aceitável para este tipode dado. Embora alguns erros possam parecer totalmente toleráveis, dependendodos requisitos de uma aplicação, é possível que os limites mais restritos de precisãosejam fundamentais para sua correta operação.

3. Subjetividade de interpretação: Este desafio é relacionado com diferentes signifi-cados que podem existir sobre um dado para o usuário que o gerou e para aquele queo utilizará. Por exemplo, é possível encontrar dados que foram mal classificados ecompartilhados em uma RSP. O Foursquare, por exemplo, permite a definição dacategoria de um novo local adicionado e essa definição pode não ser a mais apropri-ada, devendo ser corrigida pelo sistema posteriormente. Outro exemplo é o caso doWeddar, sistema que permite aos usuários compartilharem suas interpretações doclima atual. Enquanto um usuário pode interpretar uma determinada temperaturado interior de sua casa, outro usuário pode interpretar uma temperatura em um par-que da mesma região. Nesse caso, o relato desses dois usuários pode ser bastantediferente.

4. Ausência de estrutura: Os dados compartilhados em RSPs, em alguns casos, sãode texto livre, não apresentando uma estrutura semântica nem codificadas. Essaliberdade dada aos usuários permite que eles postem o que querem, mesmo infor-mações incorretas, e em diferentes formatos. Por exemplo, um usuário poderiadescrever um acidente em outra língua ou utilizando gírias através de algum micro-

blogging como o Twitter. Com isso, o processamento dos dados se torna complexoe suscetível a erros, uma vez que há a possibilidade de dados distintos serem con-fundidos como um mesmo dado, ou ainda a duplicidade de dados, isto é, dados

Page 39: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

idênticos serem identificados como distintos devido a diferenças no preenchimentodos campos.

5. Poluição dos dados: A poluição dos dados diz respeito à possibilidade dos dadosestarem incorretos devido a um comportamento malicioso dos usuários[Coen-Porisini and Sicari 2012, Mashhadi and Capra 2011]. Podemos encontrar com-portamentos maliciosos em várias esferas sociais, e o mesmo também pode ocorrernas RSPs. Por exemplo, usuários de sistemas para compartilhamento de alertas detrânsito, como o Waze, podem gerar falsos alertas de congestionamento ou aciden-tes, com o intuito de incentivar os demais usuários a não utilizar determinadas viasde seu trajeto. Este comportamento malicioso poderá ocasionar em falsos positivosna detecção de um dado comportamento social ou eventos.

Um importante tópico de pesquisa que é afetado pela qualidade dos dados emRSPs diz respeito às técnicas de processamento e extração de conhecimento destes dados.Uma possível abordagem para lidar com este problema é modelar os dados como umasérie temporal e extrair conhecimento por meio de técnicas de processamento de sinais[Lathi and Green 2014]. Contudo, em alguns casos, os dados gerados pelas RSPs po-dem não seguir um padrão constante que facilite tal processamento. Como mencionamosanteriormente, os dados das RSPs estão sujeitos aos problemas de subjetividade de inter-pretação e da ausência de estrutura, podendo acarretar em erros durante a aprendizagemde padrões e demais propriedades de um determinado fenômeno.

Uma interessante abordagem na direção da resolução destes conflitos de interpreta-ção é apresentada em [Georgescu et al. 2014]. Os autores melhoraram alguns algoritmosde classificação de dados utilizando o serviço Mechanical Turk (MTurk)27, da Amazon.Nesse serviço os usuários são recompensados financeiramente para as tarefas cumpridas.A agregação do processamento computacional com estas unidades de trabalho humanas(Human Intelligence Task) oferecem importantes oportunidades de pesquisa para o cená-rio de sensoriamento participativo, principalmente nesse desafio discutido.

Outra oportunidade é avaliar a confiabilidade de um determinado usuário em umaRSP. Dados gerados por usuários mais confiáveis provavelmente terão maior qualidade.Uma possível direção nesse sentido está relacionada com a identificação de padrões com-portamentais dos usuários das RSPs. Como apresentado na Figura 6.9, quando agregadasgrandes quantidades de dados, é possível, claramente, identificar padrões de comporta-mento no compartilhamento de dados durante diferentes dias da semana. Assumindo queeste conhecimento prévio seria uma referência do comportamento esperado dos usuáriosde uma dada RSP, uma possibilidade seria comparar o comportamento de um determinadousuário com este padrão de referência. Por exemplo, usuários que possuem um padrão decompartilhamento muito distinto dos demais poderia representar um usuário não confiável(e.g., um robô malicioso).

Essa abordagem discutida acima, pode ser caracterizada como uma espécie defiltragem colaborativa [Adomavicius and Tuzhilin 2005]. Esta é uma estratégia utilizadapor sistemas de recomendação quando não se possui um conhecimento prévio do usuário

27http://www.mturk.com

Page 40: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

ao qual deverá se recomendar um item. Por exemplo, utilizando as preferências de outrosusuários similares a este, assumindo de que suas preferências também sejam similares.

Outras alternativas clássicas para lidar com a questão da qualidade dos dados sãoos mecanismos de reputação, que visam aumentar a credibilidade com o bom comporta-mento dos usuários. Mashhadi e Capra [Mashhadi and Capra 2011] propõem uma técnicaque estima a qualidade das contribuições de um usuário considerando sua credibilidade.Nesse trabalho, eles consideram a contribuição de pontos de interesse pelos usuários e de-finem funções de regularidade, que diz respeito ao padrão de mobilidade destes usuários,e de reputação, que considera a sua confiabilidade baseada nas suas contribuições anteri-ores com o sistema. A viabilidade desta proposta é baseada em estudos que demonstramque usuários urbanos exibem um alto nível de regularidade em suas atividades diárias.Essa regularidade, baseada na frequência de repetições de localidades, é justamente opadrão que auxiliará na identificação da credibilidade de um usuário.

Várias estratégias aqui discutidas apontam para direcionamentos relacionados àsolucionar os dois principais requisitos para as RSPs, isto é, a confiabilidade dos da-dos e a credibilidade de seus usuários. Contudo, um ponto importante destacado por[Mashhadi and Capra 2011] é que tais aspectos estão menos relacionados com a precisãode um dado em si e mais sobre qual informação, ou perspectiva, os seus usuários possuemsobre tais dados. Em outras palavras, ainda há muita subjetividade sobre a noção de qua-lidade de um dado compartilhado nas RSPs. Assim, uma estratégia que tenha como focolidar com a qualidade destes dados deve considerar as necessidades de cada aplicação eprocurar atender aos seus requisitos de forma específica.

6.5.5. RSPs e Redes Veiculares

6.5.5.1. Definições

Uma rede veicular (Vehicular Network - VANET) oferece uma gama de oportunidadespara monitoramento urbano e compartilhamento de dados sobre diversos aspectos do trân-sito. As redes veiculares não possuem as restrições comuns das redes de sensores sem fio,como por exemplo: energia, limitações de banda e memória, o que permite um senso-riamento mais preciso e uma maior quantidade de dados coletados do ambiente. Alémdisso, um veículo pode conter sensores que não estão disponíveis comumente em dispo-sitivos portáveis utilizados em RSPs, alguns exemplos são sensores químicos, acústicos,temperatura e umidade.

Outro ponto importante das redes veiculares é a cobertura da área de monitora-mento. Veículos circulam por toda cidade, permeando ruas e avenidas. Devido a essa altamobilidade, as redes veiculares conseguem capturar uma maior riqueza de detalhes dacidade. Todas essas características tornam uma rede veicular uma importante fonte de da-dos, que pode complementar dados provenientes de RSPs para um melhor entendimentodos fenômenos urbanos.

O campo de redes veiculares é bastante extenso. Por exemplo, em uma rede vei-cular os eventos (ou problemas) a serem monitorados são diversos, variam desde o acon-tecimento de uma queda de barreira em uma estrada até congestionamento no centro dacidade, acidentes, presença de animais na pista, etc. Não é objetivo deste minicurso dis-

Page 41: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

cutir em detalhes as redes veiculares e sim como as redes veiculares podem contribuircom RSPs e vice-versa. Com isso, nesta seção apresentamos trabalhos que focam em trêsprincipais questões: monitoramento geral de eventos no trânsito; o uso de dados em redesveiculares para o estudo de rotinas; e o estudo de congestionamento. Discutimos tambémdiversos desafios associados com essas questões.

6.5.5.2. Monitorando Eventos

Em VANETs os veículos podem cooperar entre si para coletar dados do ambiente, que pos-sibilitam a identificação de eventos, e os propagar para as entidades interessadas. Destaforma, esses dados podem influenciar diretamente na rota dos veículos, fazendo com queem muitos casos, os condutores redefinam as trajetórias. Cunha et al. [da Cunha et al. 2014a]apresentaram um serviço para monitoramento e disseminação de dados de um evento, queconsidera os padrões de deslocamento dos veículos. Com isso, ao sensoriar um eventoem uma região, o veículo propaga essa informação aos demais veículos, avisando sobreperigos à frente. Além disso, essa propagação considera as interações entre os veículos,selecionando aqueles que garantem uma cobertura maior na disseminação dos dados.

Outra possível solução usada para sensoriar eventos com as redes veiculares éapresentada por Lee et al. [Lee et al. 2006b], conhecida por MobEyes. O objetivo destasolução é fazer uso dos veículos equipados com sensores, para que, de forma proativa,os veículos coletem dados das vias públicas e de veículos na região. Entretanto, devidoà quantidade de dados gerada, alguns filtros podem ser associados e apenas dados maisrelevantes serão armazenados e encaminhados para o sorvedouro. Nesse cenário, os al-goritmos que controlarão a coleta e entrega de dados para o sorvedouro devem ser todoscientes das peculiaridades e restrições das VANETs.

Com objetivos diferentes, Lee et al. [Lee et al. 2006a] apresentaram o FleaNet,uma plataforma para a submissão de consultas em redes veiculares. Nela os veículosrecebem e submetem consultas sobre diversas questões do trânsito. Por exemplo, umusuário móvel detecta um acidente e compartilha fotos do mesmo para os veículos próxi-mos, publicando a informação. De forma diferente, mas respeitando o mesmo princípio,um estabelecimento comercial pode divulgar avisos sobre ofertas e promoções para osveículos que passam nas proximidades. Além disso, o usuário pode submeter consultasna rede em busca de locais e atrações nas proximidades.

6.5.5.3. Entendendo Comportamentos e Rotinas

Considerando os aspectos de mobilidade dos veículos e as suas trajetórias diárias, é pos-sível extrair desse cenário diversas características culturais sobre as rotinas dos usuários,seus interesses e os pontos de maior visitação em uma cidade. Baseado nisso, o traba-lho proposto por Cunha et al. [da Cunha et al. 2014b] apresenta uma análise de traces deGPS que descrevem a mobilidade de veículos em uma cidade e a partir deles extrair com-portamentos semelhantes na rede e entender melhor as rotinas das cidades. Entretanto,esses traces são obtidos através da adesão de pessoas que permitem o monitoramento damovimentação de seus veículos. Assim, quanto maior for a quantidade de registros de

Page 42: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

veículos, maior também será a qualidade dos dados caracterizados.

De forma semelhante, Fiore et al. [Fiore et al. 2014] apresentam uma análise damobilidade de veículos com o intuito de caracterizar o tráfego em uma cidade por meiodo entendimento dos fluxos e dos locais visitados. Baseados na análise de um trace demobilidade os autores demonstram como o uso de uma informação de mobilidade realdos veículos pode ajudar na avaliação do desempenho de protocolos para VANETs. Nestetrabalho os autores usam o trace da cidade de Colônia (Alemanha) e a partir da análiseconseguem melhorar o desempenho de protocolos e entender a distribuição de tráfego nacidade.

6.5.5.4. Monitorando Tráfego

Na literatura existem diversos modelos que lidam com o congestionamento de trânsito.Dentre eles podemos citar os que fazem apenas a detecção do congestionamento [Jain and Sethi 2012,Wisitpongphan et al. 2012], outros que fazem a sua previsão [Kong et al. 2013, Kurihara 2013],ou então fazem ambos [Horvitz 2015, Marfia and Roccetti 2011]. Eles se diferenciamprincipalmente quanto à: (i) janela de tempo futuro para o congestionamento; (ii) técni-cas utilizadas no modelo; (iii) fontes de dados utilizadas.

Quanto à janela de tempo futuro para o congestionamento, existem duas classifi-cações: (i) os modelos Short-term traffic flow forecasting (STFF), que fazem previsão dodesempenho do trânsito nos próximos 5 min até 1 hora [Sun et al. 2004]; (ii) os demais(previsão para mais de 1 hora, no mínimo), chamamos de Long-term traffic flow forecas-

ting (LTFF). Os modelos que fazem a previsão do trânsito para 15 min ou 30 min futurosse mostram mais interessante e úteis, pois esse é um intervalo de tempo razoável paratomar uma decisão. Apesar de existirem diversos modelos de previsões STFF e LTFF, autilização de RSPs pode melhorar a acurácia do modelo, dependendo de como variáveissociais forem utilizadas. Como os dados sensoriados em RSPs estão associados com oshábitos e as rotinas dos usuários, o desafio está em como obter e como utilizar esses dadosem tempo real, principalmente para STFF.

As técnicas mais utilizadas para fazer previsão de congestionamento são: Seaso-

nal AutoRegressive Integrated Moving Average (SARIMA), multi–variate AutoRegressive

Integrated Moving Average (ARIMA), redes Bayesianas, agrupamento fuzzy, identifica-ção de padrões de trânsito, algoritmo genético, redes neurais, Support Vector Machines

(SVM), média histórica, regressão não-paramétrica, filtro de Kalman e colônia de formi-gas.

As abordagens se diferenciam quanto à fonte de dados utilizada para fazer a de-tecção e/ou previsão, em termos de: traces de GPS, monitoramento de movimentaçõesde celulares / smartphones, mapas online, dados de sensores nas vias, clima, estaçõesdo ano, eventos, informações de construções nas vias, incidentes de trânsito e sensoria-mento social (social sensing). Dados de sensores nas vias são informações mais utilizadaspelos modelos, seguidos de traces de GPS, clima e estações do ano. Por exemplo, o pro-jeto Clearflow da Microsoft Research, descrito em [Horvitz 2015], utiliza praticamente

Page 43: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

todas as fontes citadas. No produto oferecido pela empresa Intellione28, apenas dados damovimentação dos usuários nas redes de celular são utilizados para detectar o congestio-namento (nenhuma predição é realizada). Para fazer previsão de congestionamento, Songet al. [Yuecong et al. 2007] utilizaram a combinação de vários preditores simples atravésde um algoritmo genético, obtendo uma previsão com maior precisão.

6.5.5.5. Desafios e Oportunidades

As redes veiculares e as RSPs possuem várias possibilidades de integração. Isso trazvários desafios e oportunidades, como os descritos a seguir.

1. Monitoramento de eventos: Na Seção 6.4.5 discutimos várias iniciativas que uti-lizam dados de RSPs exclusivamente para a detecção de eventos. A área de mo-nitoramento de eventos em redes veiculares pode se beneficiar de algumas dessasiniciativas, bem como utilizar dados de RSPs para o desenvolvimento de técnicaspara a identificação de eventos específicos ou aprimorar técnicas existentes. Alémdisso, problemas difíceis de serem identificados por uma rede veicular podem serreportados em RSPs, como discutido na Seção 6.5.1. Repare ainda que rotas pode-riam ser sugeridas para evitar pontos de interesse e eventos na cidade, ou mesmopara favorecer o encontro de pontos mais visitados.

2. Disponibilidade de dados: Como discutimos anteriormente, principalmente naSeção 6.4, dados de RSPs podem ser bastante úteis para o estudo de hábitos e rotinasde habitantes das cidades. Essas informações são importantes em redes veiculares,como mencionamos na Seção 6.5.5.3. No entanto, usuários em redes veicularespodem não fornecer a informação de locais visitados, problema que também podeocorrer em RSPs. Podemos minimizar esse problema estimulando a contribuiçãodos usuários. Isso é possível com incentivos adequados, bem como o aumento daprivacidade dos usuários em VANETs e RSPs para que os usuários permitam oestudo de suas rotinas. Outra forma de minimizar esse problema é utilizar dadosdisponíveis através de RSPs e redes veiculares conjuntamente. Isso serve para obterinformações complementares sobre a movimentação dos usuários, bem como terredundância de dados.

Em relação ao problema de congestionamento, geralmente, quanto mais fontes dedados um modelo utiliza melhor é o seu desempenho, pois mais informações sãoutilizadas para melhorar suas inferências. O problema é que nem sempre as fontesde dados estão correlacionadas e são relevantes para a previsão do congestiona-mento. Assim, a inclusão de uma nova fonte de dados requer uma caracterizaçãocom relação ao desempenho do trânsito.

Além disso, como vimos na Seção 6.3, a contribuição de dados pode ser bastantedesigual em regiões distintas de uma cidade. Se não tivermos dados suficientes emtodas as regiões, quais delas vão se beneficiar dessa informação? Outra questão é:como utilizar essa ou outras metodologias perante eventos atípicos que impactamno trânsito?

28http://www.intellione.com.

Page 44: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

3. Detecção/previsão de trânsito: De forma geral, dados de RSPs são pouco explo-rados em modelos de detecção/previsão de trânsito. Alguns dos trabalhos maispróximos dessa direção são: [Silva et al. 2013e, Tostes et al. 2014]. Tostes et al.analisaram condições de trânsito em relação aos dados sensoriados por duas RSPs,Foursquare e Instagram. Como vimos na Seção 6.3 os sensores de RSPs forneceminformações importantes para o melhor entendimento da dinâmica das cidades. Porexemplo, uma mensagem geolocalizada, seja no Foursquare, Instagram ou Twit-ter, pode ser utilizada para melhor entendermos as condições de trânsito. De fato,Tostes et al. [Tostes et al. 2014] observaram que check-ins são correlacionados comtrânsito intenso e que podem ser utilizados para desenvolver modelos de previsãode congestionamento mais eficientes. Além disso, imagine que um usuário façaum check-in em casa e depois vá para o trabalho. Quando chegar no trabalho, poralgum motivo, ele faz outro check-in. Independente se for na mesma rede social ounão, existe uma informação intrínseca no intervalo de tempo entre esses check-ins

que consiste no desempenho do trânsito. Se o trânsito estiver mais congestionado,esse intervalo entre check-ins será maior do que o tempo de viagem sem congesti-onamento, que é facilmente calculado pela distância e velocidade máxima das vias.Além disso, os autores também levantaram várias questões nessa direção: (i) comocoletar dados de mapas online em tempo real?; (ii) é possível utilizar dados de RSPscomo uma característica preditora de trânsito intenso?

Para tratar a questão (i), os autores desenvolveram uma nova metodologia de coletadescrita em [Tostes et al. 2013]. Basicamente, eles tiram um screenshot do mapacom a camada de trânsito habilitada a cada intervalo de tempo (1 min). Cada ruapossui uma máscara em relação à imagem do mapa. Cada novo screenshot passaem um algoritmo de processamento de imagens, que extrai a cor da rua, que corres-ponde à intensidade do trânsito (verde – livre, amarelo – congestionado, vermelho– engarrafado). O problema dessa abordagem é que as máscaras das ruas devem sercriadas manualmente, e isso é um gargalo do processo. Para a questão (ii), os au-tores analisaram a cidade de New York, mais especificamente a área de Manhattan.Conforme o estudo demonstra, os check-ins são bastante correlacionados com trân-sito intenso. A Figura 6.21 mostra os resultados de [Tostes et al. 2014]. Ao compa-rar as Figuras 6.21(a) e 6.21(b), podemos ver que a distribuição de trânsito intensoe a distribuição de check-ins durante os dias de semana são bastante semelhantes,no entanto as curvas são deslocadas no eixo X. Esta descoberta é surpreendente esugere que dados de RSPs podem refletir as condições reais de tráfego.

6.5.6. Outros Desafios Relacionados às RSPs

Outra questão importante é lidar com um grande volume de dados que as RSPs podemoferecer, impondo desafios para armazenamento, processamento e indexação em temporeal usando ferramentas de gerenciamento de banco de dados tradicionais ou aplicações deprocessamento de dados. Isso faz com que a oferta de serviços em tempo real usando umarede de sensoriamento participativo seja um desafio. Para resolver esta questão, precisa-mos de métodos para armazenar, mover e processar de forma eficaz grandes quantidadesde dados. Novos paradigmas algorítmicos devem ser projetados, bem como técnicas demineração de dados específicas devem ser criadas de acordo com esses novos paradigmas.

Page 45: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

(a) Intervalo de 5 minutos (b) Intervalo de 5 minutos com shift (c) Intervalo de 30 minutos

Figura 6.21. Frequência de trânsito intenso em diferentes intervalos de tempoem um dia típico (segunda–sexta) [Tostes et al. 2014].

Outros métodos devem contemplar abordagens de engenharia de dados para grandes redescom milhões ou bilhões de nós/arestas, incluindo compressão eficaz, pesquisa e métodospara casamento de padrões [Giannotti et al. 2012]. Felizmente, a pesquisa sobre os desa-fios de grandes dados é muito ativa, e recentemente fez grandes avanços, por exemplo,com base em plataformas paralelas (por exemplo, Hadoop29), para o processamento deum grande volume de dados.

Além disso, as RSPs são muito dinâmicas. Para ilustrar os desafios que surgemcom esta característica, observe o fluxo de informações em RSPs, que é mostrado naFigura 6.2, particularmente os dois fluxos simbolizados por setas rotuladas com a pala-vra “usa”. Usuários contam com RSPs, como o Twitter ou Waze, para transmitir seusdados sensoriados. Esses dados são transmitidos para o servidor, ou “sorvedouro”. Ocomponente de análise de informação contextual, ilustrado na Figura 6.2, é responsá-vel pelo tratamento dos dados compartilhados gerando informações úteis, ou contextos[Dey and Abowd 2000]. Sistemas, como o Waze, por sua vez, podem ser realimentadoscom os contextos gerados e, a partir disso, eles podem fornecer informações úteis para osusuários. Contextos também podem ser gerados por aplicativos de terceiros. Por exemplo,na Seção 6.4 é descrito um exemplo de aplicação que permite a identificação de regiõesde interesse de uma cidade, que exemplifica um tipo de contexto. Após usar este aplica-tivo, os usuários podem optar por mudar o seu comportamento, por exemplo, para visitarpreferencialmente áreas populares, o que pode vir a afetar o número de dados compar-tilhados nesses locais. Isto dá uma ideia do dinamismo de uma rede de sensoriamentoparticipativo e os desafios que surgem nessas condições.

Além desses desafios, existe ainda a questão da privacidade do usuário. Este de-safio é bastante amplo e está presente em muitas camadas do sistema. Privacidade de da-dos em sistemas de mídia social atualmente tem sido discutida em vários estudos, comoem [Pontes et al. 2012, Toch et al. 2010, Brush et al. 2010].

6.6. Conclusão

Neste minicurso, mostramos que as RSPs oferecem oportunidades sem precedentes deacesso a dados de sensoriamento em escala planetária, dados que nos ajudam a entender

29http://hadoop.apache.org

Page 46: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

melhor a dinâmica das cidades e o comportamento social urbano. Nessa direção, apresen-tamos uma visão detalhada das propriedades desses dados, bem como a sua utilidade nodesenvolvimento de serviços mais inteligentes para atender às necessidades das pessoasem diversas áreas.

Além disso, discutimos alguns dos principais desafios relacionados à RSPs, quevão deste mecanismos de incentivos para os usuários das RSPs, até o uso desses dadospara a geração de aplicações mais sofisticadas. Ressaltamos também várias oportunidadesrelacionadas ao uso de dados de RSPs, por exemplo ao considerar a dinâmica temporaldos dados.

É importante frisar que discutimos apenas alguns dos principais desafios e opor-tunidades relacionados ao emergente conceito de RSPs e que, certamente, outros existem.Além disso, novos desafios e oportunidades podem surgir com a criação de novas RSPs eo aumento do número de usuários utilizando essas redes.

Referências

[Adomavicius and Tuzhilin 2005] Adomavicius, G. and Tuzhilin, A. (2005). Toward the next generationof recommender systems: a survey of the state-of-the-art and possible extensions. Knowledge and Data

Engineering, IEEE Transactions on, 17(6):734–749.

[Anbukodi and Manickam 2011] Anbukodi, S. and Manickam, K. (2011). Reducing web crawler overheadusing mobile crawler. In Proc. of ICETECT’11, pages 926–932, Nagercoil, India.

[Bannur and Alonso 2014] Bannur, S. and Alonso, O. (2014). Analyzing temporal characteristics of check-in data. In Proc. of WWW Companion ’14, pages 827–832, Seoul, Korea.

[Barth 1969] Barth, F. (1969). Ethnic groups and boundaries: the social organization of culture difference.Scandinavian university books. Little, Brown.

[Benevenuto et al. 2011] Benevenuto, F., Almeida, J. M., and Silva, A. S. (2011). Explorando redes sociaisonline: Da coleta e análise de grandes bases de dados às aplicações. Proc. of SBRC’11, pages 63–94.

[Bollen et al. 2011] Bollen, J., Mao, H., and Zeng, X. (2011). Twitter mood predicts the stock market.Journal of Computational Science, 2(1):1–8.

[Bowles and Gintis 2003] Bowles, S. and Gintis, H. (2003). Origins of human cooperation. In: Genetic

and cultural evolution of cooperation. MIT Press Cambridge, MA.

[Brockmann et al. 2006] Brockmann, D., Hufnagel, L., and Geisel, T. (2006). The scaling laws of humantravel. Nature, 439(7075):462–465.

[Brush et al. 2010] Brush, A. B., Krumm, J., and Scott, J. (2010). Exploring end user preferences forlocation obfuscation, location-based services, and the value of location. In Proc. of Ubicomp ’10, pages95–104, Copenhagen, Denmark. ACM.

[Buchholz and Schiffers 2003] Buchholz, T. and Schiffers, M. (2003). Quality of context: What it is andwhy we need it. In Proc. of OVUA’03, Geneve, Switzerland.

[Burke et al. 2006] Burke, J., Estrin, D., Hansen, M., Parker, A., Ramanathan, N., Reddy, S., and Srivas-tava, M. B. (2006). Participatory sensing. In Proc. of Workshop on World-Sensor-Web (WSW’06), pages117–134, Boulder, USA.

[CENS/UCLA ] CENS/UCLA. Participatory Sensing / Urban Sensing Projects.http://research.cens.ucla.edu/.

[Cha et al. 2010] Cha, M., Haddadi, H., Benevenuto, F., and Gummadi, K. (2010). Measuring user influ-ence in twitter: The million follower fallacy. In Proc. of ICWSM’10, Washington, USA.

Page 47: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

[Cheng et al. 2011] Cheng, Z., Caverlee, J., Lee, K., and Sui, D. Z. (2011). Exploring Millions of Foot-prints in Location Sharing Services. In Proc. of ICWSM’11, Barcelona, Spain.

[Cho et al. 2011] Cho, E., Myers, S. A., and Leskovec, J. (2011). Friendship and mobility: user movementin location-based social networks. In Proc. KDD ’11, pages 1082–1090, San Diego, USA. ACM.

[Clauset et al. 2009] Clauset, A., Shalizi, C. R., and Newman, M. E. J. (2009). Power-law distributions inempirical data. SIAM Rev., 51(4):661–703.

[Coen-Porisini and Sicari 2012] Coen-Porisini, A. and Sicari, S. (2012). Improving data quality using across layer protocol in wireless sensor networks. Comput. Netw., 56(17):3655–3665.

[Crandall et al. 2009] Crandall, D. J., Backstrom, L., Huttenlocher, D., and Kleinberg, J. (2009). Mappingthe world’s photos. In Proc. of WWW ’09, pages 761–770, Madrid, Spain. ACM.

[Cranshaw et al. 2012] Cranshaw, J., Schwartz, R., Hong, J. I., and Sadeh, N. (2012). The LivehoodsProject: Utilizing Social Media to Understand the Dynamics of a City. In Proc. of ICWSM’12, Dublin,Ireland.

[da Cunha et al. 2014a] da Cunha, F. D., Maia, G., Viana, A. C., Mini, R. A. F., Villas, L. A., and Loureiro,A. A. F. (2014a). Socially inspired data dissemination for vehicular ad hoc networks. In Proc. of

MSWiM’14, pages 81–85, Montreal, Canada.

[da Cunha et al. 2014b] da Cunha, F. D., Viana, A., de Oliveira Rodrigues, T. A., Mini, R., and Loureiro, A.A. F. (2014b). Extração de propriedades sociais em redes veiculares. In Proc. of SBRC 2014 - WP2P+,Florianópolis, Brasil.

[Deterding et al. 2011] Deterding, S., Dixon, D., Khaled, R., and Nacke, L. (2011). From game designelements to gamefulness: defining gamification. In International Academic MindTrek Conference: En-

visioning Future Media Environments, pages 9–15. ACM.

[Dey and Abowd 2000] Dey, A. K. and Abowd, G. D. (2000). Towards a Better Understanding of Contextand Context-Awareness. In Proc. of CHI 2000 Workshops, The Hague, The Netherlands.

[Ferreira et al. 2014] Ferreira, A. P. G., Silva, T. H., and Loureiro, A. A. F. (2014). You are your check-in:Understanding the behavior of tourists and residents using data from foursquare. In Proc. of WebMe-

dia’14, Joao Pessoa, Brasil.

[Fiore et al. 2014] Fiore, M., Barcelo-Ordinas, J. M., Trullols-Cruces, O., and Uppoor, S. (2014). Ge-neration and analysis of a large-scale urban vehicular mobility dataset. IEEE Transactions on Mobile

Computing, 13(5):1–1.

[Fitzek et al. 2013] Fitzek, F. H., Heide, J., Pedersen, M. V., and Katz, M. (2013). Implementation ofnetwork coding for social mobile clouds [applications corner]. Signal Processing Magazine, IEEE,30(1):159–164.

[Ganti et al. 2011] Ganti, R., Ye, F., and Lei, H. (2011). Mobile crowdsensing: current state and futurechallenges. Communications Magazine, IEEE, 49(11):32 –39.

[Gao et al. 2015] Gao, H., Liu, C., Wang, W., Zhao, J., Song, Z., Su, X., Crowcroft, J., and Leung, K.(2015). A survey of incentive mechanisms for participatory sensing. Communications Surveys Tutorials,

IEEE, PP(99):1–1.

[Gao et al. 2013] Gao, H., Tang, J., Hu, X., and Liu, H. (2013). Exploring temporal effects for locationrecommendation on location-based social networks. In Proc. of RecSys ’13, pages 93–100, Hong Kong,China.

[Georgescu et al. 2014] Georgescu, M., Pham, D. D., Firan, C. S., Gadiraju, U., and Nejdl, W. (2014).When in doubt ask the crowd: Employing crowdsourcing for active learning. In Proc. of WIMS’14,pages 12:1–12:12, Thessaloniki, Greece. ACM.

[Giannotti et al. 2012] Giannotti, F., Pedreschi, D., Pentland, A., Lukowicz, P., Kossmann, D., Crowley, J.,and Helbing, D. (2012). A planetary nervous system for social mining and collective awareness. The

Eur. Phy. Jour. Special Topics, 214(1):49–75.

Page 48: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

[Gomide et al. 2011] Gomide, J., Veloso, A., Jr., W. M., Almeida, V., Benevenuto, F., Ferraz, F., andTeixeira, M. (2011). Dengue surveillance based on a computational model of spatio-temporal locality oftwitter. In Proc. of WebSci’11, Evanston, USA.

[Gonzalez et al. 2008] Gonzalez, M. C., Hidalgo, C. A., and Barabasi, A.-L. (2008). Understanding indi-vidual human mobility patterns. Nature, 453(7196):779–782.

[Hochman and Schwartz 2012] Hochman, N. and Schwartz, R. (2012). Visualizing instagram: Tracingcultural visual rhythms. In Proc. of ICWSM’12, pages 6–9, Dublin, Ireland. AAAI.

[Horvitz 2015] Horvitz, E. (2015). Predictive analytics for traffic. http://research.microsoft.com/en-us/projects/clearflow/.

[Instagram 2014] Instagram (2014). Instagram today: 200 million strong.http://blog.instagram.com/post/80721172292/200m.

[Jain and Sethi 2012] Jain, P. and Sethi, M. (2012). Fuzzy based real time traffic signal controller to opti-mize congestion delays. In Proc. of ACCT’12, pages 204–207.

[Kamenica 2012] Kamenica, E. (2012). Behavioral economics and psychology of incentives. Annu. Rev.

Econ., 4(1):427–452.

[Kaufmann et al. 2011] Kaufmann, N., Schulze, T., and Veit, D. (2011). More than fun and money. workermotivation in crowdsourcing–a study on mechanical turk. In Proc. of Amer. Conf. on Inf. Sys.

[Kisilevich et al. 2010] Kisilevich, S., Krstajic, M., Keim, D., Andrienko, N., and Andrienko, G. (2010).Event-based analysis of people’s activities and behavior using flickr and panoramio geotagged photocollections. In Proc. of Conf. on Inf. Vis., pages 289–296, London, UK. IEEE.

[Kong et al. 2013] Kong, Q.-J., Xu, Y., Lin, S., Wen, D., Zhu, F., and Liu, Y. (2013). Utn-model-based traf-fic flow prediction for parallel-transportation management systems. Intelligent Transportation Systems,

IEEE Transactions on, 14(3):1541–1547.

[Kostakos 2009] Kostakos, V. (2009). Temporal graphs. Physica A: Statistical Mechanics and its Applica-

tions, 388(6):1007–1023.

[Kurihara 2013] Kurihara, S. (2013). Traffic-congestion forecasting algorithm based on pheromone com-munication model. Ant Colony Optimization - Techniques and Applications.

[Lane et al. 2010] Lane, N., Miluzzo, E., Lu, H., Peebles, D., Choudhury, T., and Campbell, A. (2010). Asurvey of mobile phone sensing. Comm. Mag., IEEE, 48(9):140 –150.

[Lathi and Green 2014] Lathi, B. P. and Green, R. (2014). Essentials of digital signal processing. Cam-bridge University Press, Cambridge, UK.

[Lee and Hoh 2010] Lee, J.-S. and Hoh, B. (2010). Dynamic pricing incentive for participatory sensing.Pervasive and Mobile Computing, 6(6):693–708.

[Lee et al. 2006a] Lee, U., Park, J.-S., Amir, E., and Gerla, M. (2006a). Fleanet: A virtual market place onvehicular networks. In Proc. of Mobiquitous’06 - Workshops, pages 1–8, San Jose, USA.

[Lee et al. 2006b] Lee, U., Zhou, B., Gerla, M., Magistretti, E., Bellavista, P., and Corradi, A. (2006b). Mo-beyes: Smart mobs for urban monitoring with a vehicular sensor network. Wireless Commun., 13(5):52–57.

[Levine 1998] Levine, D. K. (1998). Modeling altruism and spitefulness in experiments. Review of econo-

mic dynamics, 1(3):593–622.

[Li et al. 2012] Li, F., Nastic, S., and Dustdar, S. (2012). Data quality observation in pervasive environ-ments. In Proc. of IEEE CSE’12, pages 602–609, Nicosia, Cyprus.

[Long et al. 2012] Long, X., Jin, L., and Joshi, J. (2012). Exploring trajectory-driven local geographictopics in foursquare. In Proc. of UbiComp ’12, pages 927–934, Pittsburgh, Pennsylvania. ACM.

[Loureiro et al. 2003] Loureiro, A. A. F., Nogueira, J. M. S., Ruiz, L. B., Mini, R. A., Nakamura, E. F., andFigueiredo, C. M. S. (2003). Redes de sensores sem fio. Proc. of SBRC’03, pages 179–226.

Page 49: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

[Marfia and Roccetti 2011] Marfia, G. and Roccetti, M. (2011). Vehicular congestion detection and short-term forecasting: A new model with results. Vehicular Technology, IEEE Tran. on, 60(7):2936–2948.

[Mashhadi and Capra 2011] Mashhadi, A. J. and Capra, L. (2011). Quality Control for Real-time Ubiqui-tous Crowdsourcing. In Proc. of UbiCrowd’11, pages 5–8, Beijing, China.

[Nazir et al. 2008] Nazir, A., Raza, S., and Chuah, C.-N. (2008). Unveiling facebook: A measurementstudy of social network based applications. In Proc. of IMC ’08, pages 43–56, Vouliagmeni, Greece.

[Nicosia et al. 2013] Nicosia, V., Tang, J., Mascolo, C., Musolesi, M., Russo, G., and Latora, V. (2013).Graph metrics for temporal networks. In Temporal Networks, pages 15–40. Springer.

[Noulas et al. 2011] Noulas, A., Scellato, S., Mascolo, C., and Pontil, M. (2011). An Empirical Study ofGeographic User Activity Patterns in Foursquare. In Proc. of ICWSM’11, Barcelona, Spain.

[Poblete et al. 2011] Poblete, B., Garcia, R., Mendoza, M., and Jaimes, A. (2011). Do all birds tweet thesame?: characterizing twitter around the world. In Proc. of CIKM, pages 1025–1030, Glasgow, UK.ACM.

[Pontes et al. 2012] Pontes, T., Magno, G., Vasconcelos, M., Gupta, A., Almeida, J., Kumaraguru, P., andAlmeida, V. (2012). Beware of what you share: Inferring home location in social networks. In Proc. of

ICDMW, pages 571–578, Brussels, Belgium.

[Quercia et al. 2012] Quercia, D., Capra, L., and Crowcroft, J. (2012). The social world of twitter: Topics,geography, and emotions. In Proc. of ICWSM’12, Dublin, Ireland.

[Reddy et al. 2010] Reddy, S., Estrin, D., Hansen, M., and Srivastava, M. (2010). Examining micro-payments for participatory sensing data collections. In Proc. of Ubicomp ’10, pages 33–36, Copenhagen,Denmark. ACM.

[Reddy et al. 2007] Reddy, S., Parker, A., Hyman, J., Burke, J., Estrin, D., and Hansen, M. (2007). Imagebrowsing, processing, and clustering for participatory sensing: Lessons from a dietsense prototype. InProc. of EmNets’07, pages 13–17, Cork, Ireland. ACM.

[Sakaki et al. 2010a] Sakaki, T., Okazaki, M., and Matsuo, Y. (2010a). Earthquake shakes twitter users:real-time event detection by social sensors. In Proc. of WWW’10, pages 851–860, Raleigh, USA.

[Sakaki et al. 2010b] Sakaki, T., Okazaki, M., and Matsuo, Y. (2010b). Earthquake shakes twitter users:real-time event detection by social sensors. In Proc. of WWW’10, pages 851–860, Raleigh, USA. IW3C2.

[Scott and Carrington 2011] Scott, J. P. and Carrington, P. J. (2011). The SAGE Handbook of Social

Network Analysis. Sage Publications Ltd.

[Silva et al. 2014a] Silva, T., Vaz De Melo, P., Almeida, J., and Loureiro, A. (2014a). Large-scale study ofcity dynamics and urban social behavior using participatory sensing. Wireless Communications, IEEE,21(1):42–51.

[Silva et al. 2014b] Silva, T. H., Vaz de Melo, P., Almeida, J., Viana, A., Salles, J., and Loureiro, A.(2014b). Participatory Sensor Networks as Sensing Layers. In Proc. of SocialCom’14, Sydney, Aus-tralia.

[Silva et al. 2013a] Silva, T. H., Vaz de Melo, P. O. S., Almeida, J. M., and Loureiro, A. A. (2013a). Socialmedia as a source of sensing to study city dynamics and urban social behavior: Approaches, models, andopportunities. In Ubiquitous Social Media Analysis, volume 8329, pages 63–87. Springer.

[Silva et al. 2012] Silva, T. H., Vaz de Melo, P. O. S., Almeida, J. M., and Loureiro, A. A. F. (2012).Visualizing the invisible image of cities. In Proc. IEEE CPScom’12, pages 382–389, Besancon, France.

[Silva et al. 2013b] Silva, T. H., Vaz de Melo, P. O. S., Almeida, J. M., and Loureiro, A. A. F. (2013b).Challenges and opportunities on the large scale study of city dynamics using participatory sensing. InProc. of IEEE ISCC’13, pages 528–534, Split, Croatia.

[Silva et al. 2013c] Silva, T. H., Vaz de Melo, P. O. S., Almeida, J. M., and Loureiro, A. A. F. (2013c).Uma Fotografia do Instagram: Caracterização e Aplicação. In Proc. of SBRC’13, Brasília, Brazil.

Page 50: Redes de Sensoriamento Participativo: Desafios e Oportunidadessbrc2015.ufes.br/wp-content/uploads/Ch6.pdf · portáteis, como smartphones e tablets, assim como a adoção mundial

[Silva et al. 2014c] Silva, T. H., Vaz de Melo, P. O. S., Almeida, J. M., Musolesi, M., and Loureiro, A.A. F. (2014c). You are What you Eat (and Drink): Identifying Cultural Boundaries by Analyzing Food& Drink Habits in Foursquare. In Proc. of ICWSM’14, Ann Arbor, USA.

[Silva et al. 2013d] Silva, T. H., Vaz de Melo, P. O. S., Almeida, J. M., Salles, J., and Loureiro, A. A. F.(2013d). A comparison of foursquare and instagram to the study of city dynamics and urban socialbehavior. In Proc. of UrbComp’13, pages 1–8, Chicago, USA.

[Silva et al. 2014d] Silva, T. H., Vaz de Melo, P. O. S., Almeida, J. M., Salles, J., and Loureiro, A. A. F.(2014d). Revealing the city that we cannot see. ACM Trans. Internet Technol., 14(4):26:1–26:23.

[Silva et al. 2013e] Silva, T. H., Vaz de Melo, P. O. S., Viana, A., Almeida, J. M., Salles, J., and Loureiro,A. A. F. (2013e). Traffic Condition is more than Colored Lines on a Map: Characterization of WazeAlerts. In Proc. of SocInfo’13, pages 309–318, Kyoto, Japan.

[Srivastava et al. 2012] Srivastava, M., Abdelzaher, T., and Szymanski, B. (2012). Human-centric sensing.Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences,370(1958):176–197.

[Sun et al. 2004] Sun, S., Yu, G., and Zhang, C. (2004). Short-term traffic flow forecasting using samplingmarkov chain method with incomplete data. In Proc. of Intelligent Vehicles Symposium, pages 437–441.

[Toch et al. 2010] Toch, E., Cranshaw, J., Drielsma, P. H., Tsai, J. Y., Kelley, P. G., Springfield, J., Cranor,L., Hong, J., and Sadeh, N. (2010). Empirical models of privacy in location sharing. In Proc. of

Ubicomp’10, pages 129–138, Copenhagen, Denmark. ACM.

[Tostes et al. 2013] Tostes, A. I. J., Duarte-FIgueiredo, F., Assunção, R., Salles, J., and Loureiro, A. A. F.(2013). From data to knowledge: City-wide traffic flows analysis and prediction using bing maps. InProc. of ACM UrbComp’13, Chicago, USA.

[Tostes et al. 2014] Tostes, A. I. J., Silva, T. H., Duarte-FIgueiredo, F., and Loureiro, A. A. F. (2014).Studying traffic conditions by analyzing foursquare and instagram data. In Proc. of ACM PE-WASUN’14,Montreal, Canada.

[Werbach and Hunter 2012] Werbach, K. and Hunter, D. (2012). For the win: How game thinking can

revolutionize your business. Wharton Digital Press.

[Wisitpongphan et al. 2012] Wisitpongphan, N., Jitsakul, W., and Jieamumporn, D. (2012). Travel timeprediction using multi-layer feed forward artificial neural network. In Proc. of CICSyN’12, pages 326–330, Phuket, Thailand.

[Xie et al. 2009] Xie, X., Chen, H., and Wu, H. (2009). Bargain-based Stimulation Mechanism for SelfishMobile Nodes in Participatory Sensing Network. Proc. of IEEE SECON’09, pages 1–9.

[Yang et al. 2012] Yang, D., Xue, G., Fang, X., and Tang, J. (2012). Crowdsourcing to smartphones: in-centive mechanism design for mobile phone sensing. In Proc. of Mobicom’12, pages 173–184, Istanbul,Turkey.

[Youyou et al. 2015] Youyou, W., Kosinski, M., and Stillwell, D. (2015). Computer-based personalityjudgments are more accurate than those made by humans. Nat. Acad. of Sci., 112(4):1036–1040.

[Yuan et al. 2013] Yuan, Q., Cong, G., Ma, Z., Sun, A., and Thalmann, N. M. (2013). Time-aware point-of-interest recommendation. In Proc. of SIGIR ’13, pages 363–372, Dublin, Ireland. ACM.

[Yuecong et al. 2007] Yuecong, S., Wei, H., and Guotang, B. (2007). Combined prediction research of citytraffic flow based on genetic algorithm. In Proc. of ICEMI’07, pages 3–862–3–865.

[Zhang et al. 2013] Zhang, K., Jin, Q., Pelechrinis, K., and Lappas, T. (2013). On the importance of tem-poral dynamics in modeling urban activity. In Proc. of UrbComp’13, pages 7:1–7:8, Chicago, Illinois.

[Zheng et al. 2009] Zheng, Y., Zhang, L., Xie, X., and Ma, W.-Y. (2009). Mining interesting locations andtravel sequences from gps trajectories. In Proc. of WWW’09, pages 791–800, Madrid, Spain. ACM.