3 decisões em tempos de big data - dbd puc rio · 36. inadequada para lidar com nosso mundo...

20
33 3 Decisões em tempos de Big Data 3.1 Os fundamentos da área de Big Data Sendo necessária a adoção de uma abordagem sistêmica para a resolução dos maiores problemas do nosso tempo (CAPRA & LUISI, 2014), de fato pode-se observar hoje o nascimento e o desenvolvimento de áreas multidisciplinares do conhecimento que tratam justamente do desafio inerente a se por em prática tal abordagem. Na ampla área de análise de dados quantitativos e qualitativos, que permeia praticamente todas as grandes disciplinas acadêmicas, a emergência dessa necessidade é particularmente notável. A área de conhecimento hoje denominada genericamente de Big Data concentra os esforços de se extrair conhecimento de grandes quantidades, diversas qualidades e intensa dinamicidade de dados, a fim de se permitir tal abordagem sistêmica para a resolução de problemas. O problema desta pesquisa - a decisão por uma alternativa de viagem realizada por um potencial viajante autônomo - é claramente um problema que requer uma abordagem sistêmica por parte do viajante. Para sua decisão, ele hoje se vale de interfaces com recursos desenvolvidos especificamente para ajudá-lo e, em última instância, para fazê-lo realizar uma compra. Toda essa nova área do conhecimento vem sendo instrumentalizada e delineada para que seja possível coletar, armazenar e analisar dados não apenas em grande quantidade e velocidade, mas principalmente dados não estruturados, “sujos”, altamente dinâmicos, não-lineares, sistêmicos, tal como os fenômenos que se tentam compreender. Vale ressaltar que a viabilização tecnológica dos recursos de Big Data foi possível especialmente devido à participação massiva de comunidades open source (de conhecimento aberto e sem fins lucrativos) e colaborações em grande escala em todo o mundo. Na área de infraestrutura, por exemplo, iniciativas sem fins lucrativos como o Apache Hadoop 2 viabilizaram o armazenamento e processamento distribuído de dados tanto a empresas quanto a pesquisadores e outras instituições inclusive do poder público, enquanto na área de análise e modelagem matemática iniciativas igualmente sem fins lucrativos – tais como o 2 Disponível em: http://hadoop.apache.org/

Upload: vantuyen

Post on 10-Nov-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

33

3 Decisões em tempos de Big Data

3.1 Os fundamentos da área de Big Data

Sendo necessária a adoção de uma abordagem sistêmica para a resolução

dos maiores problemas do nosso tempo (CAPRA & LUISI, 2014), de fato pode-se

observar hoje o nascimento e o desenvolvimento de áreas multidisciplinares do

conhecimento que tratam justamente do desafio inerente a se por em prática tal

abordagem. Na ampla área de análise de dados quantitativos e qualitativos, que

permeia praticamente todas as grandes disciplinas acadêmicas, a emergência dessa

necessidade é particularmente notável.

A área de conhecimento hoje denominada genericamente de Big Data

concentra os esforços de se extrair conhecimento de grandes quantidades, diversas

qualidades e intensa dinamicidade de dados, a fim de se permitir tal abordagem

sistêmica para a resolução de problemas. O problema desta pesquisa - a decisão

por uma alternativa de viagem realizada por um potencial viajante autônomo - é

claramente um problema que requer uma abordagem sistêmica por parte do

viajante. Para sua decisão, ele hoje se vale de interfaces com recursos

desenvolvidos especificamente para ajudá-lo e, em última instância, para fazê-lo

realizar uma compra.

Toda essa nova área do conhecimento vem sendo instrumentalizada e

delineada para que seja possível coletar, armazenar e analisar dados não apenas

em grande quantidade e velocidade, mas principalmente dados não estruturados,

“sujos”, altamente dinâmicos, não-lineares, sistêmicos, tal como os fenômenos

que se tentam compreender.

Vale ressaltar que a viabilização tecnológica dos recursos de Big Data foi

possível especialmente devido à participação massiva de comunidades open

source (de conhecimento aberto e sem fins lucrativos) e colaborações em grande

escala em todo o mundo. Na área de infraestrutura, por exemplo, iniciativas sem

fins lucrativos como o Apache Hadoop 2 viabilizaram o armazenamento e

processamento distribuído de dados tanto a empresas quanto a pesquisadores e

outras instituições inclusive do poder público, enquanto na área de análise e

modelagem matemática iniciativas igualmente sem fins lucrativos – tais como o 2 Disponível em: http://hadoop.apache.org/

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 2: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

34

projeto R3 – democratizaram sobremaneira o acesso a ferramentas de exploração,

tratamento e processamento analítico de dados através de bibliotecas de poderosos

algoritmos e modelos matemáticos.

Há, portanto, no DNA da área de Big Data que emerge, uma natureza

sistêmica devido à abordagem multidisciplinar e multicultural própria da

comunidade que a constrói. Esse fato explica a coerência dos recursos e

ferramentas desenvolvidos com a necessidade humana de decidir.

3.1.1 Dados e decisão

Como consolidado por Rowley (2007), a representação do relacionamento

entre dados, informação, conhecimento e sabedoria (das iniciais em inglês:

DIKW) na forma da pirâmide abaixo vem sendo há décadas reconhecida e

fortalecida como uma representação fundamental para a compreensão do processo

de geração de sabedoria e, por conseguinte, para o processo de decisão de um

indivíduo qualquer.

Segundo essa representação, informação, conhecimento e sabedoria –

matérias-primas essenciais para a tomada de decisões – requerem dados, mesmo

se o consumo desses dados for indireto ou tenha se dado em um tempo anterior ao

momento da decisão.

Figura 7: Pirâmide DIKW (do inglês: Data, Information, Knowledge, Wisdom)

O reconhecimento quase consensual pela comunidade acadêmica de tal

relação vem sendo um dos combustíveis para o desenvolvimento de áreas que

3 Disponível em: http://www.r-project.org/

SABEDORIA

CONHECIMENTO

INFORMAÇÃO

DADOS

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 3: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

35

estudam em maior detalhe os processos de transformação que ocorrem da base

para o topo da pirâmide. Nesta pesquisa, entretanto, assume-se uma transformação

não-linear de dados em decisões, segundo resultados de pesquisas

comportamentais e neurológicas, abstraindo-se assim eventuais etapas

intermediárias de processamento – como preconizam os modelos apresentados no

capítulo 2.

Vale notar que mesmo os modelos apresentados levam em conta

indiretamente as transformações intermediárias sugeridas pela pirâmide. Isso fica

evidente quando, por exemplo, alguns modelos assumem que a intuição advém de

experiências prévias, encrustadas em nosso sistema nervoso na forma de

conhecimentos – ou seja, informações interpretadas e armazenadas – e sabedorias

– ou seja, um espectro de conhecimentos agregados em torno de um tema de

expertise.

Abstraindo-se, portanto, os detalhes dos mecanismos de transformações

intermediárias, esta pesquisa aborda a relação direta entre a capacidade de decisão

do viajante e os recursos de processamento e representação aplicados diretamente

a um sistema complexo e vasto de dados brutos, como os define Ackoff (1989):

“Dados são crus. Eles simplesmente existem e têm nenhuma significância além da

sua existência (...). Eles podem existir em diversas formas, úteis ou não. Eles não

têm significado em si mesmos.”

3.1.2 Complexidade e decisão

Ao introduzir o livro “The Systems View of Life: A Unifying Vision” (“A

Perspectiva Sistêmica da Vida: Uma Visão Unificadora”, tradução nossa), em que

aborda a importância de uma abordagem sistêmica para a resolução de problemas,

Capra e Luisi (2014) discorrem sobre a magnitude do impacto da simplificação

para as maiores crises do nosso tempo: Conforme o século XXI se desdobra, torna-se mais e mais evidente que os maiores problemas do nosso tempo – energia, meio ambiente, mudança climática, segurança alimentar, segurança financeira – não podem ser entendidos isoladamente. São problemas sistêmicos, o que significa que são todos interconectados e interdependentes. Em última análise, esses problemas devem ser vistos como diferentes facetas de uma única crise, que é em grande parte uma crise de percepção. Ela deriva do fato de que a maioria das pessoas em nossa sociedade moderna, e especialmente nossas grandes instituições sociais, adotam conceitos de uma visão de mundo ultrapassada, uma percepção da realidade

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 4: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

36

inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3)

Decerto, historicamente, para lidar com a complexidade incerta e ruidosa, o

pensamento científico clássico se apoiou sobre três princípios simplificadores: a

“ordem”, a “separabilidade” e a “razão” (MORIN, 2000, p. 199) na busca de

teorias generalizadoras a partir de um paradigma reducionista e, por isso, isolando

interferências que hoje sabemos serem essenciais para a compreensão de sistemas

orgânicos.

Tal paradigma, apoiado sobre uma percepção simplificada de realidade,

quando aplicado ao mundo complexo, resultou em decisões notavelmente

catastróficas, que vão desde a estiagem completa do mar de Aral para a irrigação

de culturas de algodão na antiga URSS (MORIN, 2000, p. 208) até a morte

inadvertida de 209 civis em um vôo comercial pela marinha americana por engano

em 1988 (MCCABE, 2014, p. 10), entre tantos outros. Dos exemplos mais atuais,

é imperativo citar a crise financeira mundial de 2008, que trouxe efeitos

comparados aos da Segunda Guerra Mundial (CLAESSENS, 2006, p. 1), e que se

originou em análises reducionistas de títulos de dívidas, onde não se avaliavam

nem mesmo suas procedências e riscos.

E se por um lado é evidente a emergência da consciência dos perigos do

reducionismo analítico, por outro também é indiscutível a aceleração escalante da

disponibilização de dados que permitiriam uma análise muito mais holística de

problemas. Enquanto a IBM estima que geramos 2,5 quintilhões (1 seguido de 18

zeros) de bytes diariamente, e que mais de 90% de todos os dados foram criados

nos últimos dois anos (SILVER, 2012), o McKinsey Global Institute estima em

40% o crescimento anual da geração de dados no mundo enquanto,

comparativamente, o custo de um disco para armazenar toda a música produzida

mundialmente até 2011 era de apenas 600 dólares. (MANYIKA, 2011) A

crescente valorização da análise sistêmica aliada à vasta disponibilidade de dados

e à viabilização tecnológica dessa forma de análise complexa – com o uso de

ferramentas de aprendizado de máquina e outros modelos matemáticos – gerou

um movimento acelerado para o desenvolvimento de metodologias analíticas para

grandes volumes, velocidades e variedade de dados.

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 5: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

37

Do ponto de vista do consumidor, é notável ainda o perigo à saúde que o

convívio com esse excesso pode produzir. Hemp (2009) argumenta, com base em

resultados de pesquisas relacionadas, que “o estresse de não ser capaz de

processar informações tão rapidamente quanto elas chegam – combinado com a

expectativa pessoal e social de que, por exemplo, você vai responder cada uma

das mensagens de e-mail que receber – pode exaurir e desmoralizar” um

indivíduo. Segundo o autor, o único remédio para indivíduos sobreviverem a uma

“morte por sobrecarga de informações”, está na adoção de uma mudança profunda

de mentalidade e comportamento – mais flexível, que permita ignorar

informações conforme o contexto –, e de uso da tecnologia para acesso a

informações – com o uso de ferramentas online que auxiliem a curadoria da

informação. (HEMP, 2009, pp. 3-9)

Há, portanto, um movimento convergente de adoção de ferramentas que

combinem a capacidade computacional e a capacidade perceptiva de que

dispomos para que seja possível não apenas o convívio mas também a cognição e

o usufruto dos dados disponíveis. Não obstante, enquanto as soluções

tecnológicas para coleta e armazenamento de dados vão sendo desenvolvidas em

ritmo acelerado, tal etapa de análise conjugada (computacional e perceptiva) para

cognição sistêmica dos dados – e, portanto, dos eventos que esses dados

representam – requer uma abordagem muito mais dinâmica e complexa.

Na tentativa de criar uma abordagem aplicável à inteligência da

complexidade, Morin (2000, pp. 208-212) sugere sete princípios gerais que se

sobrepõem e se reforçam:

1. O princípio sistêmico ou organizacional: que liga o conhecimento das

partes ao conhecimento do todo, que se opõe à ideia reducionista, e que

admite que o todo é diferente da soma das partes, podendo ser mais ou

menos, inclusive simultaneamente.

2. O princípio “hologramático”: que considera que não somente a parte

está no todo, mas também que o todo está codificado na parte. O

exemplo mais claro deste princípio é a codificação do DNA nas células

(todo inscrito na parte) enquanto as células compõem o todo.

3. O princípio do círculo retroativo: que rompe o princípio da

causalidade linear e permite a compreensão de mecanismos de auto-

regulagem de sistemas através de múltiplas retroações ou feedback.

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 6: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

38

4. O princípio do círculo recursivo: um círculo gerador no qual os

produtos e os efeitos são eles próprios produtores e causadores daquilo

que os produz. Nesta pesquisa, o estudo de tendências de mercado

ilustra um exemplo deste princípio, uma vez que tendências de

comportamento de consumo são produzidas por padrões de

comportamentos e reforçam esses mesmos padrões de comportamentos

simultaneamente.

5. O princípio da auto-eco-organização: que explicita a dialogia

autonomia-dependência inerente aos sistemas orgânicos que são

igualmente autônomos em si mas dependentes de fatores em seus

entornos.

6. O princípio dialógico: que une dois princípios ou noções que devem

excluir-se um ao outro, mas são indissociáveis numa mesma realidade.

Vale ressaltar que estes próprios princípios já são exemplos dessa

dialogia intrínseca de sistemas complexos.

7. O princípio da reintrodução do conhecimento em todo

conhecimento: que torna presente a problemática cognitiva central em

que, da percepção à teoria científica, “todo conhecimento é uma

reconstrução/tradução por um espírito/cérebro numa cultura e num

tempo determinados.”

De fato, essa análise tão rica de perspectivas acaba por implicar não apenas

na cognição da complexidade, mas em um grande impacto sobre o potencial

criativo do analista. Segundo especialistas em criatividade (Ferguson, 2012;

Ridley, 2010; Johnson, 2010) e em interfaces para estímulo à inovação

(Shneiderman, 2000), o poder da associação livre de ideias para a geração

espontânea de novas ideias é inquestionável, e é justamente esse poder que passa a

ser ativado quando tantas perspectivas tão distintas – até mesmo aparentemente

conflitantes – sobre o mesmo objeto de análise são incluídas. O próprio método de

Brainstorming, tão amplamente utilizado para ideação, se baseia explicitamente

nesse poder. Ben Shneiderman (2000), especialmente, ao caracterizar “interfaces

para suporte à inovação”, é enfático ao elencar “visualização de dados e

processos” e “associações livres entre dados e informações” como ações

essenciais que tais interfaces devem facilitar.

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 7: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

39

Portanto, a capacidade de cognição sistêmica traz consigo um potencial

inerente de ativação da capacidade criadora, e a percepção dessas vantagens

estimularam, no decorrer das primeiras décadas do século XX, a adoção do

“pensamento sistêmico” em diversas áreas da ciência ocidental. (CAPRA &

LUISI, 2014, p. 63) Segundo Capra e Luisi (2014), a Biologia foi a precursora

dessa nova forma de pensar – quando passou a estudar o comportamento de

organismos como um todo –, seguida pelo desenvolvimento de áreas com

abordagens igualmente sistêmicas tais como a Psicologia Gestalt, a Ecologia e a

Física Quântica. O que essas áreas do conhecimento têm em comum é justamente

a necessidade da adoção de um novo conceito de causalidade, desta vez não-

linear, que pressupõe uma forma de pensar contextual em vez de analítica, que

inverte a noção de que o estudo das partes pode ser generalizado para o todo para

a noção de que somente o estudo da organização do todo pode elucidar claramente

as propriedades das partes.

Capra e Luisi (2014) sumarizam ainda a transição de um pensamento

mecanicista para um pensamento sistêmico enfatizando oito características

principais desse movimento:

• Das partes para o todo: As propriedades das partes só podem ser

compreendidas através do contexto, da conectividade e dos padrões de

relacionamento organizacionais do todo. Quando um sistema é

dissecado, ele perde as propriedades sistêmicas que o definem.

• Multidisciplinaridade inerente: Ao se considerar que todos os

sistemas orgânicos, dos biológicos aos empresariais, compartilham de

propriedades e princípios organizacionais comuns, o pensamento

sistêmico pode integrar as partes e diferentes granularidades do sistema.

Contudo, para se emigrar da análise unidisciplinar tradicional a uma

capaz de integrar tantos diferentes escopos, faz-se necessária a

integração de diversas disciplinas, respectivas à cada parte e

granularidade.

• De objeto para relações: O que se chama de “parte” é, na realidade,

um padrão que se repete em diversas granularidades: “células são partes

de tecidos, tecidos são partes de órgãos, órgãos são partes de

organismos [...] que são partes de ecossistemas e sistemas sociais.”

Sendo assim, em vez de inferir relações entre objetos deve-se passar a

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 8: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

40

ver o próprio objeto como uma rede de relações: “as relações são

primárias [...] os ‘objetos’ são secundários.” (CAPRA & LUISI, 2014,

p. 80)

• De medição para mapeamento: Essa mudança radical de foco dos

objetos para as relações, descrita no item acima, pode parecer pouco

intuitiva para o indivíduo do mundo ocidental, já que a ciência

ocidental é amplamente construída sobre a comparação de medições, e

relações são muito difíceis de serem medidas: relações são mais

passíveis de serem mapeadas. Quando mapeadas as relações de um

sistema, o estudo de um fenômeno passa a ser relacionado à busca de

padrões tais como ciclos, fronteiras, redes e clusters (sub-conjuntos de

amostras que compartilham de propriedades muito semelhantes). Em

visualização de dados geo-localizados, por ser uma aplicação que

acomoda o mapeamento mais intuitivamente, há muito tempo essa

abordagem é bastante empregada.

• De quantidades para qualidades: O mapeamento de relações para o

estudo de padrões não é uma tarefa majoritariamente quantitativa.

Segundo Capra e Luisi, a matemática da complexidade vem se

desenvolvendo principalmente com o emprego de ferramentas visuais,

que são mais efetivas para a investigação de padrões de relacionamento.

Essa análise visual de padrões é uma analise qualitativa e naturalmente

é uma das tendências que motivaram mais profundamente esta

pesquisa.

• De estruturas para processos: A organicidade de sistemas vivos,

como o que está em estudo nesta pesquisa por exemplo, não permite

reduzi-los a uma configuração de componentes que compõem um todo.

Para evitar essa redução e permitir a compreensão sistêmica, é

necessário traduzir as estruturas de componentes como um conjunto de

processos comuns e, estes sim, recorrentes e replicáveis dentro do todo.

• De ciência objetiva para ciência epistêmica: Ao se adotar uma

abordagem sistêmica, é inevitável que se perca a objetividade, uma vez

que não é mais possível que haja a separação clara entre o investigador

(observador) e o que é investigado (objeto). “A ciência sistêmica, em

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 9: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

41

contraste, implica que a epistemologia – o entendimento do processo de

construção de conhecimento – deve ser incluída explicitamente na

descrição do fenômeno” (p. 81), uma vez que “o que observamos não é

a própria natureza, mas a natureza exposta ao nosso método de

questionamento.” (HEISENBERG, 1958, p.58 in CAPRA & LUISI

p.82)

• De certeza Cartesiana para conhecimento aproximado: Em suma, se

“a natureza é vista como uma rede interconectada” – virtualmente sem

limites – “de relações, em que a identificação de padrões específicos

[...] depende do observador humano e do processo de construção de

conhecimento”, a noção de conhecimento aproximado é crucial para o

delineamento de uma ciência sistêmica. (p. 82) Esta mudança de

paradigma requer, em verdade, uma mudança de percepção. Em vez de

se buscar uma certeza sobre um recorte mínimo que praticamente não

reproduz a realidade, busca-se, conscientemente, um conhecimento

aproximado sobre um grande escopo, que pode informar muito mais

sobre a realidade de suas relações e processos componentes.

Tanto os princípios de Morin (2000) quanto o paradigma emergente descrito

por Capra e Luisi (2014) podem ser percebidos nos recursos mais atuais de Big

Data, que buscam justamente auxiliar na compreensão de fenômenos sistêmicos e

complexos. De forma conceitual, esses recursos podem ser vistos como a

exploração prática daqueles princípios para endereçar este novo paradigma:

enquanto a área de Ciência de Dados oferece uma abordagem automatizadora de

etapas da decisão através do processamento computacional de dados, a área de

Visualização de Dados explora novas formas de representação de dados que

favoreçam um processamento visual mais eficiente dos dados.

3.2 Ciência de dados para suporte à decisão

A área de Ciência de Dados, em franco desenvolvimento especialmente

desde meados de 2010, vem sendo amplamente discutida tanto na indústria quanto

nos meios acadêmicos, cada viés com preocupações bastante distintas e

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 10: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

42

complementares. Na academia, matemáticos, estatísticos, programadores e

cientistas buscam tecnologias que consigam lidar com a complexidade crescente

que a vasta disponibilidade de dados proporciona, quase sempre optando por uma

abordagem de código aberto para desenvolvimento em comunidade; na indústria,

a preocupação desses cientistas está voltada para a aplicação “em produção”

dessas novas tecnologias, que estão, portanto, sendo constantemente postas à

prova.

A partir desses ciclos acelerados de destruição criadora (SCHUMPETER,

1942), tecnologias, práticas e aplicações vêm se consolidando, ainda que seja

consensual a percepção de que as tecnologias para armazenamento, transferência

e processamento desses dados ainda precisam amadurecer. Em contrapartida, há

certas aplicações para Ciência de Dados que já se encontram em um estágio muito

mais maduro, como será detalhado a seguir.

Assim, como confirma a tendência de interesse de usuários da ferramenta de

busca da Google (Figura 8), a área de Ciência de Dados vem acompanhando –

mesmo que com certo atraso – a tendência de interesse por Big Data,

impulsionada por demandas da indústria que financiam e facilitam pesquisas que

viabilizem o tratamento de dados em grande volumes, variedades e velocidades, e

permitam a produção de vantagens competitivas a partir de insights diferenciados

e automatizações de conteúdo para customização em massa de experiências

digitais.

Figura 8: Tendências de interesse por buscas por “data science” e “big data”

(GOOGLE, 2015)

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 11: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

43

As aplicações para Ciência de Dados na indústria vêm, desta forma, se

consolidando em duas frentes principais, condizentes com o desafio de

compreensão do mundo complexo a partir de dados descrito acima: a geração de

insights e a customização de experiência.

3.2.1 Geração de insights

Para a geração de inteligência capaz de prever tendências, comportamentos

e anomalias, utiliza-se fartamente os princípios recursivos, retroativos e de

reintrodução de conhecimento sobre o todo de Morin na forma de algoritmos de

aprendizado de máquina. Esses algoritmos são capazes de produzir um

aprendizado contínuo sobre as relações intrínsecas entre muitos fatores sistêmicos

(traduzidos na forma de dados). De forma simplificada, tal aprendizado é

armazenado na forma de relações probabilísticas ou determinísticas de causa e

efeito em rede dentre todos os fatores.

Sendo assim, os recursos para geração de insights mais utilizados e

desejados por empresas digitais são:

• Cálculo de índices inteligentes: Trata-se da redução de diversos

atributos a um único número a partir do cálculo de índices e indicadores

capazes de sinalizar a ocorrência de anomalias, problemas ou

oportunidades de melhoria em tempo quase real.

• Curadoria inteligente de dados: A partir de características

demográficas ou comportamentais do usuário, algoritmos decidem quais

dados em quais formatos devem ser apresentados para esse usuário.

Esses mesmos algoritmos são usados para a compreensão de segmentos

de mercado e padrões de comportamento.

• Registro (log) de dados históricos: Trata-se simplesmente da

manutenção constante do registro de dados históricos de navegação,

pesquisa e preferências pessoais. Hoje já é possível – apesar de caro –

coletar e armazenar praticamente cada interação de cada usuário com

uma interface. Esses dados, quando disponibilizados ao usuário, além de

facilitarem a geração de insights, também suportam sua decisão.

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 12: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

44

3.2.2 Customização de experiência

Recursos mais avançados utilizam ainda o mesmo aprendizado, integrado

em tempo real a interfaces digitais, para a automatização de conteúdos e

experiências. Estes recursos representam o estado-da-arte da área de Ciência de

Dados e dependem ainda de soluções incompletas, em desenvolvimento.

Os recursos para customização da experiência do usuário mais utilizados e

desejados por empresas digitais são:

• Recomendação preditiva: A partir de dados históricos de consumo por

todos os usuários, algoritmos são capazes de inferir, no momento da

navegação, o que cada usuário, novo ou frequente, tem maior propensão

a querer consumir.

• Integrações com outras fontes de dados: Ao trazer dados

personalizados de outras fontes, como aqueles de redes sociais

associados ao perfil do usuário, a experiência pode ser customizada de

forma a incluir a opinião de amigos, familiares ou outras entidades de

confiança. Outras integrações usuais são aquelas com fontes de notícias

e bancos de dados de referência. O uso deste recurso visa reduzir a

percepção de riscos.

3.3 Visualização de dados para suporte à decisão

Para McCabe (2014) e Capra e Luisi (2014), há uma crise de percepção que

felizmente - ainda que lentamente - nos últimos 30 anos vem sendo substituída em

diversos campos avançados do saber em favor de um pensamento que comporta a

sistematicidade do mundo. (CAPRA & LUISI, 2014) Para os três autores, esse

pensamento deve ser mais qualitativo, mas é alimentado por informações

qualitativas e quantitativas, indiscriminadamente. Enquanto McCabe enfatiza o

poder dos sentidos para perceber informações sistêmicas, Capra e Luisi avaliam

que a “nova matemática da complexidade é a matemática de padrões visuais”,

seguida da “análise qualitativa” desses padrões (CAPRA & LUISI, 2014, p. 81).

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 13: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

45

Com opinião semelhante, Manovich (1995) já argumentava anos antes que a

sociedade pós-industrial em que vivemos exige uma mudança na forma como

consumimos informação, favorecendo “o processamento visual e mental de

informações.”

Para se permitir essa nova forma de se perceber informações, diversos

campos do saber têm desenvolvido técnicas e tecnologias absolutamente

impensáveis há até poucos anos (CAPRA & LUISI, 2014), inclusive para o design

de representações visuais de informações quantitativas. (YAU, 2014) De fato,

como mostram as evidências, a visualização de dados ilustra claramente o abuso

do reducionismo, assim como o movimento de transição para uma nova

abordagem mais sistêmica. Também desde 2009, a busca crescente por novas

formas visuais para compreensão de dados evidencia uma maior consciência da

importância de se incluir mais complexidade para uma melhor compreensão do

mundo em que vivemos: “um universo onde a ordem não é absoluta, [onde] a

separabilidade é limitada, onde a lógica comporta buracos.” (MORIN, 2000)

Apenas bem mais recentemente, contudo, em função da necessidade

imperativa de representação de dados em volume, velocidade e variedades

anteriormente inimagináveis para a compreensão de sistemas cada vez mais

mensuráveis e interconectados, percebemos a maior gravidade do desafio, que

estimulou e foi estimulado pelo desenvolvimento acelerado de tecnologias para a

interatividade de interfaces de dados, para a representação de dados em alta

definição e para a colaboração de interpretações. Tais tecnologias são

imprescindíveis para o processo de percepção e cognição, uma vez que permitem

e exploração dos dados por etapas e de acordo com a necessidade do visualizador,

bem como a troca de opiniões e percepções. (CHOU, 2003)

Assim, hoje, quando dispomos de tecnologia capaz de acessar e representar

dados com muitas dimensões interativamente, novos autores e pesquisadores

amplificam o desafio da abstração para a compreensão de dados

multidimensionais mais complexos. Yau (2013), por exemplo, enfatiza que o dado

em si já é uma abstração simplificada da realidade e que, sendo a visualização

uma abstração dos dados, ela deve ser vista como uma abstração da abstração do

real.

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 14: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

46

3.3.1 Princípios da representação de dados

Contrastando com a demanda emergente e urgente por formas mais visuais

e sistêmicas para consumo de dados – segundo Tufte (2001), ainda em 2001, em

torno de 2 trilhões (2 x 1012) de imagens de gráficos estatísticos eram impressos

anualmente em todo o mundo –, as pesquisas sobre visualização de dados ainda

são recentes e incipientes. Apesar dos trabalhos seminais para uma linguagem

visual universal para comunicação de informações, liderados por Otto Neurath

ainda na década de 1930 (NEURATH, 1936), apenas por volta da década de 1970,

com a publicação de “Semiologie Graphique” por Jacques Bertin (1967) e

“Exploratory Data Analysis” por John Tukey (1977), as bases para uma teoria

para a representação visual de dados quantitativos começou a ser consolidada.

Enquanto Bertin partira de fundamentos da cartografia e da semiologia para

sugerir representações que privilegiassem a percepção do visualizador (BERTIN,

1967; ARBEX, 2013), Tukey se apoiara em princípios estatísticos e matemáticos

e concentrou-se em processos visuais para exploração investigativa de dados,

processo esse que denominou “análise exploratória de dados” (TUKEY, 1977). A

Bertin e Tukey seguiram os trabalhos pioneiros de Tufte (1983-2001) e Cleveland

(1984, 1985).

Notavelmente, Tufte (1983-2001) foi responsável pela consolidação destes

trabalhos pioneiros para o desenvolvimento de princípios que até hoje permeiam a

prática da representação de dados, seja a infografia estática ou a visualização

interativa de dados, apesar da ausência de interatividade da época. Seus princípios

delineiam principalmente uma abordagem para a representação clara e imparcial

de dados. Para isso se valeu de uma extensa pesquisa do uso de representações de

informações quantitativas para a comunicação de dados, desde a antiguidade,

enquanto Cleveland (1985) aprofundou tais princípios abordando aspectos de

percepção e cognição empiricamente.

Segundo Tufte (2001), o desafio da visualização de dados para a informação

está na dificuldade de se representar muitas dimensões sobre uma superfície

bidimensional, como o papel ou, analogamente, o monitor. Nesse âmbito, ele

sugere cinco táticas principais para escapar das limitações da mídia plana:

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 15: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

47

• Leituras micro/macro: representações que permitem o zoom in/out

permitem a inferência de diferentes informações a partir de diferentes

perspectivas.

Figura 9: Exemplo de leitura micro/macro (TUFTE, 2001)

• Estratificação (em camadas) e separação: Esta tática esclarece

relações em camadas ou espaços diferentes para maior clareza de grupos

de informações que devem ser lidos em conjunto.

Figura 10: Exemplo de estratificação e separação (TUFTE, 2001)

• Pequenos múltiplos: A repetição de elementos semelhantes permite a

visualização das diferenças com mais clareza. Hoje, com a facilidade de

construção de animações e de inclusão de interatividade, o uso de

pequenos múltiplos está praticamente limitado a mídias impressas.

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 16: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

48

Figura 11: Exemplo de pequenos múltiplos (TUFTE, 2001)

• Cor e anotações: O uso de cores e anotações é essencial para explicitar

definições e codificar novas dimensões.

• Narrativas de espaço e tempo: Destacando espaço e tempo das demais

dimensões é possível construir narrativas poderosas. Isso se deve ao fato

de essas quatro dimensões serem muito familiares a qualquer pessoa,

pois somos obrigados a viver de acordo com elas.

Figura 12: Exemplo de narrativa de espaço e tempo (TUFTE, 2001)

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 17: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

49

Desde a pesquisa de Tufte, como citado, pôde-se observar avanços

espantosos em tecnologia da informação e em computação gráfica que

viabilizaram a construção de visualizações dinâmicas, interativas, em tempo real e

em alta definição. Assim, enquanto os princípios de Tufte continuam

incrivelmente atuais, é imprescindível interpretá-los à luz dessas novas

tecnologias, especialmente com relação à viabilidade da interatividade, essencial à

vinculação pessoal do visualizador aos dados e ao aprimoramento da cognição

(CHOU, 2003), e de altíssimas definições, que permite representar muitas

dimensões simultaneamente.

De fato, com a ascensão da relevância do tópico, as ferramentas

tecnológicas para ativar esse novo interesse por dados de diversas fontes seguem

em franco desenvolvimento. A democratização de ferramentas para análise visual

é evidente com a popularização sem precedentes de softwares e aplicativos

específicos à área (como o Tableau4, o Spotifire5 e o R), e de linguagens e

bibliotecas específicas para visualização de dados (como o Google Charts6, o

Processing7 e o D3.js8) – além dos já consagrados softwares de processamento de

planilhas e tabelas de dados (como o Microsoft Excel9) e de design e diagramação

de informações (como o Adobe Creative Suite10). Esse fato é corroborado por

Silva (2001), que lista ainda websites geradores de conteúdo, empresas e eventos

especializados que se tornaram referência nos últimos 4 anos.

Apesar da democratização das ferramentas, contudo, a dificuldade inerente

da criação de visualizações interativas de dados, especialmente em se tratando de

dados multidimensionais de sistemas complexos, interdependentes, se dá

principalmente pela profunda interdisciplinaridade dessa temática ainda em

amadurecimento, que envolve matemática computacional, estatística, ciência da

informação, design, arte e psicologia – entre outras disciplinas mais específicas ao

propósito da visualização. Horn (1999) descreve a situação do profissional de

4 Disponível em: http://www.tableausoftware.com/ 5 Disponível em: http://spotfire.tibco.com/ 6 Disponível em: https://developers.google.com/chart/ 7 Disponível em: http://processing.org/ 8 Disponível em: http://d3js.org/ 9 Disponível em: http://office.microsoft.com/en-us/excel/ 10 Disponível em: http://www.adobe.com/br/products/cs6.html

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 18: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

50

Design de Informação no fim do século XX, quando a disciplina começava a se

definir:

O Design de Informação ainda não é uma profissão completamente

integrada. Seus praticantes têm visões bastante diferentes da profissão – até

mesmo diferentes nomes para ela. Em jornais e revistas chama-se infográfico; em

administração, chamam-na apresentação gráfica ou business graphics; e nas

ciências é conhecido por visualização científica. Engenheiros da Computação

chamam-na design de interface [...]. Designers gráficos a chamam simplesmente

de design. Enquanto esses praticantes sem dúvida têm interesses distintos que

possam justificar os nomes diferentes, muitas das suas preocupações e práticas

principais são similares. (HORN, 1999, pp. 16-17)

E desde então a multidisciplinaridade vem se aprofundando para caminhos

menos relacionados à mera comunicação e que tirem proveito de todo o potencial

criativo e de solução de problemas que a análise visual permite, como, por

exemplo, ao se tornar ferramenta de análise exploratória essencial a times de Big

Data.

3.3.2 Percepção Visual e Interatividade

Entre 1940 e 1960, a sociedade industrial – até então caracterizada pelo foco

exclusivo em temáticas referentes basicamente à eficiência produtiva – passou a

dedicar mais atenção a conceitos relativos à eficiência de um novo instrumento de

trabalho: a mente. (MANOVICH, 1995)

Nos anos 1950 a Psicologia Cognitiva começou a deslocar o então

dominante behaviorismo. Desde então, o que está sob o escrutínio de psicólogos

são funções mentais: percepção, atenção, compreensão de texto, memória, e

resolução de problemas. (...) A ascensão das ciências cognitivas é um aspecto da

maior mudança da sociedade industrial para a pós-industrial e a correspondente

nova imagem de trabalho e diversão: o processamento visual e mental de

informações ao invés de atividade corporal. (MANOVICH, 1995, p. 7)

Nesse sentido, enquanto Treisman (1980) realizou experimentos para o

estudo do que denominou pre-attentive processing (Figura 13), ou seja, uma etapa

primitiva do mecanismo de processamento visual – que inconsciente e

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 19: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

51

constantemente absorve informações do ambiente – Cleveland (1985) seguiu

nessa mesma linha e expandiu essa noção ao tentar elencar elementos visuais

segundo sua capacidade de estímulo à percepção (Figura 14), embora o próprio

autor tenha sugerido as limitações de sua generalização.

Figura 13: Contrastes visuais de processamento anterior à atenção (pre-attentive

processing) (TREISMAN, 1980)

Figura 14: Contrastes visuais para a representação de dados quantitaivos,

ordenados do mais perceptivo ao menos perceptivo (CLEVELAND, 1985)

Nos últimos 20 anos, a consagração da internet como meio principal para

aquisição de dados e informações não apenas vem reforçando a emergência dessa

tendência ao entendimento do funcionamento do nosso processamento visual, mas

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA
Page 20: 3 Decisões em tempos de Big Data - DBD PUC RIO · 36. inadequada para lidar com nosso mundo superpopuloso, globalmente interconectado. (CAPRA & LUISI, 2014, p. 3) Decerto, historicamente,

52

também fez da própria internet uma plataforma para novos experimentos. As

limitações desse canal – bidimensional, com qualidade e acessibilidade variáveis,

e inicialmente capaz de estimular apenas a visão e a audição do usuário –

demandaram o aprofundamento de pesquisas sobre percepção visual e questões

tecnológicas inerentes ao desenvolvimento de uma linguagem visual mais efetiva

para diversos fins, dentre eles comunicação, colaboração e marketing. Essa

preocupação já era central na pergunta de abertura de Tufte para “Envisioning

Information”: “O mundo é complexo, dinâmico, multidimensional; o papel é

estático, plano. Como poderemos representar este rico mundo visual de

experiências e medições sobre um mero espaço plano?” (TUFTE, 1990, p. 16)

Nesse contexto, trocando o papel pela tela, o uso de elementos interativos

para o aprimoramento da cognição tem se mostrado uma prática viável e eficaz,

desde que cuidadosamente projetados para o público, a tecnologia e a interface

gráfica adequados (CHOU, 2003). Segundo Chou, funções interativas são

necessárias ou mesmo indispensáveis para a facilitação de interações cognitivas.

Sweller (1994) enfatiza assim a importância da interatividade para o aprendizado:

Uma carga cognitiva intrínseca é caracterizada em termos da interatividade

dos elementos. Os elementos contidos na maioria dos esquemas [representações

visuais] devem ser compreendidos simultaneamente porque eles interagem e essa

interação que é crítica. (SWELLER, 1994, p. 45)

Shneiderman, por sua vez, ainda em 1996, profetiza sobre o desafio que

vivemos hoje e sumariza a oportunidade:

Designers estão apenas descobrindo como usar telas coloridas de alta

resolução para apresentar grandes volumes de informação de formas ordenadas e

controladas pelo usuário. Psicólogos cognitivos, estatísticos e designers gráficos

(...) oferecem orientação valiosa sobre a apresentação estática de informações,

mas a oportunidade para displays dinâmicos levam designers de interfaces para

muito além do conhecimento atual. (SHNEIDERMAN, 1996, p. 2)

DBD
PUC-Rio - Certificação Digital Nº 1412251/CA