bigd ata - blogs.ifg.edu.brblogs.ifg.edu.br/semanactformosa/files/2014/11/bigdata.pdf · 4...

67
1 BIG DATA SIRLON DINIZ DE CARVALHO –DR [email protected]

Upload: truongdieu

Post on 28-Jan-2019

213 views

Category:

Documents


0 download

TRANSCRIPT

1  

BIG  DATA  

SIRLON  DINIZ  DE  CARVALHO  –  DR    

[email protected]    

2  

Tem experiência de mercado nas áreas de Sistemas de Informação,

Engenharia da Computação, Administração por Processos e Gestão da Qualidade,

com ênfase em Mapeamento de Processos, Inteligência nos Negócios (Business

Intelligence - BI) e Teleinformática. Atuação como analista de sistemas e consultor

independente para diversas empresas, principalmente nos temas: Análise e

Desenvolvimento, Sistemas Tutores Inteligentes, Segurança da Informação,

Infraestrutura e Redes de Computadores. Certificado Six Sigma - Lean Green Belt

e Lean Black Belt - liderou e participou de vários projetos Six Sigma. Com os

conhecimentos obtidos em Administração por Processos, já atuou em vários

projetos na área de tecnologia, melhoria da qualidade em empresa do ramo

educacional, entre outros. Atua na área acadêmica há mais de 14 anos como

docente na graduação e pós-graduação, além de ter exercido atividades de gestão

de cursos de graduação e pós-graduação. Atualmente é servidor público federal do

Instituto Federal de Goiás.

 

Sirlon  Diniz  de  Carvalho,  MSc.  

3  

BIBLIOGRAFIA  •  Mayer-Schönberger, Viktor; Kenneth, Cukier. Big Data: como extrair

volume, variedade, velocidade e valor da avalanche de informação cotidiana. Rio de Janeiro: Elsevier, 2013.

•  Mahrt, M.; Scharkow, M. (2013) The Value of Big Data in Digital Media Research. Journal of Broadcasting & Electronic Media, 57(1), 20-33.

•  Manyika J, Chui M, Brown B, Bughin J, Dobbs R, Roxburgh C, Byers AH (2011) Big data: the next frontier for innovation, competition, and productivity. McKinsey Global Institute. Disponível em http://www.mckinsey.com/insights/mgi/research/technology_and_innovation/big_data_ the_next_frontier_for_innovation. Acesso em 2014-09-01.

•  Inmon, W. H., Como Construir o Data Warehouse, Campus, 1997.

•  Barbieri, Carlos. BI – Business Intelligence – Modelagem & Tecnologia. Rio de Janeiro: Editora Axel Books, 2001.

•  Serra, L., A Essência do Business Intelligence, Berkeley Brasil, 2002.

•  Kimball, Ross. "The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition)", Wiley, 2002.

4  

Conteúdo  da  apresentação  Dos Sistemas Transacionais ao Big Data •  Sistemas Transacionais e sua estrutura de

Dados; •  C o n c e i t o d e B a n c o s d e D a d o s

Relacionais; •  Dos Dados Transacionais ao Data

Warehouse (DW); •  Além dos Dados Transacionais e do DW:

e-mails, informações de tráfego de rede, redes sociais etc.;

•  O Big Data e a Business Intelligence; •  O agora em Big Data: aplicações e

estudos de Casos; •  A imprecisão dos dados (confusão):

ênfase no todo e não no detalhe. Big Data: Volume, Variedade, Velocidade e Valor •  Os V’s do Big Data •  Aceitando a Confusão: estudos de caso; •  A causalidade: sem saber o “porquê”,

apenas “o quê”;

•  A Dataficação: quantificação, tabulação e análise;

•  Além dos dados estruturados: o valor dos dados não estruturados;

•  Valor dos dados: análise de custo e benefício; •  Dados: reutilização, recombinação, expansão

e depreciação; •  A cadeia de valor do Big Data: Informação,

Especialista de Dados, Pessoas e Empresas com mente Big Data;

•  Riscos do Big Data: Privacidade e Punições preditivas;

•  Big Data e normas de regulação. Projetos de Big Data •  Ferramentas de Big Data; •  Dados não estruturados e o NOSQL; •  Projeto de Big Data: ganham os pequenos ou

os grandes;

5  

Tipos  de  Aplicações:  Sistemas  Transacionais/Operacionais  

USlizado  para  aplicações  operacionais    

•  Aplicações  crí6cas  –  OLTP  

•  Execução  do  negócio  

•  Sistemas  de  controle  de  estoque  

•  Sistemas  bancários  

•  Sistemas  Financeiros  

•  Operações  de  manipulação  de  dados  (insert,  update,  delete),  

normalmente  on-­‐line  e  em  nível  detalhado.  

•  Sistemas  de  controle  de  vendas  de  mercadorias  etc.  

6  

Banco  de  Dados  Transacionais  

Como  armazenar  dados  

•  Textos  

•  Sistemas  de  Gerenciamento  de  Arquivos  

•  Planilhas  eletrônicas  

•  Sistemas  de  Gerenciamento  de  Bancos  de  Dados  

o  SGBD  Relacional  

o  SGBD  Orientado  a  Objetos  etc.  

7  

Modelagem  dos  dados  de  aplicações  transacionais  

Para  armazenar  é  necessário  modelar  ou  projetar  o  BD  

•  Normalização  

•  Porque  normalizar  

•  1ª,  2ª,  3ª  e  4ª  FN  

•  Exemplo  de  normalização  

•  Exercício  modelagem  

8  

Modelagem  dos  dados  de  aplicações  transacionais  

9  

Empresa  informaSzada:  novas  demandas  

Novas  Demandas  de  T.I.  

•  Relatórios  gerenciais:  clientes  por  bairro,  estado  civil  etc.  

•  Análise  complexa  —  questões  impossíveis  de  se  prever  

•  Mais  demandas  para  o  departamento  de  T.I.  

•  Case  supermercado  –  produtos  por  grupo  

•  Mas  resumo  não  contradiz  normalização?  

•  Ambiente  de  negócio  em  mudança  constante  

•  Dados  heterogêneos  e  inconsistentes  

10  

Problemas  com  a  modelagem  transacional  

•  Alto  volume  de  dados  e  necessidade  de  resposta  rápida  

•  Dados  são  voláteis:  clientes  mudam,  casam,  estudam  etc.  

Enfim:      

 Os  modelos  de  dados  tradicionais  acabam  sendo  

muito  complexos  e  di3ceis  de  ser  entendidos  pelo  

usuário.  Além  disso,  Joins  de  múl;plas  tabelas,  

frequentemente  grandes,  são  demorados  e  

consomem  muitos  recursos  do  sistema.  

11  

Dúvidas  e  quesSonamentos  surgem  

•  Conhecemos  o  negócio?  Entendemos  o  processo,  mas  somos  

incapazes  de  analisar  situações  mais  complexas  

•  Valor  da  Tecnologia  versus  valor  da  Informação  

•  O  que  está  sendo  feito  com  a  memória  da  organização  

•  Relatórios  não  atendem  à  Gerência  

•  Como  resolver  esse  problema?  

 

12  

Com  Aplicações  de  Tomada  de  Decisão  

USlizadas  para  análise  do  negócio    

•  Sistemas  de  Apoio  à  Decisão  -­‐  SAD  

•  Exige  conhecimento  do  negócio  

•   Vital  para  desenvolvimento  de  estratégias  

•  Extraem  informações  necessárias  para  a  tomada  de  decisão,  

u6lizando  consultas  complexas  sobre  grandes  volumes  de  dados  

(por  exemplo,  determinar  a  taxa  de  crescimento  do  faturamento  

nos  úl6mos  5  anos)  

•  Podem  usar  sistemas  transacionais  como  fontes  de  dados  

13  

BI  –  Conceito  

Business  Intelligence  (BI)    “Refere-­‐se  à  coleta,  organização,  análise,  compar;lhamento  e  

monitoramento  de  informações  para  suporte  à  gestão  de  negócios.”  

Contempla:    

•  Data  Warehouse  (DW)    

•  Data  Mining  (DM)  

•  Customer  Rela6onship    Management(CRM)  

•  OLAP  

14  

Nascimento  do  Data  Warehouse  (DW)  

“Data  Warehouse  é  um  conjunto  de  dados:  

•  orientados  a  um  assunto  

•  integrados  •  não-­‐voláteis  •  variáveis  com  o  tempo  

•  usado  no  apoio  a  decisões  gerenciais”  

 

William H. Inmon “Pai do Data Warehousing”

15  

Data  Warehouse:  texto  para  leitura  

CaracterísScas  de  um  DW    

•  Orientado  a  assuntos:  vendas  de  produtos  a  diferentes  6pos  de  clientes,  

atendimentos  e  diagnós6cos  de  pacientes,  rendimento  de  estudantes.  

•  Integrado:  diferentes  nomenclaturas,  formatos  e  estruturas  das  fontes  de  

dados  precisam  ser  acomodadas  em  um  único  esquema  para  prover  uma  

visão  unificada  e  consistente  da  informação.  

•  Não  voláSl:  os  dados  de  uma  data  warehouse  não  são  modificados  como  em  

sistemas  transacionais  (exceto  para  correções),  mas  somente  carregados  e  

acessados  para  leituras,  com  atualizações  apenas  periódicas.  

16  

Comparação  entre  dados  transacionais  e  DW  

Operacionais Data Warehouse

Orientados à aplicação Orientados a assuntos

Precisão Instantânea Snapshots

Atualizáveis Somente para leitura Voláteis Históricos

Dispersos em aplicações Integrados no DW Acesso frequente Acesso esporádico

Acesso a quantidade reduzida Acesso a grande volume

0

10

20

30

40

50

60

70

80

0 1 2 3 4 5 6 7 8 9 10

Transacional

DW

17  

O  Data  Warehouse  

Afinal,  o  que  é  o  DW?    

•  Um  novo  modelo  de  Dados  

•  Uma  nova  estrutura  de  armazenamento  

•  Infraestrutura  diferente  

•  Acesso  diferenciado  

•  Grandes  quan6dades  de  dados  

18  

E  nos  departamentos:  Data  Mart  

Data  Mart  

•  Subconjunto  dos  dados  corpora6vos  

•  Informações  específicas  para  um  grupo  de  usuários  

•  Esquemas  não  normalizados  

Data Warehouse Corporativo

Data Mart de Marketing

Data Mart de Finanças

Data Mart de Vendas

19  

Data  Mart    -­‐  Aplicação  

Aplicações  de  Data  Mart  

§  Uso  departamental  

§  Locais  remotos  (filiais,  lojas  etc.)  

§  Acesso  externo  (fornecedores,  clientes  etc.)  

§  Estals6ca/Mineração  (segmentação  de  mercado,  previsão  

orçamentária,  gerenciamento  de  campanhas  etc.)  

20  

Problemas  com  Origens  dos  Dados  

Problemas  com  Sistemas  Legados  

•  Modelagem  inexistente  

•  Programadores  não  pertencem  mais  à  equipe  

•  Sistemas  proprietários  não  possibilitam  acesso  

•  Domínio  de  tecnologia  obsoleta:  cobol,  adabas  etc.  

•  Dados  dependentes  da  aplicação:  dincil  dissociar  

•  Equipe  transacional  não  coesa  com  B.I.  

 

21  

Conceito  de  ETL:  Extração  

Desafio  da  Extração  

Ø    “Somente  a  extração  dos  dados  leva  cerca  de  60%  das  horas  

de  desenvolvimento  de  um  DW  (KIMBALL,  1998  apud  ABREU,  

2007).”  

Ø    “A  maior  parte  do  esforço  exigido  no  desenvolvimento  de  um  

DW  é  consumido  neste  momento  e  não  é  incomum  que  oitenta  

por  cento  de  todo  esforço  seja  empregado  no  processo  de  ETL,  

(INMON,  1997  apud  ABREU,  2007)”  

Ø  A  extração  é  afetada  pelo  ambiente  

22  

Dados  Externos  

   “Dados  Externos  referem-­‐se  a  dados  essenciais  para  a  tomada  de  decisão,  mas  que  não  fazem  parte  dos  dados  originados  dos  sistemas  transacionais.”  

§  Exemplos  de  Dados  Externos:  cotação  de  moeda  estrangeira,  

situações  de  catástrofe,  cenário  de  mercado  etc.  

§  Fonte  de  Dados  Externos:  revistas  especializadas,  jornais,  índices  

governamentais  etc.    

23  

Os  Metadados:  Conceito  

 “Essencialmente  Metadados  refere-­‐se  a  um  dicionário  de  dados,  ou  seja,  dados  que  mantém  informações  sobre  outros  dados”  

§  Para  cada  atributo  no  DW,  há  uma  entrada  no  dicionário  

§  Dados  são  consultados  e  atualizados  com  base  nos  metadados  

§  Permite  conhecer  e  entender  a  estrutura  dos  dados  

§  Em  BD  transacional  a  semân6ca  está  na  aplicação  

24  

OLAP:  Online  analyScal  processing  

Tipos  de  Ferramentas  

§  MOLAP:  Mul6dimensional  OLAP  

§  ROLAP:  Rela6onal  OLAP  

§  HOLAP:  Hybrid  OLAP  

§  DOLAP:  Desktop  OLAP  

25  

Ferramentas  OLAP  

Ferramentas OLAP

Dados Operaciona

is

Dados Externos

Warehouse Data Mart

Cuidados  com  soluções  integradas  –  DW  e  OLAP  

26  

Ferramentas  Mineração  de  Dados  

Diferenças  entre  -­‐  OLAP  -­‐  Data  Mining  

Matemática

Machine Learning

Estatística

Heurística

Inteligência Artificial

Data Mining

Business Application

27  

Nova  Fonte  de  Recursos  para  a  empresa  

§  Questões  é6cas  

§  A  Informação  como  a6vo  da  empresa:  novo  conceito  

§  Possibilidade  de  vendas  de  informação  

§  E  as  novas  fontes  de  informação?  

§  Para  onde  vamos?  Big  Data?  

28  

O  Big  Data  Agora  

Definição  

 Existem  várias,  mas  segundo  Mayer-­‐Schönberger,    

“Big   data   se   refere   a   trabalhos   em  grande  escala   que  não  podem  

ser  feitos  em  escala  menor,  para  extrair  novas   ideias  e  criar  novas  

formas   de   valor   de   maneiras   que   alterem   os   mercados,   as  

organizações,  a  relação  entre  os  cidadãos  e  governos  etc.”  

 

Origem  do  nome  Big  Data  

Ciências  como  astronomia  e  genômica  

 

 

 

29  

O  Big  Data  Agora  

Caso  H1N1  •  CDCs  (Centro  de  Controle  de  Prevenção  de  Doenças):  

ü  Dependia  de  resultado  de  exames  e  informações  do  médicos  ü  Cenário  defasado  em  01  ou  02  semanas  

•  Google:  ü   usou  dados  de  50  milhões  de  termos  de  busca  comuns  

(histórico  de  2003  a  2008)  ü  450  milhões  de  modelos  matemá6cos  

ü  Combinação  de  45  termos,  num  modelo  matermá6co  ü  Encontrou  correlação  entre  previsão  e  números  oficiais  ü  Em  tempo  real  

ü  Sem  teste  de  saliva,  sem  atraso  

30  

O  Big  Data  Agora  

Caso  Forecast  (Oren  Etzioni)  •  Passagens  antecipadas  com  preço  maior?  

•  Como  saber  se  comprar  antecipadamente  é  melhor?  •  Coletou  12000  preços  em  41  dias  

•  Criou  uma  startup  •  Passou  para  200  bilhões  de  registros  •  Vendeu  para  Microsow  por  US$  110  milhões  

Qual  a  matéria-­‐prima  do  negócio?  

 Revolução  nos  dados,  não  nas  máquinas!  

31  

O  Big  Data  Agora  

Caso  Sloan  Digital  Sky  Survey  •  Início  no  ano  2000  (Novo  México)  

•  Em  2  semanas  o  telescópio  coletou  mais  dados  que  em  toda  a  história  da  astronomia  

•  Em  2010  eram  140  terabytes  •  Uma  sucessora,  a  Large  Synop6c  Survey  Telescope  (Chile),  prevista  

para  2016:  coletará  isso  em  5  dias  

32  

O  Big  Data  Agora  

Projeto  Genoma  Humano  

•  Criado  em  1990  nos  EUA,  com  previsão  para  15  anos  

•  2003:  cien6stas  precisaram  de  uma  década  para  sequenciar  3  bilhões  de  pares-­‐base  

•  Hoje:  faz-­‐se  em  um  único  dia  

33  

O  Big  Data  Agora  

Empresas  de  Internet  

•  Google:  processa  24  petabyte/dia  •  Facebook  

ü   Recebe  mais  de  10  milhões  de  fotos/hora  ü  Cur6r  e  comentar:  3  bilhões/dia  ü  Trilha  digital  é  construída  

•  Youtube  ü   800  milhões  de  usuários  

ü  >  1  hora  de  vídeo  criada  por  segundo  •  Twi}er  (2012):  400  milhões/dia  

34  

O  Big  Data  Agora  

Quanto  há  de  informação?  •  Existem  vários  estudos  

•  Mar6n  Hilbert,  da  Annenberg  School  for  Communica6on  and  Journalism,  CA,  EUA,  apresentou  um  ü  Considerando  Livros,  imagens,  e-­‐mails,  fotografias,  música,  

vídeo  (analógico  e  digital),  videogames,  ligações  telefônicas,  cartas  e  sistemas  de  navegação  para  carros,  além  de  televisão  e  rádio  

ü  Resultado:  em  2007  es6mou-­‐se  300  hexabytes  (um  bilhão  de  GB)  

•  O  suficiente  para  ü  Se  impresso,  cobrir  os  EUA  com  52  camadas  ü  Em  CD-­‐ROMs  empilhados:  5  pilhas  até  a  lua  

35  

O  Big  Data  Agora  

Big  Data  •  Inteligência  Ar6ficial?  •  Aprendizado  de  máquina?  •  Ensinar  um  computador  a  pensar?  

Na  verdade  está  mais  para  aplicação  de  matemá;ca  a  enormes  quan;dades  de  dados  visando  prever  probabilidades!  

 

36  

A  imprecisão  dos  Dados  

Usar  todos  os  dados  (N1=1Tudo)  •  Amplia  a  visão,  o  que  não  era  possível  antes  

•  Fontes  diversificadas  •  Dados  normalizados  e  não  normalizados  

•  SQL  já  não  é  suficiente  •  Não  se  pode  abrir  mão  das  conquistas  •  Há  ferramentas  que  resolvem  o  problema?  

•  Como  fica  o  especialista?  •  O  conhecimento  do  negócio  é  relevante?  

•  E  os  sistemas  legados?  

 

37  

Os  'Vs'  do  Big  Data  

 3  ou  5  Vs  •  Volume:  grande,  crescimento  

exponencial  e  às  vezes  subu6lizados  

•  Velocidade:  tratamento  dos  dados  (obtenção,  gravação,  atualização  etc.)  deve  ser  rápido  -­‐  muitas  vezes  em  tempo  real  

•  Variedade:  diversidade  de  informações  (Estruturados  -­‐  Bancos  de  Dados,  DWs,  Não  Estruturados  -­‐  documentos,  imagens,  áudios,  vídeos  etc.)  

38  

Os  'Vs'  do  Big  Data  

 3  ou  5  Vs  •  Veracidade:  dados  confiáveis,  garan6r  o  máximo  possível  a  

consistência  dos  dados?  •  Valor:    os  resultados  devem  trazer  benencios  significa6vos  e  que  

compensem  o  inves6mento?  

39  

A  confusão  (inexaSdão)  dos  Dados  

N1=1Tudo  è  Usar  todos  os  dados  disponíveis  •  Há  custos  •  Aumento  da  quan6dade  leva  à  inexa6dão  •  Soluções  com  menor  volume  permi6a  tratar  outliers  

•  Buscou-­‐se  tratá-­‐los  como  problemas  •  Em  big  data  é  necessário  aprender  a  conviver  com  inexa6dão  •  Pra6camente  impossível  tratá-­‐los  como  em  amostragens  

•  Historicamente  o  homem  evoluiu  ao  medir  (precisão)  •  Em  big  data  imprecisão  (confusão)  é  visto  de  forma  posi6va  

•  Como  entender  melhor  tudo  isso?  

 

 

40  

A  confusão  (inexaSdão)  dos  Dados  

Case  vinhedo  •  Medir  a  temperatura  com  um  único  sensor  

o  Tem  que  ser  preciso  o  Não  permite  confusão  

•  Medir  a  temperatura  com  um  sensor  a  cada  100  parreiras  o  Pode-­‐se  usar  sensores  mais  baratos  (não  tendenciosos)  o  Alguns  podem  apresentar  confusão  

o  Mas  a  soma  é  mais  abrangente  o  Mudar  de  uma  medida  por  minuto  

para  10  ou  100/segundo  o  Volume  versus  perda  

 

41  

A  confusão  (inexaSdão)  dos  Dados  

Então  em  big  data  •  Dados  não  totalmente  incorretos  

•  2  +  2  =  3,9  pode?  •  Pretere-­‐se  um  pouco  da  precisão  em  favor  de  uma  tendência  

•  Big  data  é  mais  probabilís6co  que  exato  •  Case  algoritmos  de  xadrez  

o  Poucas  modificações  

o  Regras  conhecidas  o  Como  melhoraram  

o  Jogadas  finais:  6  peças  mapeados  o  N1=todo  para:  mais  de  1  TB  

 

42  

A  confusão  (inexaSdão)  dos  Dados  

Case  linguagem  natural  •  Análise  grama6cal  MS  Word  (2000):  Michele  Banko  e  Eric  Brill  

buscavam  melhorar  o  resultado  •  Melhorar  os  algoritmos  ou  aumentar  dados?  

•  1  milhão  de  palavras  é  comum  (corpus  texto)  •  10  milhões,  100  milhões,  1  bilhão?  

•  O  mais  simples  com  500  mil  saiu  de  75%  para  95%  acerto  •  Google  em  2006  usava  1  trilhão  

•  Em  2012:  60  idiomas,  14  por  voz  •  Algoritmo  pouco  inteligente:  modelos  simples  “Modelos  simples  com  muitos  dados  são  melhores  que  modelos  mais  elaborados  com  menos  dados”,    disse  Peter  Norvig    

 

 

43  

A  confusão  (inexaSdão)  dos  Dados  Mais  sobre  confusão  •  Existe  porque  a  tecnologia  não  é  perfeita  •  Dep.  Americano  de  Estals6cas  Trabalhistas  faz  índice  de  preço  

ao  consumidor  (Federal  Reserve  usa  para  cálculo  inflação)  o  Custo:  US$  250  milhões/ano  o  Dados  organizados,  mas  defasados  em  função  do  tempo  

o  Crise  2008  não  foi  prevista  com  tanta  precisão  •  Alberto  Cavallo  e  Roberto  Rigobon(MIT):  alterna6va  confusa  

o  500  mil  preços  da  Internet  +  big  data:  previu  deflação  2  meses  antes  que  o  governo  (2008)  

o  MIT  originou  a  PriceStats:  bancos  e  outros  usam  o  The  Economist  usa:  não  confia  completamente    

nos  cálculos  de  alguns  países  (Argen6na,  p.e.)  

 

 

 

The image cannot be displayed. Your computer may not have enough memory to open the image, or the image may have been corrupted. Restart your computer, and then open the file again. If the red x still appears, you may have to delete the image and then insert it again.

44  

Aceitando  a  causalidade  Mais  sobre  confusão  •  Flickr:  6  bilhões  de  imagens  e  75  milhões  de  usuários  (2011)  

o  usou  big  data  para  rotular  imagens  •  Maior  escala:  exato  perde  importância  

o  Ícone  do  Twi}er  ou  Cur6r  do  Face  o  Gmail  condensa  minutos,  horas,  dias  etc.  o  Flexibilidade  para  BDs  tradicionais  (campos  diferentes)  

•  SQL  não  é  suficiente:  surge  NOSQL  •  Google  criou  MapReduce:  modelo  de  programação  (framework)  

•  Hadoop:  rival  Open  Source  Projeto  Apache  em  Java  (Distribuído)  o  Visa  usou  para  segmentar  70  milhões  transações  

o  Reduziu  de  um  mês  para  13  minutos  

45  

A  causalidade  

Sem  saber  o  “porquê”  apenas  “o  quê”  •  Ser  humano  sente  a  necessidade  de  entender  a  causa  

•  Crí6cas  a  modelos  caixas  pretas  •  Importância  para  modelos  simbólicos  e  estals6cos  

•  Questões  filosóficas  sobre  causalidade  (é  tudo  causal?)  •  Daniel  Kahneman  professor  de  psicologia  de  Princeton  e  

ganhador  do  Nobel  de  Economia  de  2002  •  Ser  humano:  2  6pos  de  raciocínio  (rápido  ou  reflexivo)  

•  Rápido  para  sobrevivência  no  passado  •  Implica  em  ver  causalidades  inexistentes  

•  É  cultural  mas  o  paradigma  é  um  problema  em  big  data  

•  Correlação  é  fácil,  causalidade  é  dincil  

46  

Dataficação  

QuanSficação,  Tabulação  e  Análise  •  Case  Ma}hew  Fontaine  Maury  

o  Oficial  da  Marinha  americana  (1839)  o  Big  data  à  moda  an6ga:  carta  náu6ca  

•  Case  Shigeomi  Koshimizu  o  Ins6tuto  Avançado  de  Tecnologia  (Japão)  o  Forma  que  a  pessoa  se  senta  é  quan6ficada  e  tabulada  o  Resultado:  código  digital  único  com  até  98%  de  acerto  

o  Pode-­‐se  aplicar  em  segurança,  cansaço  etc.  

47  

Dataficação  

QuanSficação,  Tabulação  e  Análise  •  Dado:  origem  do  grego  e  pode  significar  fato  

•  Dataficar:  coleta  de  dados  e  disposição  em  formato  quan6ficado  de  modo  que  possa  ser  tabulado  e  analisado  

•  Números  Romanos  versus  arábicos  •  Itália  no  século  XIV:  balanço  e  origem  da  contabilidade  

•  Dataficação  de  imagem  de  texto  do  Google  •  Geoprocessamento:  dataficação  de  um  lugar  (la6tude/longitude)  

•  GPS  teve  origem  em  1978  e  aberto  para  uso  não  militar  em  1980  •  Dataficação  dos  smartphones:    

o  Publicidade  direcionada  o  Biometria  

•  Gráfico  social  

48  

Além  dos  dados  estruturados  

O  valor  dos  dados  não  estruturados  •  Digitalização  versus  dataficação  •  Luis  Von  Ahn  (2000)  criou  Captcha:  problemas  com  spambots  •  Yahoo  implementou  Captcha  (Teste  Completamente  

Automa6zado  para  Separar  Computadores  e  Humanos)  •  E  o  ReCaptcha,  o  que  tem  de  diferente?  

•  Movimento  e  cliques  de  mouse  •  Conteúdo  do  Twi}er:  entender  sen6mentos  e  manifestações  

•  Conteúdo  do  face:  entender  preferências  de  imagens,  sons,  vídeos  etc.  

•  Quando  as  palavras  se  tornam  dados:  literatura  e    estals6ca  

•  Custo  de  armazenagem  jus6fica  manutenção  dos  dados  

49  

Além  dos  dados  estruturados  

NOSQL  •  Criado  por  Carlo  Strozzi  em  1998:  BD  relacional  código  aberto  

mas  sem  SQL  •  Dis6nto  do  modelo  relacional:  o  termo  noRel  ficaria  melhor  

•  Ressurgiu  em  2009:  Rackspace  evento  sobre  BD  Open  Source  e  Distribuídos  

•  Termo  se  refere  a  diferentes  sistemas  de  BDs  não  estruturados  •  Buscam  performance  superior  e  de  alta  escalabilidade  

•  Facilidade  para  distribuição  horizontal:  mais  dados  mais  servidores  

•  Todas  informações  agrupadas  no  mesmo  registro  •  Mais  tolerantes  a  erros  

•  Ideal  para  BDs  Transacionais?  

50  

Valor  dos  Dados  

Análise  Custo  e  Benetcio  •  Logís6ca  abastecimento  carro  elétrico:  problema  para  empresa  e  

motoristas  •  IBM  e  big  data:  previsão  local  abastecimento  e  construção  postos  

•  Mas  os  carros  já  não  possuem  computador  de  bordo?  •  Apenas  parte  dos  dados  coletados  são  usados  •  Empresas  inovadoras  procuram  valor  oculto  nos  dados  •  Na  era  big  data  custo  e  benencio  pode  estar  na  reu6lização  

básica,  fusão  de  Bancos  de  Dados  ou  novas  descobertas  •  Muitos  dados  se  perdem  ou  são  subu6lizados  

•  O  valor  está  no  que  é  possível  extrair  •  Valor  dos  dados  é  a  soma  das  possibilidades  

51  

Extraindo  o  máximo  dos  Dados  

ReuSlização  e    recombinação  •  Reu6lização:  dados  de  uso  primário  u6lizados  para  outros  fins  

o  Dados  das  buscas:  corretor  ortográfico  o  Amazon  extraiu  preferência  de  usuários  da  AOL  

o  Reconhecimento  de  voz:  Google  versus  Nuance  o  SWIFT:  prever  PIB  a  par6r  de  transferências  internacionais  o  Operadora  de  Celular:  dados  de  localização  anônimos  

•  Recombinação:  combinar  fontes  de  dados  diferentes  •  Uso  de  Celular  e  Câncer  (Dinamarca):  3,8  milhões  de  dados  

•  Zillow  (Ramo  imobiliário):  informações  de  imóveis  +  preços  +  mapas  para  prever  valores  

52  

Extraindo  o  máximo  dos  Dados  

Expansão  e  depreciação  •  Expansão:  dados  adequados  a  vários  usos  

o  Câmeras:  segurança  e  fluxo  de  clientes  o  Street  View:  fotos,  dados  de  GPS  (autopiloto),  nomes  de  redes  

WiFi  (especula-­‐se  que  até  dados)  –  dois  pelo  preço  de  um  •  Depreciação:  perda  de  u6lidade  com  o  tempo  

o  Desafio  de  separar  dados  úteis  ou  manter  todos  o  NSA  mantem  dados  do  maior  número  possível  

•  Uso  exaus6vo  dos  dados  •  Case  corretor:  Yahoo  pensou,  Google  agiu  (veio  de  graça)  •  Treinamento  de  voz:  aprendizado  recursivo  

“Gostamos  de  aprender  com  bancos  de  dados    enormes  e  ‘barulhentos’”  funcionário  Google  

53  

Cadeia  de  Valor  do  Big  Data  

Informação  •  Dados  da  empresa  auxiliam  na  definição  do  seu  valor  contábil  

•  Bancos  e  a  Terceirização  de  cartões:  qual  o  custo?  •  Mastercard  analisa  65  bilhões  de  transações  de  1,5  bilhão  de  

clientes  em  210  países  e  até  vende  informações  •  É  Capaz  de  descobrir:  encher  tanque  16h,    gastar  de  US$  35,00  a  

US$  50,00  na  próxima  hora  (em  mercearia  ou  restaurante)  •  Sensores  sem  fio  em  ônibus  público  para  prever  quebras  

o  Diminuiu  o  custo  em  até  10%  o  Possibilitou  a  subs6tuição  de  uma  peça  com  450  

 mil  Km  (antes  era  com  320  ou  400  mil):  economia    de  mais  de    US$  1  mil/veículo  

•  Origem  da  informação  é  irrelevante:  mídia  e  dados  

54  

Cadeia  de  Valor  do  Big  Data  

Especialista  de  Dados  •  Ganha  bem,  trabalha  duro  e  entrega  o  diamante  para  o  dono  

•  Ideias  e  habilidades  são  acessórios:  o  valor  recai  sobre  os  dados  •  Valor  migrou:  conhecimento  èideia  èdados  

•  Morte  do  especialista?  •  Pioneiros  tem  origem  externa  ao  seu  domínio:  especialista  em  

análise  de  dados,  IA,  matemá6ca,  estals6ca  etc.  •  Piada  Microsow:  “a  qualidade  das  traduções  aumenta  sempre  que  

um  linguista  deixa  a  equipe”  •  Grupo  Google  é  capaz  de  traduzir  para  idiomas  

 que  não  dominam  

55  

Cadeia  de  Valor  do  Big  Data  

Pessoas  e  Empresas  com  mente  Big  Data  •  Novo  perfil:  menos  especialista,  mais  generalista  

•  Setor  de  videogames  fatura  mais/ano  que  Hollywood/mundo  •  Usam  big  data  para  entender  o  jogador  (vendas  de  itens)  

•  Intermediários  que  agrupam  e  vendem  dados  •  Big  data  pouco  ú6l  para  empresas  de  porte  médio:  vantagens  de  

escala  para  grandes  e  custo  e  inovação  para  pequenas  •  Big  data  obriga  médias  a  se  tornarem  grandes  ou  pequenas  

•  Veem  oportunidades  antes  dos  outros:  mesmo  sem  dados  •  Cria6vo  e  observador:  não  se  limita  ao  que  é    

exequível,  mas  ao  que  é  possível  •  Em  expansão  e  com  muitas  oportunidades  

56  

Riscos  do  Big  Data  

Privacidade  e  Punições  PrediSvas  •  Dados  podem  se  tornar  instrumento  de  opressão  

•  Como  saber  de  obje6vos  que  sequer  existem  •  Case  Street  View:  casa  ofuscada  •  Consen6mento  individual,  opção  de  exclusão  e  anonimização  

perderam  eficiência  •  Aplica6vos  de  smartphones:  solicitam  autorização  à  localização  •  NSA  em  Fort  Williams:  inves6mento  de  US$  1,2  bilhões    

•  Coleta  dados  o  tempo  todo,  do  maior  número  possível  •  São  capazes  de  inves6gar  assim  que  iden6ficam  o  suspeito  

•  Comportamento  de  compra  pode  iden6ficar  uma  pessoa  

57  

Riscos  do  Big  Data  

Privacidade  e  Punições  PrediSvas  •  Cases  de  Anonimato  quebrado  

o  Buscas  AOL  e  pesquisa  do  New  York  Time  o  Prêmio  Ne�lix  disponibilizou  100  milhões  de  registros  de  500  

mil  usuários  e  US$  1  milhão  a  quem  melhorasse  recomendações:  resultado,  iden6ficaram  clientes  

o  Ne�lix  e  Pesquisadores  da  Universidade  do  Texas:  classificação  6  filmes  obscuros  (de  500  mais  vistos)  -­‐  possível  iden6ficar  cliente  com  84%  precisão  (de  posse  da  data  da  classificação,    sobe  para  99%)  

•  Memphis,  no  Tennessee:  big  data  aplicado  na  diminuição  de  crimes,  prevendo  ações  (Blue  CRUSH)  

•  Pode-­‐se  punir  predi6vamente?  

58  

Big  Data:  Normas  e  Regulação  

Regulação  •  Área  nova,  ainda  não  há  regulação  específica  •  Como  inves6gar?  Quem  é  capaz?    •  Algoritmistas,  a  nova  profissão?  

o  Algoritmistas  externos  e  internos  •  Governos  também  devem  ser  regulados?  •  Big  data  altera  autocontrole  da  sociedade?  •  Para  onde  vamos?  

59  

Ferramentas  Big  Data  

Ferramentas  de  Big  Data  •  Há  ferramenta  ou  solução  específica  para  Big  Data?  

•  Big  Data:  estruturas  de  indexação  de  dados  e  de  visualização  •  Estrutura  de  indexação  de  dados  

o   Agrupa  dados  estruturados  e  não  estruturados  o  É  somente  a  composição  dos  dados  (isso  lembra  algo?)  

•  Componente  de  visualização  de  dados:  um  ou  vários  

o  IBM  Cognos,  QlikView,  SAP  Business  Objects,  Datameer,  splunk,  Oragle  Business  Intelligence  entre  outros    (lembra  algo  também?)  

60  

Ferramentas  Big  Data  

Ferramentas  de  Big  Data  •  Simplificando  o  NOSQL  (Not  Only  SQL)  

Estruturados Não Estruturados

61  

Ferramentas  Big  Data  

NOSQL  versus  BD  Relacional  •  NOSQL  é  não  relacional  (não  estruturado)  •  NOSQL  possui  sua  linguagem  de  consulta  •  Relembrando  conceito  dos  BDs  relacionais  

•  O  que  se  ganha  com  o  NOSQL  •  É  aplicável  a  todos  os  casos?  •  Transacional  tem  propriedades  ACID  (Atomicity,  Consistency,  

Isola6on,  Durability)  •  Relacional:  indispensável  onde  há  necessidade  de  precisão  e  

consistência  de  referências  •  Solução:  u6lizar  NOSQL  conjuntamente  com  um  relacional  

62  

Ferramentas  Big  Data  

Consultas  SQL  em  uma  tabela  •  SELECT  Lista_atributos  FROM  Tabela  WHERE  Condição  

Exemplos  de  consultas  com  funções  de  agregação  

•  SELECT  COUNT(*)  FROM  CLIENTE    •  SELECT  COUNT(*)  FROM  CLIENTE  WHERE  sexo=’feminino’  •  SELECT  nome  FROM      CLIENTE  WHERE    codigo  not  in    (SELECT  

codigo  FROM  FONE)  •  SELECT  nome,  salario  FROM      CLIENTE  WHERE    salario  >  (SELECT  

avg(salario)  FROM  CLIENTE  WHERE  SEXO=’MASCULINO’)  

63  

Ferramentas  Big  Data  

Tipos  de  armazenamento  NOSQL  •  Key/Value  Store  é  o  mais  comum  (uma  chave,  um  valor),  suporta  

mais  carga,  muita  escalabilidade  o  Ferramentas:    Berkeley  DB,    Tokyo  Cabinet,  Kyoto  Cabinet,  

Project  Voldermort,  MemcacheDB,  SimpleBD,    Redis,  Riak,  entre  outros  

•  Wide  Columns  Store  tem  inspiração  no  BigTable  (Google),  suporta  várias  linhas,  colunas  e  até  subcolunas  o  Ferramentas:  Hbase  (Apache),  Cassandra  entre  outros  

•  Document  Store  baseados  em  documentos  XML  e  JSON    o  Ferramentas:  MongoDB,  CouchDB  (Apache)  

 entre  outros  

64  

Ferramentas  Big  Data  

Tipos  de  armazenamento  NOSQL  •  Graph  Store  é  mais  complexo  pois  guarda  objetos  

o  Ferramentas:  Neo4J  ,  InfoGrid  e  HyperGraphDB  •  Column  Oriented  Store  são  bancos  de  dados  relacionais  com  

caracterís6cas  NOSQL.  Dados  armazenados  em  colunas  o  Ferramentas:  MonetDB,  LucidDB,  Infobright  e  

Ingres/Vectorwise  •  Cases:  

•  SimpleDB  é  u6lizado  pela  Amazon  •  Hbase  é  ligado  ao  Hadoop  •  MongoDB  é  u6lizado  por:  Disney,    

MTV  Networks  entre  outros  

65  

Ferramentas  Big  Data  Exemplos  de  NOSQL  no  MongoDB  •   MongoDB:  orientado  a  documentos,  escalável,  livre  de  esquema,  

de  alto  desempenho  e  código  aberto  escrito  em  C++  •  Dados  dispostos  em  coleções  -­‐  estrutura  JSON    (JavaScript  Object  

Nota6on).  Exemplo:  pessoa{ name: “Marcos Paulo”, nick: “Marquinhos”, age: 30, phone:{mobile: 99998888, residencial:444433333}}

•  Registros  flexíveis:  quando  for  necessário,  altere  •  Ideal  para  leituras  de  grandes  volumes  não  estruturados  •  Exemplos  de  consultas:  

 

66  

Projeto  de  Big  Data  

Por  onde  começar  •  Planejamento  estratégico  da  empresa  

•  Definição  do  escopo  do  projeto  e  demais  artefatos  •  No  desenvolvimento:  

o  Base  de  dados  interna  transacionais  o  Base  de  dados  informacionais  o  Flat  files  imprescindíveis  para  o  negócio  

o  Dados  externos  acessíveis  o  Dados  que  precisam  ser  adquiridos  

o  Dados  de  máquina  relevantes  para  o  negócio  o  Ferramentas  de  indexação  de  dados  

o  Ferramentas  de  visualização  de  dados  

67  

BIG  DATA  

SIRLON  DINIZ  DE  CARVALHO  –  DR    

[email protected]