governança e big data - static.eventials.com · ferramentas de big data para solucionar problemas...
TRANSCRIPT
Governança e Big DataCelso Poderoso
Formação Acadêmica:
Economista
Especialista em Sistemas de Informação
Mestre em Tecnologia (Grid Computing/Cloud Computing)
Livros Publicados:
Guias de Referência: Oracle PL/SQL 8i, 9i e 10g
Livro: SQL Curso Prático
Atividades Profissionais:
Professor e Coordenador de pós-graduação na FIAP
Diretor de Serviços para América Latina na MicroStrategy
Celso Poderoso
Falhas em Projetos com Big Data
Falta de apoio e liderança dos executivos
Lideranças departamentais são menos propensas ao sucesso
Falta de uma Arquitetura adequada
Ferramentas de Big Data para solucionar problemas de Big
Data
Ausência de Governança Corporativa e de Dados
Agilidade, segurança e qualidade
Falta de Cultura de Dados na Organização
Todos os colaboradores conscientes da importância do dado
Eco Sistema de Big Data
O que é Big Data?
Conceitos e Fundamentos
Big Data – Definição
"Big Data" é um dado cuja escala, distribuição, diversidade
e/ou atualidade exigem o uso de novas arquiteturas técnicas
e análises para permitir insights para agregar novas fontes de
valor do negócio.
Requer novas arquiteturas de dados (caixas de areia analíticas);
Novas ferramentas;
Novos métodos analíticos;
Integração de múltiplas habilidades: Cientista de Dados.
EMC, 2012
IoT
Definição:
Rede de objetos físicos que contém tecnologia embutida
para comunicar, sentir ou interagir com seus estados
internos ou ambiente externo. Gartner.
Convergência:
Social e mobile: interações
Cloud: infra para entrega e distribuição
Antecedentes:
Computação Ubíqua, pervasiva, ambiente
Big Data – Impacto em TI
Por que Big Data?
Negócios
A Evolução da Análise de Dados
Falta de Liderança e Apoio Executivo
Tomada de Decisão
Dados
SentimentoExperiência
Estrutura dos Dados Corporativos
Fonte: EMC, 2012 - Adaptado
Structured
Semi-Structured
“Quasi” Structured
Unstructured
Dados que possuem um tipo, formato e estrutura definida
Exemplo: Dados transacionais e OLAP
Dados que não possuem estrutura
e normalmente são armazenados
em formatos diferentes
Exemplo: documentos texto, PDF,
imagens e vídeos
Dados textuais com formatos parcialmente
passíveis de formatação com esforço,
ferramentas e tempo.
Exemplo: Clickstream
Arquivo de dados textuais padronizados que
permite realizar buscas
Exemplo: XML
Mo
re S
tru
ctu
red
Onde Estão os Dados
Planilhas e BDs para uso departamental(limitado)
Extração dependentedo analista
Ilhas de Dados“Spreadmarts”
Data Marts isolados
Data Warehouses
Dados para tomada de
decisão centralizados
Analytic Sandbox
Ativos de Dados recuperados por
diversos analistas e tecnologias
• Suporta relatórios e BI, depende da estruturaçãoprévia das necessidades
• Dependente do analista, TI e DBA para criação de relatóriose dashboards
• Tempo para gerar novasanálises é grande
• Permite análises complexas(processamento “in-db”)
• Trabalha com o dado e depois criamétricas, relatórios e dashboardsestruturados
• “Analyst-owned” ao invés de “TI-DBA owned”
Fonte: EMC, 2012 - Adaptado
Business Intelligence Tech
Descritivo
O que aconteceu?
Diagnóstico
Por que aconteceu?
Preditivo
O que irá acontecer?
Prescritivo
O que deveria acontecer?
Funções analíticas
Matemáticas, OLAP &
Financeiras, Operadores &
Estatísticas
Modelos descritivos
Agrupamento &
Associação,
Análises de fatores
Modelos preditivos
Regressão & Série
Temporal, Previsão &
Classificação
Otimização
Simulação de
Programação Linear
Fonte: MicroStrategy, 2016
Data Mining
Fonte: MicroStrategy, 2016
Business Intelligence & Analytics
Tipos: Decisão: apoio aos gestores*
Descritivo: insight de dados históricos*
Preditivo: estatística e machine learning
Prescritivo: simulação e recomendações (decisões)
Descritivo
Preditivo
Inquisitivo
Prescritivo
Dados Insights
Solução
Visão Corporativa dos Dados
Single Version of the Truth
“Soluções” departamentais estão longe de ser “a” solução
Usuário com Poder de Análise
Data Discovery & Self-Service BI
Executivos de alto escalão engajados no processo
Arquitetura de Big Data
Falta de Arquitetura Adequada
Big Data
Integração
Armazenamento
Processamento
Arquitetura de Big Data
Integração e
Governança
Ciclo de Vida &
Governança
Dataflow
Sqoop
Flume
Kafka
Spark Streaming
Ferramentas de Gestão Segurança
Administração
Autenticação
Auditoria
Proteção Dados
Operações
Provisionamento,
Gestão e
Monitoramento
Agendamento
Oozie
Acesso aos Dados - Armazenamento
Batch (MapReduce/Spark)
Script
SQL
NoSQL
Busca
In-Memory
YARN x Mesos
HDFS
Gestão do Dado
Zookeper
Cloudbreak
Banco de Dados NoSQL
All Together
Aquisição
e Ingestão
Gestão de
Metadados
Catálogo
Preparação
e LimpezaHadoop
Workflow
AcessoData Wrangling / Blending / Curation
Grandes Questões de Arquitetura
Forma de Entrega
Cloud x On-Premises
Características para serviços Enterprise-class
Segue padrão Apache ou agrega serviços adicionais?
Segurança e Proteção
Autenticação, Controle baseado em regras, políticas de
segurança, etc.
Suporte
Solução
Arquitetura adequada para problemas de Big Data
Pessoas preparadas para usar Arquitetura
A Governança de Dados e Big Data
Ausência de Governança Corporativa e de Dados
Pilares da Governança de Dados
Dados Centralizados e Integrados
Metadados
Privacidade e Segurança
Data Quality
Maturidade
Fonte: TDWi, 2014
29
Framework Big Data
Pessoas
Usu
ári
os
Analist
as
TI
ProcessosTo
mada D
ecis
ão
Analy
tics
Infr
aest
rutu
ra
Tecnologia
Transa
cio
nal
BI
Analy
tics
DW
Solução
Políticas claras para Uso do Dados Corporativo
Processos claros para os pilares da Governança
Cultura Organizacional voltada aos Dados
Agilidade, Segurança e qualidade de dados
Visão Corporativa dos Dados
Liberdade para Usuário criar as Análises
Responsabilidade de TI em garantir confiabilidade
“Soluções” departamentais estão longe de ser “a” solução
http://www.facebook.com/GovernancaDados
http://br.linkedin.com/in/cpoderoso/
Big Data – Brazil
Governança de Dados - BR
Blog
http://corporate.canaltech.com.br/autor/Celso-Poderoso/
@cpoderoso
Celso Poderoso