oficina pentaho

50
Wesley Seidel Carvalho [email protected] www.ime.usp.br/~wesleys Oficina de Pentaho

Upload: wesley-seidel

Post on 05-Dec-2014

6.237 views

Category:

Technology


4 download

DESCRIPTION

Oficina de Pentaho realizada na Primeira Semana de Software Livre da USP.

TRANSCRIPT

Page 1: Oficina Pentaho

Wesley Seidel [email protected]/~wesleys

Oficina de Pentaho

Page 2: Oficina Pentaho

O que é BI?

● São muitos os conceitos.

● Vamos falar da idéia: ● A idéia é que um sistema de BI possua, dentre

outras as seguintes características [Caiçara Júnior]:● Fornecer informações relevantes para auxiliar na

tomada de decisão; ● Disponíveis a qualquer momento;● Fácil utilização.

Page 3: Oficina Pentaho

BI possui muitos nomes:

● Para empresários: ● busca de mercado;● Inteligência competitiva;

● Para outros:● relatório;● análises;● análise do negócio;● suporte a decisão.

Page 4: Oficina Pentaho

OLTP

● On-Line Transactional Processing

Page 5: Oficina Pentaho

Ué? Mas eu não consigo gerar esses dados e análises direto de um sistema transacional?

Page 6: Oficina Pentaho

Sim, só que...

● As organizações geralmente possuem:● Mais de um sistema;● Sistemas armazenam em fontes distintas;

– MySql, SQL Server, Texto, XML ...● Existencia de planilhas;● Diferença entre representações de um mesma

informação;– M/F, 0/1, H/M ...

● Etc...

Page 7: Oficina Pentaho

E agora? Quem poderá me Salvar?

Page 8: Oficina Pentaho

Opssss... Bem... Que tal:

● Sistemas de apoio à decisão (SAD)

ou

● Sistemas OLAP (On-Line Analytical Processing);

Page 9: Oficina Pentaho

O que é OLAP ?

● Sistema de informação utilizado para viabilizar a análise da empresa e auxiliar na tomada de decisão. [Segundo Machado (2004)]

Page 10: Oficina Pentaho

OLTP vs OLAPOLTP OLAP

Origem dos dados

Dados operacionais Dados consolidadosVários Sistemas OLTP's

Propósito dos dados

Controlar e executar tarefas fundamentais do negócio

Auxiliar o planejamento, resolução de problemas e suporte a decisão

Organização dos dados

Entidade Relacionamento;Normalizado

Modelagem Multi-dimensional;De-normalizado

Idade dos dados

Presente Histórico, Atual e Projetado

Velocidade de processamento

Geralmente muito rápido; Depende da quantidade de dados; cargas podem levar horas

Consultas Relativamente simples;Retorna “poucos” registros;

Mais complexas;Envolvem agregações;

...

Page 11: Oficina Pentaho

Mais sobre OLAP:

● Sistemas OLAP oferecem:● Diferentes perspectivas, n-dimensões;

– visão multidimensional das informações● De forma rápida;● Consistente;● Normalmente na forma de CUBOS OLAP's.

Page 12: Oficina Pentaho

CUBOS OLAP's ?

Page 13: Oficina Pentaho

CUBOS OLAP's ?

● Cubos é uma forma de representação dos dados em um formato Multi-dimensional.

Page 14: Oficina Pentaho

CUBOS OLAP's ?

http://msdn.microsoft.com/pt-br/library/ms175449.aspx

Page 15: Oficina Pentaho

CUBOS OLAP's

● Cada face representa um aspecto do assunto que se deseja analisar ● ( Dimensão );

● Cada célula é representada por uma medida; ● (Campo da tabela de Fatos );

● É possível observar várias visões do dado que está sendo apresentado.

Page 16: Oficina Pentaho

Composição de um CUBO

ou

composição modelo multidimensional:

Page 17: Oficina Pentaho

Composição de um CUBO

● Fatos ou Tabela Fato: ● Eventos que nos interessam avaliar;

● Dimensões:● São os elementos que compõe um fato;

– Ex:● Produtos, períodos ( dia, mês, trimestre, ano ... ), segmento de clientes,

fornecedores, ...;

● Hierarquias da dimensão: – Período: Ano → Mês → Dia

– Localização: País → Estados → Cidades → Bairros

Page 18: Oficina Pentaho

Composição de um CUBO

● Métricas: ● São os valores que estamos interessados em

medir.

– Ex: ● Qnt de produtos vendidos;● Lucro obtido (R$);● Quantidade de votos;

Page 19: Oficina Pentaho

Representação lógica de um CUBO:

● Baseada no modelo relacional;● Esquemas:

● Estrela (star schema)– A Tabela Fato no centro e as Dimensões ao seu redor;

● Floco de Neve (snowflake)– Parecido o esquema estrela, porém normaliza as

hierarquias das dimensões;

Page 20: Oficina Pentaho

Esquema Estrela

Page 21: Oficina Pentaho

Esquema Estrela

Page 22: Oficina Pentaho

Snowflake

Page 23: Oficina Pentaho

Snowflake

Page 24: Oficina Pentaho

Operações Básica de um sistema OLAP:

● Dril-Down: ● Nível mais detalhados;

● Dril-Up ou Roll-up: ● Nível mais agregados;

● Slice: ● Redução de escopo e mantendo a mesma perspectiva;

● Dice: ● Mudança de perspectiva;

● Pivoting: ● Alterar eixos de visualização.

Page 25: Oficina Pentaho

E o Datawarehouse? O que é ?

● Um conjunto de dados para apoio a decisão e possui as características [Inmon]: ● -Orientado a assuntos

– Ao invés de aplicações;● -Integrado

– Adaptação e padronização dos dados vindos de diferentes sistemas;

● -Não volátil:– Sem atualizações, e sim carga inicial ou incremental e

modo de acesso apenas leitura ;● -Variável em relação ao tempo.

Page 26: Oficina Pentaho

ETL

● É a etapa do processo de construção de um DW que consiste em:

● Extract:● Dados dos OLTP's

● Transformation:● Limpeza e Transformação ( padronização )

● Load:● “Alimentar” o DW.

Page 27: Oficina Pentaho

Como tudo isso funciona junto ?

Page 28: Oficina Pentaho

ETL

Data Warehouse

DM1DM2 DM3

SistemaBI

Page 29: Oficina Pentaho

A Pentaho BI Suite.

O que é?

Page 30: Oficina Pentaho

A Pentaho BI Suite.

● Pentaho BI Suite é uma plataforma Open Source para desenvolvimento de Soluções em Business Intelligence.

● Mantida pela Empresa Pentaho ela é suportada por comunidades de usuários e desenvolvedores ao redor do mundo

Page 31: Oficina Pentaho

A Pentaho BI Suite.

● Composta por diversas ferramentas:● Para analistas e Gestores:

● Para a equipe de desenvolvimento do projeto de BI

Page 32: Oficina Pentaho

Arquitetura

Page 33: Oficina Pentaho

Servidor BI

Responsável pelo gerenciamento dos indicadores, compartilhamento entre os usuários, controle de acesso, origem dos dados, entre outras coisas.

Page 34: Oficina Pentaho

Servidor BI

Page 35: Oficina Pentaho

PAC( Pentaho Administrator Console)

Page 36: Oficina Pentaho

PRD (Pentaho Report Designer)

Page 37: Oficina Pentaho

PDI (Pentaho Data Integration)

Page 38: Oficina Pentaho

PSW (Pentaho Schema Workbench)

Page 39: Oficina Pentaho

PME (Pentaho Metadata Editor)

Page 40: Oficina Pentaho

Weka

Page 41: Oficina Pentaho
Page 42: Oficina Pentaho

ETL

Data Warehouse

DM1DM2 DM3

SistemaBI

PSW

PME(Ad-Hoc)

PRD

PDI

Weka

???????

???????

Page 43: Oficina Pentaho

Nossa Oficina!

Page 44: Oficina Pentaho

Efetuar um pequeno ETL

● Origem:● extras/dados/candidatos_2008.csv

can_id;ano;turno;codmun;codibge6;codcargo;codcand;codpart;siglapart;nomepart;

nomecand;nomeurna;data_nasc;codnasc;sexo;estciv;inst;ocup;cpf;leg;sit_pos;

Page 45: Oficina Pentaho

PDI (Pentaho Data Integration)

Page 46: Oficina Pentaho

Esquema Estrela.

FATO_Candidatos

DIM_Cargos

DIM_Municipios

DIM_Partidos

DIM_Pessoas

Page 47: Oficina Pentaho

PSW (Pentaho Schema Workbench)

Page 48: Oficina Pentaho

Mãos à Obra.

Page 49: Oficina Pentaho

Referências

● INMON. W. H., Como construir um Data warehouse (tradução da segunda edição), editora campus, 1997.

● KIMBALL, R.; ROSS, M. The Data Warehouse Toolkit: O guia completo para modelagem dimensional.

● LIMA, Thalles da Silva, CARVALHO, Wesley Seidel, Montando um cubo Olap com o MS Analisys Services, 2007.

● SOUZA, Caio Moreno, Integração de ferramentas de código aberto (java, pentaho e android) e mapas, aplicada a projetos de inteligência de negócios, 2010 (Monografia).

● BOBSIN, Juliana Bitello, Uma solução bi utilizando ferramentas open source, 2010 (Monografia).

● CARNIEL, Anderson, BJIN OLAP: Uma ferramenta OLAP baseada no índice bitmap de junção, 2012 (TCC).

● Suíte Pentaho. <http://www.pentaho.com>.

Page 50: Oficina Pentaho

Obrigado !