business intelligence na prática: modelagem

177
Indaial – 2020 BUSINESS INTELLIGENCE NA PRÁTICA: MODELAGEM MULTIDIMENSIONAL E DATA WAREHOUSE Prof. Rodrigo Ramos Nogueira 1 a Edição

Upload: others

Post on 29-Mar-2022

2 views

Category:

Documents


0 download

TRANSCRIPT

1a Edição
Ficha catalográfica elaborada na fonte pela Biblioteca Dante Alighieri
UNIASSELVI – Indaial.
Impresso por:
177 p.; il.
1. Banco de dados. - Brasil. Centro Universitário Leonardo Da Vinci.
CDD 005.74
Estamos iniciando o estudo da disciplina Business Intelligence na Prática: Modelagem Multidimensional e Data Warehouse. Esta disciplina objetiva proporcionar uma imersão de conceitos teóricos e principalmente práticos de como construir sistemas de Business Intelligence proporcionan- do um poder decisório nas organizações.
Este livro conta com diversos recursos didáticos externos, por isso, recomendamos fortemente que você realize todos os exemplos e exercícios para um aproveitamento excepcional da disciplina. Aproveitamos a opor- tunidade para destacar a importância de desenvolver as autoatividades, lembrando que elas não são opcionais, visto que objetivam a fixação dos conceitos apresentados. Em caso de dúvida na realização das atividades, su- gerimos que você entre em contato com seu tutor externo ou com a tutoria da UNIASSELVI, não prosseguindo nas atividades sem ter sanado todas as dúvidas que, eventualmente, poderão surgir.
Neste contexto, o livro de Business Intelligence na Prática está divi- dido em três unidades de estudo. A Unidade 1 tratará dos assuntos Progra- mação para Big Data, tipos de dados e armazenamento e Data Warehouse. Na Unidade 2 estudaremos sobre OLAP x OLTP, extração, transformação e carga e, por fim, transformações na prática. Já a Unidade 3 abordará sobre modelagem multidimensional, operações e servidores OLAP e ferramentas de dashboards.
Bom estudo! Sucesso na sua trajetória acadêmica e profissional!
IV
Você já me conhece das outras disciplinas? Não? É calouro? Enfim, tanto para você que está chegando agora à UNIASSELVI quanto para você que já é veterano, há novi- dades em nosso material.
Na Educação a Distância, o livro impresso, entregue a todos os acadêmicos desde 2005, é o material base da disciplina. A partir de 2017, nossos livros estão de visual novo, com um formato mais prático, que cabe na bolsa e facilita a leitura.
O conteúdo continua na íntegra, mas a estrutura interna foi aperfeiçoada com nova diagra- mação no texto, aproveitando ao máximo o espaço da página, o que também contribui para diminuir a extração de árvores para produção de folhas de papel, por exemplo.
Assim, a UNIASSELVI, preocupando-se com o impacto de nossas ações sobre o ambiente, apresenta também este livro no formato digital. Assim, você, acadêmico, tem a possibilidade de estudá-lo com versatilidade nas telas do celular, tablet ou computador. Eu mesmo, UNI, ganhei um novo layout, você me verá frequentemente e surgirei para apre- sentar dicas de vídeos e outras fontes de conhecimento que complementam o assunto em questão.
Todos esses ajustes foram pensados a partir de relatos que recebemos nas pesquisas institu- cionais sobre os materiais impressos, para que você, nossa maior prioridade, possa continuar seus estudos com um material de qualidade.
Aproveito o momento para convidá-lo para um bate-papo sobre o Exame Nacional de De- sempenho de Estudantes – ENADE. Bons estudos!
NOTA
V
VI
Olá, acadêmico! Iniciamos agora mais uma disciplina e com ela um novo conhecimento.
Com o objetivo de enriquecer seu conhecimento, construímos, além do livro que está em suas mãos, uma rica trilha de aprendizagem, por meio dela você terá contato com o vídeo da disciplina, o objeto de aprendizagem, materiais complemen- tares, entre outros, todos pensados e construídos na intenção de auxiliar seu crescimento.
Acesse o QR Code, que levará ao AVA, e veja as novidades que preparamos para seu estudo.
Conte conosco, estaremos juntos nesta caminhada!
LEMBRETE
VII
UNIDADE 1 - INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE .......1
TÓPICO 1 - BIG DATA – A EXPLOSÃO DOS DADOS ....................................................................3 1 INTRODUÇÃO .......................................................................................................................................3 2 A EXPLOSÃO DOS DADOS ................................................................................................................3
UNIDADE 2 - BUSINESS INTELLIGENCE NA PRÁTICA: EXTRAÇÃO, TRANSFORMAÇÃO E CARGA .................................................................................55
TÓPICO 1 - OLAP x OLTP .....................................................................................................................57 1 INTRODUÇÃO .....................................................................................................................................57 2 OLAP VS OLTP .....................................................................................................................................58
RESUMO DO TÓPICO 1........................................................................................................................65 AUTOATIVIDADE .................................................................................................................................66
SEMÂNTICO ....................................................................................................................................96 RESUMO DO TÓPICO 3......................................................................................................................104 AUTOATIVIDADE ...............................................................................................................................105
TÓPICO 1 - MODELAGEM MULTIDIMENSIONAL ...................................................................109 1 INTRODUÇÃO ...................................................................................................................................109 2 MODELAGEM MULTIDIMENSIONAL .......................................................................................109
OBJETIVOS DE APRENDIZAGEM
PLANO DE ESTUDOS
A partir do estudo desta unidade, você deverá ser capaz de:
• contextualizar sobre big data e volume de dados;
• conhecer sobre o papel dos usuários na geração de dados;
• saber mais sobre conceitos de Business Intelligence;
• ter uma visão geral sobre projetos de Business Intelligence;
• aprender sobre os tipos de dados;
• conhecer o conceito de Data Warehouse;
• refletir sobre as arquiteturas de Data Warehouse existentes.
Esta unidade de ensino contém três tópicos. No final de cada um deles você encontrará autoatividades que contribuirão para a apropriação dos conteúdos.
TÓPICO 1 – BIG DATA – A EXPLOSÃO DOS DADOS
TÓPICO 2 – TIPOS DE DADOS E ARMAZENAMENTO
TÓPICO 3 – INTRODUÇÃO AO DATA WAREHOUSE
Preparado para ampliar seus conhecimentos? Respire e vamos em frente! Procure um ambiente que facilite a concentração, assim absorve- rá melhor as informações.
CHAMADA
2
3
1 INTRODUÇÃO
Há 20 anos era muito custoso ter um computador e poucos tinham acesso a ele. Os que tinham utilizavam internet discada e no máximo 56 kbps/s. Se você nasceu antes dos anos 2000, provavelmente conhecia bem o barulhinho para se conectar à internet discada, aos que desconhecem, para se conectar, era preciso ter uma linha telefônica, que ficava ocupada durante a utilização da internet. Para acompanhar as revoluções tecnológicas, eram vendidas revistas sobre o assunto nas bancas de jornais.
Em paralelo a isso, a internet vivia sua primeira revolução nos anos 2000. Enquanto usuários se preocupavam com o Bug do Milênio, as gigantes da tecno- logia começavam a ter seus primeiros problemas de armazenamento. As gigantes da computação, como Google e Amazon, foram obrigadas a desenvolver suas próprias soluções para armazenar seu volume de dados, que passavam de cente- nas de Terabytes. Em 2009, devido à dimensão desse problema, houve uma reu- nião com os grandes nomes do armazenamento de dados em busca de soluções.
O volume de dados era tão grande que diversas tecnologias estavam em ascensão: a Google com o Big Table, a Amazon com o DynamoDB e o Facebook já aparecendo no cenário com suas próprias tecnologias. Você já parou para pensar qual é o seu papel durante essa explosão de dados?
2 A EXPLOSÃO DOS DADOS
Você tem noção da quantidade de informação que você gera diariamente? Seja pelas mídias sociais, aplicativos de mensagens ou até mesmo softwares espe- cíficos, diariamente produzimos uma grande massa de dados.
Durante muitos anos, os usuários foram apenas consumidores de informa- ção e conteúdo. Um programa de TV, tradicionalmente, mensurava sua audiência pelo ibope e o número de pessoas assistindo em capitais. Hoje, enquanto um pro- grama é transmitido, as pessoas comentam sobre ele na internet, com isso, além do envolvimento do público, também é possível aproveitar os dados fornecidos.
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
4
Todos os comentários sobre determinado programa formam uma grande base de dados, sob o qual é possível extrair conhecimento, principalmente saber se as pessoas estão ou não gostando do que está sendo transmitido.
FIGURA 1 – INTERAÇÃO COM REDES SOCIAIS
FONTE: http://bit.ly/2IeY0QX. Acesso em: 1º jan. 2020.
É claro que o uso de smartphones não é o único responsável pela geração de dados em larga escala no mundo. Com a utilização de smartwatches, pulsei- ras, sensores de precisão, entre os mais diversos tipos de conectados, o volume de dados aumentou significativamente, complementado pela grande variedade de tipos de dados.
O número de dispositivos conectados à Internet, incluindo as máquinas, sensores e câmeras que compõem a Internet das Coisas (IoT), continua crescendo a um ritmo constante. Uma nova previsão da International Data Corporation (IDC) estima que haverá 41,6 bilhões de dispositivos conectados à IoT, gerando 79,4 zet- tabytes (ZB) de dados em 2025. À medida que o número de dispositivos IoT co- nectados aumenta, a quantidade de dados gerados por esses dispositivos também cresce. Alguns desses dados são pequenos e intermitentes, indicando uma única métrica de integridade de uma máquina, enquanto grandes quantidades de dados podem ser geradas por câmeras de vigilância por vídeo usando a visão computa- cional para analisar multidões de pessoas, por exemplo (SEGINFO, 2020).
Após você compreender o seu papel na geração de dados no seu cotidia- no, definiremos, a seguir, o conceito de Big Data.
Big Data é um grande volume de dados, coletado das mais variadas fontes e tipos de dados, em que se deseja extrair insights com velocidade, armazenando
TÓPICO 1 | BIG DATA – A EXPLOSÃO DOS DADOS
5
dados com veracidade, sob o qual se permite extrair informação com valor. Esses cinco itens em destaque são definidos como os 5 Vs do Big Data (volume, varia- das/variedade, velocidade, veracidade e valor).
Big Data não trata apenas da dimensão volume, como parece à pri- meira vista, mas existe também uma variedade imensa de dados, não estruturados, dentro e fora das empresas (coletados das mídias sociais, por exemplo), que precisam ser validados (terem veracidade para se- rem usados) e tratados em velocidade adequada para terem valor para o negócio. A fórmula é, então, Big Data = volume + variedade + veloci- dade + veracidade, gerando valor (TAURION, 2013 p. 19).
FIGURA 2 – OS Vs DE BIG DATA
FONTE: https://brunovasconcelos.me/2018/02/26/o-que-e-big-data/. Acesso em: 1º jan. 2020.
O volume de dados disponível mais do que dobra a cada dois anos e os algoritmos aperfeiçoam-se rapidamente, ao passo que, em razão quase inversa- mente proporcional, os custos de armazenamento decrescem. Técnicas de análise de dados, antes acessíveis apenas às agências de espionagem, laboratórios de pes- quisa e grandes conglomerados comerciais são, paulatinamente, democratizadas (MAYER-SCHONBERGER; CUKIER, 2014).
Quando falamos do papel de Big Data nas organizações, não estamos fala- mos apenas em gerar um grande volume de dados, mas sim de utilizar estes dados para gerar conhecimento organizacional para tomada de decisões estratégicas, sen- do que, para isso, muitas vezes, utilizamos técnicas de Business Intelligence.
2.1 BUSINESS INTELLIGENCE
Iniciamos nosso estudo falando do grande volume de dados e da sua im- portância para as organizações. No entanto, a preocupação com o armazenamen- to e a extração de conhecimento é algo secular, visto que se nos aprofundarmos iremos parar em 18.000 a.C., os quais nossos ancestrais utilizavam ossos de ba-
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
6
buíno para fazer operações matemáticas cravadas (armazenadas) em paredes das cavernas. Podemos, também, utilizar como exemplo os desenhos rupestres que foram feitos há mais de 40.000 anos e que serviram para armazenar dados sobre a história humana.
FIGURA 3 – ARMAZENAMENTO DE DADOS NO PASSADO
FONTE: O autor
Quando trazemos essa reflexão para a história recente, caminhamos para os anos 1980, quando muita coisa aconteceu no mundo da computação, princi- palmente no que tange à revolução dos computadores pessoais e dos sistemas operacionais. No mundo dos dados não foi diferente, muita coisa aconteceu nes- sa década que impactam na nossa vida até hoje.
Um destaque especial para os nomes de Edgar Frank Codd e Richard Mil- ler Devens. Codd, em seu artigo “A relational model of data for large shared data banks”, publicado em 1983, explica que sua arquitetura para armazenamento de dados relacionais, utilizada majoritariamente em todas as organizações, serve como base para o desenvolvimento de novas tecnologias de bancos de dados. Já Devens, em seu livro “Cyclopaedia of commercial and business anecdotes”, publicado em 1864, descreve que a iniciativa de coletar dados e a capacidade de extrair informação nos resultados coletados auxilia as organizações em suas tomadas de decisão. Para ele, Business intelligence é a capacidade de coletar in- formações e reagir a elas.
O conceito de Business Intelligence é utilizado para definir todo o conjun- to de tecnologias e processos utilizados na coleta, organização, análise, compar- tilhamento e monitoramento de dados, com ênfase para dar suporte a decisões estratégicas. Ainda assim, houve diversos autores que trouxeram suas definições para o termo Business Intelligence, o grande ponto é que como Business Intelli- gence tem como base à coleta de dados para a geração de informações organiza- cionais, é um termo que já sofreu e pode sofrer mutações, conforme o cenário dos dados mudam no mundo.
TÓPICO 1 | BIG DATA – A EXPLOSÃO DOS DADOS
7
A seguir, o conceito, a definição e os objetivos de Business Intelligence na perspectiva de alguns autores.
QUADRO 1 – DEFINIÇÕES DE BUSINESS INTELLIGENCE
Um sistema automático para disseminar informação para vários setores de qualquer empresa, utilizando máquinas de processamento de dados (compu- tadores), autoabstração e autocodificação de documentos e criando perfis para cada ponto de ação da organização por palavra padrão (LUHN, 1958). É a aplicação de um conjunto de técnicas e ferramentas que são propostas para auxiliar na administração de um negócio e na tomada de decisões (SANTOS, 2009). Pode ser definido como o apoio de modelos matemáticos e metodologias de análise que explorem os dados disponíveis para gerar informação e conheci- mento para processos de tomada de decisões complexas (VERCELLIS, 2009). Refere-se às aplicações e tecnologias para consolidar, analisar e oferecer acesso a grandes quantidades de dados, para ajudar os usuários a tomarem melhores de- cisões empresariais e estratégicas. As aplicações de BI oferecem visões históricas, atuais e previsíveis das operações de negócio (RAINER; CEGIELSKI, 2011). De forma mais ampla, pode ser entendido como a utilização de variadas fontes de informação para definir estratégias de competitividade nos negócios da em- presa. Podem ser incluídos nesta definição os conceitos de estruturas de dados, representadas pelos bancos de dados tradicionais, data warehouse e data marts, criados objetivando o tratamento relacional e dimensional de informações, bem como as técnicas de data mining aplicadas sobre elas, buscando correlações e fatos “escondidos” (BARBIERI, 2011). Une dados, tecnologia, análises e conhecimento humano para otimizar decisões nos negócios e ultimamente tem dirigido o sucesso das empresas. Programas de BI usualmente combinam um Data Warehouse empresarial (EDW) e uma pla- taforma de ferramentas de BI para transformar dados em informações usáveis para o negócio (TDWI, 2013). Refere-se à coleção de SIs e de tecnologias que dão suporte à tomada de decisão gerencial ou operacional – controle pelo fornecimento de informações nas ope- rações internas e externas (TURBAN; VOLONIMO, 2013).
Em alguns momentos deste livro você se deparará com os termos: “suporte à tomada de decisão gerencial”, “suporte às decisões da organização” ou algo relacionado a empresas, muitas vezes esse tipo de aplicação só existe em grandes corporações. Por isso, é muito importante frisar que esses conceitos foram cunhados porque tais tecnolo- gias surgiram dentro de empresas, no entanto, o emprego de tais tecnologias se aplica a qualquer setor. Por exemplo, uma ONG pode ter um sistema de Business Intelligence para saber quais os melhores locais para fazer ações de reflorestamento ou um líder comunitá- rio pode ter um sistema de Business Intelligence para monitorar o rendimento das crianças de uma comunidade na escola.
IMPORTANTE
8
É um termo guarda-chuva que inclui aplicações, infraestrutura e ferramentas e as melhores práticas que permitem acesso e análise de informações para promo- ver e otimizar decisões e performance (GARTNER, 2013). Refere-se às aplicações e tecnologias que são utilizadas para coletar, acessar e analisar dados e informações de apoio à tomada de decisão (BALTZAN; PHILLIPS, 2012). É o processo de transformação de dados brutos em informações utilizáveis para maior efetividade estratégica, insights operacionais e benefícios reais para o processo de tomada de decisão nos negócios (DUAN; XU, 2012).
FONTE: Adaptado de Botelho e Razzolini Filho (2014)
Conforme vimos, Business Intelligence pode ser assimilado de diversas maneiras, mas ao analisar tais definições, é possível compreender que essa ferra- menta utiliza os dados da organização para dar suporte à tomada de decisões, ou seja, Business Intelligence é o processo de utilizar os dados em favor da organi- zação, extraindo conhecimento e insights a partir deles. Vamos entender melhor como ele se aplica na prática?
2.2 BUSINESS INTELLIGENCE – MECANISMOS PRÁTICOS
Agora que você compreendeu os conceitos e a definição de Business In- telligence, falaremos um pouco de como isso acontece na prática. De modo geral, para entender como um sistema de BI funciona, torna-se essencial a compreensão de seus elementos. Para isso, precisamos conhecer o tripé da gestão de sistemas inteligentes: dados, informação e conhecimento.
FIGURA 4 – DADOS, INFORMAÇÃO E CONHECIMENTO
FONTE: <http://bit.ly/2VFdINl>. Acesso em: 1º jan. 2020.
TÓPICO 1 | BIG DATA – A EXPLOSÃO DOS DADOS
9
• Dados: são fatos de um mundo real, que estão armazenados em algum lugar, mas que não possuem sentido, pode-se dizer que o dado é a informação em sua forma bruta, ou seja, ainda não lapidada. Segundo Valentim (2002), dados são simples observações sobre o estado do mundo.
• Informação: são dados dotados de relevância e propósito; são dados organiza- dos de modo significativo, ou seja, que possuem algum sentido, é aquilo que leva à compreensão (VALENTIM, 2002).
• Conhecimento: vem de discernimento, prática e experiência de vida. O conhe- cimento é extraído a partir dos dados e informações armazenadas, sendo aqui- lo que não pode ser visto por uma perspectiva humana, mas sim extraída. Na visão de Valentim (2002), o conhecimento é uma informação valiosa da mente humana. Inclui reflexão, síntese e contexto.
No cenário de BI, nosso objetivo é justamente coletar dados de uma ou várias fontes, armazená-los em uma estrutura organizada que permita extrair in- formação e executar algoritmos que permitam gerar conhecimento.
Para compreender melhor, vejamos o exemplo a seguir:
A AgroGama é uma empresa que gerencia um conjunto de fazendas e consta com diversos sócios, entre eles donos das terras e acionistas. Os equipa- mentos utilizados durante o plantio são todos da indústria agro 4.0, ou seja, as colheitadeiras inteligentes emitem relatório dos grãos colhidos diretamente para um servidor; com isso, é possível saber a qualidade dos produtos, bem como a quantidade. Também há o uso de um sistema de informação em cada fazenda para controle de funcionários, animais e da produção interna. Os gestores da em- presa agora precisam que seja desenvolvido um sistema de Business Intelligence que permita que se obtenham informações gerenciais sobre todas as fazendas para que se possa obter insights e tomar decisões.
Com base nesse texto, para aplicarmos o BI, faremos alguns questiona-
mentos:
• Onde estão os dados?
R.: Os dados são oriundos dos sensores, dos aplicativos e dos sistemas já utiliza- dos. São exemplos de dados: soja, feijão, 3.00, 4000, alto, médio, baixo.
• Onde está a informação?
R.: A informação acontece visto que há estrutura nesses dados, permitindo com que tenham sentido. Por exemplo: o feijão custa R$ 4,50 o kg na venda, a fazenda X produz 4000 kg de soja por mês.
• Onde está o conhecimento?
R.: O conhecimento acontecerá a partir de perguntas que não podem ser formula- das a partir dos dados armazenados. Por exemplo: “Qual a fazenda mais produti- va?” é uma questão que pode ser respondida a partir da análise dos dados. O co-
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
10
nhecimento vai além, permitindo retornar coisas como “Todas as quintas-feiras, se a temperatura subir e chover a mais do que 30 mm, haverá baixa na produção” ou “Todas as fazendas que produzem milho e soja, mas não tem gado, têm uma produção abaixo da média”.
Note que, nesse exemplo, falamos sobre o que é feito, mas não como é feito. Do ponto de vista de tecnologias empregadas, não há uma exatidão para que haja um cenário de Business Intelligence, é importante que os dados sejam coletados, que tenha-se uma estrutura sólida de armazenamento e que possamos extrair conhecimento em cima do que foi armazenado.
FIGURA 5 – EXEMPLO DE ARQUITETURA DE UM SISTEMA DE BUSINESS INTELLIGENCE
FONTE: Siteware (2020, s.p.)
No geral, cada implementação de um Business Intelligence tem três pilares:
• Coleta de dados: no primeiro momento, todas as informações e dados da em- presa são coletados e analisados. São determinadas características como: pro- dutividade, oportunidades, reputação etc.
TÓPICO 1 | BIG DATA – A EXPLOSÃO DOS DADOS
11
• Organização e análise: os dados e informações recolhidos e analisados são or- ganizados em bancos de dados. Para facilitar a visualização dos gestores, po- de-se apresentá-los visualmente, com o auxílio de ferramentas e plataformas.
• Ação e monitoramento: os responsáveis tomam decisões baseadas nas infor- mações analisadas e monitoram seus resultados.
Não existe uma arquitetura geral para o desenvolvimento de uma arqui- tetura de Business Intelligence, o importante é que a arquitetura contenha os pi- lares de um sistema de BI.
Excel - a Eterna Ferramenta de Business Intelligence
O Microsoft Excel se torna quase imbatível quando o tema é geração de relatórios, neste exato momento, milhares de pessoas estão gerando relatórios no Excel enquanto outras milhares estão estudando como fazê-lo.
O Visicalc, desenvolvido por Dan Bricklin, conhecido como o “pai das planilhas eletrôni- cas”, foi o precursor das planilhas eletrônicas e também pela utilização dos computadores pessoais. Naquela época, os computadores existentes custavam cerca de R$ 15 mil, tam- bém não existia a Internet (pelo menos não como a conhecemos hoje) e havia poucos softwares de gestão. Com toda essa explanação, para que se comprava um computador? As planilhas eletrônicas justificavam o investimento, pois além de armazenarem os dados sobre a gestão das empresas, tornaram-se as primeiras ferramentas de inteligência de negócios e suporte à decisão.
Estamos em 2020, passaram-se mais de 30 anos desde a criação das planilhas e há uma imensidão de ferramentas computacionais para gestão de empresas e suporte à decisão. Por que, então, o Excel ainda é tão utilizado? São diversos fatores que fazem da ferramen- ta obter tanto número de usuários, o principal com certeza é a sinergia do Pacote Office com o sistema operacional Windows, que apenas na versão 10 alcançou 270 milhões de usuários em todo mundo.
A ferramenta é imensamente utilizada pelas empresas para os mais diversos tipos de funcio- nalidades. Independentemente do porte ou segmento da organização, é uma ferramenta al- tamente difundida no ambiente empresarial, pois oferece infinitas possibilidades para manter os processos automatizados e organizados. Os recursos do Excel permitem que o usuário faça cálculos complexos, principalmente aqueles que envolvem a área financeira de um negócio. Além disso, é possível criar uma planilha de gastos, uma planilha para controlar o fluxo de caixa, calcular preços dos produtos e serviços oferecidos pela empresa, registrar os pagamentos, toda a parte contábil da organização, entre outras funcionalidades.
Um outro fator muito impactante no uso da ferramenta é o fato de as empresas comu- mente utilizarem softwares ERP para realizar a gestão de todos os processos organizacio- nais, por exemplo, o SAP. Este tipo de software é informalmente chamado de “engessado”, pois, ao invés de se adaptar às rotinas da empresa, é a empresa que se adapta ao funcio- namento do software.
Muitas vezes, as empresas precisam gerar relatórios específicos que atendam às suas ne- cessidades particulares e estes relatórios não são fornecidos pelo software ERP, a empresa, então, pode até fazer uma requisição e solicitar que seja implementado, mas isso envol-
NOTA
12
FONTE: O autor
Uma vez tendo acesso aos dados através de planilhas, estes são integrados, também em planilhas, cabendo à empresa gerar seus próprios relatórios, importando várias planilhas, consolidando, explorando e utilizando os mais diversos recursos.
FONTE: Adaptado de: NOGUEIRA, R. Análise de dados usando dashboards. Indaial: UNIASSELVI, 2019.
ve tempo e alto custo. Em contrapartida, os ERPs fornecem diversos relatórios sobre os módulos (financeiro, comercial, gestão, estoque, entre outros) e estes mesmos relatórios podem ser importados no formato de planilhas eletrônicas.
FIGURA 6 – EXEMPLO DE GERAÇÃO DE RELATÓRIOS COM O EXCEL
Nesse momento, você deve estar se perguntando: “Mas se eu já tenho domí- nio de Excel, então eu já sei tudo sobre BI?”. A grande questão é que o Excel é uma ferra- menta de relatórios, sob a qual os seus usuários gastam muito tempo preparando os dados para poder extrair informações sobre ele. Lembrando que um cenário de BI deve fazer a coleta, o armazenamento e a apresentação dos dados, de forma automática.
INTERESSANTE
13
Neste tópico, você aprendeu que:
• Big data é composto por volume, velocidade, variedade, veracidade e valor.
• Como usuário, você tem um importante papel na geração de um grande volu- me de dados.
• A evolução da tecnologia, bem como o surgimento de novas tecnologias, como IoT, geram um conjunto expressivo de dados, implicando na Big Data.
• Business Intelligence é um termo que foi cunhado no final dos anos 1980, mas vinga até hoje; é um termo que já sofreu e pode sofrer mutações, conforme o cenário dos dados mudam no mundo.
• Para ter um cenário de Business intelligence, é necessário ter coleta, armazena- mento e processos que permitam sua análise.
RESUMO DO TÓPICO 1
1 Leia o texto a seguir:
O Sistema de Apoio à Decisão (SAD) e Business Intelligence (BI), a partir de da- dos do ambiente organizacional, seja interno e/ou externo, os transformam em informações na forma de relatórios, gráficos, tabela e indicadores, permitindo uma análise e um diagnóstico do ambiente e dos processos e proporcionando aos gestores condições de antecipar o futuro e reduzir riscos e incertezas na tomada de decisão.
Sobre Business Intelligence, assinale a alternativa CORRETA:
FONTE: SILVA, R. A. da; SILVA, F. C. A.; GOMES, C. F. S. O uso do Business Intelligence (BI) em sistema de apoio à tomada de decisão estratégica. Revista GEINTEC - Gestão, Inovação e Tecnologias, v. 6, n. 1, p. 2780-2798, 2016.
a) O desenvolvimento de Business Intelligence pode acontecer apenas em grandes corporações.
b) O desenvolvimento de Business Intelligence acontece apenas na teoria. c) O desenvolvimento de Business Intelligence pode acontecer em qualquer
organização. d) O desenvolvimento de Business Intelligence acontece apenas em organiza-
ções do ramo agrícola.
2 Big Data é o termo em Tecnologia da Informação que trata sobre grandes con- juntos de dados que precisam ser processados e armazenados. O conceito do Big Data se iniciou com 5 Vs: Velocidade, Volume, Veracidade, Valor e Varie- dade. Um sistema de IoT coleta dados de diversos dispositivos: áudio, vídeo, texto, binários. Sobre em qual V o IoT está relacionado, assinale a alternativa CORRETA:
a) Volume. b) Velocidade. c) Valor. d) Variedade.
Para as próximas questões, considere o cenário a seguir:
“Você integrará à equipe o desenvolvimento de um sistema de Business In- telligence para Smart Home. O sistema tem como objetivo coletar dados de uma casa inteligente, que já está funcionando normalmente, no entanto, cada dispositivo está independente. Também deve permitir que o usuário tenha um Dashboard com todas as informações da casa e de seus dispositivos pessoais”.
AUTOATIVIDADE
15
FONTE: <https://product.haleema.me/project/smart-home-dashboard/>. Acesso em: 29 fev. 2020.
3 Considerando o cenário do dispositivo indicado e sabendo que os dados são a forma mais bruta da informação, assinale a alternativa CORRETA que apre- senta exemplo(s) de dados sobre esse cenário: a) TV, Relógio, 1, 2000.23, 30 ºC, 200 Mhz. b) Relatório de dispositivos que mais consomem energia. c) Previsão do consumo de energia para o próximo dia. d) Não é possível ter dado neste cenário.
4 Considerando o cenário do dispositivo indicado e sabendo que a informação traz organização e sentido aos dados armazenados, assinale a alternativa COR- RETA que apresenta exemplo(s) de informações sobre esse cenário: a) TV, Relógio, 1, 2000.23, 30 ºC, 200 Mhz. b) Relatório de dispositivos que mais consomem energia. c) Previsão do consumo de energia para o próximo dia. d) Não é possível ter informação neste cenário.
16
5 Considerando o cenário do dispositivo indicado e sabendo que o conheci- mento é adquirido a partir dos dados armazenados, sendo experiências e práti- cas além da informação, assinale a alternativa CORRETA que apresenta exem- plo(s) de conhecimento sobre esse cenário: a) TV, Relógio, 1, 2000.23, 30 ºC, 200 Mhz. b) Relatório de dispositivos que mais consomem energia. c) Previsão do consumo de energia para o próximo dia. d) Não é possível ter dado neste cenário.
17
DE ARMAZENAMENTO
UNIDADE 1
1 INTRODUÇÃO
Quando falamos sobre Business Intelligence e sobre Big Data, falamos que tais tecnologias dependem diretamente de um item para existir: o dado. Logo, para que possamos armazená-lo, manutení-lo e analisá-lo é necessário tê-lo ar- mazenado e preparado.
Por isso se torna interessante que você tenha conhecimento sobre os da- dos, como gerá-los, como consumi-los e como tratá-los. Para isso, é importante conhecer os tipos de dados.
Durante este tópico você estudará os tipos de dados que se dividem entre não estruturados, semiestruturado e estruturados. No contexto de desenvolvi- mento de sistemas, os dados estruturados são maioria, no entanto, dada a explo- são de dados que discutimos no mundo, a maioria dos dados são semiestrutura- dos e não estruturados.
FIGURA 8 – SMARTHOME DASHBOARD
18
2 DADOS ESTRUTURADOS Quando se lê dados estruturados, logo assume-se que este dado possui
uma estrutura e isso está correto. No entanto, no contexto dos tipos de dados, dizer que um dado é estruturado significa dizer que ele possui uma estrutura criada para o seu armazenamento. Precisamente, significa dizer que esta estrutu- ra foi criada anteriormente à existência dos dados, ou seja, um dado estruturado é aquele que já tem uma estrutura antes mesmo do dado existir.
Os tipos estruturados são:
• Dados organizados em blocos semânticos (relações). • Dados de um mesmo grupo. • Dados que possuem as mesmas descrições (atributos). • Dados que possuem descrições para todas as classes de um grupo apresentam
o mesmo formato (esquema). • Dados que são tradicionalmente mantidos em um SGBD e são chamados de
estruturados por manterem a mesma estrutura de representação (rígida), pre- viamente projetada (esquema).
Os Sistemas Gerenciadores de Bancos de Dados – SGBDs – são softwares utilizados para armazenar e manutenir os dados.
Um sistema gerenciador de banco de dados (SGBD) é uma coleção de programas que permite aos usuários criar e manter um banco de da- dos. O SGBD é, portanto, um sistema de software de propósito geral que facilita os processos de definição, construção, manipulação e com- partilhamento de bancos de dados entre vários usuários e aplicações. A definição de um banco de dados implica especificar os tipos de da- dos, as estruturas e as restrições para os dados a serem armazenados em um banco de dados (ELMASRI et al. 2005, p. 10).
Aqui temos um ponto importante, pois quando cunhou-se a terminologia SGBD só existia um tipo estrutura de banco de dados conhecida: os bancos de dados relacionais. Atualmente são diversos os tipos de gerenciadores de bancos de dados, os chamados NoSQL (Not Only SQL - Não Apenas AQL).
Os SGBDs do tipo NoSQL contêm diversos tipos de estruturas de armaze-
namento como: orientado a grafos, orientado a documentos, chave-valor, orienta- do a grafos, orientado a colunas, entre muitos outros que surgem a cada momen- to. O ponto nesse momento é que os bancos de dados não relacionais (NoSQL) são de diversos tipos e muitos deles não contemplam uma estrutura prévia de armazenamento.
Por isso dizemos que os dados estruturados se referem aos sistemas ge- renciadores de bancos de dados relacionais – SGBDR. Lembrando que, na defini- ção de um dado estruturado, a estrutura deve existir antes de o dado ser inserido. Vamos compreender como isso funciona na prática?
TÓPICO 2 | TIPOS DE DADOS E EXEMPLOS DE ARMAZENAMENTO
19
Tendo com objetivo executar um exemplo prático, precisamos utilizar um SGBDR, nesse caso utilizaremos o PostgreSQL para construção do exemplo, no entanto, os comandos utilizados são ANSI-SQL e devem funcionar em todos os SGBDRs.
Para instalar o PostgreSQL na sua máquina, você pode obter os insta- ladores e os arquivos binários no site https://www.postgresql.org/download/. No entanto, nesse primeiro momento, vamos utilizar uma opção em nuvem, o ElephantSQL.
O ElephantSQL é uma ferramenta on-line para criação e manutenção de bancos de dados PostgreSQL, a ferramenta pode ser acessada em: https://www. elephantsql.com/. Na tela de acesso inicial são apresentadas diversas opções, com diversos espaços em disco, bem como um preço associado.
Em sua opção FREE, o ElephantSQL permite criar um banco de dados de até 20 Mb de maneira gratuita sem a necessidade de fornecer dados de cartão de crédito, sendo essa opção utilizada para construir os exemplos desta Unidade.
FIGURA 9 – ELEPHANTSQL
FONTE: O autor
No ElephantSQL do navegador é possível executar comandos de acesso aos dados pela aba Browser. Será nessa caixa de texto que executaremos os co- mandos para execução do nosso exemplo.
20
Primeiramente, é bom saber que os SGBDRs se comunicam por uma mes- ma linguagem, denominada SQL (Structured Query Language - Linguagem de Consulta Estruturada). A SQL pode ser dividida em dois tipos:
• DML (Data Definition Language - Linguagem de Definição de Dados): a lin- guagem de definição está relacionada à definição da estrutura de um banco de dados, a partir dela que são definidas as estruturas, as tabelas e os campos, bem como a manutenção da estrutura.
• DML (Data Manipulation Language - Linguagem de Manipulação de Dados): a linguagem de manipulação está relacionada aos dados; a partir do momento que a estrutura é criada, será possível com uma DML inserir, excluir, atualizar e consultar dados em um SGBD.
Note que em sua definição, os dados estruturados devem ter uma estrutu- ra definida antes da inserção dos dados, justamente o que acontece com a DML. Vejamos um exemplo de comandos que criam estruturas, em específico, o Qua- dro 2 cria uma tabela.
QUADRO 2 – DDL - CRIANDO UMA TABELA
create table aluno ( id_pessoa integer primary key, nome varchar(100), cpf varchar(11) )
FONTE: O autor
Uma vez tendo criado a tabela pelo comando do Quadro 2, para entender o conceito de um dado estruturado, execute os comandos mostrados pelo Quadro 3, digitando cada comando na sequência, linha por linha.
QUADRO 3 – DML - INSERINDO REGISTROS
insert into aluno (id_pessoa, nome, cpf) values (1,"Rodrigo", "51255584896"); insert into aluno (id_pessoa, nome, cpf) values (2,"João", "125555848969"); insert into aluno (id_pessoa, nome, cpf, sexo) values (3,"Luiz", "125528848969", "M"); insert into aluno (id_pessoa, nome, cpf, idade) values (4,"Maria", "125578948969", 35);
FONTE: O autor
Ocorreu tudo bem durante a execução? O que aconteceu nas linhas 3 e 4? Repare que ao executar essas linhas aconteceu um erro, o erro indica que os campos idade e sexo não existem, o que é verdade, pois a estrutura de um banco de dados não pode ser alterada durante sua execução. Caso se deseje inserir uti- lizando esses campos, deve-se alterar a estrutura da tabela.
TÓPICO 2 | TIPOS DE DADOS E EXEMPLOS DE ARMAZENAMENTO
21
QUADRO 4 – DML E DML - ALTERANDO TABELA E INSERINDO REGISTROS
alter table aluno add sexo varchar(1); alter table aluno add idade integer;
insert into aluno (id_pessoa, nome, cpf, sexo) values (3,'Luiz', '12552884896', 'M'); insert into aluno (id_pessoa, nome, cpf, idade) values (4,'Maria', '25578948969', 35);
FONTE: O autor
Agora que pudemos compreender mais do conceito de dados estrutura- dos e como esse conceito funciona na prática, na próxima seção será visto sobre os dados semiestruturados.
3 DADOS SEMIESTRUTURADOS Não há como ter metade de um banco de dados com estrutura e outra
sem. Quando falamos de bancos de dados semiestruturados, estamos falando de um tipo de dados que não tem estrutura definida previamente.
Os dados semiestruturados permitem alteração da estrutura em tempo de execução, isto significa que campos podem ser adicionados ou removidos a qualquer momento.
Os tipos semiestruturados são:
• Dados em sua maioria da Web. • Dados que apresentam uma organização bastante heterogênea. • A alta heterogeneidade dificulta as consultas a estes dados. • Os dados semiestruturados são dados em que o esquema de representação está
presente (de forma explícita ou implícita).
Conforme já discutimos, a Web e os dispositivos IoT são grandes respon- sáveis pela geração de dados no mundo. A grande característica desses dados é o fato de terem uma estrutura dinâmica, que pode ser alterada em execução.
Conhecendo um pouco sobre o conceito de dados semiestruturados, veja- mos alguns exemplos deste tipo de dados.
3.1 DOCUMENTO XML
O XML (eXtensive Markup Language - Linguagem de Marcação Exten- sível) é uma linguagem de marcação que tem uma estrutura muito similar ao HTML (Hypertext Markup Language - Linguagem de Marcação de Hipertexto).
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
22
Tanto o XML quanto o HTML têm sua organização e sintaxe dada por <tags>. A principal diferença é que o HTML é utilizado para criação e exibição de conteúdo na Web, enquanto o XML é utilizado para armazenamento de dados.
O XML é recomendado pela W3C para a criação de documentos com dados organizados hierarquicamente. Vejamos um exemplo de um documento XML.
QUADRO 5 – EXEMPLO DE XML
<?xml version="1.0" ?> <pedidos> <pedido id="1"> <produto id="1"> <descricao>Jaleco</descricao> <preco>3.50</preco> <quantidade>3</quantidade> </produto> </pedido>
</pedidos>
Para validar se a sintaxe do documento anterior está correta, basta usar o seguinte validador: https://www.w3schools.com/xml/xml_validator.asp. Criare- mos, agora, um outro documento, baseado no anterior, mas utilizando recursos de dados semiestruturados.
QUADRO 6 – ADICIONANDO ELEMENTOS AO XML
<?xml version="1.0" ?> <pedidos> <pedido id="1"> <produto id="1"> <descricao>Jaleco</descricao> <preco>3.50</preco> <quantidade>3</quantidade> </produto> <produto id="2"> <descricao>Jaleco</descricao> <quantidade>3</quantidade> <totalproduto>10,5</totalproduto> </produto> </pedido>
</pedidos> FONTE: O autor
23
Note que alteramos a estrutura do documento passando a mesma infor- mação que há em pedido 1 para o pedido 2, dito isto, você percebe que ambos produtos contêm a mesma informação, mas estruturada de maneira diferente. Qual o problema disso? O grande problema será na hora de consumir esses da- dos, afinal a mesma consulta não retornará para a mesma informação.
O XML compreende um padrão adotado pelo W3 Consortium, que possi- bilita a troca de dados na Internet, além de representar dados semiestruturados. Uma grande quantidade de dados é atualmente publicada em páginas HTML (ALMEIDA, 2002).
Documentos XML são tradicionalmente utilizados para integração entre sistemas, nas quais organizações utilizam esse tipo de documento para enviar e receber dados. Tendo em vista validar dados nessa troca de informação, existem a DTD XMLSchema, que são mecanismos para conferir se os XMLs seguem um padrão definido durante a troca.
3.2 ARQUIVOS CSV
Os documentos deste tipo se assemelham muito a tabelas ou a um docu- mento Excel. O termo “CSV” tem como significado Comma Separated Values, ou seja, é um arquivo separado por vírgula (ou ponto e vírgula). Assim como o XML, este é um formato de arquivo que permite realizar o intercâmbio de dados entre sistemas que utilizam SGBDs diferentes.
QUADRO 7 – CSV
FONTE: O autor
Leia o artigo “DTDs versus XML schema: a practical study”, dos autores Geert Jan Bex, Frank Neven e Jan Van den Bussche. Disponível em: https://www.researchgate. net/publication/2938069_DTDs_versus_XML_schema_a_practical_study.
24
Os documentos deste tipo têm grande importância nesse curso, pois mui- tas bases de dados públicas disponibilizam seus dados nesse formato.
3.3 JSON
O formato JSON é um dos mais utilizados na Web para troca de informa- ções, seja em aplicações de interoperabilidade ou até mesmo para desenvolver aplicações Ajax (Asynchronous Javascript and XML, em português “Javascript Assíncrono e XML”).
JSON significa “Javascript Object Notation”, do qual nada mais é que o formato leve ideal para transferência/intercâmbio de dados. Isto se dá pelo fato de sua estrutura ser igual a um objeto da linguagem javascript (FILLIPI, 2017).
A seguir, um exemplo de como é a estrutura de um documento JSON para realizar o armazenamento de produtos.
QUADRO 8 – JSON
[ { “cliente”: “João Fernandes”, “produto”: “Jaleco”, “valor_total”: “3.5”, “metodo”: “cartão”, “promocao”:”sim” } ]
FONTE: O autor
A dinâmica de alteração de elementos de um documento JSON é muito similar ao XML, a cada novo elemento pode-se alterar a estrutura. Perceba que ao inserir o novo elemento em produto, ainda que a estrutura tenha ficado próxima, o elemento promoção foi removido, bem como os elementos produto e método foram alterados para que recebam um array com vários produtos.
TÓPICO 2 | TIPOS DE DADOS E EXEMPLOS DE ARMAZENAMENTO
25
QUADRO 9 – ALTERAÇÃO DE UM DOCUMENTO JSON
[ { “cliente”: “João Fernandes”, “produto”: “Jaleco”, “valor_total”: “3.5”, “metodo”: “cartão” }, { “cliente”: “João Henrique”, “produto”: [“Jaleco”,”lentes”,”óculos”], “valor_total”: “256.78”, “metodo”: [“cartão”, “dinheiro”] } ]
FONTE: O autor
3.4 BSON - MONGODB
A seção sobre MongoDb pode ser considerada uma continuação da abor- dagem com JSON, uma vez que o sistema de armazenamento do Mongodb é baseado em BSON, uma versão binária do JSOn como o conhecemos.
O MongoDB é um banco de dados NoSQL de código aberto sob a li- cença GNU AGPL v3.0, escrito em C++, orientado a documentos e livre de schemas. Seu nome é derivado da expressão em inglês humongous, que pode ser traduzido como “enorme” ou “monstruoso”. O Mon- goDB inicialmente foi desenvolvido como um componente de serviço pela empresa 10gen em outubro de 2007, passando a ser um software open source em 2009. Atualmente, o MongoDB é um dos mais popula- res banco de dados NoSQL (senão o mais popular) e está na versão 2.6. O projeto ainda é mantido pela 10gen que oferece suporte comercial e demais serviços (NASCIMENTO, 2020, p. 15).
Para obter o instalador no MongoDB em seu computador, você pode aces- sar o link: https://www.mongodb.com/download-center. Uma vez instalado, va- mos colocar em prática, antes disso, é preciso compreender que o MongoDB é NoSQL e em uma associação com os bancos de dados relacionais seus elementos principais são:
• Banco de Dados (SGBDR) → Banco de Dados (MongoDB). • Tabelas (SGBDR) → Coleções (MongoDB). • Linhas (SGBDR) → Documentos (MongoDB).
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
26
O primeiro passo é criar o seu banco de dados, para isso, no terminal do MongoDB digite Use BDLoja. Com este comando, você criará um banco de da- dos chamado loja.
Uma vez criado um banco de dados, o processo de criação de uma collec- tion é dinâmica e aqui conseguiremos ver a definição de dados semiestruturados na prática, ao contrário dos bancos de dados relacionais, em que se deve primei- ramente criar uma tabela e, posteriormente, inserir dados a ela.
Repetiremos no MongoDB os mesmos dados utilizados inseridos em JSON, veja como ficará o código completo.
QUADRO 10 – COMANDOS MONGODB
co","lentes","óculos"], valor_total: 256.78, metodo: ["cartão", "dinheiro"] }) 4 db.CollectionProduto.find()
FONTE: O autor
Ao executar o código mostrado no Quadro 10, na linha 1 você criará o banco de dados. Na linha 2, a Collection é criada e o primeiro pedido é inserido, na linha 3, o segundo pedido é inserido. Por fim, na linha 4, é executada uma consulta que retornará todos os elementos da CollectionProduto. O resultado es- perado será algo como mostra a Figura 10.
FIGURA 10 – MONGODB
FONTE: O autor
27
4 DADOS NÃO ESTRUTURADOS Você aprendeu que os dados estruturados são aqueles que têm uma estru-
tura criada antes do armazenamento dos dados e que os dados semiestruturados vão definindo a estrutura do banco de dados conforme os dados vão sendo inse- ridos. O que esses dois tipos têm em comum? Para cada dado armazenado você sabe o que ele é, você reconhece o valor, o nome, o preço, isso significa estrutura. Já os dados não estruturados são aqueles que não possuem nenhuma estrutura, nem prévia, nem criada em execução.
Os tipos não estruturados são:
• São os dados que não possuem uma estrutura definida. • São os dados que estruturas são descritas implicitamente. • A maioria dos dados na Web são deste tipo.
Os dados não estruturados são aqueles em que há a necessidade de um pré-processamento para que haja uma compreensão dos dados armazenados. Em geral, os dados não estruturados são textos, áudios e imagens.
Vamos pegar o exemplo de uma imagem: como saber o que há em uma imagem? Nós como humanos temos esse conhecimento, mas para que o compu- tador possa compreender, no geral, uma imagem é quebrada pixel a pixel, para cada pixel são coletados metadados sobre cada pixel, por exemplo: cor, curva, profundidade.
Tendo como objetivo obter mais conhecimento, bem como poder executar o MongoDB, você poderá acessar: https://docs.mongodb.com/manual/tutorial/. O site possui um guia completo sobre os principais comandos do MongoDB e também um terminal on-line em que você poderá executar seus comandos.
DICAS
28
FONTE: <https://gartic.com.br/t4nk_b0y/desenho-livre/super-mario-pixels-2>. Acesso em: 1º jan. 2020.
Os textos também são amplamente utilizados em cenários de gestão do conhecimento, no entanto, são compreensíveis para os humanos, mas não para a máquina.
Para que se possam realizar operações de sistemas inteligentes utilizando dados de textos, utilizam-se técnicas que convertem textos para linguagem de máquina. A técnica mais conhecida é denominada Bag-of-Words, que consiste em transformar um texto em um conjunto de dados binários.
A Figura 12 traz um exemplo de um texto em sua forma inteira e sua trans- crição para Bag-of-words, à esquerda os textos completos e à direita as palavras e suas ocorrências na forma de Bag-of-words. Note que a partir da transformação em Bag-of-words, o texto agora tem uma estrutura e a partir deste momento po- derá ser compreendido pela máquina.
29
FONTE: <https://www.quora.com/What-is-the-bag-of-words-algorithm>. Acesso em: 1º jan. 2020.
Neste tópico, você aprendeu que:
• Os dados são divididos em estruturados, não estruturados e semiestruturados. • Os dados estruturados têm uma estrutura predefinida e são tradicionalmente
SBGDR. • A estrutura dos dados semiestruturados são definidas no decorrer da execu-
ção; são exemplos de dados semiestruturados: XML, CSV, JSON e MongoDb (BSON).
• Os dados não estruturados não têm nenhuma estrutura; são exemplos de da- dos não estruturados: imagens, textos, áudios e vídeos.
31
1 Os dados são o novo petróleo, são essenciais para a implementação de um sistema de Business Intelligence. Observe a figura a seguir.
FIGURA 13 – TIPO DE DADO
FONTE: O autor
Assinale a alternativa CORRETA que apresenta o tipo de dado contemplado pela imagem anterior:
a) É um dado do tipo estruturado. b) É um dado do tipo semiestruturado. c) É um dado do tipo não estruturado. d) Nenhuma das alternativas.
2 Os dados são o novo petróleo, são essenciais para a implementação de um sistema de Business Intelligence. Observe o quadro a seguir.
QUADRO 11 – TIPO DE DADO
Os Lusíadas Os Lusíadas é uma obra de poesia épica do escritor português Luís Vaz de Camões, considerada a "epopeia portuguesa por excelência". Provavelmen- te concluída em 1556, foi publicada pela primeira vez em 1572 no período literário do Humanismo, três anos após o regresso do autor do Oriente.
FONTE: O autor
AUTOATIVIDADE
32
Assinale a alternativa CORRETA que apresenta o tipo de dado contemplado pelo quadro anterior:
a) É um dado do tipo estruturado. b) É um dado do tipo semiestruturado. c) É um dado do tipo não estruturado. d) Nenhuma das alternativas.
3 Os dados são o novo petróleo, são essenciais para a implementação de um sistema de Business Intelligence. Observe o quadro a seguir.
QUADRO 12 – TIPO DE DADO
CREATE TABLE Pessoa ( ID int, Nome varchar(255), Sonrenome varchar(255), Endereco varchar(255), Cidade varchar(255) );
FONTE: O autor
Assinale a alternativa CORRETA que apresenta o tipo de dado contemplado pelo quadro anterior:
a) É um dado do tipo estruturado. b) É um dado do tipo semiestruturado. c) É um dado do tipo não estruturado. d) Nenhuma das alternativas.
4 Os dados são o novo petróleo, são essenciais para a implementação de um sistema de Business Intelligence. Observe o quadro a seguir.
QUADRO 13 - TIPO DE DADO
{ nome:"João", Idade: 20, Sexo: 'M', Cursos:["Big Data", "IoT" , "ADS"]}; FONTE: O autor
Assinale a alternativa CORRETA que apresenta o tipo de dado contemplado pelo quadro anterior:
a) É um dado do tipo estruturado. b) É um dado do tipo semiestruturado. c) É um dado do tipo não estruturado. d) Nenhuma das alternativas.
33
5 Os dados são o novo petróleo, são essenciais para a implementação de um sistema de Business Intelligence. Observe o quadro a seguir.
QUADRO 14 – TIPO DE DADO
<bilhetee> <data> <dia>12</dia> <mês>11</mês> <ano>2020</ano> </data> <para>José</para> <de>Maria</de> <título>Lembrete</título> <corpo>Ir ao cinema</corpo> </bilhete>
FONTE: O autor
Assinale a alternativa CORRETA que apresenta o tipo de dado contemplado pelo quadro anterior:
a) É um dado do tipo estruturado. b) É um dado do tipo semiestruturado. c) É um dado do tipo não estruturado. d) Nenhuma das alternativas.
34
35
UNIDADE 1
1 INTRODUÇÃO
Durante esta Unidade estudamos diversos itens, começamos com uma reflexão sobre a explosão dos dados e com o grande volume de dados que há no mundo atualmente. Discorremos pelos tipos de dados e em como funcionam e passamos pelos conceitos essenciais de Business Intelligence e como ele deve ser implementado.
Durante o desenvolvimento de um sistema de Business Intelligence não há particularidades técnicas, como é o caso do desenvolvimento de sistemas, que são compostos de todo um conjunto de metodologias e documentos. Quando falamos em desenvolver um Business Intelligence na prática, estamos falando de um sistema que consolidará os dados da empresa de tal modo que permitirá dar suporte à tomada de decisões. O ideal de um sistema é que contemple os pilares de Business Intelligence.
FIGURA 14 – PILARES DO BUSINESS INTELLIGENCE
FONTE: <https://www.goedert.com.br/business-intelligence/>. Acesso em: 1º jan. 2020.
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
Para a implementação de um processo de inteligência de negócios dentro de uma organização existem diversas ferramentas, no entanto, são poucas as ar- quiteturas e metodologias. Isso acontece porque a principal arquitetura para um projeto de BI está dando certo há quase 40 anos. Vamos aprender mais sobre ela.
2 DATA WAREHOUSE
Data Warehouse é um termo que nasceu nos anos 1970 e tem sua paterni- dade dividida entre Ralph Kimball e Bill Inmon, autores que diferem em pontos específicos, mas que convergem na importância do seu desenvolvimento para alcançar a eficiência em um projeto de Business Intelligence. Data Warehouse tem como tradução literal Armazém de Dados e seu objetivo é realmente esse.
FIGURA 15 – RALPH KIMBALL E BILL INMON
FONTE: O autor.
Segundo Nogueira (2019), Bill Inmon começou a discutir os principais fatores em torno do Data Warehouse e o termo já começou a existir a partir dos anos 1970. In- mon trabalhou extensivamente na aprimoração de suas experiências em todas as formas de modelagem de dados relacionais. O trabalho de Bill Inmon como pioneiro do Data Warehouse foi o livro intitulado “Building the Data Warehouse”, um dos principais sobre tecnologia sobre desenvolvimento de projetos de dados na prática. Ralph Kimball, com a publicação de “The Data Warehouse Toolkit”, divide com Inmon a paternidade dos concei- tos sobre o que é um Data Warehouse.
IMPORTANTE
O data warehouse é o processo de coletar dados de sistemas de banco de dados herdados e de transações e transformá-los em informações organizadas em um formato amigável para incentivar a análise de dados e apoiar a tomada de
TÓPICO 3 | INTRODUÇÃO AO DATA WAREHOUSE
37
decisões de negócios baseada em fatos. O processo que envolve a transformação de dados de seu formato original em um armazenamento de dados dimensional representa pelo menos 70% do tempo, esforço e despesa da maioria dos projetos de data warehouse (KIMBALL; CASERTA, 2011).
De modo geral, você pode compreender o Data Warehouse como um grande banco de dados analíticos, que é alimentado pelas mais diversas fontes de dados de uma empresa e tem a missão de integrar todos eles.
Em sua definição do conceito de Data Warehouse, Kimball e Ross (2011) afirmam que data warehouse é um sistema que extrai, limpa, conforma e entrega os dados de origem em um armazenamento de dados dimensional e, em seguida, suporta e implementa consultas e análises para fins de tomada de decisão.
Inmon (2005), por sua vez, traz uma definição mais completa, na qual um Data Warehouse é formado por uma coleção de dados, orientado a um assunto, integrado, com tempo variável e não volátil, para suporte ao gerenciamento dos processos de tomada de decisão. Segundo Nogueira (2019), esses itens significam:
• Orientado a assunto: uma vez notando-se a necessidade da implementação de um Data Warehouse em uma organização, este terá um tema e um objeto de análise. Um Data Warehouse é orientado a assunto pelo fato de que este sempre estará relacionado a um tema, o qual consultas serão realizadas. Isso significa que ele sempre será direcionado a um tema, seja vendas, financeiro, fiscal ou compras. Ainda neste livro falaremos sobre o tema data mart, que é quando podemos ter vários assuntos integrados.
• Integrado: nesta Unidade falamos sobre diversos tipos de dados (XML, JSON, CSV, SGBDR), ou seja, uma das principais características de um Data Warehou- se é a integração. Um Data Warehouse pode integrar vários sistemas internos que usam SGBD e ao mesmo tempo integrar com redes sociais via JSON, fazen- do dessa dinâmica nas fontes de dados sua principal característica, bem como um dos principais desafios.
• Variável em relação ao tempo: o fator temporal é, na maioria dos casos, de- terminante na análise dos dados armazenados em um Data Warehouse. Desse modo, a cada carga de um novo conjunto de dados, este será associado com um determinado tempo. Vejamos a importância do tempo, por exemplo: em um Data Warehouse de ações, na bolsa de valores obtém-se os meses nos quais há uma maior queda nas ações e os meses em que há um número maior de vendas. Sendo assim, é necessário que os dados de Data Warehouse sejam ar- mazenados em relação ao tempo.
• Não volátil: este fator também está relacionado ao tempo, uma vez que todo registro que é inserido em um Data Warehouse é associado a um tempo. Não devem haver exclusões, por isso é não volátil. Isso não significa que o registro não constará como removido, mas que haverá duas ocorrências, uma primeira na data de sua inserção indicando que existiu e uma segunda indicando a data que foi removido.
38
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
Quando analisamos as duas definições como um todo, podemos perceber que o Data Warehouse é tratado como um grande banco de dados analítico, ali- mentado pelas mais diversas fontes de dados da organização.
Uma vez conhecendo melhor as definições e os conceitos, entenderemos um pouco mais sobre as principais arquiteturas utilizadas.
2.1 ARQUITETURA PROPOSTA POR INMON
Agora que conhecemos um pouco mais sobre o conceito de um Data Wa- rehouse e seu papel dentro de uma organização, nos aprofundaremos em como ele pode ser implementado. Quando falamos em arquitetura, estamos falando de uma visão geral de como um Data Warehouse se comportará.
FIGURA 16 – ARQUITETURA DE BILL INMON
FONTE: Adaptada de Carvalho (2010)
Nesta figura, os elementos representam:
• Dados operacionais e externos: o termo dados operacionais remete aos dados dos sistemas transacionais utilizados pela empresa (sistema de venda, de gestão etc.) que utilizam sistemas gerenciadores de banco de dados. Os dados externos são dados da Web, dispositivos externos ou até mesmo de sistemas de terceiros.
• Extração dos Dados, Limpeza dos Dados e Carga dos Dados: refere-se ao processo de tratamento dos dados, que devem ser preparados para serem ar- mazenados. Como há a possibilidade de existirem dados externos, essa etapa também é responsável por fazer a integração destes. Por fim, os dados são car- regados no Data Warehouse.
TÓPICO 3 | INTRODUÇÃO AO DATA WAREHOUSE
39
• Data Warehouse e Data Marts: são os locais onde os dados são armazenados em si. A diferença é que os data marts são setoriais, remetem-se a setores da empresa, Marketing, por exemplo. Já o Data Warehouse pode ser compreendi- do como a consolidação de todos os data marts.
• Sistemas de Entrega de Informações: referem-se a mecanimos para fornecer dados para aplicações terceiras, como um web service que permite a realização de consultas.
• Aplicações e Ferramentas: são os meios de visualização e consumo dos dados armazenados; a partir das ferramentas, os dados armazenados em um Data Warehouse são utilizados para a produção de informação e conhecimento.
Uma característica da abordagem de Inmon está relacionada à estratégia de modelagem de dados proposta pelo autor, tal estratégia é denominada Snow- Flake. O modelo SnowFlake é muito próximo do que é conhecido da modelagem tradicional de banco de dados, ainda que seja orientado a consultas, o modelo de Inmon aplica a normalizado, por isso as tabelas formam ramificações no formato de flocos de neve (SnowFlake).
FIGURA 17 – MODELO FLOCO DE NEVE
FONTE: Adaptada de Nogueira (2019)
40
2.2 ARQUITETURA PROPOSTA POR KIMBALL
A arquitetura de um Data Warehouse mostra o comportamento e os ele- mentos essenciais para que um cenário de Business Intelligence possa acontecer e dar suporte à decisão.
Em uma abordagem similar ao que vimos anteriormente, a arquitetura proposta por Kimball tem sido amplamente utilizada pela literatura e em pro- jetos reais. A Figura a seguir mostra uma visão geral do funcionamento desta arquitetura.
FIGURA 18 – ARQUITETURA DE KIMBALL
FONTE: Adaptada de Kimball e Ross (2011)
Pode-se dizer que a arquitetura proposta por Kimball e Ross (2011) é com- posta por camadas de dados: fontes de dados, área de trabalho, área de apresen- tação e ferramentas de acesso aos dados. Tais camadas podem ser descritas como:
• Fontes Provedoras: um Data Warehouse é composto por dados oriundos dos sistemas transacionais de uma organização, mas também pode receber dados externos. Esta camada contém todos os dados possíveis de serem armazenados no Data Warehouse (banco de dados relacional, orientado a objetos, não estru- turados, textual, Web etc.) que serão armazenados no modelo multidimensio- nal desenvolvido, permitindo que sejam realizadas as análises.
TÓPICO 3 | INTRODUÇÃO AO DATA WAREHOUSE
41
• Área de Trabalho: será aqui que o maior esforço computacional deverá acon- tecer, cerca de 80% do tempo do projeto deve ser gasto na área de trabalho, visto que são realizados os processos de integração das fontes de dados, bem como as transformações necessárias para armazenar os dados de acordo com o modelo definido para Data Warehouse. Nesta camada são realizados os prin- cipais procedimentos da chamada ETL (Extract, Transform and Load - Extração Transformação e Carga).
• Área de Apresentação de Dados: esta camada é responsável pela criação do Data Warehouse em si, não somente do armazenamento, mas de mecanismos para o consumo de dados com ênfase na sua principal tarefa: análise dos dados.
• Ferramentas de Acesso aos Dados: essa camada será responsável por consu- mir os dados de um Data Warehouse, gerando informação e conhecimento. Será aqui que as ferramentas de visualização de dados farão uso do servidor para submeter requisições de acesso aos dados armazenados.
Assim como visto anteriormente, Kimball tem sua proposta de uma mo- delagem para os dados que serão armazenados no Data Warehouse. O modelo proposto por Kimball é denominado modelo estrela, o nome se dá justamente pelo formato que as tabelas ficam dispostas. Ao contrário do modelo SnowFlake, o modelo estrela não apresenta normalização dos dados. A Figura 18 mostra um exemplo do modelo estrela.
FIGURA 19 – MODELO ESTRELA
Você pode notar que as duas abordagens são próximas, com algumas particularidades em suas arquiteturas, apesar dos modelos oferecerem modelos diferentes.
A principal diferença entre as modelagens é que apesar do modelo floco de neves oferecer mais integridade aos dados, ele será mais custoso. O modelo estrela, por sua vez, atende à ideia de um banco de dados analítico. Com poucas tabelas, permite que as consultas sejam executadas de maneira mais rápida.
No que se refere às arquiteturas, você não precisa se apegar, afinal pode adaptar a arquitetura dependendo do problema a ser desenvolvido. No caso de Nogueira (2017), por exemplo, no desenvolvimento de uma aplicação de coleta de notícias em tempo real, que coleta notícias e armazena em um sistema de Data Warehouse determinado Newsminer, para fazer a coleta, a análise e a implemen- tação de algoritmos de machine learning ele utilizou uma arquitetura proposta por ele mesmo.
FIGURA 20 – EXEMPLO DE ARQUITETURA
FONTE: Adaptado de Nogueira (2017)
Em um sistema para coleta de dados da rede social Twitter, tendo como objetivo utilizar algoritmos de machine learning para analisar os sentimentos so- bre os candidatos à eleição em 2018, Suter et al. (2019) propõe uma arquitetura de Data Warehouse para realizar o armazenamento dos textos, bem como da sua recuperação.
TÓPICO 3 | INTRODUÇÃO AO DATA WAREHOUSE
43
FONTE: Adaptado de Suter et al. (2019)
LEITURA COMPLEMENTAR
da evasão universitária
Introdução
A evasão escolar tem se mostrado um problema que impacta a educação sob variadas perspectivas e afeta os discentes, as instituições de ensino, os siste- mas de ensino e a sociedade em geral. De outro lado, ferramentas de Business Intelligence são amplamente utilizadas nos mais diversos cenários de suporte à decisão como uma oportunidade de organização de dados e eventos, em especial para a projeção de cenários e possibilidades futuras.
No ensino superior, a evasão é um problema que atinge até mesmo o ce- nário internacional, afetando os resultados dos sistemas educacionais, além dis- so, são desperdícios sociais, acadêmicos e econômicos (PRIM; FÁVERO, 2012). Um levantamento realizado pelo Ministério da Educação e Cultura (MEC) com dados do censo relativos ao ano de 2015 revelou um crescimento nas taxas de desistências dos cursos de ingresso, na avaliação do fluxo de alunos entre 2010 e 2014. Em 2010, 11,4% dos alunos abandonaram o curso para o qual foram admiti- dos. Em 2014, esse número chegou a 49%.
Para tanto, este trabalho tem por finalidade de estudo a implementação de um banco de dados multidimensional com a utilização de dashboards intera- tivos, a fim de compilar os dados relevantes à evasão do Curso de Bacharelado de Sistemas de Informação (BSI) do Instituto Federal Catarinense de uma forma organizada e analítica para a gestão do Campus, permitindo a realização de con- sultas por diversas perspectivas do perfil acadêmico; coletar e analisar dados re-
44
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
ferentes à evasão dos alunos do curso de Bacharelado em Sistemas de Informação do Instituto Federal Catarinensepor meio de um banco de dados multidimensio- nal que permita o desenvolvimento de dashboards interativos.
Revisão de literatura
Sabendo que o principal objetivo deste trabalho é análise dos dados refe- rente à evasão dos alunos do curso de Bacharelado em Sistemas de Informação por meio de um banco de dados multidimensional, buscou-se os principais tra- balhos da literatura atual que realizaram tal integração. O trabalho de Alves et al. (2016), aborda uma solução para os gestores do Centro Universitário de Patos de Minas – UNIPAM uma ferramenta de auxílio, para que o gestor possa realizar a tomada de decisão de forma mais segura e mais estruturada através de dados analisados, sendo essa solução o uso de Balanced Scorecard (BSC) e Business In- telligence (BI).
Para a obtenção das informações, os autores buscaram, previamente, jun- to à instituição, os índices de abandono de curso por curso e por centro, forma de ingresso por forma de evasão, perfil geográfico de alunos que abandonam cursos e o coeficiente de rendimento de alunos que abandonam um curso.
De acordo com os campos supracitados e necessários para análise, as fon- tes de dados usadas no trabalho são baseadas em planilhas geradas pela DTIC – Diretoria de Tecnologia de Informação e Comunicação da UNIRIO. Então, com o auxílio da ferramenta de BI Tableau, foi possível gerar o primeiro indicador mais generalizado e mostrar a porcentagem de evasão de alunos de Ampla Concorrên- cia em cada curso por semestre, desde 2010. O trabalho foi dado como prioridade ao fato “Evasão”, mas com o uso e aplicação de uma ferramenta BI, os usuários conseguem analisar muitos outros fatos relevantes para a instituição, como mobi- lidade entre cursos, transferências externas, entre outros.
Metodologia
Para atingir os objetivos propostos neste trabalho, primeiramente foi rea- lizado um estudo e análise, através de uma pesquisa de campo, de todos os alu- nos matriculados nas turmas de 2010 a 2018 do Curso de Bacharelado de Sistemas de Informação e, em um âmbito geral, foi identificando o perfil de cada aluno para apontar o provável motivo da evasão dos alunos.
Para levantar as causas da evasão, foi aplicado um questionário aos acadê- micos evadidos, acadêmicos que estão cursando e aos acadêmicos que já conclu- íram o curso. As perguntas foram elaboradas com o auxílio de outras pesquisas e questionários aplicados em outros estudos semelhantes, em que algumas ques- tões foram reescritas e adaptadas para fins de desenvolvimento dos dashboards e do data warehouse.
TÓPICO 3 | INTRODUÇÃO AO DATA WAREHOUSE
45
ARQUITETURA
O questionário foi desenvolvido na plataforma de formulários do Goo- gle Drive. Então foi gerado um link do questionário e encaminhado via e-mail aos acadêmicos do curso, entre os meses de setembro a outubro do ano de 2018, tendo como base de dados informações fornecidas pelo Registro Escolar da Ins- tituição em estudo e a coordenação do curso de Bacharelado em Sistemas de In- formação por meio de uma solicitação escrita autorizada garantindo o sigilo das informações. Junto aos links dos questionários também foi encaminhado uma breve explicação do estudo enfatizando a sua relevância não apenas para o curso de Bacharelado em Sistemas de informação, mas sim para o desenvolvimento educacional da Instituição em estudo.
Depois de feita a coleta e análise dos dados destes questionários, foi de- senvolvido o banco de dados multidimensional, para então compilar os dados e gerar os índices de evasão do curso de BSI com o uso das ferramentas de Business Intelligence. A fonte de dados da arquitetura tem como base o arquivo em forma- to .csv e para que as informações dos questionários sejam armazenadas de acordo com o modelo multidimensional e os dados disponibilizados para as aplicações, a coleta dos questionários é realizada previamente, bem como seu pré-processa- mento, compondo a etapa de ETL, ou área de trabalho.
Em seguida, na área de apresentação é feita a carga dos dados pré-pro- cessados no Data Warehouse e utilizada a ferramenta de acesso aos dados Power BI para gerar os dashboards, contendo os índices e a efetivação das operações de OLAP do banco, conforme ilustrado na Figura - Arquitetura. Tendo como premis- sa que o modelo estrela é a estrutura básica de um modelo de dados multidimen- sional, este também foi utilizado na modelagem multidimensional deste projeto, no qual sua composição típica possui uma grande entidade central denominada fato e um conjunto de entidades menores denominadas dimensões, arranjadas ao redor dessa entidade central, o qual forma uma estrela.
O modelo multidimensional (ver figura a seguir) representa o projeto lógi- co do banco multidimensional para a descoberta de fatores determinantes da eva- são do curso estudado. Para sua implementação foi utilizado a abordagem HOLAP (Hybrid Online Analytical Processing) por intermédio de um servidor PostgreSQL.
46
M O
47
Resultados e discussão
A modelagem multidimensional permite que as consultas de um banco de dados sejam realizadas de maneira mais intuitiva e flexível pelo usuário, além de possibilitar a obtenção de um desempenho superior, no que se refere às con- sultas e análise de grandes volumes de dados.
O data warehouse foi populado de acordo com as respostas obtidas pelo questionário aplicado aos alunos, sendo assim, podemos fazer um gerenciamento das informações em que os dados estão organizados dentro de tabelas e definidas as relações entre estas tabelas. Deste modo, pode-se extrair ou até mesmo combi- nar os dados de diversas tabelas, obtendo uma consulta ampla de informações.
O primeiro indicador gerado é mais generalizado com o intuito de mos- trar os dados de perfil dos alunos, conforme mostra a figura a seguir.
PERFIL ALUNO
As dimensões foram dispostas nos filtros para dinamizar e flexibilizar os resultados. Dessa maneira, é possível selecionar um dos status do aluno (ativo, formado e/ou evadido) ou por uma turma em específico, o qual gerará as métri- cas de idade, gênero, quantos alunos de cada status participaram da pesquisa, a cidade e estado, com localização geográfica, em que cada aluno morava quando fez o processo seletivo para o curso e se ele mudou de endereço devido ao ingres- so no curso.
48
UNIDADE 1 | INTRODUÇÃO AO BUSINESS INTELLIGENCE E DATA WAREHOUSE
Pode-se observar que 74,4% dos alunos que participaram da pesquisa são do gênero masculino e com uma faixa etária predominante de 18 a 25 anos de idade, sendo boa parte do estado de Santa Catarina e mais especificamente da cidade de Instituto Federal Catarinense, onde é localizado o campus que disponibiliza o curso.
A próxima figura exibe os indicadores de um perfil explorando a dimen- são “social” dos alunos, em que é considerado como análise o meio de transporte que o aluno utiliza (para os ativos) ou utilizava (para os formados e evadidos) para chegar ao Campus, a forma como realizou o ensino médio, quantas horas diárias o aluno trabalha e a renda familiar. Como exemplo de indicador, tem-se qual o meio de transporte mais utilizado pelo aluno de uma determinada turma.
PERFIL SOCIAL
Obtemos que a maioria dos alunos (62,79%