olap

Data Mining, Data Warehousing e OLAP

Kamila T. LyraKarina C. S. NishimuraThiago P. ColonheziWilliam S. Soares

Curso de Tecnologia em Anlise e Desenvolvimento de SistemasUniversidade Tecnolgica Federal do Paran

SumrioData Mining, Data Warehousing e OLAP2Introduo2Data warehousing2Data mining2OLAP2

Data Mining, Data Warehousing e OLAPIntroduo Hoje em dia uma organizao precisa utilizar toda informao disponvel para criar e manter vantagem competitiva. Sai na frente a organizao que consegue tomar decises corretas e rpidas.A idia de data warehouse integrar os dados internos e externos de uma organizao em uma estrutura nica permitindo uma melhor utilizao dos dados pelos analistas, gerentes e executivos. Uma vez obtida a integrao, sistemas como OLAP (On-Line Analytical Processing) e data mining fornecem mecanismos sofisticados para anlise dos dados.Estudar e conhecer a tecnologia de data warehouse pode ajudar os empresrios a descobrir novas formas de competir em uma economia globalizada, trazendo melhores produtos ou servios para o mercado, mais rpida do que os concorrentes, sem aumentar o custo do produto ou do servio.Nas ltimas dcadas, a tecnologia da informao evoluiu consideravelmente, dos primeiros computadores centrais at os atuais sistemas distribudos. Essa viso moderna e descentralizada busca obter vantagens, principalmente em termos de acessibilidade, disponibilidade e custo.Data warehousingOLAP

Com o surgimento de sistemas para gerenciamento de diversas reas do mercado, surgiu a necessidade de se gerar relatrios com dados sobre o foco de gesto ou modelo de negocio da empresa. Ento, quando existia a necessidade de se produzir um relatrio era necessrio a solicitao para o ncleo de informtica da empresa. Um"Online analytical processing", ou OLAP fornece para organizaes um mtodo de acessar, visualizar, e analisar dados corporativos com alta flexibilidade e performance.

Data mining Minerao de dados o processo de explorar grandes quantidades dedados procura de padres consistentes, como regras de associao ou sequncias temporais, para detectar relacionamentos sistemticos entrevariveis, detectando assim novos subconjuntos de dados utilizando as seguintes etapas bsicas:1. Explorao2. Construo do modelo3. Definio do padro4. Validao e verificaoA minerao de dados formada por um conjunto de ferramentas e tcnicas que atravs do uso dealgoritmosde aprendizagem ou classificao baseados emredes neuraiseestatstica, so capazes de explorar um conjunto de dados, extraindo ou ajudando a evidenciar padres nestes dados e auxiliando na descoberta de conhecimento. Esse conhecimento pode ser apresentado por essas ferramentas de diversas formas: agrupamentos,hipteses,regras, rvores de deciso, grafos, oudendrogramas.O ser humano sempre aprendeu observando padres, formulando hipteses e testando-as para descobrir regras. A novidade da era do computador o volume enorme de dados que no pode mais ser examinado procura de padres em um prazo razovel. A soluo instrumentalizar o prprio computador para detectar relaes que sejam novas e teis. A minerao de dados (MD) surge para essa finalidade e pode ser aplicada tanto para a pesquisa cientifica como para impulsionar a lucratividade da empresa madura, inovadora e competitiva.Diariamente asempresasacumulam grande volume de dados em seus aplicativos operacionais. So dados brutos que dizem quem comprou o qu, onde, quando e em que quantidade. a informao vital para o dia-a-dia da empresa. Se fizermos estatstica ao final do dia para repor estoques e detectar tendncias de compra, estaremos praticandobusiness intelligence(BI). Se analisarmos os dados com estatstica de modo mais refinado, procura de padres de vinculaes entre as variveis registradas, ento estaremos fazendo minerao de dados. Buscamos com a MD conhecer melhor osclientes, seus padres de consumo e motivaes. A MD resgata em organizaes grandes o papel do dono atendendo no balco e conhecendo sua clientela. Atravs da MD, esses dados agora podem agregar valor s decises da empresa, sugerir tendncias, desvendar particularidades dela e de seu meio ambiente e permitir aes melhor informadas aos seusgestores.Pode-se ento diferenciar o business inteligence (BI) da minerao de dados (MD) como dois patamares distintos de atuao. O primeiro busca subsidiar a empresa com conhecimento novo e til acerca do seu meio ambiente e funciona no plano estratgico. O Segundo visa obter a partir dos dados operativos brutos, informao til para subsidiar a tomada de deciso nos escales mdios e altos da empresa e funciona no plano tctico.Como ferramentas de data mining busca por padres, informaes teis para a tomada de deciso, essas ferramentas podem prever futuras tendncias e comportamentos, baseado principalmente no conhecimento acumulado o qual frequentemente desprezado, contido em seus prprios bancos de dados.Os mtodos tradicionais de Data Mining so: Classificao: associa ou classifica um item a uma ou vrias classes categricas pr-definidas. Uma tcnica estatstica apropriada para classificao a anlise discriminante. Os objetivos dessa tcnica envolvem a descrio grfica ou algbrica das caractersticas diferenciais das observaes de vrias populaes, alm da classificao das observaes em uma ou mais classes predeterminadas. A ideia derivar uma regra que possa ser usada para classificar, de forma otimizada, uma nova observao a uma classe j rotulada. A anlise discriminante permite que dois ou mais grupos possam ser comparados, com o objetivo de determinar se diferem uns dos outros e, tambm, a natureza da diferena, de forma que, com base em um conjunto de variveis independentes, seja possvel classificar indivduos ou objetos em duas ou mais categorias mutuamente exclusivas. Modelos de Relacionamento entre Variveis: associa um item a uma ou mais variveis de predio de valores reais, consideradas variveis independentes ou exploratrias. Tcnicas estatsticas como regresso linear simples, mltipla e modelos lineares por transformao so utilizadas para verificar o relacionamento funcional que, eventualmente, possa existir entre duas variveis quantitativas, ou seja, constatar se h uma relao funcional entre X e Y Anlise de Agrupamento (Cluster): associa um item a uma ou vrias classes categricas (ou clusters), em que as classes so determinadas pelos dados, diversamente da classificao em que as classes so pr-definidas. Os clusters so definidos por meio do agrupamento de dados baseados em medidas de similaridade ou modelos probabilsticos. A anlise de cluster (ou agrupamento) uma tcnica que visa detectar a existncia de diferentes grupos dentro de um determinado conjunto de dados e, em caso de sua existncia, determinar quais so eles. Nesse tipo de anlise, o procedimento inicia com o clculo das distncias entre os objetos estudados dentro do espao multiplano constitudo por eixos de todas as medidas realizadas (variveis), sendo, a seguir, os objetos agrupados conforme a proximidade entre eles. Na sequncia, efetuam-se os agrupamentos por proximidade geomtrica, o que permite o reconhecimento dos passos de agrupamento para a correta identificao de grupos dentro do universo dos objetos estudados. Sumarizao: determina uma descrio compacta para um dado subconjunto. As medidas de posio e variabilidade so exemplos simples de sumarizao. Funes mais sofisticadas envolvem tcnicas de visualizao e a determinao de relaes funcionais entre variveis. As funes de sumarizao so frequentemente usadas na anlise exploratria de dados com gerao automatizada de relatrios, sendo responsveis pela descrio compacta de um conjunto de dados. A sumarizao utilizada, principalmente, no pr-processamento dos dados, quando valores invlidos so determinados por meio do clculo de medidas estatsticas como mnimo, mximo, mdia, moda, mediana e desvio padro amostral , no caso de variveis quantitativas, e, no caso de variveis categricas, por meio da distribuio de frequncia dos valores. Tcnicas de sumarizao mais sosticadas so chamadas de visualizao, que so de extrema importncia e imprescindveis para se obter um entendimento, muitas vezes intuitivo, do conjunto de dados. Exemplos de tcnicas de visualizao de dados incluem diagramas baseados em propores, diagramas de disperso, histogramas e boxplots, entre outros. Modelo de Dependncia: descreve dependncias signicativas entre variveis. Modelos de dependncia existem em dois nveis: estruturado e quantitativo. O nvel estruturado especifca, geralmente em forma de grco, quais variveis so localmente dependentes. O nvel quantitativo especica o grau de dependncia, usando alguma escala numrica. Segundo Padovani (2000), anlises de dependncia so aquelas que tm por objetivo o estudo da dependncia de uma ou mais variveis em relao a outras, sendo procedimentos metodolgicos para tanto a anlise discriminante, a de medidas repetidas, a de correlao cannica, a de regresso multivariada e a de varincia multivariada. Regras de Associao: determinam relaes entre campos de um banco de dados. A ideia a derivao de correlaes multivariadas que permitam subsidiar as tomadas de deciso. A busca de associao entre variveis , frequentemente, um dos propsitos das pesquisas empricas. A possvel existncia de relao entre variveis orienta anlises, concluses e evidenciao de achados da investigao. Uma regra de associao denida como se X ento Y, ou X Y, onde X e Y so conjuntos de itens e X Y = . Diz-se que X o antecedente da regra, enquanto Y o seu consequente. Medidas estatsticas como correlao e testes de hipteses apropriados revelam a freqncia de uma regra no universo dos dados minerados. Anlise de Sries Temporais: determina caractersticas sequenciais, como dados com dependncia no tempo. Seu objetivo modelar o estado do processo extraindo e registrando desvios e tendncias no tempo. Correlaes entre dois instantes de tempo, ou seja, as observaes de interesse, so obtidas em instantes sucessivos de tempo por exemplo, a cada hora, durante 24 horas ou so registradas por algum equipamento de forma contnua, como um traado eletrocardiogrco. As sries so compostas por quatro padres: tendncia, variaes cclicas, variaes sazonais e variaes irregulares. H vrios modelos estatsticos que podem ser aplicados a essas situaes, desde os de regresso linear (simples e mltiplos), os lineares por transformao e regresses assintticas, alm de modelos com defasagem, como os auto regressivos (AR) e outros deles derivados.

Software WEKAA ferramenta Weka possui como ponto forte a extrao de classificadores em bases de dados. Um classificador (ou modelo de classificao) utilizado para identificar a classe qual pertence uma determinada observao de uma base de dados, a partir de suas caractersticas (seus atributos).A minerao de modelos de classificao em bases de dados um processo composto por duas fases: aprendizado e teste. Na fase de aprendizado, um algoritmo classificador aplicado sobre um conjunto de dados de treinamento. Como resultado, obtem-se a construo do classificador propriamente dito. Tipicamente, o conjunto de treinamento corresponde a um subconjunto de observaes selecionadas de maneira aleatria a partir da base de dados que se deseja analisar. Cada observao do conjunto de treinamento caracterizada por dois tipos de atributo: o atributo classe, que indica a classe a qual a observao pertence; e os atributos preditivos, cujos valores sero analisados para que seja descoberto o modo como eles se relacionam com o atributo classe. Para exemplificar estes conceitos, considere o conjunto de dados de treinamento apresentado na Tabela 1. Neste exemplo, o conjunto de dados composto por observaes selecionadas a partir de uma base hipottica de informaes censitrias. Cada observao contm os dados de uma pessoa entrevistada. Observe que o atributo Rico - utilizado para indicar se uma pessoa possui renda anual igual ou superior a R$ 50.000,00 - representa o atributo classe, enquanto os atributos escolaridade e idade so preditivos.Tabela 1 Base de dadosEscolaridadeIdadeClasseRenda superior a R$ 50.000,00

Mestrado>30Sim

Doutorado30Sim

Mestrado30Sim

Aps o classificador ser construdo, inicia-se a etapa de teste, que visa avaliar a sua acurcia atravs do emprego de um conjunto de dados de teste. O conjunto de teste contm observaes que tambm so selecionadas aleatoriamente a partir da base de dados. No entanto, estas observaes devem ser diferentes das que foram selecionadas para compor o conjunto de treinamento. A acurcia do classificador representa a porcentagem de observaes do conjunto de teste que so corretamente classificadas por ele. Caso a acurcia seja alta, o modelo de classificao considerado eficiente e pode ser utilizado para classificar novos casos.Diversas tcnicas podem ser utilizadas para a construo de classificadores, tais como redes neurais, mtodos Bayesianos e rvores de deciso, entre outros. As rvores de deciso tm sido muito utilizadas pelos softwares de minerao de dados. Isto justificado pelo fato delas possurem uma representao intuitiva, que torna o modelo de classificao fcil de ser interpretado.

Figura 1 Arvore de deciso

A ferramenta Weka trabalha com arquivos de entrada no formato ARFF, que corresponde a um arquivo texto contendo um conjunto de observaes, precedido por um pequeno cabealho. O cabealho utilizado para fornecer informaes a respeito dos campos que compem o conjunto de observaes. Dessa forma, antes da minerao de dados, a ferramenta pode verificar alguma inconsistncia na base de dados e sinaliz-la. A Figura 2 ilustra um exemplo de arquivo ARFF, contendo um cabealho e um conjunto de 8 registros que representam a base de dados apresentada na Tabela 1. Observe que o cabealho contm a declarao da relao que o arquivo representa (comando @relation), uma lista de atributos (comando @attribute) e a relao de valores que os mesmos podem assumir. O conjunto de observaes precedido por um comando @data. Cada observao representada por uma linha. Os valores dos campos dentro de uma observao devem ser separados utilizando a vrgula.Um exemplo pode ser encontrado no quadro abaixo:@relation Censo

@attribute Escolaridade {Graduacao, Mestrado, Doutorado}@attribute Idade {>30, 30,SimDoutorado,

olap

Documents