Download - Tutorial Analysis Services

5/10/2018 Tutorial Analysis Services - slidepdf.com

http://slidepdf.com/reader/full/tutorial-analysis-services 1/26

Seminário de Bancode Dados II

Analysis Services

Júlio César

Leandro Ferreira

Rafael Vasconcelos

TUTORIAL DE APLICAÇÃO DE ANALYSIS SERVICES



1. Data Mining

Data Mining ou Mineração de Dados consiste em um projeto de análise, para

explorar grandes quantidades de dados, na busca de padrões e/ou relacionamentosentre esses dados. É aplicado sobre os dados um técnica de agrupamento em

subconjuntos desses dados que consiste em 3 fases: exploração, construção de

modelos ou definição de padrão e validação ou verificação.

Este conceito, está se tornando a cada dia mais popular, por ser uma ferramenta de

gerenciamento de sistemas de informação, que busca revelar ou explorar

estruturas de conhecimentos que possam guiar decisões em situações de incerteza.

É crescente o desenvolvimento de novas técnicas de analise, especialmente as

projetadas para tratar questões relativas a Data Mining. Porém, ainda está baseado

em princípios conceituais de análise de dados exploratórios e de modelagem.

2. Analysis Service

O mercado hoje se caracteriza pela grande competitividade entre as empresas, que

a cada dia buscam além de manter seus clientes, conquistarem novos e adicionar

valores aos seus produtos e serviços. Para auxiliar o mundo corporativo, surgiram

as ferramentas de Data Mining, com uma tarefa fundamental para a sobrevivênciade uma empresa. Com a necessidade de conhecer detalhadamente cada cliente,

observando seus desejos, suas características, seu comportamento, sabendo de

suas necessidades, seu comportamento. Desta forma, a aplicação de Analysis

Services, uma ferramenta de Data Mining, como apoio às estratégias de empresas,

utilizando para isso, qualquer base de dados existente em qualquer tipo de

empresa, seja qual for sua procedência, pode oferecer informações

importantíssimas que auxilie no processo decisório, interferindo diretamente no

sucesso da mesma.

3. O algoritmo

O algoritmo de Árvores de decisão é um pouco diferente dos algoritmos que foram

apresentados em artigos anteriores. Isso porque ele gera uma estrutura de árvore

que ajuda na classificação e predição das amostras desconhecidas. Com base nos

registros do conjunto de treinamento, uma árvore é montada e, a partir desta

árvore, pode-se classificar a amostra desconhecida sem necessariamente testar

todos os valores dos seus atributos. O algoritmo de classificação por árvores de



decisão é considerado um algoritmo supervisionado, pois é necessário saber quais

são as classes de cada registro do conjunto de treinamento.

Como o algoritmo monta uma árvore, é necessário antes definir quais são os

elementos desta árvore. Para simplificar a explicação do algoritmo, basta pensar

em uma árvore como um conjunto de nós que são conectados por ramificações.Basicamente existem três tipos de nós: o nó raiz, que inicia a árvore, os nós comuns

que dividem um determinado atributo e geram ramificações e os nós folha que

contém as informações de classificação do algoritmo. Já as ramificações possuem

todos os valores possíveis do atributo indicado no nó para facilitar a compreensão e

interpretação.

A idéia do algoritmo é montar uma árvore onde cada nó indica o teste de um

atributo. Os atributos escolhidos para os nós da árvore são chamados de atributos

divisores ou atributos teste. A escolha de atributos é feita com base no maior ganho

de informação, isto é, na qualidade de classificação do atributo. Deste modo,

podemos dizer que o atributo que melhor classificar os dados deve ser escolhido

como um nó da árvore. Para facilitar a compreensão, é comum colocar os valores

das probabilidades de cada classe dentro do nó.

A classificação de uma nova amostra é feita percorrendo os ramos e nós da árvore

de acordo com os valores dos atributos da amostra desconhecida. Este algoritmo

permite uma análise mais detalhada levando em consideração cada valor de cada

atributo. Contudo, dependendo de quão bom o atributo é para a classificação, nem

sempre todos os atributos podem estar nos nós da árvore de decisão.Outro fator importante a ser considerado é a análise da árvore. Apenas montar a

estrutura da árvore e classificar novas amostras nem sempre é suficiente, pois a

análise pode requerer um detalhamento melhor do que significa cada nó da árvore.

Além de classificar uma amostra desconhecida, analisando a árvore gerada pode-se

montar regras de decisão a partir da árvore de decisão montada com o objetivo de

representação do conhecimento.

Sem entrar em detalhes muito técnicos de como o algoritmo funciona, basta pensar

que os quatro passos abaixo devem ser seguidos:

3.1 PASSO 1: Geração do nó raiz.

Neste passo, cada classe do conjunto de treinamento possui sua probabilidade

calculada. Como ainda não existe nenhum nó na árvore, basta criar um nó raiz

contendo as probabilidades de cada classe. Nos próximo passo um atributo deve

ser colocado para este nó raiz.

3.2 PASSO 2: Encontrar nós a serem divididos.

Neste passo é necessário encontrar os nós da árvore que ainda podem ser divididos

para a geração de novos nós. Basta obter os nós que não são folhas, isto é, nós queainda não possuem divisões e que cuja distribuição das probabilidades não



classifique a amostra totalmente. Classificar a amostra totalmente quer dizer que o

nó não deve possuir alguma classe que tenha 100% de probabilidade de classificar

a amostra no seu nó. Se não houver mais nenhum nó que pode ser dividido o

algoritmo termina.

3.3 PASSO 3: Divisão de nó.

Para cada nó do conjunto de nós que podem ser divididos deve-se escolher um

atributo que melhor classifica os dados. Esta escolha deve excluir todos os atributos

que inda não foram utilizados no caminho que começa deste o nó raiz até o nó a ser

dividido. Além de considerar os atributos que já foram utilizados, também deve-se

analisar a quantidade de nós folha que o atributo gera e a quantidade de nós não

folhas escolhendo o atributo que mais gera nós folha e que menos gera nós que

podem ser divididos. Em alguns casos, o nó não pode ser dividido devido às

restrições, o que faz com que este nó não seja armazenado no conjunto de nós a

serem divididos.

3.4 PASSO 4: Criação do nó.

Com o atributo escolhido, basta criar e desenhar o nó e as suas ramificações de

acordo com todos os possíveis valores do atributo. A criação de ramificações gera

novos nós que devem analisados em seguida. O algoritmo volta para o PASSO 2.

Do modo que o algoritmo foi apresentado, fica difícil imaginar uma implementação.

A próxima sessão do artigo descreve passo a passo a geração de uma árvoreexemplificando todo o algoritmo.

Mais informações sobre o algoritmo de Árvores de decisão podem ser obtidas nos

links contidos na referencia bibliográfica.

3.5 Exemplo de uso de algoritmo de Árvores de Decisão

Vamos considerar o seguinte cenário para a utilização do algoritmo. Um sistema de

contas a receber de um clube esportivo envia para um banco no início de cada mês

um boleto contendo da mensalidade do clube a ser paga pelos associados. O bancoentão envia pelo correio a fatura para os clientes e espera os recebimentos. No final

do mês, o banco retorna para o sistema do clube quais clientes pagaram o boleto,

quais não pagaram e quais clientes pagaram com atraso, dentre outras

informações. Com o objetivo de diminuir a quantidade de clientes que pagam o

boleto com atraso, foi feita uma mineração de dados na base de associados para

identificar o perfil de quem paga com atraso o boleto.

Um pré-processamento dos dados separou as informações dos clientes em alguns

atributos que podem ser visualizados na tabela da Figura 01. Para este exemplo, 14

registros foram utilizados para o conjunto de treinamento.



Figura 01. Dados dos associados de um clube esportivo

As colunas apresentadas na tabela da Figura 01 são descritas a seguir:

IDADE: Este atributo identifica a idade do associado. Foi dividido entre os valores

<=30, 31..40 para indicar uma faixa de idade e >40 para os valores acima de 40

anos.

SALARIO: Este atributo identifica o salário do associado. Este atributo foi

classificado de acordo com a freqüência dos salários, gerando os valores Alto, Médio

e Baixo.

SUPERIOR_COMPLETO: Este atributo indica se a escolaridade do associado. Pode

possuir os valores Sim e Não.

DEPENDENTES: Este atributo indica se o associado possui dependentes que utilizam

o clube com a sua carterinha. Possui os valores Sim e Não.

ATRASOU: Esta é a coluna que apresenta a classificação das amostras. Neste

exemplo, a classificação indica se o cliente atrasou no pagamento, isto é

ATRASOU=SIM, ou se o cliente não atrasou no pagamento, isto é ATRASOU=NAO.

Para facilitar a visualização os clientes do conjunto de treinamento que atrasaram o

pagamento foram marcados em vermelho e os clientes que não atrasaram forammarcados em azul.

Vamos agora montar passo a passo a árvore de decisão. Para facilitar a explicação,

o software Decision Tree Learning Applet foi utilizado. O link para download deste

software se encontra no final do artigo. Como o algoritmo é bem extenso somente

os cálculos do primeiro nível da árvore serão mostrados.

O primeiro passo é gerar o nó raiz da árvore. Devemos primeiro calcular a

probabilidade para cada uma dos valores do atributo de classificação, que no

exemplo é o atributo ATRASOU. As probabilidade do nó raiz são:

Probabilidade de ATRASOU=NÃO: 5/14 = 0,36

Probabilidade de ATRASOU=SIM: 9/14 = 0,64



O nó raiz da árvore fica assim:

Figura 02. Nó raiz da árvore de decisão

Notem na Figura 02 que os valores são seguidos da contagem para este nó e da sua

probabilidade, que é apresentada numericamente e por uma barra. Este nó ainda

não tem um atributo e por isso é um nó que pode ser dividido.

O próximo passo é escolher atributos para os nós que podem ser divididos. Como só

temos um nó vamos analisar todos os atributos para verificar aquele que melhor

classifica os dados.

Para o atributo IDADE temos:

Valor <=30



Valor 31..40

Probabilidade de ATRASOU=NÃO: 0/14 = 0


Este valor gera um nó folha, pois todos os registros que tem o valor 31..40 são da

classe ATRASOU=SIM

Valor > 40Probabilidade de ATRASOU=NÃO: 2/14 = 0,143


Para o atributo SALARIO temos:

Valor Alto



Valor Médio



Valor Baixo



Para o atributo SUPERIOR_COMPLETO temos:

Valor Não



Valor SimProbabilidade de ATRASOU=NÃO: 6/14 = 0,428




Para o atributo DEPENDENTES temos:

Valor Não


Probabilidade de ATRASOU=SIM: 5/14 = 0,357Valor Sim



Conclusão: Somente o atributo IDADE gerou um nó folha e por isso ele deve ser

escolhido como atributo de divisão do primeiro nó. Após escolher este atributo

devemos calcular as probabilidades dos novos nós gerados pela ramificação deste

nó. Deste modo o primeiro nível da árvore de decisão ficará como a Figura 03.

Figur

a 03. Primeiro nível da árvore de decisão

O algoritmo volta para o passo de escolha de nós a serem considerados para a

divisão. Neste ponto, a árvore tem dois nós que podem ser divididos, que estão

marcados em azul na Figura 03. O nó folha gerado pela divisão do valor 31..40 do

atributo IDADE não pode mais ser divido. Seguindo o algoritmo, devemos calcular

as probabilidades dos atributos SALARIO, SUPERIOR_COMPLETO e DEPENDENTES

para cada um dos nós em azul e depois gerar nos nós e assim sucessivamente até

não restar mais nós a serem divididos. O resultado final do algoritmo de árvores de

decisão aplicado aos dados do conjunto de teste é apresentado na Figura 04.



Figur

a 04. Árvore de decisão completa para o conjunto de testes de exemploA árvore de decisão mostrada na Figura 04 possui quatro nós folha (em verde) que

classificam os valores das classes de acordo com seus atributos. Notem que o

atributo SALARIO não foi utilizado, pois o algoritmo não considerou este atributo

como relevante para a classificação. A árvore da Figura 04 também pode ser

representada textualmente da maneira abaixo:

IDADE = <=30

SUPERIOR_COMPLETO = NÃO: NÃO (3.0)

SUPERIOR_COMPLETO = SIM: SIM (2.0)

IDADE = 30..40: SIM(4.0)

IDADE = >40

DEPENDENTES = NÃO: SIM (3.0)

DEPENDENTES = SIM: NÃO (2.0)

Desta maneira fica um pouco mais fácil para extrair as regras de classificação do

tipo SE... ENTÃO da nossa árvore:

SE IDADE = <=30 e SUPERIOR_COMPLETO = NÃO ENTÃO

A amostra é classificada como ATRASA=NÃO

SE IDADE = <=30 e SUPERIOR_COMPLETO = SIM ENTÃOA amostra é classificada como ATRASA=SIM

SE IDADE = 30..40 ENTÃO

A amostra é classificada como ATRASA=SIM

SE IDADE >=40 e DEPENDENTES = NÃO ENTÃO

A amostra é classificada como ATRASA=SIM

SE IDADE >=40 e DEPENDENTES = SIM ENTÃO

A amostra é classificada como ATRASA=NÃO

Contudo, devemos considerar alguns detalhes antes do uso do algoritmo de árvores

de decisão. O algoritmo trabalha bem com valores discretos, pois caso contrário a



árvore pode se tornar imensa e de difícil compreensão. Também é preciso dizer que

em alguns casos os nós folhas são apresentam sempre um valor correto e nestes

casos devemos classificar de acordo com a classe que apresenta maior

probabilidade.

Outro detalhe é que para muitos atributos com muitos valores o algoritmo podelevar algum tempo para montar a árvore, pois é necessária uma grande quantidade

de cálculos de probabilidade além de armazenamento temporário de valores.

Como dito anteriormente, além de permitir a classificação de uma amostra

desconhecida, a árvore gerada pode permitir a classificação sem a necessidade da

análise de todos os atributos. Por exemplo, na árvore da Figura 04 podemos

classificar imediatamente como ATRASA=SIM uma amostra possuir o valor 30..40

para o atributo IDADE.

Outra vantagem do algoritmo que gera a árvore de decisão é permitir análises que

filtram algum valor de um atributo. Por exemplo, podemos fazer as seguintes

afirmações sobre a árvore da Figura 04:

“Mais da metade dos associados que possuem mais de quarenta anos têm

dependentes”.

“Dos associados que tem idade igual ou menor que trinta anos menos da metade

possui o superior completo”.

4. Utilizando o Visual Studio para aplicação do Analysis Services.

Para iniciar a aplicação desta técnica, você precisa ter instalado em seu

computador o visual Studio 8 ou versão posterior e também o SQL Server 2000 ou

versão superior.

Para iniciar você deve abrir o Microsoft Visual Studio.



Feito isso, você deve clicar em:

1 - File;

2 – New Project.

Nesta caixa que abriu, você deve clicar na caixa de seleção que se encontra a

esquerda a opção Business Intelligence Projects e na caixa da direita, escolher a

opção Analysis Services Project. No campo name, que se encontra abaixo, você



pode descrever o nome do projeto e em location, o local onde seu projeto será

salvo.

A caixa onde você digitou o nome e escolheu o local onde seu projeto será salvo

fechou e estará desta forma. Note que o nome do seu projeto aparece no campo“Recent Projects” que se encontra a esquerda.

Agora você já criou o projeto e vamos iniciar a aplicação de Analysis Services. Você

deve observar do lado direito da janela, a aba Solution Explorer.



Clicando sobre esta aba, ela deslizará e você deve clicar com o botão direito sobre

a opção Data Source e escolher New Data Source.

Ao escolher esta opção, abrirá esta janela.



Nesta janela, clique sobre o botão New, para selecionar uma base de dados.

Clicando sobre o botão, aparecerá esta janela.

Na opção Server Name, você seleciona o servidor a se conectar.Logo abaixo, por

default vai estar selecionado a opção “Windows Authentication”, marque a opção

“Use SQL Server Authentication”. No campo User Name, digite “sa” e em password“1234”. Note que após escolhido o servidor, a opção abaixo Conect to Database



que estava desabilitado, passa a estar habilitado e clicando no campo, abre com a

opções das base de dados disponíveis para aplicação. Você seleciona a base de

dados e clica em Ok.

Após clicar em Ok, voltará para a tela de criação de Data Source. Nesta tela, clique

em Next. Clicando em Next, aparecerá esta tela e você deve selecionar a opção“default”.

Depois, clique em “Next”.

Nesta próxima tela, você dará um nome a sua Data Source, e clique em Finish,

conforme a figura abaixo.



Agora vamos criar um Data Source View.

Novamente clique sobre a aba Solution Explorer. Veja que tem a opção Data Source

View. Clique sobre esta com o botão direito e escolha New Data Source View.

Nesta janela, você deve selecionar o Data Source criado na operação anterior.Provavelmente ele deve aparecer nesta caixa, no Relational Data Source, localizado



do lado esquerdo da janela, conforme figura abaixo. Feito a seleção, clique em

Next.

Após clicar em next, abrirá uma caixa de solicitando que seja digitado “User id” e

“Password”, você deve digitar respectivamente “sa” e “1234” e clique em Ok,

conforme a figura abaixo.



Tendo passado por esse processo, você estará agora em uma tela onde será

necessário selecionar as tabelas da sua base de dados, relacionada à Data Source

criada, então, neste momento você deve selecionar as tabelas e clicar na seta que

se encontra no centro desta caixa, apontando para a parte vazia, que deve conterali somente as tabelas que serão utilizadas e ao final do processo visualizadas.

Tendo selecionado as tabelas, clique em Next.

Agora, você estará numa janela onde poderá nomear sua Data Source View criada,

e logo abaixo, poderá visualizar as tabelas selecionadas para esta Data Source View

criada.



Após nomear e conferir se todas a tabelas selecionadas se encontram listadas nesta

caixa, clique em Finish.

Note que após processar, você terá na sua tela, na área central do visual Studio seu

Data Source View, conforme figura.



Agora, vamos criar uma estrutura de mineração. Para isso, volte na aba lateral

Solution Explorer e clique com o botão direito sobre a opção “Mining Estrutcture”,

conforme figura abaixo.

Tendo selecionado, abrirá estas opções.



Marque a opção “From existing relational database or data warehouse”. Mas se a

estrutura foi criado um cubo, você também pode utilizá-lo, no entanto, neste

tutorial vamos seguir utilizando uma base de dados simples, por isso, escolhemos

esta opção. Clique em Next.

Nesta janela, você vai selecionar a técnica de mineração de dados. Para isso,

selecione uma técnica no select. Clique em Next.



Seleciona a técnica, agora é escolher a base de dados a ser aplicada esta técnica.

Clique em Next.

Você deve selecionar na coluna case somente uma tabela, que será o caso onde se

aplicará a técnica e será avaliado. Selecione e clique em Next.



Agora, na tabela que você escolheu onde será aplicada a técnica, você deve eleger

a chave, entrada e predictable. Após escolher as opções, clique em “sugest”,

porque a ferramenta faz sugestões para a criação. Caso solicite “User name e

Password”, digite respectivamente “sa” e “1234”. Clique ok para fechar a tela de

sugestões e clique em Next.

Clique em Detect, para verificar os campos selecionados e não havendo erros nesta

seleção, clique em Next.



Nesta tela, você pode nomear sua estrutura de mineração. Marque a opção “Allow

drill through” e clique em Finish.

O resultado foi esse, sua estrutura de mineração foi criada e sua tela estará desta

forma:



Agora é necessário processar a mineração para que seja gerado relatórios. Será

aplicado a técnica escolhida sobre a tabela selecionada utilizando a base de dados

ao qual se criou o Data Source. Observe do lado esquerdo de sua tela onde tem a

botão “Process Mining Estrutucture”, conforme figura abaixo.

Tendo selecionado a opção, clique em “Yes”. Caso solicite novamente “Use name ”

e “password”, digite respecitvamente “sa”, “1234”.



Se houve necessidade ou não de idenficar-se, você estará nesta tela agora, então,

basta clicar em “Run”, e se tudo foi configurado corretamente, não haverá erros.

Conforme tela abaixo. Basta clicar em “Close” e está pronto. Agora, podemos

explorar os relatórios que o Analysis Services lhe oferece, diante do tipo de

algoritmo que você escolheu para ser aplicado na sua base de dados.



Referencia bibliográfica:

http://www.cce.puc-rio.br/informatica/dataminingcentro.htm

http://en.wikipedia.org/wiki/Decision_treehttp://www.devmedia.com.br/visualizaComponente.aspx?comp=3388&site=2


http://en.wikipedia.org/wiki/Decision_tree

http://www.devmedia.com.br/visualizaComponente.aspx?comp=3388&site=2

http://en.wikipedia.org/wiki/Decision_tree

http://www.devmedia.com.br/visualizaComponente.aspx?comp=3388&site=2


Download - Tutorial Analysis Services

Top Related