Download - UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS ...siaibib01.univali.br/pdf/Jociel Gamba.pdf · alimentado pelo sistema DESBRAVADOR, e os dados referentes ao inventário turístico

UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR

CURSO DE CIÊNCIA DA COMPUTAÇÃO

DESENVOLVIMENTO DE UM DATA MINING QUE AUXILIE NA MELHORIA DOS ÍNDICE DA OCUPAÇÃO DO SETOR HOTELEIRO

Inteligência Artificial

por

Jociel Gamba

Anita Maria da Rocha Fernandes, Dra Orientadora

São José (SC), Julho de 2007

UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR

CURSO DE CIÊNCIA DA COMPUTAÇÃO

DESENVOLVIMENTO DE UM DATA MINING QUE AUXILIE NA MELHORIA DOS ÍNDICE DA OCUPAÇÃO DO SETOR HOTELEIRO

Área de Inteligência Artificial

por

Jociel Gamba Relatório apresentado à Banca Examinadora do Trabalho de Conclusão do Curso de Ciência da Computação para análise e aprovação. Orientador: Anita Maria da Rocha Fernandes Dra

Itajaí (SC), Julho de 2007

SUMÁRIO

LISTA DE ABREVIATURAS E SIGLAS ...............................................v

LISTAS DE FIGURAS............................................................................. vi LISTAS DE TABELAS ........................................................................... vii RESUMO ................................................................................................. viii ABSTRACT ............................................................................................... ix

1 INTRODUÇÃO ......................................................................................1 1.1 CONTEXTUALIZAÇÃO ................................................................................3 1.2 PROBLEMA.....................................................................................................4 1.3 OBJETIVOS .....................................................................................................5 1.3.1 Objetivo geral .................................................................................................5 1.3.2 Objetivos específicos ......................................................................................5 1.3.3 Escopo e delimitação do trabalho..................................................................6 1.4 JUSTIFICATIVA .............................................................................................6 1.5 ASPECTOS METODOLÓGICOS..................................................................6

2 FUNDAMENTAÇÀO TEÓRICA ........................................................8 2.1 CRM ..................................................................................................................8 2.2 O CICLO DE NEGÓCIO DE CRM.............................................................. 13 2.2.1 Entenda e diferencie..................................................................................... 14 2.2.2 Desenvolva e Personalize ............................................................................. 15 2.2.3 Interaja e Entregue ...................................................................................... 16 2.2.4 Adquira e Retenha ....................................................................................... 17 2.3 CRM ANALÍTICO e CRM OPERACIONAL.............................................. 18 2.4 PERFIL DO CRM NO BRASIL.................................................................... 21 2.5 O CRM NO SETOR TURÍSTICO ................................................................ 22 2.6 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS (DCBD) 23 2.7 FASES DA DCBD........................................................................................... 24 2.7.1 Modelo de DCBD segundo Paula(2004) ...................................................... 27 2.8 DATA MINING .............................................................................................. 29 2.9 Objetivos primários da mineração de dados................................................. 30 2.10 Técnicas utilizadas no processo de mineração de dados............................... 31 2.10.1 Associação..................................................................................................... 32 2.10.2 Seqüência ...................................................................................................... 36 2.10.3 Agrupamentos .............................................................................................. 36 2.10.4 Classificação ................................................................................................. 37 2.11 Técnicas de Auxílio a Mineração de Dados................................................... 40 2.11.1 Redes Neurais ............................................................................................... 40 2.11.2 Algoritmos Genéticos ................................................................................... 42

iii

2.11.3 Métodos Estatísticos..................................................................................... 44 2.11.4 Métodos Lineares ......................................................................................... 49 2.12 A RELEVÂNCIA DO DATA MINING PARA O CRM ............................... 49 2.13 DM NO CONTEXTO DO CRM.................................................................... 52 2.14 Benefícios da Utilização da Técnica............................................................... 54 2.15 Exemplos de Utilização de CRM e DM ......................................................... 55 2.15.1 Rede de lojas................................................................................................. 55 2.15.2 Companhia Telefônica ................................................................................. 56 2.16 TURISMO....................................................................................................... 56 2.16.1 Fatores determinantes da Demanda Turística ........................................... 57 2.16.2 Inventário Turístico ..................................................................................... 58 2.17 Softwares Analizados...................................................................................... 59 2.17.1 Ferramenta de CRM.................................................................................... 59 2.17.2 Ferramentas DM .......................................................................................... 60 2.18 FERRAMENTA WEKA ................................................................................ 61 2.19 Descrição dos pacotes Weka........................................................................... 62 2.20 Arquivos de Entrada ...................................................................................... 64 2.21 Algoritmos WEKA.......................................................................................... 65 2.21.1 Associação..................................................................................................... 65 2.21.2 Cluster........................................................................................................... 65 2.21.3 Classificadores.............................................................................................. 66 2.22 Interface do WEKA........................................................................................ 66 2.23 DIFICULDADE DE INTERAÇÃO INVENTÁRIO TURÍSTICO E SOFTWARES DE CRM/DM ................................................................................ 70

3 DESENVOLVIMENTO.......................................................................72 3.1 ENTREVISTAS JUNTO AOS PROFISSIONAIS DE HOTELARIA ........ 72 3.2 SELEÇÃO DOS DADOS ............................................................................... 78 3.2.1 Tabelas Suplementares ................................................................................ 80 3.3 PRÉ-PROCESSAMENTO............................................................................. 81 3.4 TRANSFORMAÇÃO..................................................................................... 82 3.5 MINERAÇÃO DE DADOS............................................................................ 83 3.5.1 Interpretação e Validação............................................................................ 85 3.6 MODELAGEM DO SISTEMA ..................................................................... 87 3.6.1 Requisitos Funcionais dos Sistema.............................................................. 87 3.6.2 Requisitos não Funcionais do Sistema ........................................................ 87 3.6.3 Regras de Negócio ........................................................................................ 88 3.6.4 Use Cases ...................................................................................................... 88 3.7 DATA MINING .............................................................................................. 91 3.7.1 Arquivos do Sistema..................................................................................... 92 3.7.2 Mineração dos Dados ................................................................................... 96

iv

3.7.3 Protótipo ..................................................................................................... 101 3.7.4 Escolha do Algoritmo................................................................................. 104

4 CONCLUSÃO.................................................................................... 106

5 REFERÊNCIAS BIBLIOGRÁFICAS ............................................ 109

v

LISTA DE ABREVIATURAS E SIGLAS

ABEMD Associação Brasileira de Marketing Direto CRM Customer Relationship Management DCBD Descoberta de Conhecimento em Base de Dados DM Data Mining EMBRATUR Empresa Brasileira de Turismo IBRE Instituto Brasileiro de Economia KDD Knowledge Discovery in Databases MD Mineração de Dados RB Rede Bayesiana RNA Rede Neural Artificial SFA Sales Force Automation SQL Structured Query Language TCC Trabalho de Conclusão de Curso TFA Techinical Force Automation TI Tecnologia da Informação UML Unified Modeling Language WWW Wold Wide Web

vi

LISTAS DE FIGURAS

Figura 1.Tempo de vendas. MANUAL x CRM .......................................................................12 Figura 2. Ciclo do CRM ...........................................................................................................13 Figura 3. Custos dos Clientes ...................................................................................................18 Figura 4 CRM Operacional, Analítico e Colaborativo.............................................................20 Figura 5. CRM do Brasil ..........................................................................................................21 Figura 6. Pirâmide do conhecimento........................................................................................24 Figura 7. Fases DCBD.............................................................................................................26 Figura 8. Fases DCBD..............................................................................................................27 Figura 9. Fases DCBD..............................................................................................................29 Figura 10. Fases Mineração de dados.......................................................................................31 Figura 11. Exemplo de Regra de Associação ...........................................................................35 Figura 12. Modelo de Rede Neural Artificial...........................................................................41 Figura 13. RNA no DM............................................................................................................42 Figura 14. Ciclo Algoritmo Genético .......................................................................................44 Figura 15 Árvore de Decisão....................................................................................................48 Figura 16 Ciclo do CRM ..........................................................................................................53 Figura 17.CRM Gráfico de Ganho ...........................................................................................54 Figura 18. Relação dos pacotes ................................................................................................63 Figura 19. Arquivo entrada .CSV.............................................................................................65 Figura 20.Tela Explorer WEKA...............................................................................................67 Figura 21. Tela 2 WEKA..........................................................................................................68 Figura 22. Tela 3 WEKA..........................................................................................................69 Figura 23. Tela 4 WEKA..........................................................................................................70 Figura 24 Arquivo .CSV...........................................................................................................83 Figura 25 Teste Algoritmo Classificação .................................................................................84 Figura 26 Teste Algoritmo Clusterização.................................................................................85 Figura 27 Teste Algoritmo Apriori...........................................................................................86 Figura 28 Use Case Operador...................................................................................................89 Figura 29: Use Case Gerente ....................................................................................................90 Figura 30: Diagrama de Atividade ...........................................................................................91 Figura 31. Tela de Login do Sistema........................................................................................96 Figura 32: Tela Principal do Sitema.........................................................................................97 Figura 33: Tela Perfil dos Hóspedes x Estatística ....................................................................98 Figura 34: Integração Protótipo x WEKA................................................................................99 Figura 35: Minerando Dados ASSOCITE..............................................................................100 Figura 36: Tela Visualização Resultados WEKA ..................................................................101 Figura 37: Menu Cadastro ......................................................................................................102 Figura 38: Tela Padrão Procura ..............................................................................................103 Figura 39: Tela Cadastro Acontecimento...............................................................................104

vii

LISTAS DE TABELAS

Tabela 1. Exemplo de Associação............................................................................................33 Tabela 2. Exemplo de Regra de Classificação .........................................................................39 Tabela 3: Funções.....................................................................................................................72 Tabela 4: Tempo de Atuação....................................................................................................73 Tabela 5: Número de Apartamentos.........................................................................................73 Tabela 6: Publico Habitue ........................................................................................................73 Tabela 7: Faixa Etária...............................................................................................................74 Tabela 8: Meses de Baixa Ocupação........................................................................................74 Tabela 9: Principais Estados Freqüentadores ...........................................................................75 Tabela 10: Levantamento de Dados para Cruzamento.............................................................76 Tabela 11: Feriados nacionais e municipais. ............................................................................77 Tabela 12: Informações para melhoria da ocupação. ...............................................................78

viii

RESUMO

GAMBA, Jociel . Desenvolvimento de um Data Mining que auxilie na Melhoria

Dos Índice Da Ocupação Do Setor Hoteleiro. São José, 2007. Trabalho de Conclusão de

Curso (Graduação em Ciências da Computação) – Centro de Ciências Tecnológicas da Terra e

do Mar, Universidade do Vale do Itajaí, São José, 2007.

Com a análise do mercado hoteleiro pode-se observar a grande necessidade de um melhor aproveitamento dos dados, onde através destes muitas informações importantes até então desconhecidas poderiam ser observadas, e assim fornecer um suporte a toma de decisões e possíveis campanhas de marketing direcionadas, onde seus resultados possibilitariam proporcionar uma melhoria dos índices de ocupação nos períodos de sazonalidade. Assim a proposta de um protótipo que efetua o cruzamento desta base de dados juntamente com dados do inventário turístico regional, e posteriormente aplique as técnicas de data mining nos mesmos. Visando resultados com que possibilitem a descoberta do conhecimento até então implícito nos dados, conhecimento o qual forneceria base para o entendimento de determinadas oscilações, e assim possibilite a tomada de decisões, visando a melhoria destes índices de baixa ocupação. Como base para o tipo de informação necessária e útil para os gestores da área tomarem estas decisões, foram entrevistados diversos especialistas da área de hotelaria, através destes resultados, foram identificados campos existentes na base de dados do hotel o qual é alimentado pelo sistema DESBRAVADOR, e os dados referentes ao inventário turístico regional Aplicando ainda diversos conceitos e conhecimentos sobre mineração de dados e CRM, retirados de diversos autores os quais muitas vezes possuem opiniões e conceitos diferentes para o mesmo assunto.

ix

ABSTRACT

With the analysis of the hotel market the great necessity of one better exploitation of

the data of the same ones for improvement of its indices of occupation and for one better

application of the CRM concepts can be observed. In virtue of this the proposal of an

archetype that assists in the improvement of these indices through the crossing of data which

the companies already possess in its great databases, date technique manning. Such

application still integrates the data of the regional tourist Inventory with the data base of the

hotel, and on of a crossing of the same ones it applies the date algorithms mining in order to

discover information that until then were not observed, or even though known For such, the

work explores diverse concepts and knowledge on mining of data and CRM, removed of

diverse authors which many times the same possess different opinions and concepts for

subject.

1

1 INTRODUÇÃO

Pode-se caracterizar a atividade de uma empresa hoteleira como sendo prestadora de

serviços, tendo como principal meta o aluguel de unidades habitacionais. Diferencia-se por

apresentar grande interação entre o prestador e o usuário do serviço, constante simultaneidade

entre a aquisição e a utilização do serviço, e impossibilidade de estocagem do serviço

produzido, com conseqüente total perecibilidade do serviço oferecido ao mercado

consumidor.

A empresa hoteleira constitui-se como essencial à infra-estrutura da atividade turística,

tornando-se um dos sustentáculos principais para a fixação e o desenvolvimento desse

mercado turístico. (OLIVEIRA, 2000).

Aliadas à atividade principal, que é a de oferecer hospedagem, as empresas hoteleiras

possuem a capacidade de atuar fortemente nas áreas de alimentação, bebidas e eventos,

completando e qualificando a prestação dos seus serviços. Permitem um envolvimento

contínuo com o seu mercado consumidor, caracterizando uma atividade completa e complexa,

em constante transformação e adaptação às novas realidades tecnológicas e de mercado, que

aumentam as possibilidades de disputar o mercado e diminuem a previsibilidade de conquista

desse mercado (BRESOLIN, 2001).

Devido a maioria dos empreendimentos hoteleiros possuir fases de alta e baixa

temporada, a descontinuidade ocupacional impossibilita a sobrevivência operacional

completa. Isto descaracteriza e reduz a mão-de-obra treinada e a participação no mercado,

com conseqüentes perdas financeiras, por falta de faturamento, e perdas materiais de

patrimônio e equipamentos, pela ociosidade imposta. Caracteriza-se assim, os períodos

chamados de alta e baixa temporada (ibidem).

A realidade com que se deparam o administradores dos empreendimentos hoteleiros,

força os mesmos a necessidade de criar a possibilidade de operar e ocupar o negócio de

hospedagens juntamente com seus eventos associados, em regime contínuo, de forma a

superar as diferentes estações climáticas, adaptando e adequando o serviço prestado ao uso de

seus hóspedes. Com isso, fomenta-se existência do turismo receptivo no período de baixa

temporada, superando deficiências e criando afinidades do produto com o consumidor.

2

Estratégia que se constitui num desafio a mercados concorrentes estruturados, numerosos

e variados, num ambiente altamente competitivo e exigente.

A sazonalidade que ocorre nos diversos centros turísticos, depara-se sempre com

situações semelhantes de ociosidade ocupacional e operacional, com as conseqüentes perdas

financeiras, patrimoniais e de mão-de-obra, em que cada região procura soluções que

resolvam a descontinuidade operacional, em situações particularizadas e exclusivas de

resultados.

Portanto, cada região deve procurar descobrir suas vantagens disponibilizadas e

específicas, próprias do seu ambiente estabelecido. Cada uma delas deverá buscar sua solução

específica adequada, aproveitando-se de suas particularidades individualizadas.

Assim como as causas do problema de descontinuidade ocupacional são distintas e

específicas para cada região, a busca por soluções para o problema deve contar com as

características locais, para dar suporte e continuidade aos resultados positivos esperados.

Dentro deste contexto, as empresas de automação do setor hoteleiro vêm buscando

novas técnicas para auxiliar em tomadas de decisão estratégicas que ajudem na diminuição da

ociosidade dos hotéis na baixa temporada.

Atualmente a nível regional existem algumas empresas que se destacam na automação

hoteleira: Desbravador CM Soluções e HMax.

O software da CM Solução é utilizado basicamente por redes de hotéis, tais como

IBIS, ACCOR entre outras (CM, 2006).

O HMAX já e um programa mais recente no mercado e possui uma quantidade restrita

de recursos, e atende a demanda de pequenos e médios hotéis (HMAX, 2006).

Já o DESBRAVADOR é um produto de alguns anos de mercado que atende desde

pequenas pousadas ate hotéis maiores, principalmente os que são mono – hotéis (hotéis que

não possuem redes). Suas funções atendem a diversas áreas dentro do mesmo, porém sua

parte de CRM (Customer Relationship Management) apresenta algumas restrições quanto ao

cruzamento e levantamento dos relacionamentos entre as variáveis da base. Desta forma, para

uma tomada de decisão estratégica fica restrita a sua principal função, que é a confecção de

3

mala direta para clientes com características específicas, a partir de grupos de afinidades

previamente definidos (grupos de clientes, grupos de afinidades, grupos de preferências)

(DESBRAVADOR,2006).

O envio de malas diretas sem um direcionamento bem definido e compatível com o

cliente, geralmente leva a perda de dinheiro e não traz o retorno ocupacional desejado. Há

necessidade de um conhecimento profundo dos clientes e das alternativas de situações para

que os mesmos freqüentem o hotel fora da temporada. Para evitar tais problemas, o projeto

propõe o desenvolvimento de um data mining, o qual cruzará e levantará possíveis

relacionamentos na base de dados que facilitem a identificação dos perfis dos clientes com

grande potencial de retorno mediante uma ação de mala direta.

1.1 CONTEXTUALIZAÇÃO

Com o início da baixa temporada, os empreendimentos hoteleiros experimentam uma

época de ociosidade operacional, devido ao período sazonal de pouca densidade de ocupação,

tendo como conseqüência a ocupação inadequada dos empreendimentos que se caracteriza

como um período de despesas contínuas de manutenção e operação, aliada a uma drástica

redução de receitas que desequilibram completamente as suas capacidades financeiras

(AULICINO, 2001).

A questão maior que passa a ser enfocada, tornando-se o grande desafio do gestor do

empreendimento hoteleiro, é justamente a possibilidade de criar mecanismos que

incrementem a utilização dos empreendimentos hoteleiros no período de baixa temporada,

visando a um crescimento da ocupação nessa época sazonal que permita a geração de receitas

suficientes para fazer frente às despesas e operar, cada vez mais, os empreendimentos com

qualidade de serviços prestados, de modo a caracterizar a região como um destino turístico de

lazer procurado e disputado pelo mercado (LARA, 2001).

Para isto, faz-se necessário que os hotéis trabalhem melhor com as informações

disponibilizadas em suas bases de dados, a fim de descobrir o perfil ou grupos de perfis

corretos dos seus hóspedes e a partir daí estabelecer políticas mais eficientes que aumentem o

índice de ocupação na baixa temporada, bem como incremente a ocupação na alta temporada.

4

Neste sentido este projeto usa a técnica de data mining (mineração de dados). A

mineração de dados é uma descoberta eficiente de informações válidas e não óbvias de uma

grande coleção de dados (BIGUS, 1996).

A proposta de extrair conhecimento de banco de dados surgiu devido a explosão do

crescimento da quantidade de dados armazenados em meios magnéticos e da necessidade de

aproveitá-los, motivada pela “fome de conhecimento”. Outro fator que contribuiu em muito

para aumento do interesse em mineração de dados foi o desenvolvimento das técnicas de

machine learning - redes neurais artificiais, algoritmos genéticos, entre outras, que tornaram a

descoberta de relações interessantes em bases de dados mais atrativa.

Quando se fala de mineração de dados não está se considerando apenas consultas

complexas e elaboradas que visam ratificar uma hipótese gerada por um usuário em função

dos relacionamentos existentes entre os dados, e sim da descoberta de novos fatos,

regularidades, restrições, padrões e relacionamentos. Para a descoberta destes padrões, o

executor da mineração dos dados, pode utilizar várias ferramentas e técnicas para atingir o seu

objetivo e ser bem sucedido, entre tais, as ferramentas mais utilizadas são aquelas baseadas

em consulta a bases de dados, linguagem SQL (Structured Query Language), pois permite

que o executor possa obter uma análise preliminar dos dados.

1.2 PROBLEMA

Os hotéis de uma maneira geral, possuem um banco de dados com informações

referentes aos seus hóspedes. Informações estas, que estão desvinculadas de muitos elementos

do inventário turístico da cidade, tais como datas comemorativas ou eventos regionais,

nacionais e internacionais que possam ocorrer. Novos empreendimentos de entretenimento,

tais como parques temáticos não são cruzados e analisados com o perfil do hóspede destes

hotéis. As informações referentes a empresas existentes na região, para efeito de reuniões de

negócios também não são consideradas.

Os hotéis se restringem em sua maioria a criar grupos de afinidades de clientes, porém

estes grupos não são vinculados ao inventário turístico da cidade.

5

Sendo assim, a utilização de data mining auxilia o cruzamento e análise destes

dados, gerando uma associação entre o perfil dos hóspedes e o inventário turístico da cidade

e/ou região.

1.3 OBJETIVOS

1.3.1 Objetivo geral

Desenvolver um data mining que auxilie na melhoria do índice de ocupação do setor

hoteleiro, através da descoberta de conhecimento na base de dados, visando utilizar deste

conhecimento para tomadas de decisões e ações de CRM.

1.3.2 Objetivos específicos

Analisar a estrutura de dados do DESBRAVADOR, por ser este o software de

automação ser o mais lembrado no setor hoteleiro segundo pesquisa da Revista Hotelaria

2006-2007 DESBRAVADOR²,

• Analisar os elementos que compõem o inventário turístico de uma cidade;

• Estabelecer os dados dos hóspedes e do inventário que devem compor o sistema,

baseado nas entrevistas com profissionais da área;

• Analisar a importação dos dados relativos ao hóspede à partir da base de dados do

DESBRAVADOR;

• Modelar o sistema considerando os dados que serão importados, os dados do

inventário que serão cadastrados, e os relatórios que serão gerados;

• Estabelecer qual algoritmo de Data Mining a ser utilizado;

• Implementar o sistema; e

• Efetuar os devidos testes para a validação do sistema.

6

1.3.3 Escopo e delimitação do trabalho

Este trabalho enfoca os dados pré-estabelecidos na base de dados do sistema

DESBRAVADOR, no que se refere a hóspedes e informações provenientes dos mesmos. Isso

se deve ao fato de que se necessita de dados reais para uma análise coerente do Data Mining.

Em virtude de autorização de uso da base de dados, este trabalho é baseado nos dados

de apenas um hotel. Não sendo considerado aqui os casos de redes hoteleiras.

1.4 JUSTIFICATIVA

Devido ao conhecimento e experiência do acadêmico na área de gestão hoteleira ao

longo de cinco anos, verificou-se a deficiência em alguns aspectos estratégicos dos sistemas

utilizados pelos hotéis no que se refere ao CRM.

As ferramentas atuais conhecidas não fazem um relacionamento entre algumas

informações tais como os dados dos Hóspedes x Informações do inventário turístico regional,

bem como a análise automática de algumas informações para a classificação do cliente em

grupos de afinidades.

Sendo assim a aplicação de data mining se faz pertinente para este problema.

1.5 ASPECTOS METODOLÓGICOS

A metodologia a ser seguida para o desenvolvimento deste trabalho contemplou as

etapas descritas a seguir.

Analisou-se toda a estrutura de dados do sistema DESBRAVADOR, com suas

respectivas tabelas e relacionamentos.

Foram estudados os dados que compõem o formulário RINTUR estabelecido pela

EMBRATUR para inventários turísticos. Em seguida foram estabelecidos todos os dados dos

hóspedes e do inventário que compõe o sistema, e quais seriam os cruzamentos de

informações efetuados.

Foram analisados quais os pontos mais relevantes para um melhoramento na taxa de

ocupação, juntamente com gerentes da área hoteleira. Em seguida analisou-se quais os dados

7

relativos aos hóspedes que eram realmente importados da base de dados do sistema

DESBRAVADOR, e quais seriam inseridos manualmente.

Após este levantamento de dados efetuou-se a modelagem do sistema através de

UML(Unified Modeling Language) considerando os dados que seriam importados, os dados

do inventário que seriam cadastrados, e os relatórios que seriam gerados, com suas respectivas

interfaces.

O passo seguinte foi a análise do algoritmo que melhor se aplicava ao problema, e

assim foi escolhido o Apriori.

Em seguida implementou-se o sistema utilizando a tecnologia JAVA, e o banco de

dados MYSQL.

Para validar os resultados foi utilizado o conhecimento e experiência do gerente do

hotel do qual foram utilizados todos os dados, onde o mesmo efetuou a análise e aceitação ou

não dos resultados.

2 FUNDAMENTAÇÀO TEÓRICA

2.1 CRM

Devido à globalização, modificações significativas vêm ocorrendo nos padrões de

mercado em todos os setores. Tais alterações afetam tanto os padrões das empresas, quanto os

padrões de mercado, tornando o cliente um alvo móvel, de difícil identificação. Neste novo

mercado o cliente não adquire um produto baseado apenas nos meios tradicionais, ou seja,

considerando produto, preço e local de venda, mas também observa vendas, serviço, imagem

percebida, suporte e atendimento, com altos padrões de qualidade e exigência, buscando a

melhor relação custo/beneficio (FALCÃO, 2006).

Por sua vez, as empresas para poderem atingir tais padrões necessitam adequar-se

constantemente aos padrões impostos pelo mercado, e para isso surge a necessidade de

arquivar todas as informações dos clientes. Informações estas que ficam cada vez mais

difíceis de serem gerenciadas. Pois, em tempos passados tudo era controlado de forma

extremamente fácil sem qualquer tipo de utilização da informática, simplesmente utilizando

uma pequena ficha cadastral com algumas informações pessoais, que posteriormente eram

arquivadas e manipuladas manualmente, entretanto, atualmente nas grandes redes onde a

quantidade de clientes com padrões pessoais diferentes é muito grande, tal controle manual

ficou extremamente complicado devido o tamanho das bases de dados e a velocidade com que

elas aumentam(ibidem).

Mediante tal problema surge a necessidade da implementação de uma ferramenta

tecnológica cujo intuito é auxiliar a gerência de relacionamento comunicar-se de forma mais

eficiente com seus clientes, utilizado para isso as informações já conhecidas armazenadas na

base de dados da empresa. Tal ferramenta deve tratar, processar, analisar e distribuir os

resultados dessa análise de forma que tal conhecimento obtido seja utilizado para interagir

com os clientes através da melhor forma possível. (BUCCI, 2000, p.2).

Surge então através da tecnologia da informação e do marketing de relacionamento a

criação do CRM (Customer Relationship Management).

9

Segundo o Gartner Group ( 2002, apud VALENTE,2002), CRM é uma estratégia de negócios voltada ao entendimento e a antecipação das necessidades dos clientes atuais e potenciais de uma empresa. Do ponto de vista tecnológico, CRM significa capturar os dados do cliente ao longo de toda a empresa, consolidar todos os dados capturados interna e externamente em um banco de dados central, analisar os dados consolidados, distribuir os resultados dessa análise aos vários pontos de contato do cliente e usar essa informação ao interagir com o cliente através de qualquer ponto de contato com a empresa.

Para Thompson (2001,p.4 apud VALENTE,2002) Customer Relationship

Management(CRM) é o processo de negócio que visa selecionar e gerenciar as mais valiosas relações com os clientes. Esta estratégia requer uma filosofia de negócios centrada no cliente e uma cultura empresarial que de suporte aos processos de marketing, vendas e serviços. As aplicações de CRM permitem um relacionamento bem sucedido com o cliente, desde que as empresas possuam liderança, estratégia e cultura.

A acirrada concorrência e as mudanças constantes que ocorrem com o comportamento

do consumidor, forçou para que as informações armazenadas nas grandes bases de dados

fossem utilizadas visando melhor os serviços prestados para com o cliente, e diante de tal

situação foi onde a utilização do CRM ganhou grande ênfase.

Isso não significa que outras atividades não tenham importância nas organizações.

Entretanto, como o CRM é que está diretamente ligado aos clientes, possui uma força que

impulsiona as outras funções, o mesmo deve possuir um papel fundamental nos processos de

gestão absorvendo e mantendo a lealdade e fidelidade dos consumidores a empresa.

O CRM é a concentração total ao cliente, respeito total por ele. Não a bajulação, o

sorriso forçado frente ao mesmo. Mas sim uma preocupação constante em identificar suas

reais necessidades, direcionando todas as atividades das empresas a essas necessidades,

visando explorar uma nova oportunidade de negócio (TEIXEIRA, 1999, np).

Com a utilização de tal ferramenta, além do grande benefício direto proporcionado por

um atendimento mais ágil devido a empresa saber exatamente qual o nível de exigência, as

preferências, os defeitos, as dúvidas e o potencial econômico de seu cliente, também

proporciona um grande potencial de ganho indireto a diversos outros setores.

Este ganho provem das possibilidades de programações distintas, como a adequação

exata ao mercado mediante os períodos decorrentes ou até mesmo a programação de vendas

futuras mediante promoções realizadas. Tal programação proporciona ganhos no estoque

mediante controle das compras vendas e negociações de preços frente as grandes compras

efetuadas. Melhora o gerenciamento pessoal, mantendo sempre quadros fixos de funcionários,

10

que por sua vez, com um maior conhecimento dos padrões da empresa proporcionam

uma melhor excelência no atendimento dos clientes, aumentando diretamente os seus índices

de satisfação e proporcionando aumento da fidelização dos mesmos.

De maneira geral as empresas através dos tempos vinham desenvolvendo sempre suas

campanhas de marketing em cima do produto, e posteriormente aplicando as técnicas

conhecidas como marketing de massa. Tal técnica provinha da utilização dos dados

resultantes das pesquisas de mercado focalizadas por segmentos e não por individualização

(SANTOS, 2005, p. 29-30).

Após tal pesquisa eram lançadas tais campanhas para tipo de público exato,

observando uma pequena margem de erros. Porém tais campanhas não levavam em

consideração um fator muito importante o qual deve ser observado, que cada ser é único e

possui gostos e hábitos diferentes uns dos outros. Tais aspectos começaram a ser então

observados e as estratégias começaram a ser modificadas, mas este processo é lento e faz com

que a visão do foco deixe de ser o produto e comece a ser o cliente (Bayer, 2002 apud

PEDRON, 2003, p.23-25).

Esta visão também possibilitou que empresas obtivessem a concepção de identifica os

clientes mais rentáveis para a mesma. Alguns acabam tendo um alto custo e geram uma

pequena margem de lucro, já outros apresentam um custo menor e uma alta lucratividade.

Estes clientes devem ser tratados de forma privilegiada, continuando sempre tal lucratividade,

e para isso o ponto certo é conhecê-los muito bem, conhecendo ao máximo seus gostos, seus

hábitos, enfim todas suas informações pessoais que possam ser utilizadas em forma de um

marketing direcionado a agradá-lo tornando um cliente habitue e fiel (SANTOS, 2005, P.29-

31).

O CRM também pode auxiliar no aumento da lucratividade, ganhando vantagem

competitiva, melhoria da tecnologia, automatizando diversos processos, como vendas,

marketing, serviços entre outros. Auxilia na integração de pessoas, processos e tecnologias

para otimizar o gerenciamento de todos os relacionamentos, incluindo consumidores,

parceiros de negócios e canais de distribuição. (SANTOS,2005, p.30)

Para Bucci, ( 2000,p.2), CRM consiste em:

11

• Ajudar a empresa permitindo que ela venha a identificar e alvejar seus

melhores clientes, controlar campanhas do marketing com objetivos e metas

claras, gerar leads da qualidade para a equipe das vendas, melhorar as estratégias

visando transformar clientes menores em melhores clientes e ainda recuperar

clientes perdidos aumentando a lucratividade; e

• Ajudar a melhorar a gerência de vendas, otimizando o compartilhamento das

informações nas diversas áreas da empresa, dinamizando os processos existentes

reduzindo os custos. Permitindo a formação de relacionamentos individualizados

com clientes, com o alvo de melhorar a satisfação do cliente e de maximizar

lucros; identificando os clientes mais lucrativos e fornecendo o nível o mais

adequado do serviço.

Atualmente o CRM vem comportando-se como um grande diferencial competitivo.

Para maioria das empresas é difícil, se não impossível, competir sem ele. Os avanços da

tecnologia permitiram a réplica próxima e muito rápida das funções do produto. Pois em

período curtos de tempo um produto acaba saturando no mercado.

Por isso a Gerência do relacionamento do cliente torna – se cada vez mais importante

onde a habilidade de vender mais inteligentemente e de prestar serviços de suporte aliado à

experiência diferenciar-se. Afim de tornar possível a razão para os clientes freqüentarem seu

negócio mais do que o dos seus concorrentes.

De acordo com Kotler (1998, p.617 apud VALENTE, 2002, p.82) os princípios da

venda pessoal e da negociação são descritos como orientados para a transação. Isto é, seu

propósito é ajudar o vendedor a fechar uma venda específica com um cliente. No entanto o

interesse da empresa não é apenas efetuar uma venda, mas sim fidelizar o cliente.

Segundo Valente (2003, p.82), os resultados da pesquisa realizada pela Direct

Marketing Education Foundation em conjunto com algumas universidades americanas,

comparou um grupo de empresas que trabalhava de forma tradicional e outro que utilizava o

CRM como apoio a vendas.

No primeiro grupo que trabalhava de forma manual foi observado que a equipe de

vendas gasta 2/3 de seu tempo para identificar e qualificar clientes e apenas 1/3 na negociação

a qual é a parte mais importante.

12

a na Figura 1.

O CRM engloba diversas áreas da empresa, e requer que todas trabalhem juntos em

harmonia, mas CRM requer também que todas as áreas da organização trabalhem com o

objetivo comum de um relacionamento mais forte com o cliente. Pois se um dos setores da

empresa não se comprometer devidamente como deve, possibilita o risco de quebrar com todo

o trabalho realizado pelo restante da equipe.

Figura 1.Tempo de vendas. MANUAL x CRM

FONTE Adaptado de Valente (2002).

13

2.2 O CICLO DE NEGÓCIO DE CRM

O CRM pode ser demonstrado através de um ciclo onde todos os estágios são

interdependentes e contínuos. Enquanto ocorre a mudança de um estágio para o seguinte,

existe o ganho de conhecimento e entendimento e isso realça o esforço posterior (Figura 2).

Após a execução do mesmo, a prática faz com que o processo torne-se cada vez mais

sofisticado, e com o passar do tempo fique cada vez mais lucrativo fazer o processo

continuamente. O negócio começa com a aquisição dos clientes. Entretanto, toda a iniciativa

Figura 2. Ciclo do CRM

FONTE Bucci (2000).

14

bem sucedida de CRM é altamente dependente de uma compreensão contínua dos

clientes.(BUCCI, 2000). A seguir serão descritas as etapas do ciclo do CRM, de acordo com

Bucci (2000).

2.2.1 Entenda e diferencie

A empresa somente poderá ter um relacionamento com o cliente a partir do momento

que conseguir compreendê-lo, entendendo os seus gostos, o que ele avalia, que tipos de

serviço são importantes para ele, analisando como e quando gosta de interagir, e o que querem

comprar. Por isso a cada contato com o mesmo, há necessidade de aprender mais sobre ele, e

para que isso ocorra deve ser levado em consideração que cada cliente é único, e avaliar cada

um deles, e não tomar como referência a média de mercado, identificar os seus valores de

referência, ajustar os produtos e serviços buscando satisfazer cada vez mais as necessidades

individuais de cada cliente. Pois é indispensável para o sucesso do CRM conhecer cada

cliente e conseguir reconhecê-lo em todas formas de contato feitas com ele, evitando erros

como o cliente informar a mesma coisa mais de uma vez (BUCCI, 2000, p.5).

Entretanto a maioria das empresas passa dificuldade para poder captar as informações

dos clientes, pois os mesmos têm medo que as informações disponibilizadas possam ser

utilizadas de formas indevidas.

Para resolver este problemaas empresas criam campanhas específicas, onde os clientes

ganham de diversas formas de gratificações através de descontos e brindes. Posteriormente

com os dados já captados com o intuito de facilitar o trabalho do CRM, faz-se a criação de

perfis para os clientes através de áreas demográficas, padrões financeiros, padrões de serviços

e padrões de compras. Isto leva a segmentação mediante grupos lógicos onde tendem a ter

características semelhantes e a se comportarem de uma forma parecida como grupos de

clientes.

Outras formas como pesquisas, são utilizadas para identificar algumas características

iniciais, até mesmo podendo já fornecer um potencial inicial, conseguindo avaliar sua

lucratividade, poder de expressão social na chamada mídia “boca-a-boca”. Alguns dos itens

básicos que já podem ser previamente implantados e analisados são: potencial de compras,

formador ou não de opinião, potencial econômico (renda), número de transações por período

(hospedagens, vendas, visitas), comportamentos (agressivo, mau humorado,

15

conservadorismo), estado civil, idade, nível cultural, estação preferida, esportes, entre

muitos outros. Além de todos estes, deve-se também buscar coletar e armazenar informações

que foram desprezadas em algum momento pelos operadores do sistema.

Para atingir então um resultado ótimo, a empresa deve ter ações e planos de metas

distintas para suas diferentes categorias de clientes, tratando com prioridade sempre os

clientes os quais dão mais retorno, para que o mesmo perceba que não vale a pena trocar de

fornecedor, pois nesta empresa ele é tratado de forma personalizada e com uma série de

vantagens.

Através de todos os dados já previamente recolhidos pode-se atribuir valores

ponderados aos mesmo de forma a que cada item categorize um segmento distinto tal como

região, serviços, produtos entre outros. Para já estabelecer um primeiro perfil de cada cliente o

qual com o passar dos tempos, deve ser refinado e agregado a novas informações, a fim de

tratar cada cliente cada vez melhor para que ele se sinta único e exclusivo, garantindo assim

sua satisfação.

2.2.2 Desenvolva e Personalize

Nas visões anteriores para produtos, as companhias desenvolviam produtos e serviços

e tinham a expectativa que os clientes iriam comprá-los a forma na qual os mesmos se

encontrassem. Em um mundo foco-no-cliente, o desenvolvimento do produto e do canal de

comunicação com o cliente, deve seguir a ligação e os sinais deixados pelo mesmo. As

empresas estão incrementando cada vez mais produtos e serviços, e também novos canais

baseados nas necessidades de cada cliente e em suas expectativas de serviço (BUCCI,2000).

Grande parte das empresas ainda não podem personalizar produtos a custos

permissíveis para clientes individuais, porém a tendência é a customização em massa.

Entretanto, os produtos, os serviços, os canais e as médias podem personalizá-los baseando-se

nas necessidades de segmentos quantitativos de cliente. A extensão da personalização deve

ser baseada no valor potencial integrado pelo segmento do cliente (ibidem).

A personalização facilita o atendimento ao cliente, e auxilia para tratá-lo de forma

particular e de acordo com suas necessidades no relacionamento com a empresa. Pode-se

personalizar os produtos, os serviços, a distribuição, a forma de pagamento, o atendimento no

16

Suporte ao Cliente, a forma como a empresa se apresenta pela Internet, entre outros

benefícios. A Personalização tende a desenvolver um tratamento para cada cliente baseado, na

percepção de valor de cada um. Embora não seja o único canal de relacionamento do cliente

com a empresa, o Suporte ao Cliente é um dos mais poderosos pontos de contato. O contato

iniciado pelo cliente indica a predisposição em interagir naquele momento, o que deve ser

aproveitado para obter o máximo possível de informações para conhecê-lo ainda melhor

(BUCCI,2000).

Infelizmente, de maneira geral, raramente essa valiosa oportunidade é utilizada já que

as principais preocupações atuais são as informações que devem ser passadas, o tempo médio

de atendimento o tempo médio de espera, a quantidade de ligações ou vendas entre outras que

até mesmo na visão do CRM podem ser irrelevantes.

2.2.3 Interaja e Entregue

A cada interação, a oportunidade deve ser utilizada para fortalecer ainda mais a

relação da empresa com o cliente. Toda interação deve manter a continuidade,

independentemente, do prazo em que foi efetuada, e da forma efetuada. A interação permite

identificar as necessidades particulares, bem como as mudanças de necessidades de cada

cliente. Essa é a única maneira de obter informações sobre seu cliente. A interação é também

um componente crítico de uma iniciativa bem sucedida de CRM. A interação não ocorre

apenas com os canais do marketing e de vendas, os clientes interagem de muitas maneiras

diferentes com muitas áreas diferentes da empresa, incluindo áreas de apoio indireto, serviço

ao cliente e internet. Para promover relacionamentos, as organizações necessitam assegurar

que todas as áreas da empresa possuam acesso fácil às informações relevante, e acesso a

incrementá-las com novas informações importantes, que todas as áreas sejam devidamente

treinadas sobre como utilizar estas informação, saibam do que o cliente necessita e qual é o

valor potencial do mesmo (BUCCI,2000).

17

Utilizando a informação corretamente e constantemente, oferecendo aos

colaboradores um treinamento apropriado, as empresas serão preparadas para um ótimo

relacionamento com os clientes

2.2.4 Adquira e Retenha

Com o passar dos tempos as empresas estão aprendendo sobre clientes, que é mais

fácil localizar aqueles que estão dando mais retorno, sendo que estes são os principais clientes

para os critérios de segmentação de uma empresa. E assim continuarão a aprender sobre o que

é valioso para cada segmento, onde será muito mais provável alcançar os objetivos

concentrando esforços em canais diretos, medidas direitas, produtos específicos, ofertas

direitas.

A importância do estabelecimento de relação a longo prazo pode ser vista e

classificada de várias maneiras diferentes. Um exemplo para o mesmo é : Supondo que o

custo por cliente prospectado é de R$ 500,00 e que a empresa em questão possui 4000

clientes, mas que historicamente perde 50% em cinco anos, ou seja 2000 clientes. Tal empresa

tem que reconquistar em 5 anos o equivalente a R$ 1 milhão ( 2000 x 500 ). Levando em

consideração que na média histórica a manutenção de um cliente custa 10 vezes menos (R$

50,00), mantendo 50% (aumento de 50% no índice de retenção) da base perdida teria uma

economia de R$ 400.000,00 que é o necessário para a conquista de novos 1000 clientes

(R$500.000 ) menos o custo de retenção ( R$ 100.000,00 ) (BUCCI,2000).

Assim pode-se perceber que a manutenção dos clientes já existentes é muito mais

viável do que ficar perdendo e reconquistando, isso sem analisar os fatores de risco. A

retenção bem sucedida dos clientes envolve basicamente atingir diretamente em princípio a

empresa que possua uma base já constituída, para poder assim mantê-la bem satisfeita com os

produtos e serviços oferecidos. Para isso deve-se manter a interação com o cliente, nunca

deixando de escutar suas opiniões, continuar a entregar o produto e/ou serviço na definição de

valor do ponto de vista do cliente, recordar que os clientes mudam e enquanto se movem, os

estágios de relacionamento com a organização também vão diferindo, sempre estar atento as

mudanças e preparado pra enfrentá-las da melhor forma possível, e tudo isso sempre na forma

de um ciclo contínuo (BUCCI,2000).

18

A Figura 3 apresenta um exemplo sobre a diferença de custos entre aquisição e

manutenção dos clientes.

Figura 3. Custos dos Clientes

Fonte: Adaptado Peppers e Rogers (2000 apud (Valente 2002).

2.3 CRM ANALÍTICO e CRM OPERACIONAL

O CRM operacional é a fase onde as empresas buscam abrir canais de comunicação

com o cliente, implantando call-centers e soluções de automação da força de vendas,

especialmente. Estes processos e tecnologias são os que melhor ajudam na eficiência e

eficácia das operações cotidianas com o cliente. É onde a maioria das empresas estão focadas.

E quando bem implementadas, essas iniciativas podem trazer agilidade no atendimento, o que

pode em última análise traduzir-se em benefício para o cliente, mas a maioria delas envolve

métricas que nada têm a ver com isso (VALENTE,2002; BUCCI,2000).

A função do CRM analítico é adicionar a inteligência a sua solução de CRM,

conhecendo os clientes e os tratando de forma personalizada. Poucas empresas hoje estão

investindo nesta infra-estrutura necessária à implementação de sistemas de CRM analítico,

devido a diversos fatores, entre eles a falta de mão de obra especializada, falta de recursos

físicos e financeiros falta de tempo e a dificuldade em manipular determinada quantidade

informacional tão grande. Entretanto, sem essa estratégia todos os outros esforços são nulos

(VALENTE,2002; BUCCI,2000).

19

Por último o CRM Colaborativo é o que vai englobar todos os pontos de contatos

com o cliente, é onde ocorre a interação dele com a empresa. Os vários canais de contato com

o cliente devem estar preparados para não só permitir essa interação, mas também garantir o

fluxo adequado dos dados resultantes dela para o resto da empresa. Pode-se ver um exemplo

na Figura 4.

Figura 4 CRM Operacional, Analítico e Colaborativo.

Fonte: Valente (2002).

21

2.4 PERFIL DO CRM NO BRASIL

Esta seção apresenta os dados referentes a pesquisa realizada pela Fundação Getúlio

Vargas IBRE em parceria com a U-NEAR em fevereiro de 2002 ( ABEMD, 2002).

Em relação à área de atuação das empresas que usam o CRM (Figura 5), as

prestadoras de serviços aparecem em primeiro lugar com 44%. Isto se deve ao grande número

de empresas de consultorias e atendimento a clientes. Em segundo lugar (22%), aparece a área

de tecnologia, e finalmente o mercado de telecomunicações, com 9%.

De acordo com a pesquisa, os dados referentes a 40% das empresas analisadas

revelaram que a interferência de uma empresa especializada em CRM é fundamental para

auxiliar no direcionamento da estratégia. Os entrevistados afirmaram ainda que uma

consultoria é imprescindível no momento de decidir o investimento na implementação de

ferramentas que possam, de maneira rápida e eficiente, ajudar nos projetos de CRM.

O levantamento contou com a participação de mais de 100 executivos das áreas de

planejamento, tecnologia, marketing e outros departamentos de diversas empresas.

44%44%44%44%

22%22%22%22%

9%

15%

Prestadoras deServiços

Tecnologia

Telecomunicação

Outras

Figura 5. CRM do Brasil

Fonte: adaptado ABEND 2002).

22

2.5 O CRM NO SETOR TURÍSTICO

O turismo é um dos maiores movimentos da história da humanidade e se caracteriza

por sua taxa de crescimento constante. Ele responde a uma série de necessidades humanas: de

espaço, movimento, bem-estar, expansão e repouso, longe das tarefas impostas pelo trabalho

cotidiano ou rotina. Porém, o mesmo não atinge a todas as classes sociais, e as que atinge

possuem padrões diferentes de comportamentos, exigências e disponibilidades de gastos para

os mesmos. Mas a política dos “pacotes turísticos”, proporcionou um notável aumento na

possibilidade destas diferentes classes viajarem (FEIJÓ, 2002, n.p).

Neste sentido, o CRM auxilia a comunicação personalizada de todas estas classes,

possibilitando o envio de malas diretas, visitas, promoções de uma forma pessoal, como se

através dele fosse possível atingir públicos alvos como por exemplo: locais, por cidades,

regional, nacional e internacional, profissional, por preferências, por poder econômico, entre

muitos outros visando à satisfação das necessidades de determinados grupos de consumidores,

obtendo, com isso, um lucro apropriado (Krippendorf apud FEIJÓ, 2002, n.p).

O CRM ainda auxilia no tratamento ao hóspede de forma muito agradável, onde os

colaboradores da empresa que o utilizam, antecipadamente podem conhecer as principais

características de cada turista a ponto de sempre tentar agradá-lo em todos os aspectos.

Tais conhecimentos do CRM utilizados para o ramo hoteleiro provém de

configurações pré-estabelecidas de forma manual, as quais os colaboradores do hotel buscam

de diversas formas, como a ficha cadastral que o hóspede preenche na sua hospedagem, fichas

com questionários de satisfação e preferências, como esportes, áreas preferidas no hotel,

profissão, preferências alimentícias, e outras as quais os próprios colaboradores conseguem

observar no próprio hóspede ao longo do tempo, e informam no sistema. Entretanto todas

estas informações são meramente utilizadas pelo hotel, devido a grande diversificação dos

hóspedes, com períodos diferentes de hospedagem, gostos diferentes, poder econômico

diferente, motivos diferentes da viajem entre muitos outros fatores os quais fazem com que o

agrupamento de hóspedes em características similares se torne muito difícil e ate mesmo

impossível. Desta forma, a aplicação do CRM vai sendo deixada de lado, a ponto de que

somente ações muito simples, e de fácil aplicação acabam sendo feitas, como por exemplo

23

agrupamentos por cidade, ou envio de mala direta mensal com intuído de parabenizar os

hóspedes pelo seu aniversário.

Desta forma fica fácil perceber que a maioria dos hotéis possui uma imensa base de

dados com milhares de informações as quais não são utilizadas, mas que se fossem poderiam

gerar centenas de possibilidades de estratégias de ações, opções de utilização para CRM, e

facilitar a tomada de decisão em diversas área. Porém devido a tanta informação,

manualmente isso não pode ser efetuado de maneira adequada, e assim entra a possibilidade

da aplicação do DM (Mineração de Dados).

2.6 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS

(DCBD)

Devido ao crescimento substancial da quantidade de dados armazenados pelas

empresas, tornou–se inviável a análise destes através de métodos manuais, surgindo então a

necessidade de um processamento automatizado para sua análise, visando ao máximo o

aproveitamento de suas informações. E para aproveitar estes milhões de megabytes

armazenados, deve-se explorar o conhecimento escondido neles. Após adquirido este

conhecimento, o mesmo deve ser capaz de sugerir hipóteses por conta própria, e apresentar

aos usuários os resultados descobertos auxiliando-o na tomada de decisão.

Este processo então começou a ser conhecido como processo de descoberta de

conhecimento em base de dados (Knowledge Discovery in Databases — KDD) e foi utilizado

pela primeira vez em 1989 para enfatizar que o conhecimento é o produto final de uma

descoberta baseada nos dados (VASCONCELOS, 2002).

Com o intuito de buscar tal conhecimento foram desenvolvidas técnicas de DM, que

auxiliam na exploração destas informações úteis normalmente não visíveis no meio de tanta

informação. Em meio a diversas áreas de aplicação, a Mineração de Dados, vem sendo cada

vez mais utilizada e ganhando credibilidade no mercado do CRM que hoje é uma das

principais ferramentas para as empresas obterem sucesso na conquista de clientes e

consumidores (MARSON,2003).

24

A Figura 6 apresenta um exemplo de entendimento de extração de conhecimento em

base de dados.

Figura 6. Pirâmide do conhecimento.

Fonte: Adaptado de Dias (2002).

2.7 FASES DA DCBD

O processo de DCBD (Descoberta deconhecimento em bases de dados) tem sido

discutido atualmente por vários autores, os quais apresentam opiniões diferentes em suas

fases. Para Carvalho (2001, p. 11 apud SANTOS, 2005, p. 31), o processo de definição de

objetivos não é uma das fases da DCBD mas sim pertence a fase de Mineração de Dados. Já

para Groth(2000, p. 46 apud SANTOS, 2005, p. 31) o DCBD começa com a preparação dos

dados. Para Amaral (2001, p.15 apud SANTOS, 2005, p. 31), a definição do objetivo é a

definição do conhecimento que o usuário deseja obter sobre os dados, e é a primeira fase do

DCBD.

Segundo Santos (2003, p. 31-32), as fases do DCBD são compostas por:

25

• Definição dos objetivos – Fase em que são traçadas as metas. Normalmente fase

desenvolvida com auxílio de um especialista.

• Seleção – Fase onde é feito, a seleção do conjunto de dados, ou foca um

subconjunto de atributos /instância de dados com o objetivo de criar um conjunto

de dados alvo na qual a descoberta será efetuada.

• Purificação – Segundo Han & Kamber (2001, p.109 apud SANTOS, 2003,p.32) é

a etapa na qual é feita a limpeza dos dados e envolve, o tratamento de campos de

dados perdidos, a redução ou eliminação de ruídos e a correção de inconsistências

nos dados.

• Transformação - Segundo Han & Kamber (2001, p.109 apud SANTOS 2003,p.32)

é a etapa na qual os dados são transformados de forma a se tornarem apropriados à

tarefa de mineração, para qual serão submetidos. Pode envolver: agregação,

criação de atributos, generalização dos dados.

• Mineração de Dados – Etapa onde a descoberta do conhecimento ou dos padrões

ocorre. Neste momento as técnicas são escolhidas de acordo com o tipo de

problema a ser resolvido.Etapa de fundamental importância.

• Interpretação – Nesta etapa ocorre a interpretação dos conhecimentos descobertos

e possivelmente o retorno aos passo anteriores. São removidos os padrões

redundantes ou irrelevantes e traduzem-se os padrões úteis em termos

compreensíveis aos usuários.

A Figura 7 ilustra as fases do DCBD segundo Santos (2001, p.31).

26

Figura 7. Fases DCBD

Fonte: Santos(2003)

Já para Amo (2004) as etapas do DCBD são:

1. Limpeza dos dados: etapa onde são eliminados ruídos e dados inconsistentes.

2. Integração dos dados: etapa onde diferentes fontes de dados podem ser combinadas

produzindo um único repositório de dados.

3. Seleção: etapa onde são selecionados os atributos que interessam ao usuário. Por

exemplo, o usuário pode decidir que informações não são relevantes para decidir se um

cliente é um bom comprador ou não.

4. Transformação dos dados: etapa onde os dados são transformados num formato

apropriado para aplicação de algoritmos de mineração (por exemplo, através de operações de

agregação).

5. Mineração: etapa essencial do processo consistindo na aplicação de técnicas

inteligentes a fim e se extrair os padrões de interesse.

6. Avaliação ou Pós-processamento: etapa onde são identificados os padrões

interessantes de acordo com algum critério do usuário.

27

7. Visualização dos Resultados: etapa onde são utilizadas técnicas de representação de

conhecimento a fim de apresentar ao usuário o conhecimento minerado.

A Figura 8 apresenta as fases da DCBD, segundo Amo(2004).


Fonte: Amo ( 2004).

Porém, neste trabalho foi seguido o modelo proposto por Paula(2004), o qual será

descrito em seguida.

2.7.1 Modelo de DCBD segundo Paula(2004)

O modelo adaptado por Paula(2004) define as seguintes etapas:

Seleção: Devido ao grande volume de dados armazenados, esta etapa e fundamental

para o processo, pois nesta estabelece qual o conjunto de dados que deve ser utilizado,

definindo-se quais tabelas, atributos, relacionamentos e conteúdo serão utilizados. E ainda a

qualidade dos dados armazenados deve ser verificada.

Pré-Processamento: Já selecionado o conjunto de dados que será utilizado, pode ser

necessário efetuar atividades de pré-processamento no sentido de permitir viabilizar as etapas

anteriores. Devido a quanto mais colunas utilizadas, maior a complexibilidade. Ainda a

importante questão de eliminar os ruídos nos dados de entrada deve ser analisada nesta fase.

Transformação: Para aumentar a produtividade na obtenção de padrões, modificações

dos dados das tabelas de origem podem ser implementadas, tal como eliminação de

28

reduncancias. A padronização de variáveis também e necessária para evitar erros de

interpretação e desvios de padrões.

Mineração de Dados: Esta etapa é onde o processo de descoberta de padrões e

realmente aplicado. Com o uso de algoritmos específicos, os dados são previamente

selecionados, pré-processados, transformados, passam por várias interações até a descoberta

dos padrões de relacionamentos, agrupamentos e tipos de comportamentos. Tal etapa pode ser

considerada a principal etapa da DCBD.

Interpretação e Avaliação: Os resultados da MD são examinados e interpretados por

especialistas ou profissionais que conheçam profundamente o negócio, para a identificação da

veracidade ou não dos padrões descobertos. Nesta etapa, e avaliado o conjunto de padrões

devido aos objetivos iniciais, assim posteriormente decidindo quais deles serão ou não

interessantes para serem interpretados e tornarem-se claros para os usuários finais do sistema,

ou ate mesmo torna-los acessíveis para aplicações que os utilizarão.

Utilização do conhecimento obtido: Esta fase é a esperada desde o começo da

aplicação, pois é nesta que se incorpora o conhecimento obtido ao longo do trabalho para

melhora-la de performance da empresa, adotando ações baseadas em tal, ou simplesmente

documentando e reportando este conhecimento para grupos interessados.

29

A Figura 9 representa as fases do DCBD, segundo Paula (2004).


Fonte: Paula(2004).

2.8 DATA MINING

A Mineração de dados é conhecida como o processo de busca de relacionamentos e

padrões globais existentes nas bases de dados, onde devido as grandes quantidades de dados

dos sistemas de bancos de dados atuais, os relacionamentos entre estes dados e as informações

potencialmente úteis ficam escondidos (AMARAL, 2001, p.22-23).

É considerada o coração do processo de DCBD (Descoberta de conhecimento em base

de dados), situado, entre a preparação dos dados e a interpretação dos resultados obtidos.

Caracteriza-se pela escolha e aplicação do modelo do algoritmo minerador, com intuito de ser

o método adequado ao problema que se está resolvendo. O mesmo, visa extrair o

conhecimento implícito e potencialmente útil dos dados proporcionando assim, a descoberta

eficiente de informações válidas e até então não conhecidas na coleção de dados que

posteriormente serão transformados em possíveis ações e prováveis aumentos nos lucros.

30

Ao tratar-se de mineração de dados não se considera apenas consultas complexas e

elaboradas que visam ratificar hipóteses geradas por usuários em função dos relacionamentos

existentes entre os dados, mas sim na descoberta de novos fatos, simetrias, restrições e

padrões e relacionamentos (PACHECO, VELLASCO e LOPES, 1999).

Devido a quantidade de possíveis relacionamentos existentes em um banco de dados

ser muito grande, a busca dos relacionamentos corretos via simples validação de cada um

deles é proibitiva. E com o aumento expressivo da capacidade necessária de processamento,

este se torna-se um dos primeiros problemas da mineração de dados. Assim, para a solução

deste tipo de problema, podem ser utilizadas estratégias de buscas inteligentes, que tiveram

sua origem na área chamada de aprendizado de máquinas (Fayyad, Pietsky-Sharino, Smyth e

Uthurusamy, 1996 apud AMARAL, 2001).

Outro problema também relevante refere-se ao fato das as informações dos dados

geralmente serem corrompidas ou esquecidas. Onde devido a tal problema, as técnicas

estatísticas devem ser aplicadas para estimar a confiança dos relacionamentos encontrados

(AMARAL, 2001).

A mineração de dados utiliza várias técnicas, métodos e ferramentas para alcançar seus

objetivos.

2.9 Objetivos primários da mineração de dados

Os objetivos primários da mineração de dados na prática são a descrição e a pré-

elaboração.

Por pré-elaboração, entende-se a utilização de algumas variáveis ou campos na base de

dados para prognosticar o desconhecimento ou valores futuros de outras variáveis de interesse

(AMARAL, 2001).

A descrição, é responsável por encontrar os padrões de interpretação humana a partir

da descrição dos dados. De acordo com o processo de KDD, a descrição tende a ser mais

importante que a pré-elaboração. Entretanto aplicações de aprendizado de máquina, como

31

reconhecimento de fala, a pré-elaboração é geralmente o objetivo principal (Fayyad, 1996

apud Amaral 2001).

A Figura 10 demonstra taxonomia da fase de mineração de dados. Os algoritmos estão

representados pelo símbolo (·), enquanto que as caixas representam áreas e técnicas

(PACHECO, VELLASCO e LOPES, 1999).

Figura 10. Fases Mineração de dados

Fonte: Pacheco, Vellasco e Lopes (1999)

2.10 Técnicas utilizadas no processo de mineração de dados

Indiferentemente da técnica de mineração de dados, a mesma utiliza dados sobre o

passado (conjunto de treinamento) para gerar dados futuros (conjunto de execução do

modelo), ou seja, dados que não pertencem ao conjunto de treinamento. Estes dados de forma

geral foram coletados cronologicamente para poderem ser analisados com as que são descritas

a seguir.

32

2.10.1 Associação

A técnica de Mineração de Dados através da forma de associação representa os

padrões onde a ocorrências de eventos em conjunto é alta, ou seja, visa a descoberta de

elementos que ocorrem (ou não) em comum, nas coleções de dados (MARSON, 2003, p.13-

15).

Esta técnica é uma das mais utilizadas para a descoberta de padrões em base de dados.

Para a sua execução, utiliza-se princípios de indução, não determinando um atributo como

alvo de classificação, pois todos os atributos em regras de associação podem aparecer tanto no

antecedente quanto no conseqüente da regra. Nesta técnica não é realizado nenhum tipo de

classificação, mas sim a extração de associações existentes entre os itens de uma base de

dados (MARSON, 2003).

Uma demonstração clássica é o caso de produtos que freqüentemente são vendidos em

conjunto onde torna-se mais fácil e visível sua identificação devido a associações usuais por

seu uso comum: pão francês e manteiga, café e leite, entretanto as associações mais

interessantes são as não usuais (ibidem).

Na Tabela 1, retirada do relatório de vendas de uma determina rede de lojas,

apresenta-se um exemplo de associação que ocorre entre determinados itens.

33

Tabela 1. Exemplo de Associação

Fonte: Adaptado de Santos (2005, p.13)

Loja Caixa Transação Compras 3 5 11672 ’PAO RANCES’ 3 5 11673 ’PAO RANCES’ 3 6 10169 ’PAO RANCES’ 3 5 11674 ’PAO FRANCÊS’, ’FLV PIMENTAO VERDE’, ’LEITE ’SERRAMAR S’, ’DANONE DANETTE ’, CANTE DOCE MENOR LI’ ,’MANTEIGA’,

1 14 3752 ’PAO FRANCÊS’, ’LEITE PAST. SERRAMAR S’ ,’MARGARINA’, ‘CAFÉ MELITA’, ‘ACUCAR’

1 14 3758 ’BEB. REF.COCA COLA 1L’, ’PAO FRANCES’, ’LEITE ‘ 1 13 3001 ’LEITE PAST. PAULI TIPO’, ’PAO FRANCES’ ,

’MANTEIGA’ 3 5 11685 ’PAOFRANCES’, ÁCUCAR’,’LEITE TIROL’ 1 14 3764 ACUCAR REFINADO 1K’, ’PAO RANCES’, 1 14 3765 ’BISC. TRIUNFO C.CRACKE’, ’LEITE DES.’ ’PAO FRANCÊS’, ’ACUCAR REFINADO A. ALE’,

’MORTA-DELA’, ’DELA MARBA’ , ‘MANTEIGA’ 3 6 10188 ’PAO FRANCES’, ’ACUCAR REFINADO A.

ALE’,’MANTEIGA’

No exemplo, segundo Navega (2002 apud MARSON, 2003) pode-se observar como

funciona a técnica de associação para casos não usuais.

Considerando a seqüência original de informações, pode-se fazer algumas conclusões:

• ABCXUABCZKABDKCABCTUABEWLABCWO

Analisando a seqüência podem ser encontradas algumas seqüências de dados que

podem ser consideradas como padrões dentro desta estrutura.

Os padrões mais encontrados são as seqüências “AB” e “ABC” pois estas ocorrem

com uma freqüência superior a outras seqüências. Depois de identificar estas seqüências,

pode-se notar que elas segmentam o padrão original em diversas unidades independentes:

• “ABCXY” / “ABCZK” / “ABDKC” / “ABEWL” / “ABCWO”

34

Através de induções são geradas algumas representações mais genéricas destas

unidades, onde “?” pode representar qualquer letra:

• “ABC??” / “ABD??” / ”ABE??” / “AB???”.

Em tal exemplo pode ser demonstrado como extrair padrões de associações em bases

de dados, que é um dos pontos essenciais na Mineração de Dados. A importância desta

descoberta é que com este processo pode-se prever futuras ocorrências de padrões.

Para conversão de tal exemplo para um exemplo mais prático, pode se utilizar o

padrão verificado no exemplo anteriormente descrito e imaginar a seqüência de letras citada,

como uma seqüência de vendas feita em um supermercado num certo período onde cada

caractere representa um produto da loja.

Pode-se entender a letra ‘A’ representando a compra de “pão” e a letra ‘B’

representando a compra de “leite”. Pode-se perceber que para toda venda de “pão”, também

ocorreu em grande escala a venda de “leite”. Considera-se, então, que estes dois atributos

estão associados e verifica-se isto através do processo de descoberta de padrões. Com este

conhecimento em mãos, o gerente do supermercado colocaria então, “pão” e “leite” mais

próximos, facilitando e induzindo a aquisição destes dois itens em conjunto.

Continuando com a mesma seqüência de letras, supõe-se que ‘X’ seja “manteiga sem

sal” e ‘Z’ “manteiga com sal”. A letra ‘T’ pode representar “margarina”.

Unificando todas estas letras através de um único conceito, uma característica próxima

que todos tenham em comum, pode-se então, substituir estes atributos acima por uma única

letra ‘V’ que pode significar “manteiga,margarina”. Neste caso, faz-se uma indução orientada

a atributos, substituindo uma série de valores distintos (mas similares) por um valor só que

representa todos. Neste caso, é possível demonstrar também que na Mineração de Dados,

ainda é necessária a presença humana, pois a introdução deste atributo requer um

conhecimento do domínio do negócio da empresa e da base de dados avaliada. Com esta

mudança, pode-se perder algumas características originais da seqüência, como por exemplo:

já não sabe-se a venda foi de “manteiga” ou “margarina”. Mas esta perda é fundamental na

indução de fatores que ajudarão na descoberta de padrões mais gerais.

35

Faz-se então, tais substituições na seqüência em questão:

• ABCVUABCVKABDKCABCVUABEWLABCWO

Analisando novamente a seqüência através da Mineração de Dados, descobre-se o

padrão “ABCV”, que acaba dizendo que “A maioria dos clientes que compraram pão e leite

também compraram manteiga ou margarina”. Através de tal conhecimento fica mais fácil a

tomada de determinadas decisões em um supermercado, como por exemplo a disposição

destes produtos nas prateleiras, com intuito de induzir mais facilmente a compras destes três

itens juntos. Em linguagem lógica, diz-se que pão e leite implicam em manteiga:

• SE pão, leite ENTÃO manteiga.

Outro exemplo interessante a ser apresentado é o da Figura 11.

Figura 11. Exemplo de Regra de Associação

Fonte: Adaptado Submarino ( apud MARSON,2003)

Pessoas que compraram esse produto também compraram:

Parachutes - COLDPLAY

Stars – The Best of 1992-2002 - THE CRANBERRIES

Tribalistas - MARISA MONTE & CARLINHOS BROW & ARNALDO ANTUNES

Camilo Palmero - THE CALLING

Com Away Whith Me - NORAH JONES

Este exemplo foi extraído do site de compras on-line Submarino

(www.submarino.com.br). Neste, demonstrasse um caso típico de associação, que quando um

cliente esta comprando um determinado produto, o site oferece um quadro que diz: “Pessoas

que compraram esse produto também compraram:” indicando mais alguns produtos que

outros clientes adquiriram em associação com o produto pesquisado. Estes dados foram

descobertos com base na busca de padrões, pesquisando os históricos de compras de seus

clientes.

36

Tal sugestão de compras na verdade oferece para o cliente uma listagem de possíveis

compras as quais tentem a se encaixar no seu perfil com o intuito de que o cliente veja estes

produtos e até os adquira.

Entretanto nem sempre os padrões extraídos na Mineração de Dados podem ter

explicação lógica. Algumas vezes, os padrões de associações encontrados podem ser meras

coincidências na base e devem ser relevados.

2.10.2 Seqüência

A técnica de Mineração de Dados por Seqüência é a Técnica de Associação agregando

o fator tempo, isso devido a que os dados de uma seqüência podem ser transformados de

forma que permitam que os algoritmos associação sejam aplicados. Como exemplo tem-se a

utilização do Cartão de Crédito: Quem compra um computador hoje poderá comprar uma

impressora daqui a alguns meses (MARSON, 2003).

2.10.3 Agrupamentos

Segundo Pacheco, Vellasco e Lopes, (1999), agrupamento é a forma com que as

pessoas visualizam os dados segmentados em grupos discretos, como por exemplo, tipos de

plantas ou animais. Na criação desses grupos discretos pode-se notar a semelhança dos

objetos de cada grupo. Enquanto a análise de grupos é frequentemente feita manualmente em

pequenos conjuntos de dados, para grandes conjuntos existe um processo automático o qual é

chamado de clustering.

Segundo Carlantonio (2001, apud MARSON,2003) uma das tarefas primárias de

análise de dados é a chamada análise de agrupamentos, destinada a ajudar um usuário a

entender o agrupamento ou estrutura natural em um conjunto de dados.

A metodologia de análise por agrupamento efetua a análise dos dados e através destes

separa seus elementos em grupos onde seus atributos são semelhantes, ou seja, os elementos

com propriedades de interesse comuns ficam agrupados no mesmo grupo. Esta análise

possibilita determinar então qual o número de grupos e quais os grupos existentes no conjunto

analisado, e devido a sua semelhança torna possível a identificação das características comuns

37

aos seus elementos. Um bom agrupamento caracteriza-se pela produção de segmentos de alta

qualidade, onde a similaridade intra-classe é alta e a inter-classe é baixa.

Para a utilização de tal técnica citasse as categorias mais utilizadas:

Partição, basicamente enumera várias partições e então cria uma nota para cada uma

delas segundo algum critério. Hierarquia, cria uma decomposição hierárquica do conjunto de

dados usando algum critério. Modelo, um modelo é hipoteticamente criado para cada cluster

(grupo) e a idéia é encontrar o que melhor se enquadra quando comparados entre si

(PACHECO, VELLASCO, LOPES, 1999).

O método por agrupamento pode ser utilizado em diversas áreas, como compras

efetuadas em um supermercado, especificações físicas e químicas de petróleo, sintomas de

doenças, às características de seres vivos, funcionalidades de genes, aspectos da personalidade

de indivíduos, transações bancárias realizadas por clientes de um banco, entre outras,

fornecendo a todos possibilidade de redução de dados (reduzindo uma grande quantidade de

dados para um número de subgrupos característicos), permitindo o desenvolvimento de

esquemas de classificação e sugerindo ou apoiando hipóteses para tomada de decisões.

2.10.4 Classificação

Classificação é o processo em que se encontra propriedades comuns entre um conjunto

de instâncias num banco de dados e classifica-os em diferentes classes, de acordo com um

modelo de classificação (VASCONCELOS, 2002).

A técnica de mineração de dados por classificação procede da utilização de dados

sobre o passado (conjunto de treinamento) para classificar dados futuros (conjunto de

execução de um modelo de classificação, ou simplesmente conjunto de execução). Os dados

sobre o passado são dados já concretamente conhecidos, tais como experiências de vendas

passadas como resultados de acompanhamento de alguns clientes. Estes então são passados

como dados entrada para o conjunto de treinamento, que através do classificador irá gerar o

conhecimento para ser usando na classificação dos novos dados, ou seja, dados que não

pertencem ao conjunto de treinamento e ainda não estão classificados em classe alguma, após

38

passarem pelo processo de classificação, serão comparados de acordo com o aprendizado

adquirido e ao final já serão classificados em classes conhecidas (VASCONCELOS, 2003).

Diversas formas podem ser adotadas para se resolver o problema de classificação,

entretanto segundo Vasconcelos (2003) as mais utilizadas são:

• Regras de classificação stricto sensu, na forma SE <condição> ENTÃO

<classificação>, cuja interpretação é “se os valores assumidos pelos atributos de

um registro do conjunto de treinamento satisfazem as condições do antecedente da

regra, então o registro recebe a classe indicada pelo valor do atributo de

classificação”;

• Regras de classificação indiretas, sob a forma de árvores de decisão, ou seja, uma

seqüência hierárquica de testes construídos ao longo de uma estrutura em árvore

(condições), com os nós folhas da árvore representando as diferentes classes. Nota-

se então que uma árvore pode exprimir diferentes regras de classificação (cada

regra é um caminho na árvore, da raiz até uma das folhas).

Pacheco, Vellasco e Lopes (1999), mostram um exemplo onde uma editora de livros

publicou um livro. O livro é publicado em inglês, francês e alemão, de acordo com o país

onde ele está sendo vendido. Suponha que a editora ira utilizar sua base de dados para atingir

os clientes mais interessados dos três países, Inglaterra, França e Alemanha. Para prever se o

cliente irá ou não comprar o livro, quando eles receberem um material de propaganda, a

editora necessita de alguns dados sobre o efeito dessa técnica de propaganda em alguns de

seus clientes na sua base de dados. A partir desses dados, um algoritmo de classificação pode

descobrir regras que prevêem se um novo cliente provavelmente irá ou não comprar esse novo

livro. Para coletar esses dados a editora pode enviar o material de propaganda para alguns de

seus clientes e monitorá-los para saber se eles compram ou não o livro. Essa informação é

então armazenada em um novo atributo, nesse caso o atributo objetivo (na questão é

COMPRAR). Seu valor pode assumir dois possíveis valores: SIM, significando a compra do

livro, ou NÃO, caso contrário. Uma vez determinando este atributo, o próximo passo é

selecionar um subconjunto de atributos preditivos entre todos os atributos dos clientes no

banco de dados. Claramente alguns atributos, tais como: nome do cliente, são de modo geral

irrelevantes para a previsão da compra ou não do livro. No exemplo apresentado na Tabela 2

39

serão considerados apenas os atributos SEXO, PAÍS e IDADE dos clientes como relevantes

para a previsão.

Conforme Frei (1998 apud PACHECO, VELLASCO e LOPES, 1999), os dados

apresentados na Tabela 2 correspondem a dez clientes, aos quais algum material de

propaganda foi enviado sobre o novo livro. Um algoritmo de classificação pode analisar os

dados e determinar que valores dos atributos preditivos (sexo, país e idade) tendem a ser

relacionados, ou associados, com o atributo objetivo (comprar). Esta descoberta de

conhecimento pode então ser aplicada para prever se um cliente da base de dados da editora

comprará ou não o novo livro.

Tabela 2. Exemplo de Regra de Classificação

SEXO PAÍS IDADE COMPRAR Masculino França 25 Sim Masculino Inglaterra 21 Sim Feminino França 23 Sim Feminino Inglaterra 34 Sim Feminino França 30 Não Masculino Alemanha 21 Não Masculino Alemanha 20 Não Feminino Alemanha 18 Não Feminino França 34 Não Masculino França 55 Não

Se (País = Alemanha) então COMPRAR = Não

Se (País = Inglaterra) então COMPRAR = Sim

Se (País = França e IDADE <= 25) então COMPRAR = Sim Se (País = França e IDADE > 25) então COMPRAR = Não

Fonte: Frei, (1998 apud PACHECO, VELLASCO e LOPES, 1999).

O conhecimento descoberto é representado na forma de regras SE- ENTÃO. Essa

regra é interpretada da seguinte maneira: “SE os atributos preditivos de uma tupla satisfazem

as condições no antecedente da regra, ENTÃO a tupla tem a classe indicada no consequente

da regra”.

40

2.11 Técnicas de Auxílio a Mineração de Dados

2.11.1 Redes Neurais

Rede Neural Artificial (RNA) é uma técnica computacional que constrói um modelo

matemático, emulado por computador, com capacidade de aprendizado, generalização,

associação e abstração. As RNAs tentam aprender padrões diretamente dos dados através de

um processo de repetidas apresentações dos dados à rede, ou seja por experiência. Dessa

forma, uma RNA procura por relacionamentos, constrói modelos automaticamente, e os

corrige de modo a diminuir seu próprio erro (PACHECO, VELLASCO e LOPES, 1999).

Esta técnica é composta por várias unidades de processamento, cujo processamento é

simples. Estas unidades também conhecidas como nós, geralmente conectadas por canais de

comunicação calculam o somatório dos pesos de suas entradas e realiza uma transformação na

saída efetuando assim operações apenas sobre seus dados Gurney (1997, apud FERNANDES,

2003, p.59-60).

Através do procedimento de aprendizado do algoritmo de retro-programação Werbos

(1974 apud AMARAL, 2001, p.32), utiliza um padrão de cada vez, onde os erros são usados

para ajustar os pesos dos nós de saída, proporcionalmente as suas contribuições (magnitude).

Assim os pesos são ajustados similarmente, e o erro final retorna a primeira camada. Os pesos

iniciais são tipicamente randômicos (AMARAL, 2001, p.32).

Como demonstra a Figura 12 segundo Holl (1992) e Dhar (1997) apud (PACHECO,

VELLASCO e LOPES, 1999), através de convenção define-se que a camada que recebe os

dados é chamada camada de entrada, a camada que mostra o resultado é chamada camada de

saída e a camada interna, onde localiza-se o processamento interno, é tradicionalmente

chamada de camada escondida. Uma RNA pode conter uma ou várias camadas escondidas, de

acordo com a complexidade do problema.

41

Figura 12. Modelo de Rede Neural Artificial

Fonte: Holl (1992) e Dhar (1997) apud (PACHECO, VELLASCO e LOPES, 1999).

O procedimento de ajuste de peso é conhecido com um método gradiente local,

seqüêncial e interminável. Sendo gradiente local, devido a esquecer a otimização geral,

seqüencial por que, permite que os casos iniciais tenham muita influência; e é interminável

devido a lidar com um tipo inicial de regularização, onde a moderação do tempo de

processamento e o modo principal de permitir sobrecarga. Entretanto, essas características

permitem o cancelamento e parâmetros como a lenta busca local e não permite que o excesso

de parâmetros sobrecarregue facilmente a rede, entretanto o perigo da sobrecarga pode

depender da duração do treinamento (AMARAL, 2001, p.32).

Segundo Pacheco, Vellasco e Lopes, (1999) uma das principais aplicações de Redes

Neurais no DM é através da classificação, clustering, aproximação de funções, previsão e

verificação de tendências, e é demonstrada através do exemplo na Figura 13.

42

Figura 13. RNA no DM

Fonte: Pacheco, Vellasco e Lopes (1999).

Para Ávila (1998, apud FERNANDES, 2003, p.135), existem algumas desvantagens

no uso de redes neurais para DM, devido ao seu processo de aprendizado ser muito lento

comparado com alguns outros sistemas de aprendizado simbólico.

2.11.2 Algoritmos Genéticos

Algoritmos genéticos, como o próprio nome diz, são algoritmos que simulam o processo de seleção natural proposto por Charles Darwin, em 1859. Segundo Darwin, a seleção natual e um processo que privilegia os organismos que melhor se adaptam ao meio ambiente, isto é, quanto mais adaptado o organismo esta ao seu ambiente, maior a chance de sobrevivência e mais características ele ira transmitir para seus sucessores por meio de seus cromossomos. Com isso, a tendência de aprimoramento pode ser verificada nas diversas espécies existentes (AMARAL, 2001, p.33).

Para Pacheco, Vellasco e Lopes (1999), os Algoritmos Genéticos são modelos

estocásticos e probabilísticos de busca e otimização, inspirados na evolução natural e na

43

genética, aplicados a problemas complexos de otimização o qual tipicamente envolvem 3

componentes:

• Variáveis – Este componente descreve os vários aspectos do problema;

• Restrições - Monitora os valores que as variáveis podem ter; e

• Funções – Essas são utilizadas para avaliar a solução. As funções objetivas

geralmente envolvem a minimização ou a maximização de algum tipo de recurso.

São as funções objetivas que medem a qualidade de uma regra gerada num

Algoritmo Genético. As variáveis, as restrições e as funções objetivas, descritas

em um problema de otimização definem a geografia básica do espaço de busca, e

determinam que técnicas podem ser usadas. Técnicas baseadas em heurísticas

como Algoritmos Genéticos não garantem uma ótima solução, mas conseguem

soluções próximas, ou aceitáveis. Além disso, Algoritmos Genéticos são mais

facilmente aplicados em problemas complexos com muitas variáveis e restrições

ou com grandes espaços de busca.

Para Amaral (2001, p.34) as características gerais desse tipo de algoritmo são

coincidentes com as características gerais da evolução das espécies, que são:

• A evolução e um processo que ocorre basicamente nos cromossomos;

• O processo de seleção natural codifica as estruturas mais aptas a reprodução com

mais freqüência do que aquelas que não são aptas;

• O processo de reprodução se estabelece de três modos: Mutação, Reprodução e

Cruzamento, e

• A evolução genética não tem memória.

Conforme Pacheco, Vellasco e Lopes (1999, p.27), é demonstram um exemplo de

Algoritmo Genético na Figura 14.

44

Figura 14. Ciclo Algoritmo Genético

Fonte: Pacheco, Vellasco e Lopes, (1999, p.27).

2.11.3 Métodos Estatísticos

Métodos Estatísticos são basicamente aplicados em problemas de descoberta de

conhecimento, onde o interesse esta centrado em uma simples variável de saída y e uma

coleção pré-editada. Onde os modelos assumem a viabilidade dos dados treinados e têm como

objetivo encontrar um modelo para prognosticar o valor y a partir de x, que seja executado e

produza bons resultados a partir de novos dados.Tal problema possuía uma solução definida

antes que avanços da computação tornassem possível o relaxamento das suposições

existentes. A partir disso, estatísticos vem tentado suprir a vontade de inventar novos métodos

45

de estimativas e modelos para explorar uma formulação menos restrita (AMARAL, 2003, p.

29-30).

Segundo Pacheco, Vellasco e Lopes (1999, p. 30-31), são abordados de maneira

concisa alguns dos principais métodos estatísticos, conforme descrição a seguir.

2.11.3.1 Classificadores Bayesianos

O princípio básico desse método está fundamentado na teoria da probabilidade

bayesiana (Shen, 1993 apud PACHECO, VELLASCO e LOPES, 1999, p.30-31), e é

demonstrado na Equação 1:

P(AB|C) = P(A|C)P(B|AC) = P(B|C)P(A|BC) Equação 1

Onde P esta relacionado a probabilidade de um evento. A, B, e C são subconjuntos do

espaço de amostras e a notação P(AB|C) significa “a probabilidade dos eventos A e B

acontecerem dado que o evento C acontece”. De modo análogo P(A|C) significa “a

probabilidade do evento A acontecer dado que C acontece”. Desse modo, sejam A1, ..., Ak

atributos, [a1, ..., ak] uma tupla do banco de dados, e C uma classe a ser prevista. A previsão

ótima é uma classe de valor c (Equação 2), tal que

P(C = c | A1 = a1 ∩ ... ∩ Ak = ak) é máxima. Equação 2

Transformado a Equação 2 através da regra de bayes, tem-se a Equação 3:

P(A|B) = P(B|A) * P(A) / P(B), e em seguida tem-se a

Equação 4

Equação 3

P(A1 = a1 ∩ ... ∩ Ak = ak | C = c) * P(C = c) / P(A1 = a1 ∩ ... Equação 4

46

∩ Ak = ak)

Analisando a Equação 4:

• P(C = c) é fácil de estimar através do conjunto de treinamento, pois simplesmente é a

razão do número de vezes em que c ocorre pelo número de tuplas do conjunto de treinamento;

• P(A1 = a1 ∩ ... ∩ Ak = ak) é irrelevante, pois é o mesmo para todos os c, já que

independe da

classe a que a tupla pertence, nesse caso uma constante do processo.

P(A1 = a1 ∩ ... ∩ Ak = ak | C = c) Equação 5

Assume-se que os atributos são independentes, nesse caso a Equação 5 transforma-se

em:

P(A1 = a1| C = c) * P(A2 = a2| C = c) * ... P(Ak = ak| C = c)

Equação 6

Onde cada termo da Equação 6 pode ser estimado como:

P(Aj = aj| C = c) = Contador(Aj = aj| C = c) / Contador(C = c) Equação 7

Contador é uma função que conta o número de vezes, ou a frequência, que um dado

evento ocorre na base de dados.

2.11.3.2 Redes Bayesianas

A maioria das técnicas de KDD baseiam-se apenas nos dados, enquanto sistemas

especialistas geralmente baseia-se unicamente em um especialista. Uma representação de

47

conhecimento utilizando uma arquitetura baseada em Rede Bayesiana (RB) combina o melhor

destas duas áreas, aproveitando o conhecimento do domínio do especialista e a estatística dos

dados (Heck 1996 e Alif 1994 ( apud PACHECO, VELLASCO e LOPES, 1999, p. 32).

A descoberta do conhecimento através de RB segundo Pacheco, Vellasco e Lopes

(1999, p. 32-33) segue os seguintes passos:

• Primeiro, codifica-se o conhecimento existente de um especialista ou um conjunto

de especialista numa RB.

• Segundo, utiliza-se uma base de dados para atualizar esse conhecimento, criando

novas RBs.

• Terceiro, o resultado inclui um refinamento do conhecimento original do

especialista e algumas vezes da identificação de novos relacionamentos.

O processo de descoberta de conhecimento utilizando RB é muito parecido com a

descoberta por Redes Neurais Artificiais. Porém RB apresenta duas vantagens. A primeira é

poder facilmente codificar o conhecimento de um especialista em RBs e usar esse

conhecimento para aumentar a eficiência e a qualidade do conhecimento descoberto.

Segundo, os nós e arcos em uma RB treinada geralmente correspondem a distinções de

variáveis e relacionamentos causais, assim facilitando a interpretação e compreensão do

conhecimento codificado na representação (PACHECO, VELLASCO e LOPES, 1999, p. 30-

31).

2.11.3.3 Árvore de Decisão

Árvores de decisão e regras que usam podas, são apresentadas de forma simples,

possibilitando a compreensão do modelo de forma fácil para ao usuário. Porém o principal

problema das árvores e que elas eliminam dados e uma razão exponencial profunda. Desse

modo, para cobrir estruturas complexas, extensos conjuntos de dados são utilizados. Estes

métodos que envolvem estruturas de cultivo e poda, são tipicamente empregados a exploração

do espaço exponencial dos modelos possíveis. As árvores e as regras basicamente são apenas

48

usadas na modelagem de pré-elaboração, de classificação e de regressão, embora elas possam

ser aplicadas para modelagem descritiva resumida (AMARAL, 2003,p. 31).

As árvores da decisão possibilitam a representação de uma série de regras que

conduzem a uma classe ou a um valor. Permitindo assim a utilização em diversas áreas.

Conforme Sanches (2003) pode-se observar um exemplo de árvore de decisão na

classificação de pretendentes a um empréstimo, conforme mostra a Figura 15.

Figura 15 Árvore de Decisão

Fonte: Adaptado Sanches (2003).

No exemplo ilustrado na Figura 15, o primeiro componente do topo da árvore de

decisão, chamado de raiz, especifica o teste a ser efetuado. O nó raiz do exemplo é “Income >

$40,000” e o resultado deste teste divide a árvore em duas ramificações, cada uma

representando uma ou mais respostas possíveis. Neste caso, o teste “Income > $40,000” pode

ser respondido tanto como “yes” ou “no”, onde apartir deste irá prosseguir para as outras

ramificações.

Uma árvore de decisão pode ter duas ou mais ramificações. Tal forma depende do

algoritmo a ser utilizado. Por exemplo, CART (Classification AndRegression Trees) gera

árvores de decisão com apenas duas ramificações por nó. Tal árvore é chamada de árvore

49

binária. Quando mais de duas ramificações são permitidas, a árvore é chamada de multi-nível

(SANCHES, 2003, p.25).

2.11.4 Métodos Lineares

Os exemplos clássicos de elaboração e classificação são regressões lineares e análise

linear de discriminante, respectivamente. Em tais o termo linear é derivado do fato da

superfície de regressão ou classificação ser um plano. A flexibilidade e a computação

diretamente envolvidas na regressão linear, são elaboradas sem a utilização de outras técnicas

associativas. Por exemplo, as funções radiais básicas de redes neurais são meras regressões

lineares de um conjunto de características do núcleo (AMARAL, 2001).

A análise linear descritiva, que permite o pré e pós processamento, pode ser formulada

como um aprendizado de regressão linear (Hastie, Tibshirani, Buja, 1994 apud AMARAL

2001). A mesma permite trocar o módulo de regressão linear por um método de estimação

não paramétrico e não linear avançado, desta forma então aumentando consideravelmente os

tipos de padrões que podem ser manuseados pelas técnicas de classificação.

2.12 A RELEVÂNCIA DO DATA MINING PARA O CRM

Em virtude da constante mudança a nível de mercado mundial, métodos os quais no

passado eram extremamente eficientes para o bom desenvolvimento da organização hoje já

não satisfazem mais a maior parte da realidade. Tal realidade fez com que diversas

organizações mudassem suas formas de atuação, mudando sua forma agir e pensar em relação

aos clientes.

Neste mercado onde não ocorre mais fidelidade do cliente, suas vontades e

necessidades alteram-se constantemente. Sua exigência por melhores padrões de qualidade

aumentou e a grande variedade de mercado possibilita uma busca por melhores preços, força

as empresas a se preocuparem em entender melhor seus clientes de forma muito mais ágil,

compreendendo suas necessidades e vontades, fazendo-os estarem sempre atentos as

sugestões e seu grau de satisfação ou insatisfação. Tais mudanças não mais permitem a

empresa ficar a espera de uma insatisfação obvia que vem se repetindo a longo prazo, mas sim

anteciparem-se a tal (ALMEIDA,SIQUEIRA e ONUSIC, 2005).

50

Este novo mercado aumentou a quantidade de clientes, produtos e competidores não

mais proporcionando o que em tempos passados era possível: vendedores de pequenas lojas

conseguiam armazenar em suas mentes os gostos e comportamentos de seus clientes,

proporcionando sempre um atendimento que atingisse as necessidades do mesmo de forma

rápida e eficiente. Desta forma a complexidade com o cliente aumentou e segundo Trearling

(2000) a empresa precisa ficar atenta também a:

• Tempo de ciclo de marketing comprimido. O período de atenção do cliente

diminuiu, a lealdade já não ocorre mais. Uma empresa bem sucedida precisa

reforçar o valor que ela provê aos seus clientes continuamente. Além disso, o

tempo entre o surgimento de um novo desejo e o prazo para a empresa realizá-lo

também está encolhendo;

• Custos de marketing elevados. Todos os custos aumentaram. Impressão,

postagem, ofertas especiais (e, se você não fizer ofertas especiais, seus

concorrentes farão).

• Muitos produtos novos. Os clientes querem coisas que vão ao encontro de suas

exatas necessidades e não coisas que "se encaixam" com o que querem. Isso

significa que o número de produtos e o número de maneiras que eles são ofertados

têm crescido significativamente;

• Competidores de nicho. Seus melhores clientes também são ótimos para seus

concorrentes. Eles irão focar em pequenos e lucrativos segmentos de seu mercado

e tentarão manter o melhor para eles;

Empresas bem sucedidas precisam reagir a cada uma dessas demandas em um tempo adequado. O mercado não esperará pelas suas respostas e os clientes que você tem hoje podem desaparecer amanhã (TREARLING,2000).

Segundo Thearling (2000) para avaliar como proceder mediante a tais problemas a

empresa deve automatizar:

• A oferta certa: gerenciando múltiplas interações com seus clientes, dando

prioridade às ofertas certas, certificando-se que as ofertas irrelevantes serão

minimizadas.

51

• Para pessoa certa: nem todos os clientes têm a mesma importância. Suas interações

com eles precisam caminhar para campanhas de marketing altamente segmentadas

que objetivem os desejos e necessidades individuais.

• Na hora certa: as interações com o cliente devem acontecer de forma contínua,

pois assim a chance de o cliente receber a novidade na hora que ele estava

procurando aumenta em muito. Isso é significativamente diferente do passado,

quando correspondências trimestrais eram a tônica do marketing.

• Pelo canal correto: a empresa pode comunicar-se com seus clientes de várias

maneiras (mala direta, e-mail, telemarketing, etc.). Entretanto, é necessario ter

certeza que está escolhendo a mídia mais efetiva para uma interação particular.

As empresas começaram a tentar resolver este problema da melhor forma possível,

diversas técnicas foram criadas e adotadas.

Entre elas a união do Marketing utilizando os conhecimentos de CRM (marketing de

relacionamento que ao invés de estratégias de marketing em massa opta pela forma

individualizada cliente-empresa focando os anseios de cada cliente) e da TI (Tecnologia da

Informação com o uso de DM possibilitando que cada cliente seja tratado de maneira

personalizada, mesmo que com uma realidade de centenas de clientes). Esta união encontrou

uma das melhores formas de aproveitar eficientemente todo o conhecimento oculto nas bases

de dados afim de otimizar processos e proporcionando uma grande vantagem competitiva

(ALMEIDA,SIQUEIRA e ONUSIC, 2005).

O CRM gerência as interações entre a empresa e o cliente e ao efetuar tal função vai

agregando as informações recolhidas nas bases de dados, entretanto tal armazenamento

impede que o setor de Marketing consiga filtrar manualmente quais das informações

armazenadas que são valiosas, podendo-as utilizar de formas distintas. Para resolver este

detalhe é acrescentado ao software a técnica de data mining que automatiza os processos de

buscas nas montanhosas bases de dados encontrado os padrões que sejam bom preditores de

comportamentos de compras.

O Data Mining diferencia-se de outras técnicas de busca de dados, pois seu processo

extrai informações desconhecidas do banco de dados. Relações entre variáveis e

52

comportamentos de clientes que não são intuitivas. Relações estas, que são de grande valia e

após compreendidas são utilizadas pelos usuários do marketing para focar suas campanhas de

marketing de maneira precisa aproximando-se ao máximo das necessidades, desejos e atitudes

de seus clientes (TREARLING, 2000).

Campanhas estas que quando bem aplicadas podem fazer uma grande diferença para a

empresa, tendem a medir índices importantes como satisfação, taxas de respostas,

proporcionam aumento das vendas, planejamentos de estoque, planejamentos gerenciais

administrativos diversos( grandes vendas as vezes exigem funcionários extras, materiais de

escritórios extra entre outros).

2.13 DM NO CONTEXTO DO CRM

Segundo Almeida,Siqueira e Onusic (2005) a DM e uma das principais atividades que

extrai conhecimentos dos dados gerados pelo cliente, e esta pode ser compreendida como um

dos 4 elementos do ciclo do CRM. Conforme mostra a Figura 16

53

Figura 16 Ciclo do CRM

Fonte: Almeida, Siqueira e Onusic (2005)

Para o início das atividades do CRM é necessário que a empresa já tenha clientes,

onde tais clientes já são frutos de uma estratégia de relacionamento existente atualmente na

empresa (Etapa 4). A partir da obtenção dos clientes, inicia-se um relacionamento empresa-

cliente (Etapa 1). Por meio da utilização de recursos de TI, a empresa poderá captar dados

sobre seus clientes e armazená-los em bases de dados gerenciais (data warehouses e data

marts - Etapa 2). O passo final é a exploração desses dados, que permite aprender com a

relação desenvolvida na Etapa 3, com o intuito de aumentar o conhecimento sobre o cliente.

Há retroalimentação no processo, pois, ao coletar dados sobre os clientes (etapa 3), a empresa

procurará aprender e conhecer o cliente a partir do processo de DM (Etapa 4). Isso irá

incrementar a eficácia de seu processo de obtenção do cliente (Etapa 4) e de sua estratégia de

relacionamento (Etapa 1), levando à obtenção de novos dados (novamente a Etapa 3) com

uma nova estratégia de relacionamento (ALMEIDA,SIQUEIRA e ONUSIC, 2005).

54

2.14 Benefícios da Utilização da Técnica

O uso da técnica de CRM com DM proporciona para a empresa diversas vantagens as

quais aumentam as chances de um sucesso da empresa.

Trearling (2000) apresenta o “gráfico de ganho” que mostra alguns benefícios

gerados pela implantação do data mining. Conforme mostra a Figura 17

Figura 17.CRM Gráfico de Ganho

Fonte: adaptado de Trealing (2000).

A linha diagonal demonstra o número de respostas esperadas de um público alvo

selecionado aleatoriamente. Sob este cenário, o número de respostas cresce linearmente com o

tamanho do alvo. A curva superior representa a resposta utilizando as técnicas de DM para

55

determinarem o público alvo. O alvo provavelmente incluirá mais respostas positivas que em

uma seleção aleatória do mesmo tamanho. A área sombreada entre a curva e a linha indica a

qualidade do modelo. Quanto mais acentuada é a curva, melhor o modelo. Outras

representações do modelo freqüentemente incorporam custos e rendimentos esperados.

2.15 Exemplos de Utilização de CRM e DM

2.15.1 Rede de lojas

Uma determinada rede varejista de lojas brasileiras sofria com a dificuldade de dispor

em suas prateleiras cerca de 51.000 produtos que mantinha em seu catálogo segundo Com

(1997 apud SANCHES, 2003). O problema era meramente de espaço físico em suas lojas.

Depois de um processo de automação que teve um custo de aproximadamente um milhão de

dólares, a cadeia de lojas, que contava na época com setenta lojas espalhadas por todo o

Brasil, descobriu que muitas dessas mercadorias não rendiam quase nenhum retorno em

vendas. Entre os ítens de pouca venda estavam guarda-chuvas, sombrinhas e malhas de lã.

O motivo, descoberto mais tarde, era que tais produtos se encontravam expostos em

lojas do nordeste, onde chuva e frio são raros. Outra descoberta foi o fato de estarem sendo

vendidas batedeiras com voltagem de 110 Volts em Santa Catarina e no Rio Grande do Sul,

onde a voltagem padrão é de 220 Volts. Nos dias atuais, segundo informações, o grupo

mantém 14.000 itens em exposição nas lojas. Em uma única operação, foram eliminados

37.000 produtos. Seus executivos utilizaram a mineração de dados para conseguirem estes

resultados.

Com base em relatórios a respeito dos hábitos de consumo dos clientes, seus hobbies e

informações sobre suas transações comerciais e financeiras foi possível traçar associações que

revelaram grandes nichos de mercado. Em conjunto foi utilizado um banco de dados baseado

em data warehouse, modelado sobre as informações transacionais do conjunto das lojas da

rede.

56

2.15.2 Companhia Telefônica

Uma empresa tinha como sua maior preocupação a perda de clientes. Para resolver tal

problema a empresa adotou a medida a qual o cliente entendesse qual o valor da empresa para

ele. Para tal eles precisavam dar a cada cliente o que ele realmente precisava. Como cada

cliente possui diferentes características precisou-se adaptar a tais.

Para isso a empresa adotou o uso do DM e CRM, onde o DM relacionava as

características de cada cliente, identificava o que realmente tal cliente necessitava entre todos

os produtos e serviços oferecidos, e o CRM disparava uma mala direta relacionada

diretamente a tal, onde por exemplo diferenciava clientes que valorizavam a confiabilidade

dos serviços e clientes que utilizavam sempre tecnologias todo de linha.

2.16 TURISMO

Antigamente, o turismo era simplesmente sinônimo de “fazer uma excursão ou viagem

de recreio a lugares interessantes”. Hoje, mais do que uma sofisticada atividade de prestação

de serviços, o turismo é um mega-negócio o qual gera milhões de empregos e atinge centenas

de milhões de pessoas, estendendo seu impacto a área social, política e cultural (Rabahy, 1990

apud FERNANDES, 2000).

O Turismo desempenha um papel prioritário no desenvolvimento econômico, gerando

divisas, renda e empregos, além de interferir na distribuição regional, nas finanças públicas e

até nos níveis gerais dos preços. E ainda exerce forte influência no campo sócio-cultural, com

destaque para a preservação do meio ambiente e do patrimônio histórico, também

influenciando nos recursos humanos e na mudança de atitudes dos recursos humanos, hábitos

de consumo, estilo de vida e padrões de comportamento (ibidem).

Como no restante do mundo, o turismo vem crescendo a cada dia no Brasil,

possibilitando assim a abertura de atividades múltiplas e diferenciadas proporcionando

melhorias para diversas áreas e a conseqüente melhoria dos lucros.

Segundo a Organização Mundial de Turismo (OMT, 1994 apud FERNANDES, 2000)

turismo compreende as atividades que as pessoas realizam durante suas viagens e estadias em

57

locais distintos de seu entorno habitual, por um período de tempo consecutivo inferior a um

ano, com fins de descanso, esportes, negócios entre outros.

2.16.1 Fatores determinantes da Demanda Turística

Segundo a OMT (1998, apud FERNANDES, 2000), a própria complexidade na hora

de definir a demanda turística como um conceito global, faz necessária uma análise prévia de

como os fatores distintos condicionam a decisão de viajar e influenciam sobre a estrutura da

viagem.

Desta forma, segundo Sancho & Pérez (1995, apud FERNANDES, 2000) os fatores

determinantes de uma demanda turística, podem ser agrupados como :

• Fatores econômicos: abrangem o nível de renda disponível, os níveis de preços, a

política fiscal e controle dos gastos em turismo, financiamento e tipos de troca, isto

é câmbio.

• Fatores relativos a unidades demandantes: são os que abrangem os fatores de

motivação, sociológicos, psicológicos, formas de estilo de vida, tempo de lazer,

níveis culturais, costumes, crenças e fatores demográficos.

• Fatores aleatórios: são relativos as variáveis imprevisíveis que afetam o

comportamento sistemático dos consumidores e que incidem, portanto, na

demanda turística. Estes fatores são determinados por guerras e cataclismas.

• Fatores relativos aos sistemas de comercialização e de produção: fazem parte os

fatores relativos aos sistemas de comercialização propriamente ditos

(conhecimento e implantação do produto, comunicação global realizada,

investimos em publicidade, tecnologias disponíveis para alcançar as vendas

imediatas, marketing , etc); fatores relativos a produção (satisfação das

necessidades concretas, qualidade técnica dos produtos, relação qualidade/preço,

meios de transporte para distribuição, distância a percorrer até os mercados de

origem, segurança cívica e política, higiene) e fatores relativos a produção da

concorrência (possibilidade de substituição real em relação aos próprios projetos,

58

possibilidade de cobrir as necessidades, tecnológicas , notoriedade, imagem

política, estratégica de gastos com marketing, etc).

2.16.2 Inventário Turístico

Segundo a Fernandes (2000, p.22) o inventário turístico e composto por: atrativos

turísticos equipamentos e serviços turísticos.

2.16.2.1 Atrativos Turísticos

Os atrativos turísticos por sua vez são compostos por:

• Acontecimentos: congressos e convenções, feira e exposição, festa e

comemoração.

• Atrativos naturais: arquipélagos, morro, rochedo, ruína, baías, mangue, fonte

hidromineral, fonte termal, gruta, caverna, pântano, área de caça, ilha, sítio, queda

d’agua, área de pesca e praia.

• Atrativos histórico-culturais: escultura, monumento, compra, artesanato, dança,

folclore, escola de música, coral, orquestra, instituição cultural, cultos.

2.16.2.2 Equipamentos e serviços turísticos

Os equipamentos e serviços turísticos são compostos por:

• Hospedagem: hotel, motel, pousada, pensão, acampamento, hotel fazenda, spa,

albergue e hotel escola.

• Alimentação: bar, lanchonete, fast food, café, confeitaria, sorveteria, churrascaria,

restaurante de frutos do mar, comida típica, rodízio de pizzas, rodízio de massas,

café colonial, cervejaria e pizzaria.

• Entretenimento: parque aquático, cinema, teatro, instalação desportiva, área de

recreação, shopping, parque temático, zoológico, jardim botânico, danceteria e

boliche.

59

• Serviços turísticos: operadora, agência de viagens, transporte turístico, posto de

informação, locadora de imóveis, locadora de veículos, vídeo locadora, cada de

câmbio, banco, locais de convenções e exposições e loja de artesanato.

• Serviços gerais: água, gás, eletricidade, borracharia, saneamento, posto de

abastecimento e oficina.

2.16.2.3 Infra-estrutura de apoio turístico

A infra-estrutura de apoio turístico é composta por:

• Comunicação: correios, posto telefônico, provedor de internet e agências postais.

• Segurança: delegacia de polícia, postos policiais rodoviários, quartel exército e

corpo de bombeiros.

• Transporte: terrestres, aéreos e rodoviários.

• Saúde:maternidade, pronto-socorro, farmácia, hospital, laboratório de análise,

posto de saúde, clínica odontológica, clínica pediátrica e clínica veterinária.

2.17 Softwares Analizados

A seguir tem-se algumas ferramentas que foram analisadas para dar um melhor

embasamento a este trabalho, tanto no aspecto de CRM quanto no aspecto de DM.

2.17.1 Ferramenta de CRM

Advanced Protheus 7.10 Segundo Marson (2003) a empresa Microsiga, empresa

brasileira, líder no mercado de ERP (Enterprise Resource Planning) no segmento Low-End

(pequenas empresas), dentro de seu pacote ERP denominado Protheus, oferta diversos

módulos para uma melhor interação da empresa com o cliente. Algumas ferramentas de CRM

Operacional contida em seu ERP são:

60

• Call-Center: Engloba todo o atendimento do operador, incluindo telemarketing,

telecobrança, televendas, TEF (Transferência Eletrônica de Fundos), promoções,

contatos, histórico, prospects, etc.;

• Field Service: Sistema que contempla o controle da manutenção técnica de base

instalada no cliente. Engloba orçamentos, ordens de serviços, contratos,

manutenção preventiva e corretiva, entre outras funcionalidades;

• TFA – Techinical Force Automation: Sistema móvel que permite o registro

automático para os procedimentos relacionados à assistência técnica. Faz a

integração entre o Field Service com handheld, permitindo uma maior mobilidade;

• SFA – Sales Force Automation: Permite a comunicação com o ERP através de

handhelds, possibilitando que as equipe de vendas externas possam executar suas

atividades de venda on-line ou off-line, com tecnologia wireless; A escolha da

melhor ferramenta para CRM varia muito de acordo com o negócio e também com

o porte da empresa. Mas o CRM não é composto apenas de softwares.

2.17.2 Ferramentas DM

Foram analisadas as seguintes ferramentas:

• O WizRule é um software de auditoria, descrição e limpeza de dados que, de

forma automática, revela todas as regras que modelam a base de dados e indica os

casos de desvio encontrados com relação ao conjunto de regras geradas. Criado

pela empresa WizSoft, o programa gera relatórios que descrevem a base de dados

através de regras, dentre elas, regras do tipo se A então B, regras matemáticas e

erros ortográficos de nomes e valores. Pode também calcular o nível de incerteza

de cada desvio evitando assim os casos em que um registro é considerado um

desvio a regra (SANCHES, 2003).

• O MineSet é formado por um conjunto de ferramentas integradas, que permitem a

realização de mineração e visualização de dados contidos em um banco de dados

ou arquivos de texto com um formato específico. Essas ferramentas aplicam as

técnicas de DM para “garimpar” dados e mostrar os resultados de forma gráfica,

de tal forma que permita ao usuário uma melhor visualização, compreensão e com

61

isso descoberta de informações ocultas contidas nestes dados. Desenvolvido pela

empresa americana Silicon Graphics e adquirido pela empresa Purple (ibidem).

Ulyssèa (2002 apud MARSON, 2003) descreve entre os melhores softwares de

mineração de dados os listados a seguir:

• DataEngine da MIT GmbH: Utiliza a lógica difusa e algoritmos de rede neural

para executar a mineração de dados que ajuda a analisar e controlar processos

técnicos de tempo real.

• Data/Logic da Reduct: Marca padrões automaticamente, gerando regras que tem

afinidades com a análise difusa de conjuntos.

• IDIS da IntelligenceWare: Formula, testa e modifica suas próprias hipóteses até

queregras de classificação, regras com intervalos ou regras mais inexatas surjam.

• Clementine da SPSS: modela o processo da descoberta de conhecimento e realiza

a mineração. Possui uma linguagem onde os componentes são algoritmos de

aprendizado, métodos de preparação e ferramentas de visualização.

• Aira da Hycones: Gera regras IF...THEN, possui QUERY WINDOWS, detecta

erros na base de dados e representa o conhecimentos na forma gráfica e relatórios.

• Go Mining da Go Digital: A Go Digital é uma empresa especializada em

Marketing de Precisão, que possui o primeiro software de Data Mining

desenvolvido na América Latina, Go Mining que tem por objetivo transformar

dados em conhecimento visando gerar um maior valor no relacionamento com os

clientes. Seu software utiliza princípios de inteligência artificial, que busca

descobrir na base de dados regras de negócios que serão utilizadas em ações de

marketing.

2.18 FERRAMENTA WEKA

O WEKA (Waikato Environment for Knowledge Analysis), é um projeto desenvolvido

pela Universidade de Wiakato – Nova Zelândia. Implementa alguns dos principais algoritmos

que podem ser utilizados na técnica de mineração de dados e provê uma GUI (Graphical User

62

Interface) para realização de experimentos de mineração utilizando API (Aplication Program

Interface) desenvolvida de maneira independente, podendo ser utilizada em aplicações Java

(BRAGA et al, 2004).

Devido a sua implementação ser em linguagem JAVA, o WEKA possui alta

portabilidade podendo ser executado na maior parte dos sistemas operacionais existentes, sem

a necessidade de recompilação ou alteração do aplicativo, desde que o computador possua

instalada a JVM (Java Virtual Machine). Ele efetua suas análises utilizando técnicas de

classificação, regressão, agrupamento e associação. Podendo ainda ser utilizado tanto com

instruções em linha de comando,quanto a partir de interface gráfica desenvolvida também em

JAVA. Seus algoritmos podem ser utilizado também em outros programas, podendo importar

as suas bibliotecas. Este projeto encontra-se disponível gratuitamente para a comunidade

cientifica, no site do próprio WEKA(WEKA, 2003 apud PAULA, 2004).

2.19 Descrição dos pacotes Weka

A estrutura do WEKA segue os padrões de construção de aplicativos orientados a

objetos, e os padrões JAVA, por que foi desenvolvido nesta tecnologia. O WEKA é formado

por diversos pacotes de classes Java, que podem ser compreendidos como os módulos do

sistema e que implementam os métodos sobre os tipos de dados tratados PAULA, 2004 (apud

WITTE, 1999). Na Figura 18 pode observar a estrutura dos pacotes

63

Figura 18. Relação dos pacotes

Fonte: Salga (2002, apud PAULA, 2004)

Segundo a estrutura da Figura 18 as descrições dos pacotes são:

• Associations – Implementa regras de associação entre os dados.

• AttributeSelection – Implementa algoritmos para seleção de atributos de um

conjunto de treinamento.

• Classifiers – Implementa vários tipos de classificadores: árvores de decisão, redes

neurais, tabelas de decisão, algoritmos bayesianos, bagging, boosting.

• Clusterers – Implementa os seguintes algorimos para clustgering: EM,

SimpleKMeans e ConWeb.

64

• Core – Implementa funções de IO (Input Output) e de estatísticas de instâncias.

Calcula por exemplo o número de atributos com determinado valor, e o número de

instâncias com alguns valores ausentes.

• Filters - Implementa vários filtros aplicados na fase de pré processamento dos

dados.

• Gui – Implementa toda a parte de interface com o usuário. É importante ressaltar

que estas classes não dispõem de nenhum algoritmo de mineração de dados

implementado, o que torna o software mais flexível para eventuais mudanças.

• Estimador – Diferentes tipos de cálculos para distribuição de probabilidades. É

usada, por exemplo pelo algoritmo Naive Bayes.

2.20 Arquivos de Entrada

O WEKA define padrão de entrada específico que deve ser obedecido para o correto

processamento das informações. Este padrão possui a extensão .ARFF, ou .CSV onde para tal

existem uma série de regras a serem seguidas para um correta leitura do mesmo. Em virtude

de o arquivo .CSV possuir menos restrições quando a cabeçalho e ser mais prático para ser

gerado o sistema seguira esta extensão.

Basicamente o arquivo é sub-dividido em dua partes:

No primeiro passo, a primeira linha do arquivo contém uma descrição de todos dos

dados que o mesmo possui, separados por vírgula.

No segundo passo, após, começam então os dados que serão processados. Sendo que

as linhas devem conter os valores correspondentes aos atributos já declarados na mesma

ordem que a primeira linha, separados por virgulas.

A seguir na Figura 19 exemplo de arquivo de entrada do WEKA.

65

Evento_Esterno, InicioAcont, FimAcont,TipoAcontecimento, CidadeAcontecimento,

Feira_Nacional_Medicina, _2005-01-01_, _2005-01-10_, Reuniao, Florianopolis

Feira_Nacional_Medicina, _2005-01-01_, _2005-01-10_, Reuniao, Florianopolis

ANIVERSARIO_CURITIBA, _2006-03-28_, _2006-03-28_, ANIVERSARIO, CURITIBA

Figura 19. Arquivo entrada .CSV

2.21 Algoritmos WEKA

O Weka implementa uma série de algoritmos para efetuar a mineração de dados, onde

o usuário pode aplica-los de acordo com o desejado, estes algoritmos encontram-se em três

pacotes específicos: Associação, Classificador e Cluster (PAULA, 2004).

2.21.1 Associação

Implementa um algoritmo que prevê relacionamentos significativos entre informações

da mesma natureza. Onde grandes bases de dados necessitam de um algoritmo ainda mais

eficiente para a mineração em tempo aceitável. Assim o WEKA implementa o algoritmo

Apriori, proposto por Agrawal e Srikant em 1994 visando percorrer e encontrar regras de

associação com mais eficiência em grandes bases de dados Agraw(1994 apud PAULA 2004).

O C4.5 gera um classificador na forma de árvore de decisão, onde adota para tal uma tática

top-down que permite efetuar a classificação em partes da estrutura, possibilitando assim a

criação de árvores de estrutura relativamente simples.

2.21.2 Cluster

O Weka ainda contem pacotes que possuem algoritmos de agrupamento, chamado

weka.clusteres ,este pacote possui alguns algoritmos que são eles:

O Cobweb, o qual é um algoritmo de agrupamento incremental baseado em conceitos

probabilísticos que possui um conjunto de atributos com seus prováveis valores. A busca dos

melhores agrupamentos é direcionada devido a mensuração da qualidade das partições de

dados. O EM, algoritmo que assume que os atributos do conjunto de dados representam

variáveis randômicas independentes, diferentemente de outros algoritmos (PAULA, 2004).

66

2.21.3 Classificadores

Os algoritmos de classificação tendem por base efetuar a associação de uma

determinada instância a uma determinada classe, tais rotinas normalmente apresentam como

resultados árvores de decisão ou um conjunto de regras que definam os critérios necessários

para realizar a associação do item considerado com a classe apropriada.

Witte(1999 apud PAULA, 2004) cita alguns algoritmos de classificação

implementados pelo WEKA: weka.classifiers.ZeroR, weka.classifiers.OneR,

weka.classifiers.NaiveBayes, weka.classifiers.DecisionTable, weka.classifiers.Ibk,

weka.classifiers.j48.J48, weka.classifiers.j48.PART, weka.classifiers.SMO,

weka.classifiers.LinearRegression, weka.classifiers.m5.M5Prime, weka.classifiers.LWR,

weka.classifiers.DecisionStump

2.22 Interface do WEKA

O WEKA fornece aos usuários uma interface gráfica que facilita muito sua utilização,

principalmente para testes de arquivos e análises.

A seguir apresenta-se algumas das telas da versão 3.5.5, nas figuras de 20 a 23.

67

Figura 20.Tela Explorer WEKA

Na Figura 20 pode-se observar a tela do explorer do WEKA, onde podem ser

efetuados diversos experimentos.

No botão OPEN file... pode ser aberto o arquivo direto .CSV ou ainda através do

botão OPEN DB... pode ser aberto uma base de dados, entretanto para tal é necessário a

utilização do JDBC para efetuar a comunicação com o banco de dados.

68

Figura 21. Tela 2 WEKA

Na Figura 21 com um arquivo .CSV aberto, pode-se observar na parte dos Attributes

os atributos referentes ao arquivo, onde se pode selecionar com quais vão ser trabalhados. Já

na Aba superior estão divididos os pacotes de mineração e seus respectivos algoritmos.

69


Clicando na aba referente ao pacote desejado, pode-se clicar no botão Choose e

selecionar com qual algoritmo daquele pacote serão realizados os testes.

70


Após a seleção do algoritmo clicando no botão Start pode-se observar alguns

resultados referente a mineração efetuada.

2.23 DIFICULDADE DE INTERAÇÃO INVENTÁRIO TURÍSTICO E

SOFTWARES DE CRM/DM

Com o estudo de caso levantado, foram analisados softwares que implementam

soluções de CRM e softwares que implementam soluções de DM. Entretanto no levantamento

observou-se que dentre todos os analisados, os mesmos são específicos apenas em uma das

duas áreas.

Dificuldades surgiram em analisar softwares que realmente integrassem CRM e DM,

pois dos levantados esta integração não ficou muito satisfatória.

71

De acordo com estudo feito sobre hotelaria e o grande problema da sazonalidade foi

possível verificar que uma grande possibilidade para aumentar o índice de ocupação é

utilizando as técnicas de DM com CRM e confrontando também com o inventário turístico.

Entretanto, de todos os softwares analisados tal técnica não pode ser observada devido aos

softwares utilizarem pouco ou quase nada os dados que compões o inventario turístico.

Devido a tal fator a solução a ser desenvolvida irá analisar através da técnica de

mineração de dados os dados do inventario turístico e da base de dados do hotel, gerando

relatórios que auxiliem na tomada de decisão, auxiliando também na utilização do CRM.

72

3 DESENVOLVIMENTO

Este capítulo apresentará as etapas de desenvolvimento deste sistema: levantamento

dos dados (entrevistas); análise das tabelas do sistema Desbravador, criações das tabelas

suplementares; modelagem do sistema; mineração de dados.

3.1 ENTREVISTAS JUNTO AOS PROFISSIONAIS DE HOTELARIA

Para seleção dos dados do inventário turístico e do DESBRAVADOR, efetuou-se um

levantamento das necessidades dos profissionais da área de hotelaria em relação ao

cruzamento dos dados no sistema proposto, foi feita uma entrevista com 30 profissionais

atuantes em hotéis de diversas cidades do estado de Santa Catarina e Rio Grande do Sul, tais

estados e profissionais foram selecionados devido a facilidade de interação com os mesmos,

onde o contato e a disponibilidade destes foram de fácil acesso.

O Instrumento utilizado na entrevista encontra-se no Anexo V.

Os entrevistados exercem funções variadas, conforme mostra a Tabela 3.

Tabela 3: Funções

Função Freqüência Percentual Gerente geral 8 27% Gerente Comercial: 4 13% Chefe Recepção 5 17% Recepcionista Sênior 3 10% Sub gerente geral 3 10% Recepcionista 3 10% Assistente Comercial 2 7% Gerente Operacional 2 7%

Total 30 100%

Os tempos de atuação na área dos mesmos também encontra-se em faixas diferentes

como mostra a Tabela 4.

73

Tabela 4: Tempo de Atuação

Tempo de atuação na área Freqüência Percentual

0 a 2 Anos: 3 10%

3 a 4 Anos: 6 20%

5 a 6 Anos: 3 10%

7 a 8 Anos: 5 17%

9 a 10 Anos: 3 10%

11 a 12 Anos: 3 10%

13 a 14 Anos: 3 10%

15 ou mais : 4 13%

TOTAL 30 100%

A quantidade de apartamentos de cada hotel também é diferente, sendo assim foi

efetuado um agrupamento como mostra a Tabela 5.

Tabela 5: Número de Apartamentos

Número de Apartamentos do hotel Freqüência Percentual

0 a 100 Unidades: 8 27%

100 a 200 Unidades: 11 37%

200 a 300 Unidades: 9 30%

300 ou mais 2 7%

TOTAL 30 100%

O tipo de público freqüentador do hotel também foi questionado, tendo diferença entre

os resultados como mostra a Tabela 6.

Tabela 6: Publico Habitue

Público Habitue Freqüência Percentual

Executivo: 22 44%

Eventos: 17 34%

Lazer: 11 22%

TOTAL 50 100%

74

A faixa etária dos empreendimentos hoteleiros varia também, sendo assim foram

criadas faixas etárias como mostra a Tabela 7

Tabela 7: Faixa Etária

Faixa etária que mais freqüenta o hotel Freqüência Percentual 20 a 30 Anos: 9 14% 31 a 40 Anos: 17 26% 41 a 50 Anos: 16 25% 51 a 60 Anos: 13 20% 61 ou mais 10 15%

TOTAL 65 100%

Como o perfil dos empreendimentos hoteleiros são diferentes, e até mesmo em cidades

diferentes, os meses de sazionalidade também são diferentes, como mostra a Tabela 8.

Tabela 8: Meses de Baixa Ocupação

Meses que diminuem a ocupação do hotel Freqüência Percentual Janeiro: 8 8% Fevereiro: 9 9% Março: 9 9% Abril: 7 7% Maio: 12 12% Junho: 13 13% Julho: 9 9% Agosto: 10 10% Setembro: 7 7% Outubro: 7 7% Novembro: 4 4% Dezembro: 4 4%

TOTAL 99 100%

A origem do publico freqüentador dos mesmos também é de estados diferentes, sendo

assim formam tabulados os estados como mostra a Tabela 9

75

Tabela 9: Principais Estados Freqüentadores

Principais Estados que freqüentam o hotel Freqüência Percentual SP: 18 25% RJ: 6 8% PR: 17 23% RS: 12 16% SC: 12 16% MG 4 5% DF 2 3% Todo pais 2 3%

TOTAL 73 100%

O questionamento de quais dados seriam mais importantes para serem cruzados com

intuído de descobrir informações importantes nos mesmos foi deixado livremente para que

cada um coloca-se o que na sua visão profissional seria melhor para o hotel, as respostas

foram agrupadas como mostra a Tabela 10.

76

Tabela 10: Levantamento de Dados para Cruzamento

Quais dados seriam interessantes para serem cruzados, com o intuito de descobrir informações relevantes nos mesmos Freqüência Percentual Procedência: 10 6% Hobby: 4 3% Sexo: 11 7% Idade 13 8% Trabalho 6 4% Lazer 6 4% Gostos 4 3% Onde Compram 3 2% Como Conheceu o hotel 4 3% Motivação 3 2% Eventos por período 10 6% Hóspedes por periodo x região 11 7% Profissão 6 4% Utiliza por opcao ou não 6 4% Tarifas mais elevadas 5 3% Indice de retorno 4 3% Período livre para viajem 3 2% hoteis Preferidos 4 3% Media de gasto por viajem 4 3% Motivo da viajem 5 3% Numero de viajens a lazer por ano 3 2% Preferencia em um evento 3 2% ocupacao x cidade x período 15 10% Segmento de mercado 3 2% Potencia de eventos por empresa 3 2% Poder aquisitivo dos hóspedes 5 3%

TOTAL 154 100%

Os feriados nacionais e municipais são fatores que alteram significativamente a

ocupação de diversos hotéis, desta forma na Tabela 11 mostra as respostar referente aos

feriados municipais e nacionais.

77

Tabela 11: Feriados nacionais e municipais.

Feriados nacionais, municipais diferencia a ocupação do hotel Freqüência Percentual Sim 25 83% Não 5 17% Quais principais feriados nacionais Freqüência Percentual Todos nacionais 13 9% Proximos a finais de semana 12 9% Revellion 18 13% Carnaval 16 11% Páscoa 16 11% Natal 16 11% 7 de Setembro 10 7% Finados 6 4% Dia dos namorados 5 4% ferias Julho 7 5% Ferias Janeiro 6 4% 12 De Outubro 6 4% Dia do trabalho 8 6% Diminuem a ocupação 2 1%

TOTAL 141 100% Quais principais feriados municipais Freqüência Percentual Santo antonio 3 10% Sao joão 3 10% Da cidade 9 30% Somente outra cidades, os locais não influenciam: 15 50%

TOTAL 30

Uma questão de resposta livre, na qual cada profissional diz quais informações seriam

importantes ter-se o conhecimento mais claro para poder aumentar a ocupação da empresa, as

respostas foram agrupadas por tipos como mostra na Tabela 12 os resultados.

78

Tabela 12: Informações para melhoria da ocupação.

Que tipo de informação poderia contribuir para a melhoria da ocupação do hotel Freqüência Percentual Grau Satisfação 7 7%

Fator de motivacao para consumo 6 6%

Facilitadores para hospedarem no hotel: 6 6% Áreas de interesse 7 7% Gastronomia 8 8%

Qualidade da hospedagem 5 5% Opcionais para lazer 4 4%

Opcionais para crianças 4 4% Atrações regionais 3 3% Eventos realizados na cidade 7 7%

Tipo de publico por evento 9 9%

Tipo de apartamento por tipo de hóspede 7 7% se é fumante 5 5%

Preferencias dos hóspedes 9 9%

Expectativa de cada grupo ( executivos x lazer) 5 5% Eventos festivos em finais de semana 4 4%

TOTAL 96 100%

Com relação aos dados da pesquisa, as questões englobaram focos diferentes, visando

uma visão mais ampla do perfil de cada hotel, algumas perguntas enfocaram o perfil dos

entrevistados e outras a visão dos mesmos referente a qual tipo de informações auxiliaria a

tomada de decisão.

3.2 SELEÇÃO DOS DADOS

Como nesta etapa o conhecimento e as metas da aplicação são de grandes relevância,

foi utilizado o conhecimento dos profissionais da área através dos formulários de entrevista, e

através destes foram retirados os dados relacionados pelos mesmos, os quais são:

Através de uma análise do banco de dados do sistema Desbravador e sua respectiva

estrutura, foram levantas todas as tabelas as quais fazem parte do sistema. Estas somam no

79

total 285 tabelas as quais armazenam diversos tipos de informações. No Anexo I encontra-se

um descritivo com o nome de todas elas.

Após tal passo, foram confrontadas tais informações e dentre as tabelas do sistema,

foram escolhidas algumas para serem utilizadas no processo de mineração de dados, tabelas

as quais armazenavam a maior quantidade de dados citado pelos especialistas.

Tabela CadHóspedes: Contém todos os dados referente ao cadastramento do

hóspedes. Tais dados são retirados da FRNH (Ficha Nacional de Registro de Hóspedes) a

qual o hóspede preenche na sua entrada.

Tabela DetEstat: Contém dados os quais contém informações do tipo se o hóspede

veio de forma particular ou através de empresa, data da entrada e data da saída, o

apartamento utilizado, valores gastos (entretanto não serão apresentado valores, apenas

informações como os hóspedes de qual cidade que gastam mais).

Tabela Estatistica: Contém dados os quais contém informações como, a data da

entrada, data da saída, se veio através de reserva ou não, procedência do hóspede, se foi uma

hospedagem que foi paga ou não comissão,

ReservasEventos: Contem os dados relevantes aos eventos realizados internamente

no hotel, tais como datas, numero de pessoas e o tipo do evento

Hóspedes: Contém dados os quais contém informações como se o hóspede veio (por

reservas, eventos ou outro), se é adulto ou criança, se é pagante ou cortesia, se e titular da

conta ou acompanhante, se solicitou para não ser identificado, quais refeições foram

contratadas na hospedagem, e se a hospedagem foi vinculada ou não a algum cadastro de

hóspede.

CadPofição: Contem o cadastro das profissões as quais correspondem aos cadastros

dos hóspedes.

No Anexo II, segue descrição completa de todas as tabelas utilizadas para este projeto.

80

3.2.1 Tabelas Suplementares

Após a análise das tabelas do sistema Desbravador através das ferramentas fornecidas

pelo Microsoft SQL Server 2000, constatou-se a deficiência de algumas informações

adicionais relevantes para auxiliar na mineração dos dados informações estas que fazem parte

do inventário turístico, assim então foram criadas as seguintes tabelas:

Tabela Entacontecimento: Descreve os acontecimentos regionais, tais como os

eventos realizados em qual cidades em quais períodos, com a possibilidade de se minerar por

tipo de acontecimento também.

Baseado no questionário onde as respostas referenciaram a necessidade do

conhecimento dos eventos regionais, tais como festas, reuniões, congressos entre outros. E

referente ao inventário turístico, Atrativos Turísticos: Acontecimentos.

Tabela Entatrativo: Tabela que contem o cadastro dos atrativos regionais, tais como

atrativos históricos culturais , e atrativos turísticos.

Baseado no questionário onde as respostas referenciaram-se a atrativos regionais, tais

como atrativos para crianças, opcionais para lazer, atrações regionais e outras. E referente ao

inventário turístico, Atrativos Turísticos e Serviços Turísticos: Atrativos naturais, atrativos

histórico culturais e Entretenimento.

Tabela Feriado: Tabela que permite o cadastro de todos os feriados, especificando se

for em alguma cidade especifica.

Baseado no questionário onde as respostas referenciaram a necessidade do

conhecimento dos feriados municipais e nacionais.

Tabela Entlogin: Tabela que contem os usuários de acesso ao sistema, e o seu nível

de acesso.

Necessária para o armazenamento dos usuários.

81

Tabela DadosHosped: Tabela de trabalho, contém dados já pré-selecionadas do

banco de dados principal, contém dados do cruzamento das tabelas: CADHÓSPEDE,

CADPROFISSAO, HÓSPEDE e DETESTAT.

Tabela de trabalho, utilizada para a geração do arquivo de mineração de dados.

Tabela EventosEestatistica: Tabela de trabalho, contém dados já pré-selecionados do

banco de dados principal, contém dados do cruzamento das tabelas: RESERVASEVENTOS e

ESTATISTICA.

Tabela de trabalho, utilizada para a geração do arquivo de mineração de dados.

No Anexo III e segue descrição completa das tabelas suplementares descritas.

3.3 PRÉ-PROCESSAMENTO

A partir dos dados obtidos na etapa de seleção, iniciou-se então uma das atividades

desta etapa, que é a seleção das principais tabelas e suas respectivas colunas a serem

utilizadas. E a partir de tal foram geradas tabelas de trabalho, contendo as informações

selecionadas de algumas das colunas das tabelas principais, informações estas que são

consideradas necessárias para o estudo de caso.

Foram tratados ainda, nesta etapa, os registros cujas colunas selecionadas

apresentavam algum tipo de problema (ruído), ou seja alguma inconsistência. Foram

encontrados registros com datas incoerentes, informações incompletas, em branco, ou até

mesmo um problema de falta de vínculos totalmente estabelecidos entre tabelas.

Devido a isso a quantidade de registros a qual foram minerados foram reduzidos

significativamente em alguns relatórios, podendo acarretar até mesmo em uma determinada

mudança nos resultados esperados, fazendo que assim não se descubra todas as possibilidades

existentes entre os dados.

82

3.4 TRANSFORMAÇÃO

Após as tabelas escolhidas, e respectivamente quais colunas das mesmas seriam

utilizadas, fez-se necessário efetuar uma série de alterações nos dados, tanto na sua forma de

apresentação quanto no conteúdo de algumas colunas, e até mesmo a conversão de alguns

campos. Foram realizadas as seguintes atividades:

a) Conversão da data de aniversário dos hóspedes: alguns problemas com a datas de

aniversário no cadastro de alguns hóspedes, onde algumas datas estavam com ano maior que o

atual, parcialmente e parcialmente preenchidas, desta forma as datas foram convertidas para a

idade, e seguindo o princípio que menores de idade não podem se hospedar em hotéis sem

acompanhantes de maior idade, descartados todos os registros com menos de 18 anos de

idade.

b) Vínculo Cadastros: Um grande problema encontrado foi a forma em que se encontram os

dados das hospedagens vinculadas aos cadastros dos hóspedes. O sistema desbravador trata

de forma diferenciada a tabela HÓSPEDES, da CADHÓSPEDES e DA DETESTAT, desta

forma para poder verificar as hospedagens de um hóspede cadastrado, o vínculo entre o

mesmo deve ser efetuado corretamente no sistema desbravador no momento da entrada do

mesmo no sistema, entretanto grande parte das hospedagens não estavam vinculadas a

nenhum cadastro. Para a análise da mineração dos perfis dos hóspedes, apenas os

corretamente vinculados formam analisados.

c) Tratamento de datas: Para facilitar o processo de mineração, o padrão de armazenamento

das datas seguiu o do banco de dados MYSQL.

d) Eliminação dos registros que não tivessem pais: Alguns registros apresentavam campos em

branco, então adotou-se o padrão de eliminação de todos os que não tivessem o país, adotou-

se este padrão pois nem todos países possuem estados, então se fossem eliminados por estado

eliminaria – se a maior parte dos registros.

Posteriormente, para que a ferramenta de mineração de dados pudesse ser utilizada, foi

necessário preparar os arquivos no formato especifico para ser minerado, tal formato segue

83

alguns padrões específicos do WEKA, e tem a extensão. Porém para gerar este arquivo,

algumas modificações dos dados armazenados nas tabelas também foram efetuadas:

Alteração da data e hora: para gerar o arquivo .csv, o campo que era datetime( data e

hora), foi eliminado a hora, trabalhando assim apenas com as datas armazenadas no banco de

dados.

Alteração de campos numérico: Para gerar o arquivo, foi criado um critério onde os

campos que estivessem com valoresnuméricos foram colocados _0_ , uma restrição do

WEKA.

Alteração para string: Devido ao algoritmo ARPRIORI não trabalhar com valores

numéricos, os campos com datas e valores numéricos, receberam o símbolo _ antes e depois

do valor.

Na Figura Erro! Fonte de referência não encontrada. tem-se um exemplo de um

arquivo gerado a partir de alguns dados selecionados.

Figura 24 Arquivo .CSV

3.5 MINERAÇÃO DE DADOS

Após a base de dados do sistema já consolidada e o sistema já estar gerando os

arquivos no formato especifico, testou-se os algoritmos para a escolha do que apresenta-se

melhor desempenho.

84

Testando o algoritmo de classificação, pode-se observar conforme Figura 25 que o

mesmo não retornou nem um tipo de regra, devido a não trabalhar corretamente com strings.

Figura 25 Teste Algoritmo Classificação

Testando o algoritmo de clusterização, pode-se observar conforme Figura 26, que

também não gerou nem um tipo de regra, e que o mesmo sempre pega um atributo como base,

não fazendo a verificação entre todos os atributos.

85

Figura 26 Teste Algoritmo Clusterização

Com os testes, optou-se pelo algoritmo de mineração de dados APRIORI, a escolha de

tal foi devido a apresentar melhores desempenhos conforme Figura 27, onde o mesmo não

adotar um atributo como base para comparar aos outros, mas sim trabalhar com comparação

entre todos, trabalhar com STRING, DATAS e campos NUMÉRICOS, efetuando

comparações entre eles.

3.5.1 Interpretação e Validação

Como na Descoberta de Conhecimento em Bases de Dados, esta etapa da mineração

requer a participação de especialistas, porém para a interpretação dos resultados, apenas

foram efetuadas algumas comparações dos resultados da pesquisa dos profissionais da área

com as regras produzidas pelo algoritmo.

86

Após várias sessões de mineração de dados executadas, o resultado obtido foi

significativo, entretanto os dados onde efetuados a mineração podem distorcer muito o

resultado, devido ao grande problema de muitos registros terem sido descartados por estarem

incompletos, e assim a interpretação dos resultados e a veracidade dos mesmos se estivessem

corretamente preenchidos serem outros.

Figura 27 Teste Algoritmo Apriori

Conforme Figura 27 onde demonstra as regras produzidas pelo arquivo Eventos

externos por período, podem ser observados alguns itens:

a) As regras geradas confirma a veracidade das as entrevistas com os profissionais da

área, onde o estado do Paraná ficou em segundo lugar na ocupação (23%), e 83 % dos

entrevistados apontaram que feriados melhoram a ocupação.

87

b) Pode-se utilizar também estas regras para identificar em determinadas épocas do

ano o por que da melhor ocupação, no caso proporcionado por um feriado em uma cidade

próxima.

3.6 MODELAGEM DO SISTEMA

3.6.1 Requisitos Funcionais dos Sistema

RF01 – O sistema ira permitir que o operador e o gerente possam cadastrar, excluir ou

alterar os cadastros efetuados pelo sistema.

RF02 – O sistema ira minerar os dados com base em períodos e mostrar os resultados

da analise na tela para o gerente.

RF03 – O sistema ira minerar os dados com base em eventos que aconteceram e

mostrar os resultados da analise na tela para o gerente.

RF04 – O sistema ira importar os dados do sistema Desbravador quando o usuário

com permissão solicitar.

3.6.2 Requisitos não Funcionais do Sistema

RNF01 – A importação dos dados deve ser efetuado o mínimo de vezes possíveis

devido a sua grande exigência de performace.

RNF02 – Os perfis de usuário para acesso ao sistema são: Gerente – possui todas as

permissões, de cadastro relatórios e importações de dados. Operador – o operador tem

permissão apenas para cadastrar, excluir e alterar cadastros.

RNF03 – O sistema utiliza banco de dados MYSQL.

RNF04 – Para importação dos dados, o computador deve estar em ligado a rede que

tenha um servidor com SQL Server 2000 e o sistema Desbravador instalado.

RNF05 – O sistema para efetuar a mineração dos dados necessita do sistema WEKA

versão 3.5.5 instalada no computador.

88

3.6.3 Regras de Negócio

Para garantir um melhor funcionamento do sistema, algumas regras de negócios

formam efetuadas, que são elas:

RNE.01 - Para efetuar login no sistema o usuário e a senha precisam estar cadastrados

no banco de dados.

RNE2 - Quando o sistema valida usuário e senha, ele verifica o nível de acesso e

libera somente permissões referentes ao nível correspondente.

RNE.03 – O sistema acessa o banco de dados e verifica qual o código disponível para

fornecer na tela de cadastro.

RNE.04 – Para poder salvar os dados o sistema confere se todos os dados estão

preenchidos, e a sim salva-os na base de dados.

RNE.05 – Para poder efetuar a mineração dos dados o sistema, verifica se foram

importados os dados, se foi gerado o arquivo .CSV e então libera a mineração utilizando a

API do algoritmo Apriori importada do sistema Weka.

3.6.4 Use Cases

O operador do sistema possui funções diferentes do gerente, onde suas funções são

restritas, assim a Figura 28 Use Case Operador mostra o use case do mesmo.

89

ud USC Sistema

��

��

��

��

��

��

��

��

��

Operador

USC.02

Cadastra/Altera

Acontecimentos

USC.03

Cadastra/Altera

Feriados

USC.04

Cadastra/Altera

Atrativ os

Figura 28 Use Case Operador

O gerente do sistema possui funções a mais que o operador do sistema, como pode ser

visto no use case da Figura 28.

90

ud USC Sistema

��

��

��

��

��

��

��

��

��

Gerente

USC.02

Cadastra/Altera

Acontecimentos

USC.03

Cadastra/Altera

Feriados

USC.04

Cadastra/Altera

Atrativ os

USC.05 Importa

Dados e Gera

Arquiv o .ARFF,

Minera Dados

Figura 29: Use Case Gerente

A Figura 30 demonstra o diagrama de atividade do sistema, onde mostra os passos que

podem ser seguidos pelo gerente.

As descrições dos cenários relativos a estes use cases encontram-se no Anexo IV.

91

ad Visão lógica

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

��

Inicio

Logon - Tela de Login dosistema

Valida Login e Password

Valida Permissões

Mensagem de erro

Ja efetuou importação de dados ?Inserir/Editar/ExcluirCadastros

Efetuar Mineração

Importa Dados

Efetuou Mineração

VerificaResultados

FIM

Importou ?

Continuar no sistema ?

Apresenta ErroContinuar no sistema ?

Gerou Arquiv o .ARFF

[NÃO]

[SIM]

[SIM]

[NÃO]

[NÃO]

[SIM]

[SIM]

[NÃO]

[NÃO]

[SIM]

[NÃO]

[SIM][NÃO]

[SIM]

[SIM]

[NÃO]

[SIM]

[SIM]

Figura 30: Diagrama de Atividade

3.7 DATA MINING

Conforme a análise demonstrada anteriormente, entre os vários algoritmos os quais já

podem ser utilizados através da ferramenta WEKA, observou-se que o algoritmo Apriori foi o

que melhor teve resultados, devido a algumas de suas associações apresentarem resultados já

92

conhecidos e condizerem com realidades já existentes as quais são de grande valia para a

melhoria do índice de ocupação.

3.7.1 Arquivos do Sistema

Conforme já mencionado, para se efetuar a mineração dos dados utilizou-se a

ferramenta de mineração WEKA, onde para que a mesma pudesse efetuar a mineração gerou-

se arquivos específicos por tipo de informações a serem comparadas, levando-se em

consideração os questionários dos profissionais da área de hotelaria.

Para nível de desempenho do sistema, as importações são efetuadas por tipo de

arquivo a ser gerado, onde alguns dados já são devidamente filtrados na origem, antes mesmo

de importa-los, tal escolha, deu-se para melhora de desempenho, devido a grande quantidade

de registros.

3.7.1.1 Perfil dos Hóspedes

A primeira possibilidade de gerar um arquivo, contém informações proveniente de

tabelas diferentes.

Através do campo CodProfissao na tabela CADHÓSPEDE foi possível retornar o

nome da profissão do hóspedes cadastrado.

Através dos campos CodHóspede na tabela HÓSPEDE, foi possível buscar os dados

dos hóspedes cadastrados na tabela CADHÓSPEDE que já tiveram hospedagem vinculadas

ao cadastro, através do campo Acesso na tabela HÓSPEDE foi possível buscar na tabela

DETESTAT as datas das hospedagens destes hóspedes cadastrados. Após tais filtros o sistema

importou os dados e os gravou na tabela DADOSHOSP, tabela a qual e utilizada para gerar o

arquivo Dados_Hóspedes.csv, o qual cada registro(linha) contém as informações referentes a

uma determinada hospedagem. O arquivo contém os seguintes campos:

CIDADE: Do tipo string, contém a cidade do hóspede, e quando a mesma estiver em

branco assume o valor de ?;

93

ESTADO: Do tipo string, contém o estado do hóspede, e quando a mesma estiver em


PAIS: Do tipo string, contém o País do hóspede, entretanto apenas hóspedes que tem

pais foram integrados no arquivo;

SEXO: Do tipo char (M,F,?), contém o sexo do hóspede, quando esta em branco

sistema define como ?, isso devido ao algoritmo não aceitar campo em branco neste caso;

IDADE: Do tipo integer, contem a idade do hóspede, somente serão gerado idades

acima de 18 anos, sendo que na hora de gerar o arquivo o sistema lê a data de nascimento e

converte para idade, quando a data de nascimento for em branco, a idade vai = 0;

PROFISSAO: Do tipo string, contém a profissão do hóspede, quando esta em branco o

sistema preenche com ?;

INCOGNITO: Do tipo char (S,N,?), corresponde se o hóspede pediu ou não para ser

identificado caso alguém o procure, quando não preenchido o sistema preenche com ? no

momento de gerar o arquivo;

DATAIN: Do tipo date "yyyy-MM-dd", contém a data do dia da entrada do hóspede;

DATAOUT: Do tipo date "yyyy-MM-dd", contém a data do dia da saída do hóspede; e

VALDIARIA: Do tipo real, contém o valor da diária do hóspede na determinada

hospedagem.

3.7.1.2 Eventos Internos por período

A segunda possibilidade de gerar um arquivo, contém informações proveniente de

tabelas diferentes.

Através do campo DataIni e DataFim na tabela RESERVASEVENTOS

correspondente ao período inicial e final do evento, foi efetuado o cruzamento entre os

campos DataIn e DataOut da tabela ESTATISTICA correspondente a data de entrada e saída

do hóspede. Após este cruzamento levanta-se todos os hóspedes que tiveram hospedados no

94

hotel no período do evento. Após tais filtros o sistema importou os dados e os gravou na

tabela EVENTOSEESTATISCITA, tabela a qual e utilizada para gerar o arquivo

Eventos_e_Estatistica.csv, o qual cada registro(linha) contém as informações referentes a

uma determinada hospedagem que esteve enquanto ocorria algum evento. O arquivo contém

os seguintes campos:

EVENTOINTERNO: Do tipo string, contém o nome do evento que ocorreu no hotel;

INICIOEVENTO: Do tipo date "yyyy-MM-dd ", contém a data de inicio do evento

interno;

FIMEVENTO: Do tipo date "yyyy-MM-dd ", contém a data de término do evento

interno;

NRO_PESSOAS: Do tipo interger, contém o número de pessoas que estiveram no

evento;

HOSP_DATAIN: Do tipo date "yyyy-MM-dd ", contém a data de ínicio da

hospedagem do hóspede;

HOSP_DATAOUT: Do tipo date "yyyy-MM-dd ", comtém a data de término da








3.7.1.3 Eventos Externos por Período

A segunda possibilidade de gerar um arquivo, contém informações proveniente de

tabelas diferentes.

95

Primeiramente o sistema importou todos os dados da tabela ESTATISTICA do

DESBRAVADOR para a base do protótipo.

Através do campo DataInicial e DataFinal na tabela ENTACONTECIMENTO

correspondente ao período inicial e final dos acontecimentos (cadastrados pelos usuários tais

como eventos, congressos e outros), efetuado o cruzamento entre os campos DataIn e

DataOut da tabela ESTATISTICA correspondente a data de entrada e saída do hóspede. Após

este cruzamento levanta-se todos os hóspedes que tiveram hospedados no hotel no período

dos acontecimentos cadastrados. Após tais filtros o sistema gravou tais registros na tabela de

trabalho EVENTOSEXTERNOSESTATISCITA, tabela a qual e utilizada para gerar o

arquivo Eventos_Externos_e_Estatistica.csv, o qual cada registro(linha) contém as

informações referentes a uma determinada hospedagem que esteve enquanto ocorria algum

evento. O arquivo contém os seguintes campos:

DESCRICAO: Do tipo string, contém o nome do acontecimento;

INICIOACONTECIMENTO: Do tipo date "yyyy-MM-dd ", contém a data de inicio

do acontecimento;

FIMACONTECIMENTO: Do tipo date "yyyy-MM-dd ", contém a data de término do

acontecimetno;

TIPOACONTECIMENTO: Do tipo String, contém o tipo do acontecimento;

CIDADEACONTECIMENTO: Do tipo String, contém aonde ocorreu o

acontecimento;

HOSP_DATAIN: Do tipo date "yyyy-MM-dd ", contém a data de ínicio da


HOSP_DATAOUT: Do tipo date "yyyy-MM-dd ", comtém a data de término da




96





3.7.2 Mineração dos Dados

Após serem efetuadas a importação e a geração dos arquivos específicos, o usuário

pode executar o passo de mineração, sendo que para tal o sistema irá necessitar do sistema

WEKA devidamente instalado no computador.

3.7.2.1 Integração do Protótipo com WEKA

Para que se possa efetuar a mineração dos dados, existe a necessidade de executar uma

seqüência de passos.

Primeiramente o usuário necessita ser cadastrado no protótipo, possuindo assim um

login e uma senha, conforme mostra a Figura 31.

Figura 31. Tela de Login do Sistema

97

Após efetuar a validação o protótipo abrirá a tela principal onde possibilitara ao

usuário começar a operara-lo. Entretanto para que se possa efetuar a mineração dos dados o

primeiro passo é importar os dados e gerar os arquivos .csv, os quais estão disponibilizados

no menu principal na aba Mineração de Dados. Porém cada opção do menu, possibilidade

de importação e gerações distintas de .csv, conforme mostra a Figura 32.

Figura 32: Tela Principal do Sitema

No menu principal conforme Figura 32 o usuário seleciona qual a opção desejada, e

posteriormente então o sistema apresenta a tela conforme Figura 33 onde realmente se efetua

a importação dos dados e a geração do arquivo .csv referente a tais atributos.

Na tela conforme Figura 33, o sistema apresenta qual tipo de mineração poderá ser

efetuado através de tal arquivo, sendo que somente será liberado a geração do arquivo, após

98

ser efetuado o processo de importação e somente após ser gerado o arquivo o sistema ira

permitir o processo de mineração, como mostra a Figura 33.

Figura 33: Tela Perfil dos Hóspedes x Estatística

Ao término da geração do arquivo .CSV, o sistema libera o botão Mineração de

Dados, que ao ser pressionado, invocará o sistema WEKA, já com todos os atributos

disponíveis para serem minerados.

O Usuário poderá marcar com quais atributos deseja trabalhar, ou se preferir

selecionar todos, conforme mostra letra A, na Figura 34.

O Usuário clica na aba do algoritmo ASSOCIATE, conforma mostra a letra B na

Figura 34.

99

Figura 34: Integração Protótipo x WEKA

Após clicar na aba ASSOCIATE, o usuário deve clicar em STAR, conforme mostra

letra A na Figura 35, para que o WEKA efetue a mineração dos dados e disponibilize

posteriormente.

100

Figura 35: Minerando Dados ASSOCITE.

Quando o sistema apresentar a mensagem dos dados minerados conforme letra B na

Figura 35, o usuário pode clicar na aba VISUALIZE conforme letra C na Figura 35 .

Já minerados os dados o usuário poderá efetuar a visualização dos resultados na tela de

visualização conforme letra A na Figura 36.

Ainda existindo a possibilidade de aumentar o tamanho dos resultados no PlotSize

conforme letra B na Figura 36, visualizar os pontos dos agrupamentos um pouco maior

conforme PointSize na letra C da Figura 36.

101

Figura 36: Tela Visualização Resultados WEKA

3.7.3 Protótipo

O protótipo do sistema apresenta ainda algumas funções que visam melhorar o

desempenho da mineração de dados, conforme já citado a facilidade de cadastros extras

através do protótipo para melhorar o desempenho da mineração de dados.

Na Figura 37 as possibilidades de inserções extras para o sistema, onde o usuário pode

estar incluindo, alterando ou excluindo acontecimentos, atrativos ou feriados, tais opção são

relativos ao inventario turístico regional.

102

Figura 37: Menu Cadastro

Um exemplo da tela padrão de procura, onde pode-se editar, excluir ou incluir novos

registros pode ser visto na Figura 38. Nesta tela ainda pode ser visualizado todos os itens já

cadastrados clicando no botão procura sem nem um item no campo descritivo. A procura

também pode ser efetuada por palavras chaves.

103

Figura 38: Tela Padrão Procura

Ainda na Figura 39 pode-se observar a tela de cadastro de acontecimentos. Nesta tela

o usuário esta incluindo mais um acontecimento, tal inclusão exige algumas informações as

quais são fundamentais para que no momento da interação deste registro com os demais dados

possam ser descobertas novas associações. Por isso todos os campos são obrigatórios.

104

Figura 39: Tela Cadastro Acontecimento

Tais telas são já do protótipo, onde o padrão para as mesmas é sempre o mesmo,

mudando apenas o tipo de dado a ser cadastrado ou procurado, Acontecimentos, Atrativos ou

Feriados.

3.7.4 Escolha do Algoritmo

A escolha do algoritmo APRIORI teve alguns pontos relevantes.

Primeiramente por ele não pega um atributo como base para efetuar as possíveis

combinações e descobrir novos padrões de combinações, mas sim trabalha com todos os

atributos com mesmo peso, possibilitando assim diversas combinações e automaticamente

aumentando as chances de descoberta de novos padrões.

Outro ponto extremamente relevante é a possibilidade de trabalhar com Datas, Strings,

campos numéricos, e campos definidos, coisa que os demais algoritmos não trabalham.

105

O algoritmo que foi assim escolhido para efetuar a análise foi o Apriori este algoritmo

o qual já esta implementado e disponível de código aberto na linguagem java.

106

4 CONCLUSÃO

Este trabalho teve como principal objetivo apresentar um modelo de data mining que

auxilie na melhoria do índice de ocupação do setor hoteleiro, através da descoberta de

conhecimento na base de dados, visando utilizar deste conhecimento para tomadas de

decisões e ações de CRM. A partir deste modelo, foi implementado então o protótipo para

automatizar as etapas propostas.

A Utilização do algoritmo Apriori deu-se por ser apresentar melhores desempenhos

nos testes efetuados e ainda por ser um algoritmo reconhecido na área de mineração de regras

de associação, onde o algoritmo faz diversas interações entre os dados para encontrar

conjuntos de itens e descobrir possíveis padrões de comportamentos.

A análise da estrutura de dados do Desbravador, através de softwares de gerencia de

banco de dados aliado ao conhecimento já obtido pelo tempo de trabalho no mesmo facilitou a

identificação das tabelas e colunas que fizeram correspondência com os dados levantados

junto entrevista dos profissionais da área, onde as respostas com maior índices de respostas

foram as de maior prioridade. Ainda os elementos os quais tiveram maiores índices de

respostas e não continham no sistema desbravador como os dados do inventário turísticos por

exemplo, foram vinculados a tabelas suplementares, tais tabelas com o intuito de um

cadastramento externo e um cruzamento com os dados do Desbravador para então a aplicação

das técnicas de mineração de dados.

Com o levantamento efetuado dos dados a serem importados e os dados a serem

criados em tabelas suplementares mediante as entrevistas, efetuou-se então a modelagem do

sistema e quais possíveis cruzamentos efetuados para geração de do arquivo csv e a

mineração dos dados.

A utilização dos conceitos de Data Mining foi de grande valia para o desenvolvimento

do trabalho e para que isso ser possível, a utilização da ferramenta de código aberto WEKA

foi sem duvidas imprescindível. Tal ferramenta foi de grande valia, pois diversos algoritmos e

assim tornou a parte de testes um quanto mais fácil.

107

O modelo propõe que os dados sejam importados já previamente filtrados da base de

dados de origem, em virtude da otimização de tempo, e da grande quantidade de registros que

já podem ser eliminados em um primeiro passo, usando dos conhecimentos da DCBD. A

Exportação para csv deu-se por motivos de melhoramento de desempenho na mineração

utilizando o WEKA, onde nesta extensão o arquivo torno-se mais prático de ser gerado e

menor que a extensão arff.

Devido a uma quantidade de hóspedes cadastrados com problemas na data do

aniversário, no momento de gerar o arquivo, teve que se efetuar a conversão dos mesmos e

validar pela idade mínima de 18 anos. Cadastros os quais não possuíam data de aniversário

foram atribuídos o valor 0.

Um dos problemas mais graves constatados, foi a da falta de informações

corretamente cadastras, devido a falta de vinculo entre as hospedagens dos hóspedes e seus

respectivos cadastros, sendo assim, no momento da importação dos dados os não vinculados

foram eliminados, fazendo que desta forma nem todos os resultados esperados serão

alcançados, tal problema provem do momento da entrada do hóspede no sistema Desbravador,

onde o vínculo não e feito de forma correta. Outro problema também referente a falta de um

cadastro completo foram nos campos, cidade, estado e país, onde adotou-se por eliminar todos

registros cujo país estivesse em branco.

Entretanto todo esforço foi de grande valia, devido a grande evolução do

conhecimento não somente na área proposta, mas também nos conhecimentos do WEKA e da

linguagem de programação java.

Diante de todo o material estudado, pode-se dizer que a utilização dos conceitos de

CRM para mineração de dados não e tão simples como a maioria das pessoas pensa que é,

principalmente devido ao fato de envolver diversos conceitos, técnicas, variáveis e forma

diferentes de se analisar um mesmo problema.

A validação do sistema deu-se comparando as regras geradas com o questionário dos

profissionais da área, mas tal pode não ser totalmente correto em virtude da possível distorção

ocasionada pela quantidade de registros incompletos que foram descartados.

108

A importância de uma ferramenta como a apresentada é pode ser de grande valia para

profissionais do ramo, onde tal ferramenta bem aplicada pode ser extremamente útil para

tomas de decisões, levantamentos de pontos positivos e negativos em ações já tomadas,

auxiliar em ações de CRM direcionadas para públicos alvos evitando assim a perda de tempo

e de dinheiro. Onde em tempos como os atuais uma pequena tomada de decisão pode

representar muito a utilização correta de uma ferramenta como tal pode representar a

continuidade ou não da empresa no mercado.

109

5 REFERÊNCIAS BIBLIOGRÁFICAS

ABEND. Acessado em 04/2006, Disponível em http://www.abemd.org.br/materias_conteudo.asp?coddocumento=106

ALMEIDA, F. Carvalho de; SIQUEIRA, José de Oliveira; ONUSIC, Luciana M. Data Mining no Contexto de Customer Relationship Management. Universidade de São Paulo – USP, 2005.

ALMEIDA, Leandro Maciel; PADILHA, Thereza Patrícia P. ; OLIVEIRA ,Fernando Luiz De; PREVIERO, Conceição A. Uma Ferramenta para Extração de Padrões Centro Universitário de Palmas.

AMARAL, Fernanda C. N. do. Data Mining – Técnicas e Aplicações Para o Marketing Direto. Ed. Berkeley, São Paulo, 2001.

AMO, Sandra. Técnicas de Mineração de Dados. Universidade Federal de Uberlândia, 2004.

AULICINO, Madalena P., Turismo e estâncias: impactos e benefícios para os municípios, São Paulo, Editora Futura, 2001.

BIGUS, J. P., Data Mining with Neural Network – Solving Business Problems from Application Development to Decision Support, McGraw-Hill, 1996.

BRESOLIN, Mauro L. Estratégia mercadológica visando melhor ocupação dos hotéis situados na região norte da ilha de santa Catarina no período da baixa temporada, Florianópolis, 2001.

BUCCI, Antonio G. CRM: Conceitos e Aplicabilidade. Acesso: 16/03/2005. Disponível em: http://www.bucci.com.br/artigos/CRMart080801.pdf.

CM. Acessado em 04/2006, Disponível em: www.cmsolucoes.com.br

DESBRAVADOR. Acessado em 04/06, Disponível em www.desbravador.com.br

DESBRAVADOR² Acessado em 06/07, Disponível em http://www.desbravador.com.br/data/viewnews.php?ref=31

FALCÃO, Daniela. CRM: Da Antiga Caderneta a Era da Tecnologia. Acessado em 05/2006, Disponível em: www.empreenderparatodos.adm.br/atendimento/mat_15.htm.

FEIJÓ, Fernando. Marketing Hoteleiro. Acessado em 05/2006, Disponível em: www.fernandofeijo.hpg.ig.com.br/mkttur.htm

FERNANDES, Anita M. da Rocha. Inteligência Artificial: Noções Gerais. Visual Books, 2003.

FERNANDES, Anita M. da Rocha. Ambiente Inteligente para apoio a tomada de decisão em investimentos turísticos. UFSC, 2000.

HMAX. Acessado em 04/2006, Disponível em: www.hmax.com.br

LARA,Simone B., Marketing e vendas na hotelaria, São Paulo, Editora Futura, 2001.

110

MARSON, Adriano Fabri. Mineração de Dados e suas aplicações à CRM. Unidade Acadêmica da Área de Ciências Exatas e Tecnológicas – Universidade São Francisco, Itatiba, 2003.

OLIVEIRA, Antônio P., Turismo e desenvolvimento: planejamento e gestão, 2a. Edição, São Paulo, Editora Atlas, 2000.

PAULA, Marcelo Vicente. Explorando o Potencial da Plataforma Lattes como Fonte de Conhecimento Organizacional em Ciência e Tecnologia, Universidade Católica de Brasília, 2004.

PACHECO, Marco A.; VELLASCO, Marley; LOPES, Carlos H. Descoberta de Conhecimento e Mineração de Dados. Laboratório de Inteligência Computacional Aplicada - PUC, Rio de Janeiro, 2000.

PEDRON, Cristiane Drebes. Estratégia De Crm: Em Direção À Identificação de Indicadores de Desempenho. São Leopoldo, 2000.

RUSSEL, Stuart; NORVING, Peter. Inteligência Artificial. 2ª Edição, ELSEVIER, São Paulo, 2004.

SANCHES, André R. Uma Visão Geral Sobre Mineração de Dados. São Paulo, Novembro de 2003.

SANTOS, José Gonçalo dos. Mineração de Dados Aplicada a Gestão de Relacionamento com Clientes. Vol. 6, ULBRA, Santarém, 2005.

SANTOS, Rafael. Princípios e Aplicações de Mineração de Dados. Instituto Nacional de Pesquisas Espaciais. Acessado em 06/2006. Disponível em : www.lac.inpe.br/_rafael.santos/cap.html

TEIXEIRA, João Carlos de Aquino. A Importância do Marketing. Laboratório de Propaganda e Marketing da UNIC, março de 1999.

TORRE, Francisco de la, Administração hoteleira:parte1-departamentos, São Paulo, Editora Roca, 2001.

TREARLING, Kurt. Data Mining e CRM. Acessado em 05/2006. Disponível em : http://www.wgsystems.com.br/artigos/thearling1.htm

VALENTE, Thais R. G. Marketing de Relacionamento e CRM: Uma Análise da Gestão de Clientes no Setor Financeiro. Universidade de São Paulo, São Paulo, 2002.

VASCONCELOS, Benitz de Souza. Mineração de Regras de Classificação com Sistemas de Banco de Dados Objeto-Relacional. Campina Grande, Dezembro de 2002.

Download - UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS ...siaibib01.univali.br/pdf/Jociel Gamba.pdf · alimentado pelo sistema DESBRAVADOR, e os dados referentes ao inventário turístico

Top Related