UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR
CURSO DE CIÊNCIA DA COMPUTAÇÃO
DESENVOLVIMENTO DE UM DATA MINING QUE AUXILIE NA MELHORIA DOS ÍNDICE DA OCUPAÇÃO DO SETOR HOTELEIRO
Inteligência Artificial
por
Jociel Gamba
Anita Maria da Rocha Fernandes, Dra Orientadora
São José (SC), Julho de 2007
UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR
CURSO DE CIÊNCIA DA COMPUTAÇÃO
DESENVOLVIMENTO DE UM DATA MINING QUE AUXILIE NA MELHORIA DOS ÍNDICE DA OCUPAÇÃO DO SETOR HOTELEIRO
Área de Inteligência Artificial
por
Jociel Gamba Relatório apresentado à Banca Examinadora do Trabalho de Conclusão do Curso de Ciência da Computação para análise e aprovação. Orientador: Anita Maria da Rocha Fernandes Dra
Itajaí (SC), Julho de 2007
SUMÁRIO
LISTA DE ABREVIATURAS E SIGLAS ...............................................v
LISTAS DE FIGURAS............................................................................. vi LISTAS DE TABELAS ........................................................................... vii RESUMO ................................................................................................. viii ABSTRACT ............................................................................................... ix
1 INTRODUÇÃO ......................................................................................1 1.1 CONTEXTUALIZAÇÃO ................................................................................3 1.2 PROBLEMA.....................................................................................................4 1.3 OBJETIVOS .....................................................................................................5 1.3.1 Objetivo geral .................................................................................................5 1.3.2 Objetivos específicos ......................................................................................5 1.3.3 Escopo e delimitação do trabalho..................................................................6 1.4 JUSTIFICATIVA .............................................................................................6 1.5 ASPECTOS METODOLÓGICOS..................................................................6
2 FUNDAMENTAÇÀO TEÓRICA ........................................................8 2.1 CRM ..................................................................................................................8 2.2 O CICLO DE NEGÓCIO DE CRM.............................................................. 13 2.2.1 Entenda e diferencie..................................................................................... 14 2.2.2 Desenvolva e Personalize ............................................................................. 15 2.2.3 Interaja e Entregue ...................................................................................... 16 2.2.4 Adquira e Retenha ....................................................................................... 17 2.3 CRM ANALÍTICO e CRM OPERACIONAL.............................................. 18 2.4 PERFIL DO CRM NO BRASIL.................................................................... 21 2.5 O CRM NO SETOR TURÍSTICO ................................................................ 22 2.6 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS (DCBD) 23 2.7 FASES DA DCBD........................................................................................... 24 2.7.1 Modelo de DCBD segundo Paula(2004) ...................................................... 27 2.8 DATA MINING .............................................................................................. 29 2.9 Objetivos primários da mineração de dados................................................. 30 2.10 Técnicas utilizadas no processo de mineração de dados............................... 31 2.10.1 Associação..................................................................................................... 32 2.10.2 Seqüência ...................................................................................................... 36 2.10.3 Agrupamentos .............................................................................................. 36 2.10.4 Classificação ................................................................................................. 37 2.11 Técnicas de Auxílio a Mineração de Dados................................................... 40 2.11.1 Redes Neurais ............................................................................................... 40 2.11.2 Algoritmos Genéticos ................................................................................... 42
iii
2.11.3 Métodos Estatísticos..................................................................................... 44 2.11.4 Métodos Lineares ......................................................................................... 49 2.12 A RELEVÂNCIA DO DATA MINING PARA O CRM ............................... 49 2.13 DM NO CONTEXTO DO CRM.................................................................... 52 2.14 Benefícios da Utilização da Técnica............................................................... 54 2.15 Exemplos de Utilização de CRM e DM ......................................................... 55 2.15.1 Rede de lojas................................................................................................. 55 2.15.2 Companhia Telefônica ................................................................................. 56 2.16 TURISMO....................................................................................................... 56 2.16.1 Fatores determinantes da Demanda Turística ........................................... 57 2.16.2 Inventário Turístico ..................................................................................... 58 2.17 Softwares Analizados...................................................................................... 59 2.17.1 Ferramenta de CRM.................................................................................... 59 2.17.2 Ferramentas DM .......................................................................................... 60 2.18 FERRAMENTA WEKA ................................................................................ 61 2.19 Descrição dos pacotes Weka........................................................................... 62 2.20 Arquivos de Entrada ...................................................................................... 64 2.21 Algoritmos WEKA.......................................................................................... 65 2.21.1 Associação..................................................................................................... 65 2.21.2 Cluster........................................................................................................... 65 2.21.3 Classificadores.............................................................................................. 66 2.22 Interface do WEKA........................................................................................ 66 2.23 DIFICULDADE DE INTERAÇÃO INVENTÁRIO TURÍSTICO E SOFTWARES DE CRM/DM ................................................................................ 70
3 DESENVOLVIMENTO.......................................................................72 3.1 ENTREVISTAS JUNTO AOS PROFISSIONAIS DE HOTELARIA ........ 72 3.2 SELEÇÃO DOS DADOS ............................................................................... 78 3.2.1 Tabelas Suplementares ................................................................................ 80 3.3 PRÉ-PROCESSAMENTO............................................................................. 81 3.4 TRANSFORMAÇÃO..................................................................................... 82 3.5 MINERAÇÃO DE DADOS............................................................................ 83 3.5.1 Interpretação e Validação............................................................................ 85 3.6 MODELAGEM DO SISTEMA ..................................................................... 87 3.6.1 Requisitos Funcionais dos Sistema.............................................................. 87 3.6.2 Requisitos não Funcionais do Sistema ........................................................ 87 3.6.3 Regras de Negócio ........................................................................................ 88 3.6.4 Use Cases ...................................................................................................... 88 3.7 DATA MINING .............................................................................................. 91 3.7.1 Arquivos do Sistema..................................................................................... 92 3.7.2 Mineração dos Dados ................................................................................... 96
iv
3.7.3 Protótipo ..................................................................................................... 101 3.7.4 Escolha do Algoritmo................................................................................. 104
4 CONCLUSÃO.................................................................................... 106
5 REFERÊNCIAS BIBLIOGRÁFICAS ............................................ 109
v
LISTA DE ABREVIATURAS E SIGLAS
ABEMD Associação Brasileira de Marketing Direto CRM Customer Relationship Management DCBD Descoberta de Conhecimento em Base de Dados DM Data Mining EMBRATUR Empresa Brasileira de Turismo IBRE Instituto Brasileiro de Economia KDD Knowledge Discovery in Databases MD Mineração de Dados RB Rede Bayesiana RNA Rede Neural Artificial SFA Sales Force Automation SQL Structured Query Language TCC Trabalho de Conclusão de Curso TFA Techinical Force Automation TI Tecnologia da Informação UML Unified Modeling Language WWW Wold Wide Web
vi
LISTAS DE FIGURAS
Figura 1.Tempo de vendas. MANUAL x CRM .......................................................................12 Figura 2. Ciclo do CRM ...........................................................................................................13 Figura 3. Custos dos Clientes ...................................................................................................18 Figura 4 CRM Operacional, Analítico e Colaborativo.............................................................20 Figura 5. CRM do Brasil ..........................................................................................................21 Figura 6. Pirâmide do conhecimento........................................................................................24 Figura 7. Fases DCBD.............................................................................................................26 Figura 8. Fases DCBD..............................................................................................................27 Figura 9. Fases DCBD..............................................................................................................29 Figura 10. Fases Mineração de dados.......................................................................................31 Figura 11. Exemplo de Regra de Associação ...........................................................................35 Figura 12. Modelo de Rede Neural Artificial...........................................................................41 Figura 13. RNA no DM............................................................................................................42 Figura 14. Ciclo Algoritmo Genético .......................................................................................44 Figura 15 Árvore de Decisão....................................................................................................48 Figura 16 Ciclo do CRM ..........................................................................................................53 Figura 17.CRM Gráfico de Ganho ...........................................................................................54 Figura 18. Relação dos pacotes ................................................................................................63 Figura 19. Arquivo entrada .CSV.............................................................................................65 Figura 20.Tela Explorer WEKA...............................................................................................67 Figura 21. Tela 2 WEKA..........................................................................................................68 Figura 22. Tela 3 WEKA..........................................................................................................69 Figura 23. Tela 4 WEKA..........................................................................................................70 Figura 24 Arquivo .CSV...........................................................................................................83 Figura 25 Teste Algoritmo Classificação .................................................................................84 Figura 26 Teste Algoritmo Clusterização.................................................................................85 Figura 27 Teste Algoritmo Apriori...........................................................................................86 Figura 28 Use Case Operador...................................................................................................89 Figura 29: Use Case Gerente ....................................................................................................90 Figura 30: Diagrama de Atividade ...........................................................................................91 Figura 31. Tela de Login do Sistema........................................................................................96 Figura 32: Tela Principal do Sitema.........................................................................................97 Figura 33: Tela Perfil dos Hóspedes x Estatística ....................................................................98 Figura 34: Integração Protótipo x WEKA................................................................................99 Figura 35: Minerando Dados ASSOCITE..............................................................................100 Figura 36: Tela Visualização Resultados WEKA ..................................................................101 Figura 37: Menu Cadastro ......................................................................................................102 Figura 38: Tela Padrão Procura ..............................................................................................103 Figura 39: Tela Cadastro Acontecimento...............................................................................104
vii
LISTAS DE TABELAS
Tabela 1. Exemplo de Associação............................................................................................33 Tabela 2. Exemplo de Regra de Classificação .........................................................................39 Tabela 3: Funções.....................................................................................................................72 Tabela 4: Tempo de Atuação....................................................................................................73 Tabela 5: Número de Apartamentos.........................................................................................73 Tabela 6: Publico Habitue ........................................................................................................73 Tabela 7: Faixa Etária...............................................................................................................74 Tabela 8: Meses de Baixa Ocupação........................................................................................74 Tabela 9: Principais Estados Freqüentadores ...........................................................................75 Tabela 10: Levantamento de Dados para Cruzamento.............................................................76 Tabela 11: Feriados nacionais e municipais. ............................................................................77 Tabela 12: Informações para melhoria da ocupação. ...............................................................78
viii
RESUMO
GAMBA, Jociel . Desenvolvimento de um Data Mining que auxilie na Melhoria
Dos Índice Da Ocupação Do Setor Hoteleiro. São José, 2007. Trabalho de Conclusão de
Curso (Graduação em Ciências da Computação) – Centro de Ciências Tecnológicas da Terra e
do Mar, Universidade do Vale do Itajaí, São José, 2007.
Com a análise do mercado hoteleiro pode-se observar a grande necessidade de um melhor aproveitamento dos dados, onde através destes muitas informações importantes até então desconhecidas poderiam ser observadas, e assim fornecer um suporte a toma de decisões e possíveis campanhas de marketing direcionadas, onde seus resultados possibilitariam proporcionar uma melhoria dos índices de ocupação nos períodos de sazonalidade. Assim a proposta de um protótipo que efetua o cruzamento desta base de dados juntamente com dados do inventário turístico regional, e posteriormente aplique as técnicas de data mining nos mesmos. Visando resultados com que possibilitem a descoberta do conhecimento até então implícito nos dados, conhecimento o qual forneceria base para o entendimento de determinadas oscilações, e assim possibilite a tomada de decisões, visando a melhoria destes índices de baixa ocupação. Como base para o tipo de informação necessária e útil para os gestores da área tomarem estas decisões, foram entrevistados diversos especialistas da área de hotelaria, através destes resultados, foram identificados campos existentes na base de dados do hotel o qual é alimentado pelo sistema DESBRAVADOR, e os dados referentes ao inventário turístico regional Aplicando ainda diversos conceitos e conhecimentos sobre mineração de dados e CRM, retirados de diversos autores os quais muitas vezes possuem opiniões e conceitos diferentes para o mesmo assunto.
ix
ABSTRACT
With the analysis of the hotel market the great necessity of one better exploitation of
the data of the same ones for improvement of its indices of occupation and for one better
application of the CRM concepts can be observed. In virtue of this the proposal of an
archetype that assists in the improvement of these indices through the crossing of data which
the companies already possess in its great databases, date technique manning. Such
application still integrates the data of the regional tourist Inventory with the data base of the
hotel, and on of a crossing of the same ones it applies the date algorithms mining in order to
discover information that until then were not observed, or even though known For such, the
work explores diverse concepts and knowledge on mining of data and CRM, removed of
diverse authors which many times the same possess different opinions and concepts for
subject.
1
1 INTRODUÇÃO
Pode-se caracterizar a atividade de uma empresa hoteleira como sendo prestadora de
serviços, tendo como principal meta o aluguel de unidades habitacionais. Diferencia-se por
apresentar grande interação entre o prestador e o usuário do serviço, constante simultaneidade
entre a aquisição e a utilização do serviço, e impossibilidade de estocagem do serviço
produzido, com conseqüente total perecibilidade do serviço oferecido ao mercado
consumidor.
A empresa hoteleira constitui-se como essencial à infra-estrutura da atividade turística,
tornando-se um dos sustentáculos principais para a fixação e o desenvolvimento desse
mercado turístico. (OLIVEIRA, 2000).
Aliadas à atividade principal, que é a de oferecer hospedagem, as empresas hoteleiras
possuem a capacidade de atuar fortemente nas áreas de alimentação, bebidas e eventos,
completando e qualificando a prestação dos seus serviços. Permitem um envolvimento
contínuo com o seu mercado consumidor, caracterizando uma atividade completa e complexa,
em constante transformação e adaptação às novas realidades tecnológicas e de mercado, que
aumentam as possibilidades de disputar o mercado e diminuem a previsibilidade de conquista
desse mercado (BRESOLIN, 2001).
Devido a maioria dos empreendimentos hoteleiros possuir fases de alta e baixa
temporada, a descontinuidade ocupacional impossibilita a sobrevivência operacional
completa. Isto descaracteriza e reduz a mão-de-obra treinada e a participação no mercado,
com conseqüentes perdas financeiras, por falta de faturamento, e perdas materiais de
patrimônio e equipamentos, pela ociosidade imposta. Caracteriza-se assim, os períodos
chamados de alta e baixa temporada (ibidem).
A realidade com que se deparam o administradores dos empreendimentos hoteleiros,
força os mesmos a necessidade de criar a possibilidade de operar e ocupar o negócio de
hospedagens juntamente com seus eventos associados, em regime contínuo, de forma a
superar as diferentes estações climáticas, adaptando e adequando o serviço prestado ao uso de
seus hóspedes. Com isso, fomenta-se existência do turismo receptivo no período de baixa
temporada, superando deficiências e criando afinidades do produto com o consumidor.
2
Estratégia que se constitui num desafio a mercados concorrentes estruturados, numerosos
e variados, num ambiente altamente competitivo e exigente.
A sazonalidade que ocorre nos diversos centros turísticos, depara-se sempre com
situações semelhantes de ociosidade ocupacional e operacional, com as conseqüentes perdas
financeiras, patrimoniais e de mão-de-obra, em que cada região procura soluções que
resolvam a descontinuidade operacional, em situações particularizadas e exclusivas de
resultados.
Portanto, cada região deve procurar descobrir suas vantagens disponibilizadas e
específicas, próprias do seu ambiente estabelecido. Cada uma delas deverá buscar sua solução
específica adequada, aproveitando-se de suas particularidades individualizadas.
Assim como as causas do problema de descontinuidade ocupacional são distintas e
específicas para cada região, a busca por soluções para o problema deve contar com as
características locais, para dar suporte e continuidade aos resultados positivos esperados.
Dentro deste contexto, as empresas de automação do setor hoteleiro vêm buscando
novas técnicas para auxiliar em tomadas de decisão estratégicas que ajudem na diminuição da
ociosidade dos hotéis na baixa temporada.
Atualmente a nível regional existem algumas empresas que se destacam na automação
hoteleira: Desbravador CM Soluções e HMax.
O software da CM Solução é utilizado basicamente por redes de hotéis, tais como
IBIS, ACCOR entre outras (CM, 2006).
O HMAX já e um programa mais recente no mercado e possui uma quantidade restrita
de recursos, e atende a demanda de pequenos e médios hotéis (HMAX, 2006).
Já o DESBRAVADOR é um produto de alguns anos de mercado que atende desde
pequenas pousadas ate hotéis maiores, principalmente os que são mono – hotéis (hotéis que
não possuem redes). Suas funções atendem a diversas áreas dentro do mesmo, porém sua
parte de CRM (Customer Relationship Management) apresenta algumas restrições quanto ao
cruzamento e levantamento dos relacionamentos entre as variáveis da base. Desta forma, para
uma tomada de decisão estratégica fica restrita a sua principal função, que é a confecção de
3
mala direta para clientes com características específicas, a partir de grupos de afinidades
previamente definidos (grupos de clientes, grupos de afinidades, grupos de preferências)
(DESBRAVADOR,2006).
O envio de malas diretas sem um direcionamento bem definido e compatível com o
cliente, geralmente leva a perda de dinheiro e não traz o retorno ocupacional desejado. Há
necessidade de um conhecimento profundo dos clientes e das alternativas de situações para
que os mesmos freqüentem o hotel fora da temporada. Para evitar tais problemas, o projeto
propõe o desenvolvimento de um data mining, o qual cruzará e levantará possíveis
relacionamentos na base de dados que facilitem a identificação dos perfis dos clientes com
grande potencial de retorno mediante uma ação de mala direta.
1.1 CONTEXTUALIZAÇÃO
Com o início da baixa temporada, os empreendimentos hoteleiros experimentam uma
época de ociosidade operacional, devido ao período sazonal de pouca densidade de ocupação,
tendo como conseqüência a ocupação inadequada dos empreendimentos que se caracteriza
como um período de despesas contínuas de manutenção e operação, aliada a uma drástica
redução de receitas que desequilibram completamente as suas capacidades financeiras
(AULICINO, 2001).
A questão maior que passa a ser enfocada, tornando-se o grande desafio do gestor do
empreendimento hoteleiro, é justamente a possibilidade de criar mecanismos que
incrementem a utilização dos empreendimentos hoteleiros no período de baixa temporada,
visando a um crescimento da ocupação nessa época sazonal que permita a geração de receitas
suficientes para fazer frente às despesas e operar, cada vez mais, os empreendimentos com
qualidade de serviços prestados, de modo a caracterizar a região como um destino turístico de
lazer procurado e disputado pelo mercado (LARA, 2001).
Para isto, faz-se necessário que os hotéis trabalhem melhor com as informações
disponibilizadas em suas bases de dados, a fim de descobrir o perfil ou grupos de perfis
corretos dos seus hóspedes e a partir daí estabelecer políticas mais eficientes que aumentem o
índice de ocupação na baixa temporada, bem como incremente a ocupação na alta temporada.
4
Neste sentido este projeto usa a técnica de data mining (mineração de dados). A
mineração de dados é uma descoberta eficiente de informações válidas e não óbvias de uma
grande coleção de dados (BIGUS, 1996).
A proposta de extrair conhecimento de banco de dados surgiu devido a explosão do
crescimento da quantidade de dados armazenados em meios magnéticos e da necessidade de
aproveitá-los, motivada pela “fome de conhecimento”. Outro fator que contribuiu em muito
para aumento do interesse em mineração de dados foi o desenvolvimento das técnicas de
machine learning - redes neurais artificiais, algoritmos genéticos, entre outras, que tornaram a
descoberta de relações interessantes em bases de dados mais atrativa.
Quando se fala de mineração de dados não está se considerando apenas consultas
complexas e elaboradas que visam ratificar uma hipótese gerada por um usuário em função
dos relacionamentos existentes entre os dados, e sim da descoberta de novos fatos,
regularidades, restrições, padrões e relacionamentos. Para a descoberta destes padrões, o
executor da mineração dos dados, pode utilizar várias ferramentas e técnicas para atingir o seu
objetivo e ser bem sucedido, entre tais, as ferramentas mais utilizadas são aquelas baseadas
em consulta a bases de dados, linguagem SQL (Structured Query Language), pois permite
que o executor possa obter uma análise preliminar dos dados.
1.2 PROBLEMA
Os hotéis de uma maneira geral, possuem um banco de dados com informações
referentes aos seus hóspedes. Informações estas, que estão desvinculadas de muitos elementos
do inventário turístico da cidade, tais como datas comemorativas ou eventos regionais,
nacionais e internacionais que possam ocorrer. Novos empreendimentos de entretenimento,
tais como parques temáticos não são cruzados e analisados com o perfil do hóspede destes
hotéis. As informações referentes a empresas existentes na região, para efeito de reuniões de
negócios também não são consideradas.
Os hotéis se restringem em sua maioria a criar grupos de afinidades de clientes, porém
estes grupos não são vinculados ao inventário turístico da cidade.
5
Sendo assim, a utilização de data mining auxilia o cruzamento e análise destes
dados, gerando uma associação entre o perfil dos hóspedes e o inventário turístico da cidade
e/ou região.
1.3 OBJETIVOS
1.3.1 Objetivo geral
Desenvolver um data mining que auxilie na melhoria do índice de ocupação do setor
hoteleiro, através da descoberta de conhecimento na base de dados, visando utilizar deste
conhecimento para tomadas de decisões e ações de CRM.
1.3.2 Objetivos específicos
Analisar a estrutura de dados do DESBRAVADOR, por ser este o software de
automação ser o mais lembrado no setor hoteleiro segundo pesquisa da Revista Hotelaria
2006-2007 DESBRAVADOR²,
• Analisar os elementos que compõem o inventário turístico de uma cidade;
• Estabelecer os dados dos hóspedes e do inventário que devem compor o sistema,
baseado nas entrevistas com profissionais da área;
• Analisar a importação dos dados relativos ao hóspede à partir da base de dados do
DESBRAVADOR;
• Modelar o sistema considerando os dados que serão importados, os dados do
inventário que serão cadastrados, e os relatórios que serão gerados;
• Estabelecer qual algoritmo de Data Mining a ser utilizado;
• Implementar o sistema; e
• Efetuar os devidos testes para a validação do sistema.
6
1.3.3 Escopo e delimitação do trabalho
Este trabalho enfoca os dados pré-estabelecidos na base de dados do sistema
DESBRAVADOR, no que se refere a hóspedes e informações provenientes dos mesmos. Isso
se deve ao fato de que se necessita de dados reais para uma análise coerente do Data Mining.
Em virtude de autorização de uso da base de dados, este trabalho é baseado nos dados
de apenas um hotel. Não sendo considerado aqui os casos de redes hoteleiras.
1.4 JUSTIFICATIVA
Devido ao conhecimento e experiência do acadêmico na área de gestão hoteleira ao
longo de cinco anos, verificou-se a deficiência em alguns aspectos estratégicos dos sistemas
utilizados pelos hotéis no que se refere ao CRM.
As ferramentas atuais conhecidas não fazem um relacionamento entre algumas
informações tais como os dados dos Hóspedes x Informações do inventário turístico regional,
bem como a análise automática de algumas informações para a classificação do cliente em
grupos de afinidades.
Sendo assim a aplicação de data mining se faz pertinente para este problema.
1.5 ASPECTOS METODOLÓGICOS
A metodologia a ser seguida para o desenvolvimento deste trabalho contemplou as
etapas descritas a seguir.
Analisou-se toda a estrutura de dados do sistema DESBRAVADOR, com suas
respectivas tabelas e relacionamentos.
Foram estudados os dados que compõem o formulário RINTUR estabelecido pela
EMBRATUR para inventários turísticos. Em seguida foram estabelecidos todos os dados dos
hóspedes e do inventário que compõe o sistema, e quais seriam os cruzamentos de
informações efetuados.
Foram analisados quais os pontos mais relevantes para um melhoramento na taxa de
ocupação, juntamente com gerentes da área hoteleira. Em seguida analisou-se quais os dados
7
relativos aos hóspedes que eram realmente importados da base de dados do sistema
DESBRAVADOR, e quais seriam inseridos manualmente.
Após este levantamento de dados efetuou-se a modelagem do sistema através de
UML(Unified Modeling Language) considerando os dados que seriam importados, os dados
do inventário que seriam cadastrados, e os relatórios que seriam gerados, com suas respectivas
interfaces.
O passo seguinte foi a análise do algoritmo que melhor se aplicava ao problema, e
assim foi escolhido o Apriori.
Em seguida implementou-se o sistema utilizando a tecnologia JAVA, e o banco de
dados MYSQL.
Para validar os resultados foi utilizado o conhecimento e experiência do gerente do
hotel do qual foram utilizados todos os dados, onde o mesmo efetuou a análise e aceitação ou
não dos resultados.
2 FUNDAMENTAÇÀO TEÓRICA
2.1 CRM
Devido à globalização, modificações significativas vêm ocorrendo nos padrões de
mercado em todos os setores. Tais alterações afetam tanto os padrões das empresas, quanto os
padrões de mercado, tornando o cliente um alvo móvel, de difícil identificação. Neste novo
mercado o cliente não adquire um produto baseado apenas nos meios tradicionais, ou seja,
considerando produto, preço e local de venda, mas também observa vendas, serviço, imagem
percebida, suporte e atendimento, com altos padrões de qualidade e exigência, buscando a
melhor relação custo/beneficio (FALCÃO, 2006).
Por sua vez, as empresas para poderem atingir tais padrões necessitam adequar-se
constantemente aos padrões impostos pelo mercado, e para isso surge a necessidade de
arquivar todas as informações dos clientes. Informações estas que ficam cada vez mais
difíceis de serem gerenciadas. Pois, em tempos passados tudo era controlado de forma
extremamente fácil sem qualquer tipo de utilização da informática, simplesmente utilizando
uma pequena ficha cadastral com algumas informações pessoais, que posteriormente eram
arquivadas e manipuladas manualmente, entretanto, atualmente nas grandes redes onde a
quantidade de clientes com padrões pessoais diferentes é muito grande, tal controle manual
ficou extremamente complicado devido o tamanho das bases de dados e a velocidade com que
elas aumentam(ibidem).
Mediante tal problema surge a necessidade da implementação de uma ferramenta
tecnológica cujo intuito é auxiliar a gerência de relacionamento comunicar-se de forma mais
eficiente com seus clientes, utilizado para isso as informações já conhecidas armazenadas na
base de dados da empresa. Tal ferramenta deve tratar, processar, analisar e distribuir os
resultados dessa análise de forma que tal conhecimento obtido seja utilizado para interagir
com os clientes através da melhor forma possível. (BUCCI, 2000, p.2).
Surge então através da tecnologia da informação e do marketing de relacionamento a
criação do CRM (Customer Relationship Management).
9
Segundo o Gartner Group ( 2002, apud VALENTE,2002), CRM é uma estratégia de negócios voltada ao entendimento e a antecipação das necessidades dos clientes atuais e potenciais de uma empresa. Do ponto de vista tecnológico, CRM significa capturar os dados do cliente ao longo de toda a empresa, consolidar todos os dados capturados interna e externamente em um banco de dados central, analisar os dados consolidados, distribuir os resultados dessa análise aos vários pontos de contato do cliente e usar essa informação ao interagir com o cliente através de qualquer ponto de contato com a empresa.
Para Thompson (2001,p.4 apud VALENTE,2002) Customer Relationship
Management(CRM) é o processo de negócio que visa selecionar e gerenciar as mais valiosas relações com os clientes. Esta estratégia requer uma filosofia de negócios centrada no cliente e uma cultura empresarial que de suporte aos processos de marketing, vendas e serviços. As aplicações de CRM permitem um relacionamento bem sucedido com o cliente, desde que as empresas possuam liderança, estratégia e cultura.
A acirrada concorrência e as mudanças constantes que ocorrem com o comportamento
do consumidor, forçou para que as informações armazenadas nas grandes bases de dados
fossem utilizadas visando melhor os serviços prestados para com o cliente, e diante de tal
situação foi onde a utilização do CRM ganhou grande ênfase.
Isso não significa que outras atividades não tenham importância nas organizações.
Entretanto, como o CRM é que está diretamente ligado aos clientes, possui uma força que
impulsiona as outras funções, o mesmo deve possuir um papel fundamental nos processos de
gestão absorvendo e mantendo a lealdade e fidelidade dos consumidores a empresa.
O CRM é a concentração total ao cliente, respeito total por ele. Não a bajulação, o
sorriso forçado frente ao mesmo. Mas sim uma preocupação constante em identificar suas
reais necessidades, direcionando todas as atividades das empresas a essas necessidades,
visando explorar uma nova oportunidade de negócio (TEIXEIRA, 1999, np).
Com a utilização de tal ferramenta, além do grande benefício direto proporcionado por
um atendimento mais ágil devido a empresa saber exatamente qual o nível de exigência, as
preferências, os defeitos, as dúvidas e o potencial econômico de seu cliente, também
proporciona um grande potencial de ganho indireto a diversos outros setores.
Este ganho provem das possibilidades de programações distintas, como a adequação
exata ao mercado mediante os períodos decorrentes ou até mesmo a programação de vendas
futuras mediante promoções realizadas. Tal programação proporciona ganhos no estoque
mediante controle das compras vendas e negociações de preços frente as grandes compras
efetuadas. Melhora o gerenciamento pessoal, mantendo sempre quadros fixos de funcionários,
10
que por sua vez, com um maior conhecimento dos padrões da empresa proporcionam
uma melhor excelência no atendimento dos clientes, aumentando diretamente os seus índices
de satisfação e proporcionando aumento da fidelização dos mesmos.
De maneira geral as empresas através dos tempos vinham desenvolvendo sempre suas
campanhas de marketing em cima do produto, e posteriormente aplicando as técnicas
conhecidas como marketing de massa. Tal técnica provinha da utilização dos dados
resultantes das pesquisas de mercado focalizadas por segmentos e não por individualização
(SANTOS, 2005, p. 29-30).
Após tal pesquisa eram lançadas tais campanhas para tipo de público exato,
observando uma pequena margem de erros. Porém tais campanhas não levavam em
consideração um fator muito importante o qual deve ser observado, que cada ser é único e
possui gostos e hábitos diferentes uns dos outros. Tais aspectos começaram a ser então
observados e as estratégias começaram a ser modificadas, mas este processo é lento e faz com
que a visão do foco deixe de ser o produto e comece a ser o cliente (Bayer, 2002 apud
PEDRON, 2003, p.23-25).
Esta visão também possibilitou que empresas obtivessem a concepção de identifica os
clientes mais rentáveis para a mesma. Alguns acabam tendo um alto custo e geram uma
pequena margem de lucro, já outros apresentam um custo menor e uma alta lucratividade.
Estes clientes devem ser tratados de forma privilegiada, continuando sempre tal lucratividade,
e para isso o ponto certo é conhecê-los muito bem, conhecendo ao máximo seus gostos, seus
hábitos, enfim todas suas informações pessoais que possam ser utilizadas em forma de um
marketing direcionado a agradá-lo tornando um cliente habitue e fiel (SANTOS, 2005, P.29-
31).
O CRM também pode auxiliar no aumento da lucratividade, ganhando vantagem
competitiva, melhoria da tecnologia, automatizando diversos processos, como vendas,
marketing, serviços entre outros. Auxilia na integração de pessoas, processos e tecnologias
para otimizar o gerenciamento de todos os relacionamentos, incluindo consumidores,
parceiros de negócios e canais de distribuição. (SANTOS,2005, p.30)
Para Bucci, ( 2000,p.2), CRM consiste em:
11
• Ajudar a empresa permitindo que ela venha a identificar e alvejar seus
melhores clientes, controlar campanhas do marketing com objetivos e metas
claras, gerar leads da qualidade para a equipe das vendas, melhorar as estratégias
visando transformar clientes menores em melhores clientes e ainda recuperar
clientes perdidos aumentando a lucratividade; e
• Ajudar a melhorar a gerência de vendas, otimizando o compartilhamento das
informações nas diversas áreas da empresa, dinamizando os processos existentes
reduzindo os custos. Permitindo a formação de relacionamentos individualizados
com clientes, com o alvo de melhorar a satisfação do cliente e de maximizar
lucros; identificando os clientes mais lucrativos e fornecendo o nível o mais
adequado do serviço.
Atualmente o CRM vem comportando-se como um grande diferencial competitivo.
Para maioria das empresas é difícil, se não impossível, competir sem ele. Os avanços da
tecnologia permitiram a réplica próxima e muito rápida das funções do produto. Pois em
período curtos de tempo um produto acaba saturando no mercado.
Por isso a Gerência do relacionamento do cliente torna – se cada vez mais importante
onde a habilidade de vender mais inteligentemente e de prestar serviços de suporte aliado à
experiência diferenciar-se. Afim de tornar possível a razão para os clientes freqüentarem seu
negócio mais do que o dos seus concorrentes.
De acordo com Kotler (1998, p.617 apud VALENTE, 2002, p.82) os princípios da
venda pessoal e da negociação são descritos como orientados para a transação. Isto é, seu
propósito é ajudar o vendedor a fechar uma venda específica com um cliente. No entanto o
interesse da empresa não é apenas efetuar uma venda, mas sim fidelizar o cliente.
Segundo Valente (2003, p.82), os resultados da pesquisa realizada pela Direct
Marketing Education Foundation em conjunto com algumas universidades americanas,
comparou um grupo de empresas que trabalhava de forma tradicional e outro que utilizava o
CRM como apoio a vendas.
No primeiro grupo que trabalhava de forma manual foi observado que a equipe de
vendas gasta 2/3 de seu tempo para identificar e qualificar clientes e apenas 1/3 na negociação
a qual é a parte mais importante.
12
a na Figura 1.
O CRM engloba diversas áreas da empresa, e requer que todas trabalhem juntos em
harmonia, mas CRM requer também que todas as áreas da organização trabalhem com o
objetivo comum de um relacionamento mais forte com o cliente. Pois se um dos setores da
empresa não se comprometer devidamente como deve, possibilita o risco de quebrar com todo
o trabalho realizado pelo restante da equipe.
Figura 1.Tempo de vendas. MANUAL x CRM
FONTE Adaptado de Valente (2002).
13
2.2 O CICLO DE NEGÓCIO DE CRM
O CRM pode ser demonstrado através de um ciclo onde todos os estágios são
interdependentes e contínuos. Enquanto ocorre a mudança de um estágio para o seguinte,
existe o ganho de conhecimento e entendimento e isso realça o esforço posterior (Figura 2).
Após a execução do mesmo, a prática faz com que o processo torne-se cada vez mais
sofisticado, e com o passar do tempo fique cada vez mais lucrativo fazer o processo
continuamente. O negócio começa com a aquisição dos clientes. Entretanto, toda a iniciativa
Figura 2. Ciclo do CRM
FONTE Bucci (2000).
14
bem sucedida de CRM é altamente dependente de uma compreensão contínua dos
clientes.(BUCCI, 2000). A seguir serão descritas as etapas do ciclo do CRM, de acordo com
Bucci (2000).
2.2.1 Entenda e diferencie
A empresa somente poderá ter um relacionamento com o cliente a partir do momento
que conseguir compreendê-lo, entendendo os seus gostos, o que ele avalia, que tipos de
serviço são importantes para ele, analisando como e quando gosta de interagir, e o que querem
comprar. Por isso a cada contato com o mesmo, há necessidade de aprender mais sobre ele, e
para que isso ocorra deve ser levado em consideração que cada cliente é único, e avaliar cada
um deles, e não tomar como referência a média de mercado, identificar os seus valores de
referência, ajustar os produtos e serviços buscando satisfazer cada vez mais as necessidades
individuais de cada cliente. Pois é indispensável para o sucesso do CRM conhecer cada
cliente e conseguir reconhecê-lo em todas formas de contato feitas com ele, evitando erros
como o cliente informar a mesma coisa mais de uma vez (BUCCI, 2000, p.5).
Entretanto a maioria das empresas passa dificuldade para poder captar as informações
dos clientes, pois os mesmos têm medo que as informações disponibilizadas possam ser
utilizadas de formas indevidas.
Para resolver este problemaas empresas criam campanhas específicas, onde os clientes
ganham de diversas formas de gratificações através de descontos e brindes. Posteriormente
com os dados já captados com o intuito de facilitar o trabalho do CRM, faz-se a criação de
perfis para os clientes através de áreas demográficas, padrões financeiros, padrões de serviços
e padrões de compras. Isto leva a segmentação mediante grupos lógicos onde tendem a ter
características semelhantes e a se comportarem de uma forma parecida como grupos de
clientes.
Outras formas como pesquisas, são utilizadas para identificar algumas características
iniciais, até mesmo podendo já fornecer um potencial inicial, conseguindo avaliar sua
lucratividade, poder de expressão social na chamada mídia “boca-a-boca”. Alguns dos itens
básicos que já podem ser previamente implantados e analisados são: potencial de compras,
formador ou não de opinião, potencial econômico (renda), número de transações por período
(hospedagens, vendas, visitas), comportamentos (agressivo, mau humorado,
15
conservadorismo), estado civil, idade, nível cultural, estação preferida, esportes, entre
muitos outros. Além de todos estes, deve-se também buscar coletar e armazenar informações
que foram desprezadas em algum momento pelos operadores do sistema.
Para atingir então um resultado ótimo, a empresa deve ter ações e planos de metas
distintas para suas diferentes categorias de clientes, tratando com prioridade sempre os
clientes os quais dão mais retorno, para que o mesmo perceba que não vale a pena trocar de
fornecedor, pois nesta empresa ele é tratado de forma personalizada e com uma série de
vantagens.
Através de todos os dados já previamente recolhidos pode-se atribuir valores
ponderados aos mesmo de forma a que cada item categorize um segmento distinto tal como
região, serviços, produtos entre outros. Para já estabelecer um primeiro perfil de cada cliente o
qual com o passar dos tempos, deve ser refinado e agregado a novas informações, a fim de
tratar cada cliente cada vez melhor para que ele se sinta único e exclusivo, garantindo assim
sua satisfação.
2.2.2 Desenvolva e Personalize
Nas visões anteriores para produtos, as companhias desenvolviam produtos e serviços
e tinham a expectativa que os clientes iriam comprá-los a forma na qual os mesmos se
encontrassem. Em um mundo foco-no-cliente, o desenvolvimento do produto e do canal de
comunicação com o cliente, deve seguir a ligação e os sinais deixados pelo mesmo. As
empresas estão incrementando cada vez mais produtos e serviços, e também novos canais
baseados nas necessidades de cada cliente e em suas expectativas de serviço (BUCCI,2000).
Grande parte das empresas ainda não podem personalizar produtos a custos
permissíveis para clientes individuais, porém a tendência é a customização em massa.
Entretanto, os produtos, os serviços, os canais e as médias podem personalizá-los baseando-se
nas necessidades de segmentos quantitativos de cliente. A extensão da personalização deve
ser baseada no valor potencial integrado pelo segmento do cliente (ibidem).
A personalização facilita o atendimento ao cliente, e auxilia para tratá-lo de forma
particular e de acordo com suas necessidades no relacionamento com a empresa. Pode-se
personalizar os produtos, os serviços, a distribuição, a forma de pagamento, o atendimento no
16
Suporte ao Cliente, a forma como a empresa se apresenta pela Internet, entre outros
benefícios. A Personalização tende a desenvolver um tratamento para cada cliente baseado, na
percepção de valor de cada um. Embora não seja o único canal de relacionamento do cliente
com a empresa, o Suporte ao Cliente é um dos mais poderosos pontos de contato. O contato
iniciado pelo cliente indica a predisposição em interagir naquele momento, o que deve ser
aproveitado para obter o máximo possível de informações para conhecê-lo ainda melhor
(BUCCI,2000).
Infelizmente, de maneira geral, raramente essa valiosa oportunidade é utilizada já que
as principais preocupações atuais são as informações que devem ser passadas, o tempo médio
de atendimento o tempo médio de espera, a quantidade de ligações ou vendas entre outras que
até mesmo na visão do CRM podem ser irrelevantes.
2.2.3 Interaja e Entregue
A cada interação, a oportunidade deve ser utilizada para fortalecer ainda mais a
relação da empresa com o cliente. Toda interação deve manter a continuidade,
independentemente, do prazo em que foi efetuada, e da forma efetuada. A interação permite
identificar as necessidades particulares, bem como as mudanças de necessidades de cada
cliente. Essa é a única maneira de obter informações sobre seu cliente. A interação é também
um componente crítico de uma iniciativa bem sucedida de CRM. A interação não ocorre
apenas com os canais do marketing e de vendas, os clientes interagem de muitas maneiras
diferentes com muitas áreas diferentes da empresa, incluindo áreas de apoio indireto, serviço
ao cliente e internet. Para promover relacionamentos, as organizações necessitam assegurar
que todas as áreas da empresa possuam acesso fácil às informações relevante, e acesso a
incrementá-las com novas informações importantes, que todas as áreas sejam devidamente
treinadas sobre como utilizar estas informação, saibam do que o cliente necessita e qual é o
valor potencial do mesmo (BUCCI,2000).
17
Utilizando a informação corretamente e constantemente, oferecendo aos
colaboradores um treinamento apropriado, as empresas serão preparadas para um ótimo
relacionamento com os clientes
2.2.4 Adquira e Retenha
Com o passar dos tempos as empresas estão aprendendo sobre clientes, que é mais
fácil localizar aqueles que estão dando mais retorno, sendo que estes são os principais clientes
para os critérios de segmentação de uma empresa. E assim continuarão a aprender sobre o que
é valioso para cada segmento, onde será muito mais provável alcançar os objetivos
concentrando esforços em canais diretos, medidas direitas, produtos específicos, ofertas
direitas.
A importância do estabelecimento de relação a longo prazo pode ser vista e
classificada de várias maneiras diferentes. Um exemplo para o mesmo é : Supondo que o
custo por cliente prospectado é de R$ 500,00 e que a empresa em questão possui 4000
clientes, mas que historicamente perde 50% em cinco anos, ou seja 2000 clientes. Tal empresa
tem que reconquistar em 5 anos o equivalente a R$ 1 milhão ( 2000 x 500 ). Levando em
consideração que na média histórica a manutenção de um cliente custa 10 vezes menos (R$
50,00), mantendo 50% (aumento de 50% no índice de retenção) da base perdida teria uma
economia de R$ 400.000,00 que é o necessário para a conquista de novos 1000 clientes
(R$500.000 ) menos o custo de retenção ( R$ 100.000,00 ) (BUCCI,2000).
Assim pode-se perceber que a manutenção dos clientes já existentes é muito mais
viável do que ficar perdendo e reconquistando, isso sem analisar os fatores de risco. A
retenção bem sucedida dos clientes envolve basicamente atingir diretamente em princípio a
empresa que possua uma base já constituída, para poder assim mantê-la bem satisfeita com os
produtos e serviços oferecidos. Para isso deve-se manter a interação com o cliente, nunca
deixando de escutar suas opiniões, continuar a entregar o produto e/ou serviço na definição de
valor do ponto de vista do cliente, recordar que os clientes mudam e enquanto se movem, os
estágios de relacionamento com a organização também vão diferindo, sempre estar atento as
mudanças e preparado pra enfrentá-las da melhor forma possível, e tudo isso sempre na forma
de um ciclo contínuo (BUCCI,2000).
18
A Figura 3 apresenta um exemplo sobre a diferença de custos entre aquisição e
manutenção dos clientes.
Figura 3. Custos dos Clientes
Fonte: Adaptado Peppers e Rogers (2000 apud (Valente 2002).
2.3 CRM ANALÍTICO e CRM OPERACIONAL
O CRM operacional é a fase onde as empresas buscam abrir canais de comunicação
com o cliente, implantando call-centers e soluções de automação da força de vendas,
especialmente. Estes processos e tecnologias são os que melhor ajudam na eficiência e
eficácia das operações cotidianas com o cliente. É onde a maioria das empresas estão focadas.
E quando bem implementadas, essas iniciativas podem trazer agilidade no atendimento, o que
pode em última análise traduzir-se em benefício para o cliente, mas a maioria delas envolve
métricas que nada têm a ver com isso (VALENTE,2002; BUCCI,2000).
A função do CRM analítico é adicionar a inteligência a sua solução de CRM,
conhecendo os clientes e os tratando de forma personalizada. Poucas empresas hoje estão
investindo nesta infra-estrutura necessária à implementação de sistemas de CRM analítico,
devido a diversos fatores, entre eles a falta de mão de obra especializada, falta de recursos
físicos e financeiros falta de tempo e a dificuldade em manipular determinada quantidade
informacional tão grande. Entretanto, sem essa estratégia todos os outros esforços são nulos
(VALENTE,2002; BUCCI,2000).
19
Por último o CRM Colaborativo é o que vai englobar todos os pontos de contatos
com o cliente, é onde ocorre a interação dele com a empresa. Os vários canais de contato com
o cliente devem estar preparados para não só permitir essa interação, mas também garantir o
fluxo adequado dos dados resultantes dela para o resto da empresa. Pode-se ver um exemplo
na Figura 4.
Figura 4 CRM Operacional, Analítico e Colaborativo.
Fonte: Valente (2002).
21
2.4 PERFIL DO CRM NO BRASIL
Esta seção apresenta os dados referentes a pesquisa realizada pela Fundação Getúlio
Vargas IBRE em parceria com a U-NEAR em fevereiro de 2002 ( ABEMD, 2002).
Em relação à área de atuação das empresas que usam o CRM (Figura 5), as
prestadoras de serviços aparecem em primeiro lugar com 44%. Isto se deve ao grande número
de empresas de consultorias e atendimento a clientes. Em segundo lugar (22%), aparece a área
de tecnologia, e finalmente o mercado de telecomunicações, com 9%.
De acordo com a pesquisa, os dados referentes a 40% das empresas analisadas
revelaram que a interferência de uma empresa especializada em CRM é fundamental para
auxiliar no direcionamento da estratégia. Os entrevistados afirmaram ainda que uma
consultoria é imprescindível no momento de decidir o investimento na implementação de
ferramentas que possam, de maneira rápida e eficiente, ajudar nos projetos de CRM.
O levantamento contou com a participação de mais de 100 executivos das áreas de
planejamento, tecnologia, marketing e outros departamentos de diversas empresas.
44%44%44%44%
22%22%22%22%
9%
15%
Prestadoras deServiços
Tecnologia
Telecomunicação
Outras
Figura 5. CRM do Brasil
Fonte: adaptado ABEND 2002).
22
2.5 O CRM NO SETOR TURÍSTICO
O turismo é um dos maiores movimentos da história da humanidade e se caracteriza
por sua taxa de crescimento constante. Ele responde a uma série de necessidades humanas: de
espaço, movimento, bem-estar, expansão e repouso, longe das tarefas impostas pelo trabalho
cotidiano ou rotina. Porém, o mesmo não atinge a todas as classes sociais, e as que atinge
possuem padrões diferentes de comportamentos, exigências e disponibilidades de gastos para
os mesmos. Mas a política dos “pacotes turísticos”, proporcionou um notável aumento na
possibilidade destas diferentes classes viajarem (FEIJÓ, 2002, n.p).
Neste sentido, o CRM auxilia a comunicação personalizada de todas estas classes,
possibilitando o envio de malas diretas, visitas, promoções de uma forma pessoal, como se
através dele fosse possível atingir públicos alvos como por exemplo: locais, por cidades,
regional, nacional e internacional, profissional, por preferências, por poder econômico, entre
muitos outros visando à satisfação das necessidades de determinados grupos de consumidores,
obtendo, com isso, um lucro apropriado (Krippendorf apud FEIJÓ, 2002, n.p).
O CRM ainda auxilia no tratamento ao hóspede de forma muito agradável, onde os
colaboradores da empresa que o utilizam, antecipadamente podem conhecer as principais
características de cada turista a ponto de sempre tentar agradá-lo em todos os aspectos.
Tais conhecimentos do CRM utilizados para o ramo hoteleiro provém de
configurações pré-estabelecidas de forma manual, as quais os colaboradores do hotel buscam
de diversas formas, como a ficha cadastral que o hóspede preenche na sua hospedagem, fichas
com questionários de satisfação e preferências, como esportes, áreas preferidas no hotel,
profissão, preferências alimentícias, e outras as quais os próprios colaboradores conseguem
observar no próprio hóspede ao longo do tempo, e informam no sistema. Entretanto todas
estas informações são meramente utilizadas pelo hotel, devido a grande diversificação dos
hóspedes, com períodos diferentes de hospedagem, gostos diferentes, poder econômico
diferente, motivos diferentes da viajem entre muitos outros fatores os quais fazem com que o
agrupamento de hóspedes em características similares se torne muito difícil e ate mesmo
impossível. Desta forma, a aplicação do CRM vai sendo deixada de lado, a ponto de que
somente ações muito simples, e de fácil aplicação acabam sendo feitas, como por exemplo
23
agrupamentos por cidade, ou envio de mala direta mensal com intuído de parabenizar os
hóspedes pelo seu aniversário.
Desta forma fica fácil perceber que a maioria dos hotéis possui uma imensa base de
dados com milhares de informações as quais não são utilizadas, mas que se fossem poderiam
gerar centenas de possibilidades de estratégias de ações, opções de utilização para CRM, e
facilitar a tomada de decisão em diversas área. Porém devido a tanta informação,
manualmente isso não pode ser efetuado de maneira adequada, e assim entra a possibilidade
da aplicação do DM (Mineração de Dados).
2.6 DESCOBERTA DE CONHECIMENTO EM BASE DE DADOS
(DCBD)
Devido ao crescimento substancial da quantidade de dados armazenados pelas
empresas, tornou–se inviável a análise destes através de métodos manuais, surgindo então a
necessidade de um processamento automatizado para sua análise, visando ao máximo o
aproveitamento de suas informações. E para aproveitar estes milhões de megabytes
armazenados, deve-se explorar o conhecimento escondido neles. Após adquirido este
conhecimento, o mesmo deve ser capaz de sugerir hipóteses por conta própria, e apresentar
aos usuários os resultados descobertos auxiliando-o na tomada de decisão.
Este processo então começou a ser conhecido como processo de descoberta de
conhecimento em base de dados (Knowledge Discovery in Databases — KDD) e foi utilizado
pela primeira vez em 1989 para enfatizar que o conhecimento é o produto final de uma
descoberta baseada nos dados (VASCONCELOS, 2002).
Com o intuito de buscar tal conhecimento foram desenvolvidas técnicas de DM, que
auxiliam na exploração destas informações úteis normalmente não visíveis no meio de tanta
informação. Em meio a diversas áreas de aplicação, a Mineração de Dados, vem sendo cada
vez mais utilizada e ganhando credibilidade no mercado do CRM que hoje é uma das
principais ferramentas para as empresas obterem sucesso na conquista de clientes e
consumidores (MARSON,2003).
24
A Figura 6 apresenta um exemplo de entendimento de extração de conhecimento em
base de dados.
Figura 6. Pirâmide do conhecimento.
Fonte: Adaptado de Dias (2002).
2.7 FASES DA DCBD
O processo de DCBD (Descoberta deconhecimento em bases de dados) tem sido
discutido atualmente por vários autores, os quais apresentam opiniões diferentes em suas
fases. Para Carvalho (2001, p. 11 apud SANTOS, 2005, p. 31), o processo de definição de
objetivos não é uma das fases da DCBD mas sim pertence a fase de Mineração de Dados. Já
para Groth(2000, p. 46 apud SANTOS, 2005, p. 31) o DCBD começa com a preparação dos
dados. Para Amaral (2001, p.15 apud SANTOS, 2005, p. 31), a definição do objetivo é a
definição do conhecimento que o usuário deseja obter sobre os dados, e é a primeira fase do
DCBD.
Segundo Santos (2003, p. 31-32), as fases do DCBD são compostas por:
25
• Definição dos objetivos – Fase em que são traçadas as metas. Normalmente fase
desenvolvida com auxílio de um especialista.
• Seleção – Fase onde é feito, a seleção do conjunto de dados, ou foca um
subconjunto de atributos /instância de dados com o objetivo de criar um conjunto
de dados alvo na qual a descoberta será efetuada.
• Purificação – Segundo Han & Kamber (2001, p.109 apud SANTOS, 2003,p.32) é
a etapa na qual é feita a limpeza dos dados e envolve, o tratamento de campos de
dados perdidos, a redução ou eliminação de ruídos e a correção de inconsistências
nos dados.
• Transformação - Segundo Han & Kamber (2001, p.109 apud SANTOS 2003,p.32)
é a etapa na qual os dados são transformados de forma a se tornarem apropriados à
tarefa de mineração, para qual serão submetidos. Pode envolver: agregação,
criação de atributos, generalização dos dados.
• Mineração de Dados – Etapa onde a descoberta do conhecimento ou dos padrões
ocorre. Neste momento as técnicas são escolhidas de acordo com o tipo de
problema a ser resolvido.Etapa de fundamental importância.
• Interpretação – Nesta etapa ocorre a interpretação dos conhecimentos descobertos
e possivelmente o retorno aos passo anteriores. São removidos os padrões
redundantes ou irrelevantes e traduzem-se os padrões úteis em termos
compreensíveis aos usuários.
A Figura 7 ilustra as fases do DCBD segundo Santos (2001, p.31).
26
Figura 7. Fases DCBD
Fonte: Santos(2003)
Já para Amo (2004) as etapas do DCBD são:
1. Limpeza dos dados: etapa onde são eliminados ruídos e dados inconsistentes.
2. Integração dos dados: etapa onde diferentes fontes de dados podem ser combinadas
produzindo um único repositório de dados.
3. Seleção: etapa onde são selecionados os atributos que interessam ao usuário. Por
exemplo, o usuário pode decidir que informações não são relevantes para decidir se um
cliente é um bom comprador ou não.
4. Transformação dos dados: etapa onde os dados são transformados num formato
apropriado para aplicação de algoritmos de mineração (por exemplo, através de operações de
agregação).
5. Mineração: etapa essencial do processo consistindo na aplicação de técnicas
inteligentes a fim e se extrair os padrões de interesse.
6. Avaliação ou Pós-processamento: etapa onde são identificados os padrões
interessantes de acordo com algum critério do usuário.
27
7. Visualização dos Resultados: etapa onde são utilizadas técnicas de representação de
conhecimento a fim de apresentar ao usuário o conhecimento minerado.
A Figura 8 apresenta as fases da DCBD, segundo Amo(2004).
Figura 8. Fases DCBD
Fonte: Amo ( 2004).
Porém, neste trabalho foi seguido o modelo proposto por Paula(2004), o qual será
descrito em seguida.
2.7.1 Modelo de DCBD segundo Paula(2004)
O modelo adaptado por Paula(2004) define as seguintes etapas:
Seleção: Devido ao grande volume de dados armazenados, esta etapa e fundamental
para o processo, pois nesta estabelece qual o conjunto de dados que deve ser utilizado,
definindo-se quais tabelas, atributos, relacionamentos e conteúdo serão utilizados. E ainda a
qualidade dos dados armazenados deve ser verificada.
Pré-Processamento: Já selecionado o conjunto de dados que será utilizado, pode ser
necessário efetuar atividades de pré-processamento no sentido de permitir viabilizar as etapas
anteriores. Devido a quanto mais colunas utilizadas, maior a complexibilidade. Ainda a
importante questão de eliminar os ruídos nos dados de entrada deve ser analisada nesta fase.
Transformação: Para aumentar a produtividade na obtenção de padrões, modificações
dos dados das tabelas de origem podem ser implementadas, tal como eliminação de
28
reduncancias. A padronização de variáveis também e necessária para evitar erros de
interpretação e desvios de padrões.
Mineração de Dados: Esta etapa é onde o processo de descoberta de padrões e
realmente aplicado. Com o uso de algoritmos específicos, os dados são previamente
selecionados, pré-processados, transformados, passam por várias interações até a descoberta
dos padrões de relacionamentos, agrupamentos e tipos de comportamentos. Tal etapa pode ser
considerada a principal etapa da DCBD.
Interpretação e Avaliação: Os resultados da MD são examinados e interpretados por
especialistas ou profissionais que conheçam profundamente o negócio, para a identificação da
veracidade ou não dos padrões descobertos. Nesta etapa, e avaliado o conjunto de padrões
devido aos objetivos iniciais, assim posteriormente decidindo quais deles serão ou não
interessantes para serem interpretados e tornarem-se claros para os usuários finais do sistema,
ou ate mesmo torna-los acessíveis para aplicações que os utilizarão.
Utilização do conhecimento obtido: Esta fase é a esperada desde o começo da
aplicação, pois é nesta que se incorpora o conhecimento obtido ao longo do trabalho para
melhora-la de performance da empresa, adotando ações baseadas em tal, ou simplesmente
documentando e reportando este conhecimento para grupos interessados.
29
A Figura 9 representa as fases do DCBD, segundo Paula (2004).
Figura 9. Fases DCBD
Fonte: Paula(2004).
2.8 DATA MINING
A Mineração de dados é conhecida como o processo de busca de relacionamentos e
padrões globais existentes nas bases de dados, onde devido as grandes quantidades de dados
dos sistemas de bancos de dados atuais, os relacionamentos entre estes dados e as informações
potencialmente úteis ficam escondidos (AMARAL, 2001, p.22-23).
É considerada o coração do processo de DCBD (Descoberta de conhecimento em base
de dados), situado, entre a preparação dos dados e a interpretação dos resultados obtidos.
Caracteriza-se pela escolha e aplicação do modelo do algoritmo minerador, com intuito de ser
o método adequado ao problema que se está resolvendo. O mesmo, visa extrair o
conhecimento implícito e potencialmente útil dos dados proporcionando assim, a descoberta
eficiente de informações válidas e até então não conhecidas na coleção de dados que
posteriormente serão transformados em possíveis ações e prováveis aumentos nos lucros.
30
Ao tratar-se de mineração de dados não se considera apenas consultas complexas e
elaboradas que visam ratificar hipóteses geradas por usuários em função dos relacionamentos
existentes entre os dados, mas sim na descoberta de novos fatos, simetrias, restrições e
padrões e relacionamentos (PACHECO, VELLASCO e LOPES, 1999).
Devido a quantidade de possíveis relacionamentos existentes em um banco de dados
ser muito grande, a busca dos relacionamentos corretos via simples validação de cada um
deles é proibitiva. E com o aumento expressivo da capacidade necessária de processamento,
este se torna-se um dos primeiros problemas da mineração de dados. Assim, para a solução
deste tipo de problema, podem ser utilizadas estratégias de buscas inteligentes, que tiveram
sua origem na área chamada de aprendizado de máquinas (Fayyad, Pietsky-Sharino, Smyth e
Uthurusamy, 1996 apud AMARAL, 2001).
Outro problema também relevante refere-se ao fato das as informações dos dados
geralmente serem corrompidas ou esquecidas. Onde devido a tal problema, as técnicas
estatísticas devem ser aplicadas para estimar a confiança dos relacionamentos encontrados
(AMARAL, 2001).
A mineração de dados utiliza várias técnicas, métodos e ferramentas para alcançar seus
objetivos.
2.9 Objetivos primários da mineração de dados
Os objetivos primários da mineração de dados na prática são a descrição e a pré-
elaboração.
Por pré-elaboração, entende-se a utilização de algumas variáveis ou campos na base de
dados para prognosticar o desconhecimento ou valores futuros de outras variáveis de interesse
(AMARAL, 2001).
A descrição, é responsável por encontrar os padrões de interpretação humana a partir
da descrição dos dados. De acordo com o processo de KDD, a descrição tende a ser mais
importante que a pré-elaboração. Entretanto aplicações de aprendizado de máquina, como
31
reconhecimento de fala, a pré-elaboração é geralmente o objetivo principal (Fayyad, 1996
apud Amaral 2001).
A Figura 10 demonstra taxonomia da fase de mineração de dados. Os algoritmos estão
representados pelo símbolo (·), enquanto que as caixas representam áreas e técnicas
(PACHECO, VELLASCO e LOPES, 1999).
Figura 10. Fases Mineração de dados
Fonte: Pacheco, Vellasco e Lopes (1999)
2.10 Técnicas utilizadas no processo de mineração de dados
Indiferentemente da técnica de mineração de dados, a mesma utiliza dados sobre o
passado (conjunto de treinamento) para gerar dados futuros (conjunto de execução do
modelo), ou seja, dados que não pertencem ao conjunto de treinamento. Estes dados de forma
geral foram coletados cronologicamente para poderem ser analisados com as que são descritas
a seguir.
32
2.10.1 Associação
A técnica de Mineração de Dados através da forma de associação representa os
padrões onde a ocorrências de eventos em conjunto é alta, ou seja, visa a descoberta de
elementos que ocorrem (ou não) em comum, nas coleções de dados (MARSON, 2003, p.13-
15).
Esta técnica é uma das mais utilizadas para a descoberta de padrões em base de dados.
Para a sua execução, utiliza-se princípios de indução, não determinando um atributo como
alvo de classificação, pois todos os atributos em regras de associação podem aparecer tanto no
antecedente quanto no conseqüente da regra. Nesta técnica não é realizado nenhum tipo de
classificação, mas sim a extração de associações existentes entre os itens de uma base de
dados (MARSON, 2003).
Uma demonstração clássica é o caso de produtos que freqüentemente são vendidos em
conjunto onde torna-se mais fácil e visível sua identificação devido a associações usuais por
seu uso comum: pão francês e manteiga, café e leite, entretanto as associações mais
interessantes são as não usuais (ibidem).
Na Tabela 1, retirada do relatório de vendas de uma determina rede de lojas,
apresenta-se um exemplo de associação que ocorre entre determinados itens.
33
Tabela 1. Exemplo de Associação
Fonte: Adaptado de Santos (2005, p.13)
Loja Caixa Transação Compras 3 5 11672 ’PAO RANCES’ 3 5 11673 ’PAO RANCES’ 3 6 10169 ’PAO RANCES’ 3 5 11674 ’PAO FRANCÊS’, ’FLV PIMENTAO VERDE’, ’LEITE ’SERRAMAR S’, ’DANONE DANETTE ’, CANTE DOCE MENOR LI’ ,’MANTEIGA’,
1 14 3752 ’PAO FRANCÊS’, ’LEITE PAST. SERRAMAR S’ ,’MARGARINA’, ‘CAFÉ MELITA’, ‘ACUCAR’
1 14 3758 ’BEB. REF.COCA COLA 1L’, ’PAO FRANCES’, ’LEITE ‘ 1 13 3001 ’LEITE PAST. PAULI TIPO’, ’PAO FRANCES’ ,
’MANTEIGA’ 3 5 11685 ’PAOFRANCES’, ÁCUCAR’,’LEITE TIROL’ 1 14 3764 ACUCAR REFINADO 1K’, ’PAO RANCES’, 1 14 3765 ’BISC. TRIUNFO C.CRACKE’, ’LEITE DES.’ ’PAO FRANCÊS’, ’ACUCAR REFINADO A. ALE’,
’MORTA-DELA’, ’DELA MARBA’ , ‘MANTEIGA’ 3 6 10188 ’PAO FRANCES’, ’ACUCAR REFINADO A.
ALE’,’MANTEIGA’
No exemplo, segundo Navega (2002 apud MARSON, 2003) pode-se observar como
funciona a técnica de associação para casos não usuais.
Considerando a seqüência original de informações, pode-se fazer algumas conclusões:
• ABCXUABCZKABDKCABCTUABEWLABCWO
Analisando a seqüência podem ser encontradas algumas seqüências de dados que
podem ser consideradas como padrões dentro desta estrutura.
Os padrões mais encontrados são as seqüências “AB” e “ABC” pois estas ocorrem
com uma freqüência superior a outras seqüências. Depois de identificar estas seqüências,
pode-se notar que elas segmentam o padrão original em diversas unidades independentes:
• “ABCXY” / “ABCZK” / “ABDKC” / “ABEWL” / “ABCWO”
34
Através de induções são geradas algumas representações mais genéricas destas
unidades, onde “?” pode representar qualquer letra:
• “ABC??” / “ABD??” / ”ABE??” / “AB???”.
Em tal exemplo pode ser demonstrado como extrair padrões de associações em bases
de dados, que é um dos pontos essenciais na Mineração de Dados. A importância desta
descoberta é que com este processo pode-se prever futuras ocorrências de padrões.
Para conversão de tal exemplo para um exemplo mais prático, pode se utilizar o
padrão verificado no exemplo anteriormente descrito e imaginar a seqüência de letras citada,
como uma seqüência de vendas feita em um supermercado num certo período onde cada
caractere representa um produto da loja.
Pode-se entender a letra ‘A’ representando a compra de “pão” e a letra ‘B’
representando a compra de “leite”. Pode-se perceber que para toda venda de “pão”, também
ocorreu em grande escala a venda de “leite”. Considera-se, então, que estes dois atributos
estão associados e verifica-se isto através do processo de descoberta de padrões. Com este
conhecimento em mãos, o gerente do supermercado colocaria então, “pão” e “leite” mais
próximos, facilitando e induzindo a aquisição destes dois itens em conjunto.
Continuando com a mesma seqüência de letras, supõe-se que ‘X’ seja “manteiga sem
sal” e ‘Z’ “manteiga com sal”. A letra ‘T’ pode representar “margarina”.
Unificando todas estas letras através de um único conceito, uma característica próxima
que todos tenham em comum, pode-se então, substituir estes atributos acima por uma única
letra ‘V’ que pode significar “manteiga,margarina”. Neste caso, faz-se uma indução orientada
a atributos, substituindo uma série de valores distintos (mas similares) por um valor só que
representa todos. Neste caso, é possível demonstrar também que na Mineração de Dados,
ainda é necessária a presença humana, pois a introdução deste atributo requer um
conhecimento do domínio do negócio da empresa e da base de dados avaliada. Com esta
mudança, pode-se perder algumas características originais da seqüência, como por exemplo:
já não sabe-se a venda foi de “manteiga” ou “margarina”. Mas esta perda é fundamental na
indução de fatores que ajudarão na descoberta de padrões mais gerais.
35
Faz-se então, tais substituições na seqüência em questão:
• ABCVUABCVKABDKCABCVUABEWLABCWO
Analisando novamente a seqüência através da Mineração de Dados, descobre-se o
padrão “ABCV”, que acaba dizendo que “A maioria dos clientes que compraram pão e leite
também compraram manteiga ou margarina”. Através de tal conhecimento fica mais fácil a
tomada de determinadas decisões em um supermercado, como por exemplo a disposição
destes produtos nas prateleiras, com intuito de induzir mais facilmente a compras destes três
itens juntos. Em linguagem lógica, diz-se que pão e leite implicam em manteiga:
• SE pão, leite ENTÃO manteiga.
Outro exemplo interessante a ser apresentado é o da Figura 11.
Figura 11. Exemplo de Regra de Associação
Fonte: Adaptado Submarino ( apud MARSON,2003)
Pessoas que compraram esse produto também compraram:
Parachutes - COLDPLAY
Stars – The Best of 1992-2002 - THE CRANBERRIES
Tribalistas - MARISA MONTE & CARLINHOS BROW & ARNALDO ANTUNES
Camilo Palmero - THE CALLING
Com Away Whith Me - NORAH JONES
Este exemplo foi extraído do site de compras on-line Submarino
(www.submarino.com.br). Neste, demonstrasse um caso típico de associação, que quando um
cliente esta comprando um determinado produto, o site oferece um quadro que diz: “Pessoas
que compraram esse produto também compraram:” indicando mais alguns produtos que
outros clientes adquiriram em associação com o produto pesquisado. Estes dados foram
descobertos com base na busca de padrões, pesquisando os históricos de compras de seus
clientes.
36
Tal sugestão de compras na verdade oferece para o cliente uma listagem de possíveis
compras as quais tentem a se encaixar no seu perfil com o intuito de que o cliente veja estes
produtos e até os adquira.
Entretanto nem sempre os padrões extraídos na Mineração de Dados podem ter
explicação lógica. Algumas vezes, os padrões de associações encontrados podem ser meras
coincidências na base e devem ser relevados.
2.10.2 Seqüência
A técnica de Mineração de Dados por Seqüência é a Técnica de Associação agregando
o fator tempo, isso devido a que os dados de uma seqüência podem ser transformados de
forma que permitam que os algoritmos associação sejam aplicados. Como exemplo tem-se a
utilização do Cartão de Crédito: Quem compra um computador hoje poderá comprar uma
impressora daqui a alguns meses (MARSON, 2003).
2.10.3 Agrupamentos
Segundo Pacheco, Vellasco e Lopes, (1999), agrupamento é a forma com que as
pessoas visualizam os dados segmentados em grupos discretos, como por exemplo, tipos de
plantas ou animais. Na criação desses grupos discretos pode-se notar a semelhança dos
objetos de cada grupo. Enquanto a análise de grupos é frequentemente feita manualmente em
pequenos conjuntos de dados, para grandes conjuntos existe um processo automático o qual é
chamado de clustering.
Segundo Carlantonio (2001, apud MARSON,2003) uma das tarefas primárias de
análise de dados é a chamada análise de agrupamentos, destinada a ajudar um usuário a
entender o agrupamento ou estrutura natural em um conjunto de dados.
A metodologia de análise por agrupamento efetua a análise dos dados e através destes
separa seus elementos em grupos onde seus atributos são semelhantes, ou seja, os elementos
com propriedades de interesse comuns ficam agrupados no mesmo grupo. Esta análise
possibilita determinar então qual o número de grupos e quais os grupos existentes no conjunto
analisado, e devido a sua semelhança torna possível a identificação das características comuns
37
aos seus elementos. Um bom agrupamento caracteriza-se pela produção de segmentos de alta
qualidade, onde a similaridade intra-classe é alta e a inter-classe é baixa.
Para a utilização de tal técnica citasse as categorias mais utilizadas:
Partição, basicamente enumera várias partições e então cria uma nota para cada uma
delas segundo algum critério. Hierarquia, cria uma decomposição hierárquica do conjunto de
dados usando algum critério. Modelo, um modelo é hipoteticamente criado para cada cluster
(grupo) e a idéia é encontrar o que melhor se enquadra quando comparados entre si
(PACHECO, VELLASCO, LOPES, 1999).
O método por agrupamento pode ser utilizado em diversas áreas, como compras
efetuadas em um supermercado, especificações físicas e químicas de petróleo, sintomas de
doenças, às características de seres vivos, funcionalidades de genes, aspectos da personalidade
de indivíduos, transações bancárias realizadas por clientes de um banco, entre outras,
fornecendo a todos possibilidade de redução de dados (reduzindo uma grande quantidade de
dados para um número de subgrupos característicos), permitindo o desenvolvimento de
esquemas de classificação e sugerindo ou apoiando hipóteses para tomada de decisões.
2.10.4 Classificação
Classificação é o processo em que se encontra propriedades comuns entre um conjunto
de instâncias num banco de dados e classifica-os em diferentes classes, de acordo com um
modelo de classificação (VASCONCELOS, 2002).
A técnica de mineração de dados por classificação procede da utilização de dados
sobre o passado (conjunto de treinamento) para classificar dados futuros (conjunto de
execução de um modelo de classificação, ou simplesmente conjunto de execução). Os dados
sobre o passado são dados já concretamente conhecidos, tais como experiências de vendas
passadas como resultados de acompanhamento de alguns clientes. Estes então são passados
como dados entrada para o conjunto de treinamento, que através do classificador irá gerar o
conhecimento para ser usando na classificação dos novos dados, ou seja, dados que não
pertencem ao conjunto de treinamento e ainda não estão classificados em classe alguma, após
38
passarem pelo processo de classificação, serão comparados de acordo com o aprendizado
adquirido e ao final já serão classificados em classes conhecidas (VASCONCELOS, 2003).
Diversas formas podem ser adotadas para se resolver o problema de classificação,
entretanto segundo Vasconcelos (2003) as mais utilizadas são:
• Regras de classificação stricto sensu, na forma SE <condição> ENTÃO
<classificação>, cuja interpretação é “se os valores assumidos pelos atributos de
um registro do conjunto de treinamento satisfazem as condições do antecedente da
regra, então o registro recebe a classe indicada pelo valor do atributo de
classificação”;
• Regras de classificação indiretas, sob a forma de árvores de decisão, ou seja, uma
seqüência hierárquica de testes construídos ao longo de uma estrutura em árvore
(condições), com os nós folhas da árvore representando as diferentes classes. Nota-
se então que uma árvore pode exprimir diferentes regras de classificação (cada
regra é um caminho na árvore, da raiz até uma das folhas).
Pacheco, Vellasco e Lopes (1999), mostram um exemplo onde uma editora de livros
publicou um livro. O livro é publicado em inglês, francês e alemão, de acordo com o país
onde ele está sendo vendido. Suponha que a editora ira utilizar sua base de dados para atingir
os clientes mais interessados dos três países, Inglaterra, França e Alemanha. Para prever se o
cliente irá ou não comprar o livro, quando eles receberem um material de propaganda, a
editora necessita de alguns dados sobre o efeito dessa técnica de propaganda em alguns de
seus clientes na sua base de dados. A partir desses dados, um algoritmo de classificação pode
descobrir regras que prevêem se um novo cliente provavelmente irá ou não comprar esse novo
livro. Para coletar esses dados a editora pode enviar o material de propaganda para alguns de
seus clientes e monitorá-los para saber se eles compram ou não o livro. Essa informação é
então armazenada em um novo atributo, nesse caso o atributo objetivo (na questão é
COMPRAR). Seu valor pode assumir dois possíveis valores: SIM, significando a compra do
livro, ou NÃO, caso contrário. Uma vez determinando este atributo, o próximo passo é
selecionar um subconjunto de atributos preditivos entre todos os atributos dos clientes no
banco de dados. Claramente alguns atributos, tais como: nome do cliente, são de modo geral
irrelevantes para a previsão da compra ou não do livro. No exemplo apresentado na Tabela 2
39
serão considerados apenas os atributos SEXO, PAÍS e IDADE dos clientes como relevantes
para a previsão.
Conforme Frei (1998 apud PACHECO, VELLASCO e LOPES, 1999), os dados
apresentados na Tabela 2 correspondem a dez clientes, aos quais algum material de
propaganda foi enviado sobre o novo livro. Um algoritmo de classificação pode analisar os
dados e determinar que valores dos atributos preditivos (sexo, país e idade) tendem a ser
relacionados, ou associados, com o atributo objetivo (comprar). Esta descoberta de
conhecimento pode então ser aplicada para prever se um cliente da base de dados da editora
comprará ou não o novo livro.
Tabela 2. Exemplo de Regra de Classificação
SEXO PAÍS IDADE COMPRAR Masculino França 25 Sim Masculino Inglaterra 21 Sim Feminino França 23 Sim Feminino Inglaterra 34 Sim Feminino França 30 Não Masculino Alemanha 21 Não Masculino Alemanha 20 Não Feminino Alemanha 18 Não Feminino França 34 Não Masculino França 55 Não
Se (País = Alemanha) então COMPRAR = Não
Se (País = Inglaterra) então COMPRAR = Sim
Se (País = França e IDADE <= 25) então COMPRAR = Sim Se (País = França e IDADE > 25) então COMPRAR = Não
Fonte: Frei, (1998 apud PACHECO, VELLASCO e LOPES, 1999).
O conhecimento descoberto é representado na forma de regras SE- ENTÃO. Essa
regra é interpretada da seguinte maneira: “SE os atributos preditivos de uma tupla satisfazem
as condições no antecedente da regra, ENTÃO a tupla tem a classe indicada no consequente
da regra”.
40
2.11 Técnicas de Auxílio a Mineração de Dados
2.11.1 Redes Neurais
Rede Neural Artificial (RNA) é uma técnica computacional que constrói um modelo
matemático, emulado por computador, com capacidade de aprendizado, generalização,
associação e abstração. As RNAs tentam aprender padrões diretamente dos dados através de
um processo de repetidas apresentações dos dados à rede, ou seja por experiência. Dessa
forma, uma RNA procura por relacionamentos, constrói modelos automaticamente, e os
corrige de modo a diminuir seu próprio erro (PACHECO, VELLASCO e LOPES, 1999).
Esta técnica é composta por várias unidades de processamento, cujo processamento é
simples. Estas unidades também conhecidas como nós, geralmente conectadas por canais de
comunicação calculam o somatório dos pesos de suas entradas e realiza uma transformação na
saída efetuando assim operações apenas sobre seus dados Gurney (1997, apud FERNANDES,
2003, p.59-60).
Através do procedimento de aprendizado do algoritmo de retro-programação Werbos
(1974 apud AMARAL, 2001, p.32), utiliza um padrão de cada vez, onde os erros são usados
para ajustar os pesos dos nós de saída, proporcionalmente as suas contribuições (magnitude).
Assim os pesos são ajustados similarmente, e o erro final retorna a primeira camada. Os pesos
iniciais são tipicamente randômicos (AMARAL, 2001, p.32).
Como demonstra a Figura 12 segundo Holl (1992) e Dhar (1997) apud (PACHECO,
VELLASCO e LOPES, 1999), através de convenção define-se que a camada que recebe os
dados é chamada camada de entrada, a camada que mostra o resultado é chamada camada de
saída e a camada interna, onde localiza-se o processamento interno, é tradicionalmente
chamada de camada escondida. Uma RNA pode conter uma ou várias camadas escondidas, de
acordo com a complexidade do problema.
41
Figura 12. Modelo de Rede Neural Artificial
Fonte: Holl (1992) e Dhar (1997) apud (PACHECO, VELLASCO e LOPES, 1999).
O procedimento de ajuste de peso é conhecido com um método gradiente local,
seqüêncial e interminável. Sendo gradiente local, devido a esquecer a otimização geral,
seqüencial por que, permite que os casos iniciais tenham muita influência; e é interminável
devido a lidar com um tipo inicial de regularização, onde a moderação do tempo de
processamento e o modo principal de permitir sobrecarga. Entretanto, essas características
permitem o cancelamento e parâmetros como a lenta busca local e não permite que o excesso
de parâmetros sobrecarregue facilmente a rede, entretanto o perigo da sobrecarga pode
depender da duração do treinamento (AMARAL, 2001, p.32).
Segundo Pacheco, Vellasco e Lopes, (1999) uma das principais aplicações de Redes
Neurais no DM é através da classificação, clustering, aproximação de funções, previsão e
verificação de tendências, e é demonstrada através do exemplo na Figura 13.
42
Figura 13. RNA no DM
Fonte: Pacheco, Vellasco e Lopes (1999).
Para Ávila (1998, apud FERNANDES, 2003, p.135), existem algumas desvantagens
no uso de redes neurais para DM, devido ao seu processo de aprendizado ser muito lento
comparado com alguns outros sistemas de aprendizado simbólico.
2.11.2 Algoritmos Genéticos
Algoritmos genéticos, como o próprio nome diz, são algoritmos que simulam o processo de seleção natural proposto por Charles Darwin, em 1859. Segundo Darwin, a seleção natual e um processo que privilegia os organismos que melhor se adaptam ao meio ambiente, isto é, quanto mais adaptado o organismo esta ao seu ambiente, maior a chance de sobrevivência e mais características ele ira transmitir para seus sucessores por meio de seus cromossomos. Com isso, a tendência de aprimoramento pode ser verificada nas diversas espécies existentes (AMARAL, 2001, p.33).
Para Pacheco, Vellasco e Lopes (1999), os Algoritmos Genéticos são modelos
estocásticos e probabilísticos de busca e otimização, inspirados na evolução natural e na
43
genética, aplicados a problemas complexos de otimização o qual tipicamente envolvem 3
componentes:
• Variáveis – Este componente descreve os vários aspectos do problema;
• Restrições - Monitora os valores que as variáveis podem ter; e
• Funções – Essas são utilizadas para avaliar a solução. As funções objetivas
geralmente envolvem a minimização ou a maximização de algum tipo de recurso.
São as funções objetivas que medem a qualidade de uma regra gerada num
Algoritmo Genético. As variáveis, as restrições e as funções objetivas, descritas
em um problema de otimização definem a geografia básica do espaço de busca, e
determinam que técnicas podem ser usadas. Técnicas baseadas em heurísticas
como Algoritmos Genéticos não garantem uma ótima solução, mas conseguem
soluções próximas, ou aceitáveis. Além disso, Algoritmos Genéticos são mais
facilmente aplicados em problemas complexos com muitas variáveis e restrições
ou com grandes espaços de busca.
Para Amaral (2001, p.34) as características gerais desse tipo de algoritmo são
coincidentes com as características gerais da evolução das espécies, que são:
• A evolução e um processo que ocorre basicamente nos cromossomos;
• O processo de seleção natural codifica as estruturas mais aptas a reprodução com
mais freqüência do que aquelas que não são aptas;
• O processo de reprodução se estabelece de três modos: Mutação, Reprodução e
Cruzamento, e
• A evolução genética não tem memória.
Conforme Pacheco, Vellasco e Lopes (1999, p.27), é demonstram um exemplo de
Algoritmo Genético na Figura 14.
44
Figura 14. Ciclo Algoritmo Genético
Fonte: Pacheco, Vellasco e Lopes, (1999, p.27).
2.11.3 Métodos Estatísticos
Métodos Estatísticos são basicamente aplicados em problemas de descoberta de
conhecimento, onde o interesse esta centrado em uma simples variável de saída y e uma
coleção pré-editada. Onde os modelos assumem a viabilidade dos dados treinados e têm como
objetivo encontrar um modelo para prognosticar o valor y a partir de x, que seja executado e
produza bons resultados a partir de novos dados.Tal problema possuía uma solução definida
antes que avanços da computação tornassem possível o relaxamento das suposições
existentes. A partir disso, estatísticos vem tentado suprir a vontade de inventar novos métodos
45
de estimativas e modelos para explorar uma formulação menos restrita (AMARAL, 2003, p.
29-30).
Segundo Pacheco, Vellasco e Lopes (1999, p. 30-31), são abordados de maneira
concisa alguns dos principais métodos estatísticos, conforme descrição a seguir.
2.11.3.1 Classificadores Bayesianos
O princípio básico desse método está fundamentado na teoria da probabilidade
bayesiana (Shen, 1993 apud PACHECO, VELLASCO e LOPES, 1999, p.30-31), e é
demonstrado na Equação 1:
P(AB|C) = P(A|C)P(B|AC) = P(B|C)P(A|BC) Equação 1
Onde P esta relacionado a probabilidade de um evento. A, B, e C são subconjuntos do
espaço de amostras e a notação P(AB|C) significa “a probabilidade dos eventos A e B
acontecerem dado que o evento C acontece”. De modo análogo P(A|C) significa “a
probabilidade do evento A acontecer dado que C acontece”. Desse modo, sejam A1, ..., Ak
atributos, [a1, ..., ak] uma tupla do banco de dados, e C uma classe a ser prevista. A previsão
ótima é uma classe de valor c (Equação 2), tal que
P(C = c | A1 = a1 ∩ ... ∩ Ak = ak) é máxima. Equação 2
Transformado a Equação 2 através da regra de bayes, tem-se a Equação 3:
P(A|B) = P(B|A) * P(A) / P(B), e em seguida tem-se a
Equação 4
Equação 3
P(A1 = a1 ∩ ... ∩ Ak = ak | C = c) * P(C = c) / P(A1 = a1 ∩ ... Equação 4
46
∩ Ak = ak)
Analisando a Equação 4:
• P(C = c) é fácil de estimar através do conjunto de treinamento, pois simplesmente é a
razão do número de vezes em que c ocorre pelo número de tuplas do conjunto de treinamento;
• P(A1 = a1 ∩ ... ∩ Ak = ak) é irrelevante, pois é o mesmo para todos os c, já que
independe da
classe a que a tupla pertence, nesse caso uma constante do processo.
P(A1 = a1 ∩ ... ∩ Ak = ak | C = c) Equação 5
Assume-se que os atributos são independentes, nesse caso a Equação 5 transforma-se
em:
P(A1 = a1| C = c) * P(A2 = a2| C = c) * ... P(Ak = ak| C = c)
Equação 6
Onde cada termo da Equação 6 pode ser estimado como:
P(Aj = aj| C = c) = Contador(Aj = aj| C = c) / Contador(C = c) Equação 7
Contador é uma função que conta o número de vezes, ou a frequência, que um dado
evento ocorre na base de dados.
2.11.3.2 Redes Bayesianas
A maioria das técnicas de KDD baseiam-se apenas nos dados, enquanto sistemas
especialistas geralmente baseia-se unicamente em um especialista. Uma representação de
47
conhecimento utilizando uma arquitetura baseada em Rede Bayesiana (RB) combina o melhor
destas duas áreas, aproveitando o conhecimento do domínio do especialista e a estatística dos
dados (Heck 1996 e Alif 1994 ( apud PACHECO, VELLASCO e LOPES, 1999, p. 32).
A descoberta do conhecimento através de RB segundo Pacheco, Vellasco e Lopes
(1999, p. 32-33) segue os seguintes passos:
• Primeiro, codifica-se o conhecimento existente de um especialista ou um conjunto
de especialista numa RB.
• Segundo, utiliza-se uma base de dados para atualizar esse conhecimento, criando
novas RBs.
• Terceiro, o resultado inclui um refinamento do conhecimento original do
especialista e algumas vezes da identificação de novos relacionamentos.
O processo de descoberta de conhecimento utilizando RB é muito parecido com a
descoberta por Redes Neurais Artificiais. Porém RB apresenta duas vantagens. A primeira é
poder facilmente codificar o conhecimento de um especialista em RBs e usar esse
conhecimento para aumentar a eficiência e a qualidade do conhecimento descoberto.
Segundo, os nós e arcos em uma RB treinada geralmente correspondem a distinções de
variáveis e relacionamentos causais, assim facilitando a interpretação e compreensão do
conhecimento codificado na representação (PACHECO, VELLASCO e LOPES, 1999, p. 30-
31).
2.11.3.3 Árvore de Decisão
Árvores de decisão e regras que usam podas, são apresentadas de forma simples,
possibilitando a compreensão do modelo de forma fácil para ao usuário. Porém o principal
problema das árvores e que elas eliminam dados e uma razão exponencial profunda. Desse
modo, para cobrir estruturas complexas, extensos conjuntos de dados são utilizados. Estes
métodos que envolvem estruturas de cultivo e poda, são tipicamente empregados a exploração
do espaço exponencial dos modelos possíveis. As árvores e as regras basicamente são apenas
48
usadas na modelagem de pré-elaboração, de classificação e de regressão, embora elas possam
ser aplicadas para modelagem descritiva resumida (AMARAL, 2003,p. 31).
As árvores da decisão possibilitam a representação de uma série de regras que
conduzem a uma classe ou a um valor. Permitindo assim a utilização em diversas áreas.
Conforme Sanches (2003) pode-se observar um exemplo de árvore de decisão na
classificação de pretendentes a um empréstimo, conforme mostra a Figura 15.
Figura 15 Árvore de Decisão
Fonte: Adaptado Sanches (2003).
No exemplo ilustrado na Figura 15, o primeiro componente do topo da árvore de
decisão, chamado de raiz, especifica o teste a ser efetuado. O nó raiz do exemplo é “Income >
$40,000” e o resultado deste teste divide a árvore em duas ramificações, cada uma
representando uma ou mais respostas possíveis. Neste caso, o teste “Income > $40,000” pode
ser respondido tanto como “yes” ou “no”, onde apartir deste irá prosseguir para as outras
ramificações.
Uma árvore de decisão pode ter duas ou mais ramificações. Tal forma depende do
algoritmo a ser utilizado. Por exemplo, CART (Classification AndRegression Trees) gera
árvores de decisão com apenas duas ramificações por nó. Tal árvore é chamada de árvore
49
binária. Quando mais de duas ramificações são permitidas, a árvore é chamada de multi-nível
(SANCHES, 2003, p.25).
2.11.4 Métodos Lineares
Os exemplos clássicos de elaboração e classificação são regressões lineares e análise
linear de discriminante, respectivamente. Em tais o termo linear é derivado do fato da
superfície de regressão ou classificação ser um plano. A flexibilidade e a computação
diretamente envolvidas na regressão linear, são elaboradas sem a utilização de outras técnicas
associativas. Por exemplo, as funções radiais básicas de redes neurais são meras regressões
lineares de um conjunto de características do núcleo (AMARAL, 2001).
A análise linear descritiva, que permite o pré e pós processamento, pode ser formulada
como um aprendizado de regressão linear (Hastie, Tibshirani, Buja, 1994 apud AMARAL
2001). A mesma permite trocar o módulo de regressão linear por um método de estimação
não paramétrico e não linear avançado, desta forma então aumentando consideravelmente os
tipos de padrões que podem ser manuseados pelas técnicas de classificação.
2.12 A RELEVÂNCIA DO DATA MINING PARA O CRM
Em virtude da constante mudança a nível de mercado mundial, métodos os quais no
passado eram extremamente eficientes para o bom desenvolvimento da organização hoje já
não satisfazem mais a maior parte da realidade. Tal realidade fez com que diversas
organizações mudassem suas formas de atuação, mudando sua forma agir e pensar em relação
aos clientes.
Neste mercado onde não ocorre mais fidelidade do cliente, suas vontades e
necessidades alteram-se constantemente. Sua exigência por melhores padrões de qualidade
aumentou e a grande variedade de mercado possibilita uma busca por melhores preços, força
as empresas a se preocuparem em entender melhor seus clientes de forma muito mais ágil,
compreendendo suas necessidades e vontades, fazendo-os estarem sempre atentos as
sugestões e seu grau de satisfação ou insatisfação. Tais mudanças não mais permitem a
empresa ficar a espera de uma insatisfação obvia que vem se repetindo a longo prazo, mas sim
anteciparem-se a tal (ALMEIDA,SIQUEIRA e ONUSIC, 2005).
50
Este novo mercado aumentou a quantidade de clientes, produtos e competidores não
mais proporcionando o que em tempos passados era possível: vendedores de pequenas lojas
conseguiam armazenar em suas mentes os gostos e comportamentos de seus clientes,
proporcionando sempre um atendimento que atingisse as necessidades do mesmo de forma
rápida e eficiente. Desta forma a complexidade com o cliente aumentou e segundo Trearling
(2000) a empresa precisa ficar atenta também a:
• Tempo de ciclo de marketing comprimido. O período de atenção do cliente
diminuiu, a lealdade já não ocorre mais. Uma empresa bem sucedida precisa
reforçar o valor que ela provê aos seus clientes continuamente. Além disso, o
tempo entre o surgimento de um novo desejo e o prazo para a empresa realizá-lo
também está encolhendo;
• Custos de marketing elevados. Todos os custos aumentaram. Impressão,
postagem, ofertas especiais (e, se você não fizer ofertas especiais, seus
concorrentes farão).
• Muitos produtos novos. Os clientes querem coisas que vão ao encontro de suas
exatas necessidades e não coisas que "se encaixam" com o que querem. Isso
significa que o número de produtos e o número de maneiras que eles são ofertados
têm crescido significativamente;
• Competidores de nicho. Seus melhores clientes também são ótimos para seus
concorrentes. Eles irão focar em pequenos e lucrativos segmentos de seu mercado
e tentarão manter o melhor para eles;
Empresas bem sucedidas precisam reagir a cada uma dessas demandas em um tempo adequado. O mercado não esperará pelas suas respostas e os clientes que você tem hoje podem desaparecer amanhã (TREARLING,2000).
Segundo Thearling (2000) para avaliar como proceder mediante a tais problemas a
empresa deve automatizar:
• A oferta certa: gerenciando múltiplas interações com seus clientes, dando
prioridade às ofertas certas, certificando-se que as ofertas irrelevantes serão
minimizadas.
51
• Para pessoa certa: nem todos os clientes têm a mesma importância. Suas interações
com eles precisam caminhar para campanhas de marketing altamente segmentadas
que objetivem os desejos e necessidades individuais.
• Na hora certa: as interações com o cliente devem acontecer de forma contínua,
pois assim a chance de o cliente receber a novidade na hora que ele estava
procurando aumenta em muito. Isso é significativamente diferente do passado,
quando correspondências trimestrais eram a tônica do marketing.
• Pelo canal correto: a empresa pode comunicar-se com seus clientes de várias
maneiras (mala direta, e-mail, telemarketing, etc.). Entretanto, é necessario ter
certeza que está escolhendo a mídia mais efetiva para uma interação particular.
As empresas começaram a tentar resolver este problema da melhor forma possível,
diversas técnicas foram criadas e adotadas.
Entre elas a união do Marketing utilizando os conhecimentos de CRM (marketing de
relacionamento que ao invés de estratégias de marketing em massa opta pela forma
individualizada cliente-empresa focando os anseios de cada cliente) e da TI (Tecnologia da
Informação com o uso de DM possibilitando que cada cliente seja tratado de maneira
personalizada, mesmo que com uma realidade de centenas de clientes). Esta união encontrou
uma das melhores formas de aproveitar eficientemente todo o conhecimento oculto nas bases
de dados afim de otimizar processos e proporcionando uma grande vantagem competitiva
(ALMEIDA,SIQUEIRA e ONUSIC, 2005).
O CRM gerência as interações entre a empresa e o cliente e ao efetuar tal função vai
agregando as informações recolhidas nas bases de dados, entretanto tal armazenamento
impede que o setor de Marketing consiga filtrar manualmente quais das informações
armazenadas que são valiosas, podendo-as utilizar de formas distintas. Para resolver este
detalhe é acrescentado ao software a técnica de data mining que automatiza os processos de
buscas nas montanhosas bases de dados encontrado os padrões que sejam bom preditores de
comportamentos de compras.
O Data Mining diferencia-se de outras técnicas de busca de dados, pois seu processo
extrai informações desconhecidas do banco de dados. Relações entre variáveis e
52
comportamentos de clientes que não são intuitivas. Relações estas, que são de grande valia e
após compreendidas são utilizadas pelos usuários do marketing para focar suas campanhas de
marketing de maneira precisa aproximando-se ao máximo das necessidades, desejos e atitudes
de seus clientes (TREARLING, 2000).
Campanhas estas que quando bem aplicadas podem fazer uma grande diferença para a
empresa, tendem a medir índices importantes como satisfação, taxas de respostas,
proporcionam aumento das vendas, planejamentos de estoque, planejamentos gerenciais
administrativos diversos( grandes vendas as vezes exigem funcionários extras, materiais de
escritórios extra entre outros).
2.13 DM NO CONTEXTO DO CRM
Segundo Almeida,Siqueira e Onusic (2005) a DM e uma das principais atividades que
extrai conhecimentos dos dados gerados pelo cliente, e esta pode ser compreendida como um
dos 4 elementos do ciclo do CRM. Conforme mostra a Figura 16
53
Figura 16 Ciclo do CRM
Fonte: Almeida, Siqueira e Onusic (2005)
Para o início das atividades do CRM é necessário que a empresa já tenha clientes,
onde tais clientes já são frutos de uma estratégia de relacionamento existente atualmente na
empresa (Etapa 4). A partir da obtenção dos clientes, inicia-se um relacionamento empresa-
cliente (Etapa 1). Por meio da utilização de recursos de TI, a empresa poderá captar dados
sobre seus clientes e armazená-los em bases de dados gerenciais (data warehouses e data
marts - Etapa 2). O passo final é a exploração desses dados, que permite aprender com a
relação desenvolvida na Etapa 3, com o intuito de aumentar o conhecimento sobre o cliente.
Há retroalimentação no processo, pois, ao coletar dados sobre os clientes (etapa 3), a empresa
procurará aprender e conhecer o cliente a partir do processo de DM (Etapa 4). Isso irá
incrementar a eficácia de seu processo de obtenção do cliente (Etapa 4) e de sua estratégia de
relacionamento (Etapa 1), levando à obtenção de novos dados (novamente a Etapa 3) com
uma nova estratégia de relacionamento (ALMEIDA,SIQUEIRA e ONUSIC, 2005).
54
2.14 Benefícios da Utilização da Técnica
O uso da técnica de CRM com DM proporciona para a empresa diversas vantagens as
quais aumentam as chances de um sucesso da empresa.
Trearling (2000) apresenta o “gráfico de ganho” que mostra alguns benefícios
gerados pela implantação do data mining. Conforme mostra a Figura 17
Figura 17.CRM Gráfico de Ganho
Fonte: adaptado de Trealing (2000).
A linha diagonal demonstra o número de respostas esperadas de um público alvo
selecionado aleatoriamente. Sob este cenário, o número de respostas cresce linearmente com o
tamanho do alvo. A curva superior representa a resposta utilizando as técnicas de DM para
55
determinarem o público alvo. O alvo provavelmente incluirá mais respostas positivas que em
uma seleção aleatória do mesmo tamanho. A área sombreada entre a curva e a linha indica a
qualidade do modelo. Quanto mais acentuada é a curva, melhor o modelo. Outras
representações do modelo freqüentemente incorporam custos e rendimentos esperados.
2.15 Exemplos de Utilização de CRM e DM
2.15.1 Rede de lojas
Uma determinada rede varejista de lojas brasileiras sofria com a dificuldade de dispor
em suas prateleiras cerca de 51.000 produtos que mantinha em seu catálogo segundo Com
(1997 apud SANCHES, 2003). O problema era meramente de espaço físico em suas lojas.
Depois de um processo de automação que teve um custo de aproximadamente um milhão de
dólares, a cadeia de lojas, que contava na época com setenta lojas espalhadas por todo o
Brasil, descobriu que muitas dessas mercadorias não rendiam quase nenhum retorno em
vendas. Entre os ítens de pouca venda estavam guarda-chuvas, sombrinhas e malhas de lã.
O motivo, descoberto mais tarde, era que tais produtos se encontravam expostos em
lojas do nordeste, onde chuva e frio são raros. Outra descoberta foi o fato de estarem sendo
vendidas batedeiras com voltagem de 110 Volts em Santa Catarina e no Rio Grande do Sul,
onde a voltagem padrão é de 220 Volts. Nos dias atuais, segundo informações, o grupo
mantém 14.000 itens em exposição nas lojas. Em uma única operação, foram eliminados
37.000 produtos. Seus executivos utilizaram a mineração de dados para conseguirem estes
resultados.
Com base em relatórios a respeito dos hábitos de consumo dos clientes, seus hobbies e
informações sobre suas transações comerciais e financeiras foi possível traçar associações que
revelaram grandes nichos de mercado. Em conjunto foi utilizado um banco de dados baseado
em data warehouse, modelado sobre as informações transacionais do conjunto das lojas da
rede.
56
2.15.2 Companhia Telefônica
Uma empresa tinha como sua maior preocupação a perda de clientes. Para resolver tal
problema a empresa adotou a medida a qual o cliente entendesse qual o valor da empresa para
ele. Para tal eles precisavam dar a cada cliente o que ele realmente precisava. Como cada
cliente possui diferentes características precisou-se adaptar a tais.
Para isso a empresa adotou o uso do DM e CRM, onde o DM relacionava as
características de cada cliente, identificava o que realmente tal cliente necessitava entre todos
os produtos e serviços oferecidos, e o CRM disparava uma mala direta relacionada
diretamente a tal, onde por exemplo diferenciava clientes que valorizavam a confiabilidade
dos serviços e clientes que utilizavam sempre tecnologias todo de linha.
2.16 TURISMO
Antigamente, o turismo era simplesmente sinônimo de “fazer uma excursão ou viagem
de recreio a lugares interessantes”. Hoje, mais do que uma sofisticada atividade de prestação
de serviços, o turismo é um mega-negócio o qual gera milhões de empregos e atinge centenas
de milhões de pessoas, estendendo seu impacto a área social, política e cultural (Rabahy, 1990
apud FERNANDES, 2000).
O Turismo desempenha um papel prioritário no desenvolvimento econômico, gerando
divisas, renda e empregos, além de interferir na distribuição regional, nas finanças públicas e
até nos níveis gerais dos preços. E ainda exerce forte influência no campo sócio-cultural, com
destaque para a preservação do meio ambiente e do patrimônio histórico, também
influenciando nos recursos humanos e na mudança de atitudes dos recursos humanos, hábitos
de consumo, estilo de vida e padrões de comportamento (ibidem).
Como no restante do mundo, o turismo vem crescendo a cada dia no Brasil,
possibilitando assim a abertura de atividades múltiplas e diferenciadas proporcionando
melhorias para diversas áreas e a conseqüente melhoria dos lucros.
Segundo a Organização Mundial de Turismo (OMT, 1994 apud FERNANDES, 2000)
turismo compreende as atividades que as pessoas realizam durante suas viagens e estadias em
57
locais distintos de seu entorno habitual, por um período de tempo consecutivo inferior a um
ano, com fins de descanso, esportes, negócios entre outros.
2.16.1 Fatores determinantes da Demanda Turística
Segundo a OMT (1998, apud FERNANDES, 2000), a própria complexidade na hora
de definir a demanda turística como um conceito global, faz necessária uma análise prévia de
como os fatores distintos condicionam a decisão de viajar e influenciam sobre a estrutura da
viagem.
Desta forma, segundo Sancho & Pérez (1995, apud FERNANDES, 2000) os fatores
determinantes de uma demanda turística, podem ser agrupados como :
• Fatores econômicos: abrangem o nível de renda disponível, os níveis de preços, a
política fiscal e controle dos gastos em turismo, financiamento e tipos de troca, isto
é câmbio.
• Fatores relativos a unidades demandantes: são os que abrangem os fatores de
motivação, sociológicos, psicológicos, formas de estilo de vida, tempo de lazer,
níveis culturais, costumes, crenças e fatores demográficos.
• Fatores aleatórios: são relativos as variáveis imprevisíveis que afetam o
comportamento sistemático dos consumidores e que incidem, portanto, na
demanda turística. Estes fatores são determinados por guerras e cataclismas.
• Fatores relativos aos sistemas de comercialização e de produção: fazem parte os
fatores relativos aos sistemas de comercialização propriamente ditos
(conhecimento e implantação do produto, comunicação global realizada,
investimos em publicidade, tecnologias disponíveis para alcançar as vendas
imediatas, marketing , etc); fatores relativos a produção (satisfação das
necessidades concretas, qualidade técnica dos produtos, relação qualidade/preço,
meios de transporte para distribuição, distância a percorrer até os mercados de
origem, segurança cívica e política, higiene) e fatores relativos a produção da
concorrência (possibilidade de substituição real em relação aos próprios projetos,
58
possibilidade de cobrir as necessidades, tecnológicas , notoriedade, imagem
política, estratégica de gastos com marketing, etc).
2.16.2 Inventário Turístico
Segundo a Fernandes (2000, p.22) o inventário turístico e composto por: atrativos
turísticos equipamentos e serviços turísticos.
2.16.2.1 Atrativos Turísticos
Os atrativos turísticos por sua vez são compostos por:
• Acontecimentos: congressos e convenções, feira e exposição, festa e
comemoração.
• Atrativos naturais: arquipélagos, morro, rochedo, ruína, baías, mangue, fonte
hidromineral, fonte termal, gruta, caverna, pântano, área de caça, ilha, sítio, queda
d’agua, área de pesca e praia.
• Atrativos histórico-culturais: escultura, monumento, compra, artesanato, dança,
folclore, escola de música, coral, orquestra, instituição cultural, cultos.
2.16.2.2 Equipamentos e serviços turísticos
Os equipamentos e serviços turísticos são compostos por:
• Hospedagem: hotel, motel, pousada, pensão, acampamento, hotel fazenda, spa,
albergue e hotel escola.
• Alimentação: bar, lanchonete, fast food, café, confeitaria, sorveteria, churrascaria,
restaurante de frutos do mar, comida típica, rodízio de pizzas, rodízio de massas,
café colonial, cervejaria e pizzaria.
• Entretenimento: parque aquático, cinema, teatro, instalação desportiva, área de
recreação, shopping, parque temático, zoológico, jardim botânico, danceteria e
boliche.
59
• Serviços turísticos: operadora, agência de viagens, transporte turístico, posto de
informação, locadora de imóveis, locadora de veículos, vídeo locadora, cada de
câmbio, banco, locais de convenções e exposições e loja de artesanato.
• Serviços gerais: água, gás, eletricidade, borracharia, saneamento, posto de
abastecimento e oficina.
2.16.2.3 Infra-estrutura de apoio turístico
A infra-estrutura de apoio turístico é composta por:
• Comunicação: correios, posto telefônico, provedor de internet e agências postais.
• Segurança: delegacia de polícia, postos policiais rodoviários, quartel exército e
corpo de bombeiros.
• Transporte: terrestres, aéreos e rodoviários.
• Saúde:maternidade, pronto-socorro, farmácia, hospital, laboratório de análise,
posto de saúde, clínica odontológica, clínica pediátrica e clínica veterinária.
2.17 Softwares Analizados
A seguir tem-se algumas ferramentas que foram analisadas para dar um melhor
embasamento a este trabalho, tanto no aspecto de CRM quanto no aspecto de DM.
2.17.1 Ferramenta de CRM
Advanced Protheus 7.10 Segundo Marson (2003) a empresa Microsiga, empresa
brasileira, líder no mercado de ERP (Enterprise Resource Planning) no segmento Low-End
(pequenas empresas), dentro de seu pacote ERP denominado Protheus, oferta diversos
módulos para uma melhor interação da empresa com o cliente. Algumas ferramentas de CRM
Operacional contida em seu ERP são:
60
• Call-Center: Engloba todo o atendimento do operador, incluindo telemarketing,
telecobrança, televendas, TEF (Transferência Eletrônica de Fundos), promoções,
contatos, histórico, prospects, etc.;
• Field Service: Sistema que contempla o controle da manutenção técnica de base
instalada no cliente. Engloba orçamentos, ordens de serviços, contratos,
manutenção preventiva e corretiva, entre outras funcionalidades;
• TFA – Techinical Force Automation: Sistema móvel que permite o registro
automático para os procedimentos relacionados à assistência técnica. Faz a
integração entre o Field Service com handheld, permitindo uma maior mobilidade;
• SFA – Sales Force Automation: Permite a comunicação com o ERP através de
handhelds, possibilitando que as equipe de vendas externas possam executar suas
atividades de venda on-line ou off-line, com tecnologia wireless; A escolha da
melhor ferramenta para CRM varia muito de acordo com o negócio e também com
o porte da empresa. Mas o CRM não é composto apenas de softwares.
2.17.2 Ferramentas DM
Foram analisadas as seguintes ferramentas:
• O WizRule é um software de auditoria, descrição e limpeza de dados que, de
forma automática, revela todas as regras que modelam a base de dados e indica os
casos de desvio encontrados com relação ao conjunto de regras geradas. Criado
pela empresa WizSoft, o programa gera relatórios que descrevem a base de dados
através de regras, dentre elas, regras do tipo se A então B, regras matemáticas e
erros ortográficos de nomes e valores. Pode também calcular o nível de incerteza
de cada desvio evitando assim os casos em que um registro é considerado um
desvio a regra (SANCHES, 2003).
• O MineSet é formado por um conjunto de ferramentas integradas, que permitem a
realização de mineração e visualização de dados contidos em um banco de dados
ou arquivos de texto com um formato específico. Essas ferramentas aplicam as
técnicas de DM para “garimpar” dados e mostrar os resultados de forma gráfica,
de tal forma que permita ao usuário uma melhor visualização, compreensão e com
61
isso descoberta de informações ocultas contidas nestes dados. Desenvolvido pela
empresa americana Silicon Graphics e adquirido pela empresa Purple (ibidem).
Ulyssèa (2002 apud MARSON, 2003) descreve entre os melhores softwares de
mineração de dados os listados a seguir:
• DataEngine da MIT GmbH: Utiliza a lógica difusa e algoritmos de rede neural
para executar a mineração de dados que ajuda a analisar e controlar processos
técnicos de tempo real.
• Data/Logic da Reduct: Marca padrões automaticamente, gerando regras que tem
afinidades com a análise difusa de conjuntos.
• IDIS da IntelligenceWare: Formula, testa e modifica suas próprias hipóteses até
queregras de classificação, regras com intervalos ou regras mais inexatas surjam.
• Clementine da SPSS: modela o processo da descoberta de conhecimento e realiza
a mineração. Possui uma linguagem onde os componentes são algoritmos de
aprendizado, métodos de preparação e ferramentas de visualização.
• Aira da Hycones: Gera regras IF...THEN, possui QUERY WINDOWS, detecta
erros na base de dados e representa o conhecimentos na forma gráfica e relatórios.
• Go Mining da Go Digital: A Go Digital é uma empresa especializada em
Marketing de Precisão, que possui o primeiro software de Data Mining
desenvolvido na América Latina, Go Mining que tem por objetivo transformar
dados em conhecimento visando gerar um maior valor no relacionamento com os
clientes. Seu software utiliza princípios de inteligência artificial, que busca
descobrir na base de dados regras de negócios que serão utilizadas em ações de
marketing.
2.18 FERRAMENTA WEKA
O WEKA (Waikato Environment for Knowledge Analysis), é um projeto desenvolvido
pela Universidade de Wiakato – Nova Zelândia. Implementa alguns dos principais algoritmos
que podem ser utilizados na técnica de mineração de dados e provê uma GUI (Graphical User
62
Interface) para realização de experimentos de mineração utilizando API (Aplication Program
Interface) desenvolvida de maneira independente, podendo ser utilizada em aplicações Java
(BRAGA et al, 2004).
Devido a sua implementação ser em linguagem JAVA, o WEKA possui alta
portabilidade podendo ser executado na maior parte dos sistemas operacionais existentes, sem
a necessidade de recompilação ou alteração do aplicativo, desde que o computador possua
instalada a JVM (Java Virtual Machine). Ele efetua suas análises utilizando técnicas de
classificação, regressão, agrupamento e associação. Podendo ainda ser utilizado tanto com
instruções em linha de comando,quanto a partir de interface gráfica desenvolvida também em
JAVA. Seus algoritmos podem ser utilizado também em outros programas, podendo importar
as suas bibliotecas. Este projeto encontra-se disponível gratuitamente para a comunidade
cientifica, no site do próprio WEKA(WEKA, 2003 apud PAULA, 2004).
2.19 Descrição dos pacotes Weka
A estrutura do WEKA segue os padrões de construção de aplicativos orientados a
objetos, e os padrões JAVA, por que foi desenvolvido nesta tecnologia. O WEKA é formado
por diversos pacotes de classes Java, que podem ser compreendidos como os módulos do
sistema e que implementam os métodos sobre os tipos de dados tratados PAULA, 2004 (apud
WITTE, 1999). Na Figura 18 pode observar a estrutura dos pacotes
63
Figura 18. Relação dos pacotes
Fonte: Salga (2002, apud PAULA, 2004)
Segundo a estrutura da Figura 18 as descrições dos pacotes são:
• Associations – Implementa regras de associação entre os dados.
• AttributeSelection – Implementa algoritmos para seleção de atributos de um
conjunto de treinamento.
• Classifiers – Implementa vários tipos de classificadores: árvores de decisão, redes
neurais, tabelas de decisão, algoritmos bayesianos, bagging, boosting.
• Clusterers – Implementa os seguintes algorimos para clustgering: EM,
SimpleKMeans e ConWeb.
64
• Core – Implementa funções de IO (Input Output) e de estatísticas de instâncias.
Calcula por exemplo o número de atributos com determinado valor, e o número de
instâncias com alguns valores ausentes.
• Filters - Implementa vários filtros aplicados na fase de pré processamento dos
dados.
• Gui – Implementa toda a parte de interface com o usuário. É importante ressaltar
que estas classes não dispõem de nenhum algoritmo de mineração de dados
implementado, o que torna o software mais flexível para eventuais mudanças.
• Estimador – Diferentes tipos de cálculos para distribuição de probabilidades. É
usada, por exemplo pelo algoritmo Naive Bayes.
2.20 Arquivos de Entrada
O WEKA define padrão de entrada específico que deve ser obedecido para o correto
processamento das informações. Este padrão possui a extensão .ARFF, ou .CSV onde para tal
existem uma série de regras a serem seguidas para um correta leitura do mesmo. Em virtude
de o arquivo .CSV possuir menos restrições quando a cabeçalho e ser mais prático para ser
gerado o sistema seguira esta extensão.
Basicamente o arquivo é sub-dividido em dua partes:
No primeiro passo, a primeira linha do arquivo contém uma descrição de todos dos
dados que o mesmo possui, separados por vírgula.
No segundo passo, após, começam então os dados que serão processados. Sendo que
as linhas devem conter os valores correspondentes aos atributos já declarados na mesma
ordem que a primeira linha, separados por virgulas.
A seguir na Figura 19 exemplo de arquivo de entrada do WEKA.
65
Evento_Esterno, InicioAcont, FimAcont,TipoAcontecimento, CidadeAcontecimento,
Feira_Nacional_Medicina, _2005-01-01_, _2005-01-10_, Reuniao, Florianopolis
Feira_Nacional_Medicina, _2005-01-01_, _2005-01-10_, Reuniao, Florianopolis
ANIVERSARIO_CURITIBA, _2006-03-28_, _2006-03-28_, ANIVERSARIO, CURITIBA
Figura 19. Arquivo entrada .CSV
2.21 Algoritmos WEKA
O Weka implementa uma série de algoritmos para efetuar a mineração de dados, onde
o usuário pode aplica-los de acordo com o desejado, estes algoritmos encontram-se em três
pacotes específicos: Associação, Classificador e Cluster (PAULA, 2004).
2.21.1 Associação
Implementa um algoritmo que prevê relacionamentos significativos entre informações
da mesma natureza. Onde grandes bases de dados necessitam de um algoritmo ainda mais
eficiente para a mineração em tempo aceitável. Assim o WEKA implementa o algoritmo
Apriori, proposto por Agrawal e Srikant em 1994 visando percorrer e encontrar regras de
associação com mais eficiência em grandes bases de dados Agraw(1994 apud PAULA 2004).
O C4.5 gera um classificador na forma de árvore de decisão, onde adota para tal uma tática
top-down que permite efetuar a classificação em partes da estrutura, possibilitando assim a
criação de árvores de estrutura relativamente simples.
2.21.2 Cluster
O Weka ainda contem pacotes que possuem algoritmos de agrupamento, chamado
weka.clusteres ,este pacote possui alguns algoritmos que são eles:
O Cobweb, o qual é um algoritmo de agrupamento incremental baseado em conceitos
probabilísticos que possui um conjunto de atributos com seus prováveis valores. A busca dos
melhores agrupamentos é direcionada devido a mensuração da qualidade das partições de
dados. O EM, algoritmo que assume que os atributos do conjunto de dados representam
variáveis randômicas independentes, diferentemente de outros algoritmos (PAULA, 2004).
66
2.21.3 Classificadores
Os algoritmos de classificação tendem por base efetuar a associação de uma
determinada instância a uma determinada classe, tais rotinas normalmente apresentam como
resultados árvores de decisão ou um conjunto de regras que definam os critérios necessários
para realizar a associação do item considerado com a classe apropriada.
Witte(1999 apud PAULA, 2004) cita alguns algoritmos de classificação
implementados pelo WEKA: weka.classifiers.ZeroR, weka.classifiers.OneR,
weka.classifiers.NaiveBayes, weka.classifiers.DecisionTable, weka.classifiers.Ibk,
weka.classifiers.j48.J48, weka.classifiers.j48.PART, weka.classifiers.SMO,
weka.classifiers.LinearRegression, weka.classifiers.m5.M5Prime, weka.classifiers.LWR,
weka.classifiers.DecisionStump
2.22 Interface do WEKA
O WEKA fornece aos usuários uma interface gráfica que facilita muito sua utilização,
principalmente para testes de arquivos e análises.
A seguir apresenta-se algumas das telas da versão 3.5.5, nas figuras de 20 a 23.
67
Figura 20.Tela Explorer WEKA
Na Figura 20 pode-se observar a tela do explorer do WEKA, onde podem ser
efetuados diversos experimentos.
No botão OPEN file... pode ser aberto o arquivo direto .CSV ou ainda através do
botão OPEN DB... pode ser aberto uma base de dados, entretanto para tal é necessário a
utilização do JDBC para efetuar a comunicação com o banco de dados.
68
Figura 21. Tela 2 WEKA
Na Figura 21 com um arquivo .CSV aberto, pode-se observar na parte dos Attributes
os atributos referentes ao arquivo, onde se pode selecionar com quais vão ser trabalhados. Já
na Aba superior estão divididos os pacotes de mineração e seus respectivos algoritmos.
69
Figura 22. Tela 3 WEKA
Clicando na aba referente ao pacote desejado, pode-se clicar no botão Choose e
selecionar com qual algoritmo daquele pacote serão realizados os testes.
70
Figura 23. Tela 4 WEKA
Após a seleção do algoritmo clicando no botão Start pode-se observar alguns
resultados referente a mineração efetuada.
2.23 DIFICULDADE DE INTERAÇÃO INVENTÁRIO TURÍSTICO E
SOFTWARES DE CRM/DM
Com o estudo de caso levantado, foram analisados softwares que implementam
soluções de CRM e softwares que implementam soluções de DM. Entretanto no levantamento
observou-se que dentre todos os analisados, os mesmos são específicos apenas em uma das
duas áreas.
Dificuldades surgiram em analisar softwares que realmente integrassem CRM e DM,
pois dos levantados esta integração não ficou muito satisfatória.
71
De acordo com estudo feito sobre hotelaria e o grande problema da sazonalidade foi
possível verificar que uma grande possibilidade para aumentar o índice de ocupação é
utilizando as técnicas de DM com CRM e confrontando também com o inventário turístico.
Entretanto, de todos os softwares analisados tal técnica não pode ser observada devido aos
softwares utilizarem pouco ou quase nada os dados que compões o inventario turístico.
Devido a tal fator a solução a ser desenvolvida irá analisar através da técnica de
mineração de dados os dados do inventario turístico e da base de dados do hotel, gerando
relatórios que auxiliem na tomada de decisão, auxiliando também na utilização do CRM.
72
3 DESENVOLVIMENTO
Este capítulo apresentará as etapas de desenvolvimento deste sistema: levantamento
dos dados (entrevistas); análise das tabelas do sistema Desbravador, criações das tabelas
suplementares; modelagem do sistema; mineração de dados.
3.1 ENTREVISTAS JUNTO AOS PROFISSIONAIS DE HOTELARIA
Para seleção dos dados do inventário turístico e do DESBRAVADOR, efetuou-se um
levantamento das necessidades dos profissionais da área de hotelaria em relação ao
cruzamento dos dados no sistema proposto, foi feita uma entrevista com 30 profissionais
atuantes em hotéis de diversas cidades do estado de Santa Catarina e Rio Grande do Sul, tais
estados e profissionais foram selecionados devido a facilidade de interação com os mesmos,
onde o contato e a disponibilidade destes foram de fácil acesso.
O Instrumento utilizado na entrevista encontra-se no Anexo V.
Os entrevistados exercem funções variadas, conforme mostra a Tabela 3.
Tabela 3: Funções
Função Freqüência Percentual Gerente geral 8 27% Gerente Comercial: 4 13% Chefe Recepção 5 17% Recepcionista Sênior 3 10% Sub gerente geral 3 10% Recepcionista 3 10% Assistente Comercial 2 7% Gerente Operacional 2 7%
Total 30 100%
Os tempos de atuação na área dos mesmos também encontra-se em faixas diferentes
como mostra a Tabela 4.
73
Tabela 4: Tempo de Atuação
Tempo de atuação na área Freqüência Percentual
0 a 2 Anos: 3 10%
3 a 4 Anos: 6 20%
5 a 6 Anos: 3 10%
7 a 8 Anos: 5 17%
9 a 10 Anos: 3 10%
11 a 12 Anos: 3 10%
13 a 14 Anos: 3 10%
15 ou mais : 4 13%
TOTAL 30 100%
A quantidade de apartamentos de cada hotel também é diferente, sendo assim foi
efetuado um agrupamento como mostra a Tabela 5.
Tabela 5: Número de Apartamentos
Número de Apartamentos do hotel Freqüência Percentual
0 a 100 Unidades: 8 27%
100 a 200 Unidades: 11 37%
200 a 300 Unidades: 9 30%
300 ou mais 2 7%
TOTAL 30 100%
O tipo de público freqüentador do hotel também foi questionado, tendo diferença entre
os resultados como mostra a Tabela 6.
Tabela 6: Publico Habitue
Público Habitue Freqüência Percentual
Executivo: 22 44%
Eventos: 17 34%
Lazer: 11 22%
TOTAL 50 100%
74
A faixa etária dos empreendimentos hoteleiros varia também, sendo assim foram
criadas faixas etárias como mostra a Tabela 7
Tabela 7: Faixa Etária
Faixa etária que mais freqüenta o hotel Freqüência Percentual 20 a 30 Anos: 9 14% 31 a 40 Anos: 17 26% 41 a 50 Anos: 16 25% 51 a 60 Anos: 13 20% 61 ou mais 10 15%
TOTAL 65 100%
Como o perfil dos empreendimentos hoteleiros são diferentes, e até mesmo em cidades
diferentes, os meses de sazionalidade também são diferentes, como mostra a Tabela 8.
Tabela 8: Meses de Baixa Ocupação
Meses que diminuem a ocupação do hotel Freqüência Percentual Janeiro: 8 8% Fevereiro: 9 9% Março: 9 9% Abril: 7 7% Maio: 12 12% Junho: 13 13% Julho: 9 9% Agosto: 10 10% Setembro: 7 7% Outubro: 7 7% Novembro: 4 4% Dezembro: 4 4%
TOTAL 99 100%
A origem do publico freqüentador dos mesmos também é de estados diferentes, sendo
assim formam tabulados os estados como mostra a Tabela 9
75
Tabela 9: Principais Estados Freqüentadores
Principais Estados que freqüentam o hotel Freqüência Percentual SP: 18 25% RJ: 6 8% PR: 17 23% RS: 12 16% SC: 12 16% MG 4 5% DF 2 3% Todo pais 2 3%
TOTAL 73 100%
O questionamento de quais dados seriam mais importantes para serem cruzados com
intuído de descobrir informações importantes nos mesmos foi deixado livremente para que
cada um coloca-se o que na sua visão profissional seria melhor para o hotel, as respostas
foram agrupadas como mostra a Tabela 10.
76
Tabela 10: Levantamento de Dados para Cruzamento
Quais dados seriam interessantes para serem cruzados, com o intuito de descobrir informações relevantes nos mesmos Freqüência Percentual Procedência: 10 6% Hobby: 4 3% Sexo: 11 7% Idade 13 8% Trabalho 6 4% Lazer 6 4% Gostos 4 3% Onde Compram 3 2% Como Conheceu o hotel 4 3% Motivação 3 2% Eventos por período 10 6% Hóspedes por periodo x região 11 7% Profissão 6 4% Utiliza por opcao ou não 6 4% Tarifas mais elevadas 5 3% Indice de retorno 4 3% Período livre para viajem 3 2% hoteis Preferidos 4 3% Media de gasto por viajem 4 3% Motivo da viajem 5 3% Numero de viajens a lazer por ano 3 2% Preferencia em um evento 3 2% ocupacao x cidade x período 15 10% Segmento de mercado 3 2% Potencia de eventos por empresa 3 2% Poder aquisitivo dos hóspedes 5 3%
TOTAL 154 100%
Os feriados nacionais e municipais são fatores que alteram significativamente a
ocupação de diversos hotéis, desta forma na Tabela 11 mostra as respostar referente aos
feriados municipais e nacionais.
77
Tabela 11: Feriados nacionais e municipais.
Feriados nacionais, municipais diferencia a ocupação do hotel Freqüência Percentual Sim 25 83% Não 5 17% Quais principais feriados nacionais Freqüência Percentual Todos nacionais 13 9% Proximos a finais de semana 12 9% Revellion 18 13% Carnaval 16 11% Páscoa 16 11% Natal 16 11% 7 de Setembro 10 7% Finados 6 4% Dia dos namorados 5 4% ferias Julho 7 5% Ferias Janeiro 6 4% 12 De Outubro 6 4% Dia do trabalho 8 6% Diminuem a ocupação 2 1%
TOTAL 141 100% Quais principais feriados municipais Freqüência Percentual Santo antonio 3 10% Sao joão 3 10% Da cidade 9 30% Somente outra cidades, os locais não influenciam: 15 50%
TOTAL 30
Uma questão de resposta livre, na qual cada profissional diz quais informações seriam
importantes ter-se o conhecimento mais claro para poder aumentar a ocupação da empresa, as
respostas foram agrupadas por tipos como mostra na Tabela 12 os resultados.
78
Tabela 12: Informações para melhoria da ocupação.
Que tipo de informação poderia contribuir para a melhoria da ocupação do hotel Freqüência Percentual Grau Satisfação 7 7%
Fator de motivacao para consumo 6 6%
Facilitadores para hospedarem no hotel: 6 6% Áreas de interesse 7 7% Gastronomia 8 8%
Qualidade da hospedagem 5 5% Opcionais para lazer 4 4%
Opcionais para crianças 4 4% Atrações regionais 3 3% Eventos realizados na cidade 7 7%
Tipo de publico por evento 9 9%
Tipo de apartamento por tipo de hóspede 7 7% se é fumante 5 5%
Preferencias dos hóspedes 9 9%
Expectativa de cada grupo ( executivos x lazer) 5 5% Eventos festivos em finais de semana 4 4%
TOTAL 96 100%
Com relação aos dados da pesquisa, as questões englobaram focos diferentes, visando
uma visão mais ampla do perfil de cada hotel, algumas perguntas enfocaram o perfil dos
entrevistados e outras a visão dos mesmos referente a qual tipo de informações auxiliaria a
tomada de decisão.
3.2 SELEÇÃO DOS DADOS
Como nesta etapa o conhecimento e as metas da aplicação são de grandes relevância,
foi utilizado o conhecimento dos profissionais da área através dos formulários de entrevista, e
através destes foram retirados os dados relacionados pelos mesmos, os quais são:
Através de uma análise do banco de dados do sistema Desbravador e sua respectiva
estrutura, foram levantas todas as tabelas as quais fazem parte do sistema. Estas somam no
79
total 285 tabelas as quais armazenam diversos tipos de informações. No Anexo I encontra-se
um descritivo com o nome de todas elas.
Após tal passo, foram confrontadas tais informações e dentre as tabelas do sistema,
foram escolhidas algumas para serem utilizadas no processo de mineração de dados, tabelas
as quais armazenavam a maior quantidade de dados citado pelos especialistas.
Tabela CadHóspedes: Contém todos os dados referente ao cadastramento do
hóspedes. Tais dados são retirados da FRNH (Ficha Nacional de Registro de Hóspedes) a
qual o hóspede preenche na sua entrada.
Tabela DetEstat: Contém dados os quais contém informações do tipo se o hóspede
veio de forma particular ou através de empresa, data da entrada e data da saída, o
apartamento utilizado, valores gastos (entretanto não serão apresentado valores, apenas
informações como os hóspedes de qual cidade que gastam mais).
Tabela Estatistica: Contém dados os quais contém informações como, a data da
entrada, data da saída, se veio através de reserva ou não, procedência do hóspede, se foi uma
hospedagem que foi paga ou não comissão,
ReservasEventos: Contem os dados relevantes aos eventos realizados internamente
no hotel, tais como datas, numero de pessoas e o tipo do evento
Hóspedes: Contém dados os quais contém informações como se o hóspede veio (por
reservas, eventos ou outro), se é adulto ou criança, se é pagante ou cortesia, se e titular da
conta ou acompanhante, se solicitou para não ser identificado, quais refeições foram
contratadas na hospedagem, e se a hospedagem foi vinculada ou não a algum cadastro de
hóspede.
CadPofição: Contem o cadastro das profissões as quais correspondem aos cadastros
dos hóspedes.
No Anexo II, segue descrição completa de todas as tabelas utilizadas para este projeto.
80
3.2.1 Tabelas Suplementares
Após a análise das tabelas do sistema Desbravador através das ferramentas fornecidas
pelo Microsoft SQL Server 2000, constatou-se a deficiência de algumas informações
adicionais relevantes para auxiliar na mineração dos dados informações estas que fazem parte
do inventário turístico, assim então foram criadas as seguintes tabelas:
Tabela Entacontecimento: Descreve os acontecimentos regionais, tais como os
eventos realizados em qual cidades em quais períodos, com a possibilidade de se minerar por
tipo de acontecimento também.
Baseado no questionário onde as respostas referenciaram a necessidade do
conhecimento dos eventos regionais, tais como festas, reuniões, congressos entre outros. E
referente ao inventário turístico, Atrativos Turísticos: Acontecimentos.
Tabela Entatrativo: Tabela que contem o cadastro dos atrativos regionais, tais como
atrativos históricos culturais , e atrativos turísticos.
Baseado no questionário onde as respostas referenciaram-se a atrativos regionais, tais
como atrativos para crianças, opcionais para lazer, atrações regionais e outras. E referente ao
inventário turístico, Atrativos Turísticos e Serviços Turísticos: Atrativos naturais, atrativos
histórico culturais e Entretenimento.
Tabela Feriado: Tabela que permite o cadastro de todos os feriados, especificando se
for em alguma cidade especifica.
Baseado no questionário onde as respostas referenciaram a necessidade do
conhecimento dos feriados municipais e nacionais.
Tabela Entlogin: Tabela que contem os usuários de acesso ao sistema, e o seu nível
de acesso.
Necessária para o armazenamento dos usuários.
81
Tabela DadosHosped: Tabela de trabalho, contém dados já pré-selecionadas do
banco de dados principal, contém dados do cruzamento das tabelas: CADHÓSPEDE,
CADPROFISSAO, HÓSPEDE e DETESTAT.
Tabela de trabalho, utilizada para a geração do arquivo de mineração de dados.
Tabela EventosEestatistica: Tabela de trabalho, contém dados já pré-selecionados do
banco de dados principal, contém dados do cruzamento das tabelas: RESERVASEVENTOS e
ESTATISTICA.
Tabela de trabalho, utilizada para a geração do arquivo de mineração de dados.
No Anexo III e segue descrição completa das tabelas suplementares descritas.
3.3 PRÉ-PROCESSAMENTO
A partir dos dados obtidos na etapa de seleção, iniciou-se então uma das atividades
desta etapa, que é a seleção das principais tabelas e suas respectivas colunas a serem
utilizadas. E a partir de tal foram geradas tabelas de trabalho, contendo as informações
selecionadas de algumas das colunas das tabelas principais, informações estas que são
consideradas necessárias para o estudo de caso.
Foram tratados ainda, nesta etapa, os registros cujas colunas selecionadas
apresentavam algum tipo de problema (ruído), ou seja alguma inconsistência. Foram
encontrados registros com datas incoerentes, informações incompletas, em branco, ou até
mesmo um problema de falta de vínculos totalmente estabelecidos entre tabelas.
Devido a isso a quantidade de registros a qual foram minerados foram reduzidos
significativamente em alguns relatórios, podendo acarretar até mesmo em uma determinada
mudança nos resultados esperados, fazendo que assim não se descubra todas as possibilidades
existentes entre os dados.
82
3.4 TRANSFORMAÇÃO
Após as tabelas escolhidas, e respectivamente quais colunas das mesmas seriam
utilizadas, fez-se necessário efetuar uma série de alterações nos dados, tanto na sua forma de
apresentação quanto no conteúdo de algumas colunas, e até mesmo a conversão de alguns
campos. Foram realizadas as seguintes atividades:
a) Conversão da data de aniversário dos hóspedes: alguns problemas com a datas de
aniversário no cadastro de alguns hóspedes, onde algumas datas estavam com ano maior que o
atual, parcialmente e parcialmente preenchidas, desta forma as datas foram convertidas para a
idade, e seguindo o princípio que menores de idade não podem se hospedar em hotéis sem
acompanhantes de maior idade, descartados todos os registros com menos de 18 anos de
idade.
b) Vínculo Cadastros: Um grande problema encontrado foi a forma em que se encontram os
dados das hospedagens vinculadas aos cadastros dos hóspedes. O sistema desbravador trata
de forma diferenciada a tabela HÓSPEDES, da CADHÓSPEDES e DA DETESTAT, desta
forma para poder verificar as hospedagens de um hóspede cadastrado, o vínculo entre o
mesmo deve ser efetuado corretamente no sistema desbravador no momento da entrada do
mesmo no sistema, entretanto grande parte das hospedagens não estavam vinculadas a
nenhum cadastro. Para a análise da mineração dos perfis dos hóspedes, apenas os
corretamente vinculados formam analisados.
c) Tratamento de datas: Para facilitar o processo de mineração, o padrão de armazenamento
das datas seguiu o do banco de dados MYSQL.
d) Eliminação dos registros que não tivessem pais: Alguns registros apresentavam campos em
branco, então adotou-se o padrão de eliminação de todos os que não tivessem o país, adotou-
se este padrão pois nem todos países possuem estados, então se fossem eliminados por estado
eliminaria – se a maior parte dos registros.
Posteriormente, para que a ferramenta de mineração de dados pudesse ser utilizada, foi
necessário preparar os arquivos no formato especifico para ser minerado, tal formato segue
83
alguns padrões específicos do WEKA, e tem a extensão. Porém para gerar este arquivo,
algumas modificações dos dados armazenados nas tabelas também foram efetuadas:
Alteração da data e hora: para gerar o arquivo .csv, o campo que era datetime( data e
hora), foi eliminado a hora, trabalhando assim apenas com as datas armazenadas no banco de
dados.
Alteração de campos numérico: Para gerar o arquivo, foi criado um critério onde os
campos que estivessem com valoresnuméricos foram colocados _0_ , uma restrição do
WEKA.
Alteração para string: Devido ao algoritmo ARPRIORI não trabalhar com valores
numéricos, os campos com datas e valores numéricos, receberam o símbolo _ antes e depois
do valor.
Na Figura Erro! Fonte de referência não encontrada. tem-se um exemplo de um
arquivo gerado a partir de alguns dados selecionados.
Figura 24 Arquivo .CSV
3.5 MINERAÇÃO DE DADOS
Após a base de dados do sistema já consolidada e o sistema já estar gerando os
arquivos no formato especifico, testou-se os algoritmos para a escolha do que apresenta-se
melhor desempenho.
84
Testando o algoritmo de classificação, pode-se observar conforme Figura 25 que o
mesmo não retornou nem um tipo de regra, devido a não trabalhar corretamente com strings.
Figura 25 Teste Algoritmo Classificação
Testando o algoritmo de clusterização, pode-se observar conforme Figura 26, que
também não gerou nem um tipo de regra, e que o mesmo sempre pega um atributo como base,
não fazendo a verificação entre todos os atributos.
85
Figura 26 Teste Algoritmo Clusterização
Com os testes, optou-se pelo algoritmo de mineração de dados APRIORI, a escolha de
tal foi devido a apresentar melhores desempenhos conforme Figura 27, onde o mesmo não
adotar um atributo como base para comparar aos outros, mas sim trabalhar com comparação
entre todos, trabalhar com STRING, DATAS e campos NUMÉRICOS, efetuando
comparações entre eles.
3.5.1 Interpretação e Validação
Como na Descoberta de Conhecimento em Bases de Dados, esta etapa da mineração
requer a participação de especialistas, porém para a interpretação dos resultados, apenas
foram efetuadas algumas comparações dos resultados da pesquisa dos profissionais da área
com as regras produzidas pelo algoritmo.
86
Após várias sessões de mineração de dados executadas, o resultado obtido foi
significativo, entretanto os dados onde efetuados a mineração podem distorcer muito o
resultado, devido ao grande problema de muitos registros terem sido descartados por estarem
incompletos, e assim a interpretação dos resultados e a veracidade dos mesmos se estivessem
corretamente preenchidos serem outros.
Figura 27 Teste Algoritmo Apriori
Conforme Figura 27 onde demonstra as regras produzidas pelo arquivo Eventos
externos por período, podem ser observados alguns itens:
a) As regras geradas confirma a veracidade das as entrevistas com os profissionais da
área, onde o estado do Paraná ficou em segundo lugar na ocupação (23%), e 83 % dos
entrevistados apontaram que feriados melhoram a ocupação.
87
b) Pode-se utilizar também estas regras para identificar em determinadas épocas do
ano o por que da melhor ocupação, no caso proporcionado por um feriado em uma cidade
próxima.
3.6 MODELAGEM DO SISTEMA
3.6.1 Requisitos Funcionais dos Sistema
RF01 – O sistema ira permitir que o operador e o gerente possam cadastrar, excluir ou
alterar os cadastros efetuados pelo sistema.
RF02 – O sistema ira minerar os dados com base em períodos e mostrar os resultados
da analise na tela para o gerente.
RF03 – O sistema ira minerar os dados com base em eventos que aconteceram e
mostrar os resultados da analise na tela para o gerente.
RF04 – O sistema ira importar os dados do sistema Desbravador quando o usuário
com permissão solicitar.
3.6.2 Requisitos não Funcionais do Sistema
RNF01 – A importação dos dados deve ser efetuado o mínimo de vezes possíveis
devido a sua grande exigência de performace.
RNF02 – Os perfis de usuário para acesso ao sistema são: Gerente – possui todas as
permissões, de cadastro relatórios e importações de dados. Operador – o operador tem
permissão apenas para cadastrar, excluir e alterar cadastros.
RNF03 – O sistema utiliza banco de dados MYSQL.
RNF04 – Para importação dos dados, o computador deve estar em ligado a rede que
tenha um servidor com SQL Server 2000 e o sistema Desbravador instalado.
RNF05 – O sistema para efetuar a mineração dos dados necessita do sistema WEKA
versão 3.5.5 instalada no computador.
88
3.6.3 Regras de Negócio
Para garantir um melhor funcionamento do sistema, algumas regras de negócios
formam efetuadas, que são elas:
RNE.01 - Para efetuar login no sistema o usuário e a senha precisam estar cadastrados
no banco de dados.
RNE2 - Quando o sistema valida usuário e senha, ele verifica o nível de acesso e
libera somente permissões referentes ao nível correspondente.
RNE.03 – O sistema acessa o banco de dados e verifica qual o código disponível para
fornecer na tela de cadastro.
RNE.04 – Para poder salvar os dados o sistema confere se todos os dados estão
preenchidos, e a sim salva-os na base de dados.
RNE.05 – Para poder efetuar a mineração dos dados o sistema, verifica se foram
importados os dados, se foi gerado o arquivo .CSV e então libera a mineração utilizando a
API do algoritmo Apriori importada do sistema Weka.
3.6.4 Use Cases
O operador do sistema possui funções diferentes do gerente, onde suas funções são
restritas, assim a Figura 28 Use Case Operador mostra o use case do mesmo.
89
ud USC Sistema
��������������������������
��������������������������
��������������������������
��������������������������
��������������������������
��������������������������
��������������������������
��������������������������
��������������������������
Operador
USC.02
Cadastra/Altera
Acontecimentos
USC.03
Cadastra/Altera
Feriados
USC.04
Cadastra/Altera
Atrativ os
Figura 28 Use Case Operador
O gerente do sistema possui funções a mais que o operador do sistema, como pode ser
visto no use case da Figura 28.
90
ud USC Sistema
��������������������������
��������������������������
��������������������������
��������������������������
��������������������������
��������������������������
��������������������������
��������������������������
��������������������������
Gerente
USC.02
Cadastra/Altera
Acontecimentos
USC.03
Cadastra/Altera
Feriados
USC.04
Cadastra/Altera
Atrativ os
USC.05 Importa
Dados e Gera
Arquiv o .ARFF,
Minera Dados
Figura 29: Use Case Gerente
A Figura 30 demonstra o diagrama de atividade do sistema, onde mostra os passos que
podem ser seguidos pelo gerente.
As descrições dos cenários relativos a estes use cases encontram-se no Anexo IV.
91
ad Visão lógica
�������������������������� ��������������������������
�������������������������� ��������������������������
�������������������������� ��������������������������
�������������������������� ��������������������������
�������������������������� ��������������������������
�������������������������� ��������������������������
�������������������������� ��������������������������
�������������������������� ��������������������������
�������������������������� ��������������������������
�������������������������� ��������������������������
�������������������������� ��������������������������
�������������������������� ��������������������������
�������������������������� ��������������������������
�������������������������� ��������������������������
�������������������������� ��������������������������
�������������������������� ��������������������������
�������������������������� ��������������������������
Inicio
Logon - Tela de Login dosistema
Valida Login e Password
Valida Permissões
Mensagem de erro
Ja efetuou importação de dados ?Inserir/Editar/ExcluirCadastros
Efetuar Mineração
Importa Dados
Efetuou Mineração
VerificaResultados
FIM
Importou ?
Continuar no sistema ?
Apresenta ErroContinuar no sistema ?
Gerou Arquiv o .ARFF
[NÃO]
[SIM]
[SIM]
[NÃO]
[NÃO]
[SIM]
[SIM]
[NÃO]
[NÃO]
[SIM]
[NÃO]
[SIM][NÃO]
[SIM]
[SIM]
[NÃO]
[SIM]
[SIM]
Figura 30: Diagrama de Atividade
3.7 DATA MINING
Conforme a análise demonstrada anteriormente, entre os vários algoritmos os quais já
podem ser utilizados através da ferramenta WEKA, observou-se que o algoritmo Apriori foi o
que melhor teve resultados, devido a algumas de suas associações apresentarem resultados já
92
conhecidos e condizerem com realidades já existentes as quais são de grande valia para a
melhoria do índice de ocupação.
3.7.1 Arquivos do Sistema
Conforme já mencionado, para se efetuar a mineração dos dados utilizou-se a
ferramenta de mineração WEKA, onde para que a mesma pudesse efetuar a mineração gerou-
se arquivos específicos por tipo de informações a serem comparadas, levando-se em
consideração os questionários dos profissionais da área de hotelaria.
Para nível de desempenho do sistema, as importações são efetuadas por tipo de
arquivo a ser gerado, onde alguns dados já são devidamente filtrados na origem, antes mesmo
de importa-los, tal escolha, deu-se para melhora de desempenho, devido a grande quantidade
de registros.
3.7.1.1 Perfil dos Hóspedes
A primeira possibilidade de gerar um arquivo, contém informações proveniente de
tabelas diferentes.
Através do campo CodProfissao na tabela CADHÓSPEDE foi possível retornar o
nome da profissão do hóspedes cadastrado.
Através dos campos CodHóspede na tabela HÓSPEDE, foi possível buscar os dados
dos hóspedes cadastrados na tabela CADHÓSPEDE que já tiveram hospedagem vinculadas
ao cadastro, através do campo Acesso na tabela HÓSPEDE foi possível buscar na tabela
DETESTAT as datas das hospedagens destes hóspedes cadastrados. Após tais filtros o sistema
importou os dados e os gravou na tabela DADOSHOSP, tabela a qual e utilizada para gerar o
arquivo Dados_Hóspedes.csv, o qual cada registro(linha) contém as informações referentes a
uma determinada hospedagem. O arquivo contém os seguintes campos:
CIDADE: Do tipo string, contém a cidade do hóspede, e quando a mesma estiver em
branco assume o valor de ?;
93
ESTADO: Do tipo string, contém o estado do hóspede, e quando a mesma estiver em
branco assume o valor de ?;
PAIS: Do tipo string, contém o País do hóspede, entretanto apenas hóspedes que tem
pais foram integrados no arquivo;
SEXO: Do tipo char (M,F,?), contém o sexo do hóspede, quando esta em branco
sistema define como ?, isso devido ao algoritmo não aceitar campo em branco neste caso;
IDADE: Do tipo integer, contem a idade do hóspede, somente serão gerado idades
acima de 18 anos, sendo que na hora de gerar o arquivo o sistema lê a data de nascimento e
converte para idade, quando a data de nascimento for em branco, a idade vai = 0;
PROFISSAO: Do tipo string, contém a profissão do hóspede, quando esta em branco o
sistema preenche com ?;
INCOGNITO: Do tipo char (S,N,?), corresponde se o hóspede pediu ou não para ser
identificado caso alguém o procure, quando não preenchido o sistema preenche com ? no
momento de gerar o arquivo;
DATAIN: Do tipo date "yyyy-MM-dd", contém a data do dia da entrada do hóspede;
DATAOUT: Do tipo date "yyyy-MM-dd", contém a data do dia da saída do hóspede; e
VALDIARIA: Do tipo real, contém o valor da diária do hóspede na determinada
hospedagem.
3.7.1.2 Eventos Internos por período
A segunda possibilidade de gerar um arquivo, contém informações proveniente de
tabelas diferentes.
Através do campo DataIni e DataFim na tabela RESERVASEVENTOS
correspondente ao período inicial e final do evento, foi efetuado o cruzamento entre os
campos DataIn e DataOut da tabela ESTATISTICA correspondente a data de entrada e saída
do hóspede. Após este cruzamento levanta-se todos os hóspedes que tiveram hospedados no
94
hotel no período do evento. Após tais filtros o sistema importou os dados e os gravou na
tabela EVENTOSEESTATISCITA, tabela a qual e utilizada para gerar o arquivo
Eventos_e_Estatistica.csv, o qual cada registro(linha) contém as informações referentes a
uma determinada hospedagem que esteve enquanto ocorria algum evento. O arquivo contém
os seguintes campos:
EVENTOINTERNO: Do tipo string, contém o nome do evento que ocorreu no hotel;
INICIOEVENTO: Do tipo date "yyyy-MM-dd ", contém a data de inicio do evento
interno;
FIMEVENTO: Do tipo date "yyyy-MM-dd ", contém a data de término do evento
interno;
NRO_PESSOAS: Do tipo interger, contém o número de pessoas que estiveram no
evento;
HOSP_DATAIN: Do tipo date "yyyy-MM-dd ", contém a data de ínicio da
hospedagem do hóspede;
HOSP_DATAOUT: Do tipo date "yyyy-MM-dd ", comtém a data de término da
hospedagem do hóspede;
CIDADE: Do tipo string, contém a cidade do hóspede, e quando a mesma estiver em
branco assume o valor de ?;
ESTADO: Do tipo string, contém o estado do hóspede, e quando a mesma estiver em
branco assume o valor de ?;
PAIS: Do tipo string, contém o País do hóspede, entretanto apenas hóspedes que tem
pais foram integrados no arquivo;
3.7.1.3 Eventos Externos por Período
A segunda possibilidade de gerar um arquivo, contém informações proveniente de
tabelas diferentes.
95
Primeiramente o sistema importou todos os dados da tabela ESTATISTICA do
DESBRAVADOR para a base do protótipo.
Através do campo DataInicial e DataFinal na tabela ENTACONTECIMENTO
correspondente ao período inicial e final dos acontecimentos (cadastrados pelos usuários tais
como eventos, congressos e outros), efetuado o cruzamento entre os campos DataIn e
DataOut da tabela ESTATISTICA correspondente a data de entrada e saída do hóspede. Após
este cruzamento levanta-se todos os hóspedes que tiveram hospedados no hotel no período
dos acontecimentos cadastrados. Após tais filtros o sistema gravou tais registros na tabela de
trabalho EVENTOSEXTERNOSESTATISCITA, tabela a qual e utilizada para gerar o
arquivo Eventos_Externos_e_Estatistica.csv, o qual cada registro(linha) contém as
informações referentes a uma determinada hospedagem que esteve enquanto ocorria algum
evento. O arquivo contém os seguintes campos:
DESCRICAO: Do tipo string, contém o nome do acontecimento;
INICIOACONTECIMENTO: Do tipo date "yyyy-MM-dd ", contém a data de inicio
do acontecimento;
FIMACONTECIMENTO: Do tipo date "yyyy-MM-dd ", contém a data de término do
acontecimetno;
TIPOACONTECIMENTO: Do tipo String, contém o tipo do acontecimento;
CIDADEACONTECIMENTO: Do tipo String, contém aonde ocorreu o
acontecimento;
HOSP_DATAIN: Do tipo date "yyyy-MM-dd ", contém a data de ínicio da
hospedagem do hóspede;
HOSP_DATAOUT: Do tipo date "yyyy-MM-dd ", comtém a data de término da
hospedagem do hóspede;
CIDADE: Do tipo string, contém a cidade do hóspede, e quando a mesma estiver em
branco assume o valor de ?;
96
ESTADO: Do tipo string, contém o estado do hóspede, e quando a mesma estiver em
branco assume o valor de ?;
PAIS: Do tipo string, contém o País do hóspede, entretanto apenas hóspedes que tem
pais foram integrados no arquivo;
3.7.2 Mineração dos Dados
Após serem efetuadas a importação e a geração dos arquivos específicos, o usuário
pode executar o passo de mineração, sendo que para tal o sistema irá necessitar do sistema
WEKA devidamente instalado no computador.
3.7.2.1 Integração do Protótipo com WEKA
Para que se possa efetuar a mineração dos dados, existe a necessidade de executar uma
seqüência de passos.
Primeiramente o usuário necessita ser cadastrado no protótipo, possuindo assim um
login e uma senha, conforme mostra a Figura 31.
Figura 31. Tela de Login do Sistema
97
Após efetuar a validação o protótipo abrirá a tela principal onde possibilitara ao
usuário começar a operara-lo. Entretanto para que se possa efetuar a mineração dos dados o
primeiro passo é importar os dados e gerar os arquivos .csv, os quais estão disponibilizados
no menu principal na aba Mineração de Dados. Porém cada opção do menu, possibilidade
de importação e gerações distintas de .csv, conforme mostra a Figura 32.
Figura 32: Tela Principal do Sitema
No menu principal conforme Figura 32 o usuário seleciona qual a opção desejada, e
posteriormente então o sistema apresenta a tela conforme Figura 33 onde realmente se efetua
a importação dos dados e a geração do arquivo .csv referente a tais atributos.
Na tela conforme Figura 33, o sistema apresenta qual tipo de mineração poderá ser
efetuado através de tal arquivo, sendo que somente será liberado a geração do arquivo, após
98
ser efetuado o processo de importação e somente após ser gerado o arquivo o sistema ira
permitir o processo de mineração, como mostra a Figura 33.
Figura 33: Tela Perfil dos Hóspedes x Estatística
Ao término da geração do arquivo .CSV, o sistema libera o botão Mineração de
Dados, que ao ser pressionado, invocará o sistema WEKA, já com todos os atributos
disponíveis para serem minerados.
O Usuário poderá marcar com quais atributos deseja trabalhar, ou se preferir
selecionar todos, conforme mostra letra A, na Figura 34.
O Usuário clica na aba do algoritmo ASSOCIATE, conforma mostra a letra B na
Figura 34.
99
Figura 34: Integração Protótipo x WEKA
Após clicar na aba ASSOCIATE, o usuário deve clicar em STAR, conforme mostra
letra A na Figura 35, para que o WEKA efetue a mineração dos dados e disponibilize
posteriormente.
100
Figura 35: Minerando Dados ASSOCITE.
Quando o sistema apresentar a mensagem dos dados minerados conforme letra B na
Figura 35, o usuário pode clicar na aba VISUALIZE conforme letra C na Figura 35 .
Já minerados os dados o usuário poderá efetuar a visualização dos resultados na tela de
visualização conforme letra A na Figura 36.
Ainda existindo a possibilidade de aumentar o tamanho dos resultados no PlotSize
conforme letra B na Figura 36, visualizar os pontos dos agrupamentos um pouco maior
conforme PointSize na letra C da Figura 36.
101
Figura 36: Tela Visualização Resultados WEKA
3.7.3 Protótipo
O protótipo do sistema apresenta ainda algumas funções que visam melhorar o
desempenho da mineração de dados, conforme já citado a facilidade de cadastros extras
através do protótipo para melhorar o desempenho da mineração de dados.
Na Figura 37 as possibilidades de inserções extras para o sistema, onde o usuário pode
estar incluindo, alterando ou excluindo acontecimentos, atrativos ou feriados, tais opção são
relativos ao inventario turístico regional.
102
Figura 37: Menu Cadastro
Um exemplo da tela padrão de procura, onde pode-se editar, excluir ou incluir novos
registros pode ser visto na Figura 38. Nesta tela ainda pode ser visualizado todos os itens já
cadastrados clicando no botão procura sem nem um item no campo descritivo. A procura
também pode ser efetuada por palavras chaves.
103
Figura 38: Tela Padrão Procura
Ainda na Figura 39 pode-se observar a tela de cadastro de acontecimentos. Nesta tela
o usuário esta incluindo mais um acontecimento, tal inclusão exige algumas informações as
quais são fundamentais para que no momento da interação deste registro com os demais dados
possam ser descobertas novas associações. Por isso todos os campos são obrigatórios.
104
Figura 39: Tela Cadastro Acontecimento
Tais telas são já do protótipo, onde o padrão para as mesmas é sempre o mesmo,
mudando apenas o tipo de dado a ser cadastrado ou procurado, Acontecimentos, Atrativos ou
Feriados.
3.7.4 Escolha do Algoritmo
A escolha do algoritmo APRIORI teve alguns pontos relevantes.
Primeiramente por ele não pega um atributo como base para efetuar as possíveis
combinações e descobrir novos padrões de combinações, mas sim trabalha com todos os
atributos com mesmo peso, possibilitando assim diversas combinações e automaticamente
aumentando as chances de descoberta de novos padrões.
Outro ponto extremamente relevante é a possibilidade de trabalhar com Datas, Strings,
campos numéricos, e campos definidos, coisa que os demais algoritmos não trabalham.
105
O algoritmo que foi assim escolhido para efetuar a análise foi o Apriori este algoritmo
o qual já esta implementado e disponível de código aberto na linguagem java.
106
4 CONCLUSÃO
Este trabalho teve como principal objetivo apresentar um modelo de data mining que
auxilie na melhoria do índice de ocupação do setor hoteleiro, através da descoberta de
conhecimento na base de dados, visando utilizar deste conhecimento para tomadas de
decisões e ações de CRM. A partir deste modelo, foi implementado então o protótipo para
automatizar as etapas propostas.
A Utilização do algoritmo Apriori deu-se por ser apresentar melhores desempenhos
nos testes efetuados e ainda por ser um algoritmo reconhecido na área de mineração de regras
de associação, onde o algoritmo faz diversas interações entre os dados para encontrar
conjuntos de itens e descobrir possíveis padrões de comportamentos.
A análise da estrutura de dados do Desbravador, através de softwares de gerencia de
banco de dados aliado ao conhecimento já obtido pelo tempo de trabalho no mesmo facilitou a
identificação das tabelas e colunas que fizeram correspondência com os dados levantados
junto entrevista dos profissionais da área, onde as respostas com maior índices de respostas
foram as de maior prioridade. Ainda os elementos os quais tiveram maiores índices de
respostas e não continham no sistema desbravador como os dados do inventário turísticos por
exemplo, foram vinculados a tabelas suplementares, tais tabelas com o intuito de um
cadastramento externo e um cruzamento com os dados do Desbravador para então a aplicação
das técnicas de mineração de dados.
Com o levantamento efetuado dos dados a serem importados e os dados a serem
criados em tabelas suplementares mediante as entrevistas, efetuou-se então a modelagem do
sistema e quais possíveis cruzamentos efetuados para geração de do arquivo csv e a
mineração dos dados.
A utilização dos conceitos de Data Mining foi de grande valia para o desenvolvimento
do trabalho e para que isso ser possível, a utilização da ferramenta de código aberto WEKA
foi sem duvidas imprescindível. Tal ferramenta foi de grande valia, pois diversos algoritmos e
assim tornou a parte de testes um quanto mais fácil.
107
O modelo propõe que os dados sejam importados já previamente filtrados da base de
dados de origem, em virtude da otimização de tempo, e da grande quantidade de registros que
já podem ser eliminados em um primeiro passo, usando dos conhecimentos da DCBD. A
Exportação para csv deu-se por motivos de melhoramento de desempenho na mineração
utilizando o WEKA, onde nesta extensão o arquivo torno-se mais prático de ser gerado e
menor que a extensão arff.
Devido a uma quantidade de hóspedes cadastrados com problemas na data do
aniversário, no momento de gerar o arquivo, teve que se efetuar a conversão dos mesmos e
validar pela idade mínima de 18 anos. Cadastros os quais não possuíam data de aniversário
foram atribuídos o valor 0.
Um dos problemas mais graves constatados, foi a da falta de informações
corretamente cadastras, devido a falta de vinculo entre as hospedagens dos hóspedes e seus
respectivos cadastros, sendo assim, no momento da importação dos dados os não vinculados
foram eliminados, fazendo que desta forma nem todos os resultados esperados serão
alcançados, tal problema provem do momento da entrada do hóspede no sistema Desbravador,
onde o vínculo não e feito de forma correta. Outro problema também referente a falta de um
cadastro completo foram nos campos, cidade, estado e país, onde adotou-se por eliminar todos
registros cujo país estivesse em branco.
Entretanto todo esforço foi de grande valia, devido a grande evolução do
conhecimento não somente na área proposta, mas também nos conhecimentos do WEKA e da
linguagem de programação java.
Diante de todo o material estudado, pode-se dizer que a utilização dos conceitos de
CRM para mineração de dados não e tão simples como a maioria das pessoas pensa que é,
principalmente devido ao fato de envolver diversos conceitos, técnicas, variáveis e forma
diferentes de se analisar um mesmo problema.
A validação do sistema deu-se comparando as regras geradas com o questionário dos
profissionais da área, mas tal pode não ser totalmente correto em virtude da possível distorção
ocasionada pela quantidade de registros incompletos que foram descartados.
108
A importância de uma ferramenta como a apresentada é pode ser de grande valia para
profissionais do ramo, onde tal ferramenta bem aplicada pode ser extremamente útil para
tomas de decisões, levantamentos de pontos positivos e negativos em ações já tomadas,
auxiliar em ações de CRM direcionadas para públicos alvos evitando assim a perda de tempo
e de dinheiro. Onde em tempos como os atuais uma pequena tomada de decisão pode
representar muito a utilização correta de uma ferramenta como tal pode representar a
continuidade ou não da empresa no mercado.
109
5 REFERÊNCIAS BIBLIOGRÁFICAS
ABEND. Acessado em 04/2006, Disponível em http://www.abemd.org.br/materias_conteudo.asp?coddocumento=106
ALMEIDA, F. Carvalho de; SIQUEIRA, José de Oliveira; ONUSIC, Luciana M. Data Mining no Contexto de Customer Relationship Management. Universidade de São Paulo – USP, 2005.
ALMEIDA, Leandro Maciel; PADILHA, Thereza Patrícia P. ; OLIVEIRA ,Fernando Luiz De; PREVIERO, Conceição A. Uma Ferramenta para Extração de Padrões Centro Universitário de Palmas.
AMARAL, Fernanda C. N. do. Data Mining – Técnicas e Aplicações Para o Marketing Direto. Ed. Berkeley, São Paulo, 2001.
AMO, Sandra. Técnicas de Mineração de Dados. Universidade Federal de Uberlândia, 2004.
AULICINO, Madalena P., Turismo e estâncias: impactos e benefícios para os municípios, São Paulo, Editora Futura, 2001.
BIGUS, J. P., Data Mining with Neural Network – Solving Business Problems from Application Development to Decision Support, McGraw-Hill, 1996.
BRESOLIN, Mauro L. Estratégia mercadológica visando melhor ocupação dos hotéis situados na região norte da ilha de santa Catarina no período da baixa temporada, Florianópolis, 2001.
BUCCI, Antonio G. CRM: Conceitos e Aplicabilidade. Acesso: 16/03/2005. Disponível em: http://www.bucci.com.br/artigos/CRMart080801.pdf.
CM. Acessado em 04/2006, Disponível em: www.cmsolucoes.com.br
DESBRAVADOR. Acessado em 04/06, Disponível em www.desbravador.com.br
DESBRAVADOR² Acessado em 06/07, Disponível em http://www.desbravador.com.br/data/viewnews.php?ref=31
FALCÃO, Daniela. CRM: Da Antiga Caderneta a Era da Tecnologia. Acessado em 05/2006, Disponível em: www.empreenderparatodos.adm.br/atendimento/mat_15.htm.
FEIJÓ, Fernando. Marketing Hoteleiro. Acessado em 05/2006, Disponível em: www.fernandofeijo.hpg.ig.com.br/mkttur.htm
FERNANDES, Anita M. da Rocha. Inteligência Artificial: Noções Gerais. Visual Books, 2003.
FERNANDES, Anita M. da Rocha. Ambiente Inteligente para apoio a tomada de decisão em investimentos turísticos. UFSC, 2000.
HMAX. Acessado em 04/2006, Disponível em: www.hmax.com.br
LARA,Simone B., Marketing e vendas na hotelaria, São Paulo, Editora Futura, 2001.
110
MARSON, Adriano Fabri. Mineração de Dados e suas aplicações à CRM. Unidade Acadêmica da Área de Ciências Exatas e Tecnológicas – Universidade São Francisco, Itatiba, 2003.
OLIVEIRA, Antônio P., Turismo e desenvolvimento: planejamento e gestão, 2a. Edição, São Paulo, Editora Atlas, 2000.
PAULA, Marcelo Vicente. Explorando o Potencial da Plataforma Lattes como Fonte de Conhecimento Organizacional em Ciência e Tecnologia, Universidade Católica de Brasília, 2004.
PACHECO, Marco A.; VELLASCO, Marley; LOPES, Carlos H. Descoberta de Conhecimento e Mineração de Dados. Laboratório de Inteligência Computacional Aplicada - PUC, Rio de Janeiro, 2000.
PEDRON, Cristiane Drebes. Estratégia De Crm: Em Direção À Identificação de Indicadores de Desempenho. São Leopoldo, 2000.
RUSSEL, Stuart; NORVING, Peter. Inteligência Artificial. 2ª Edição, ELSEVIER, São Paulo, 2004.
SANCHES, André R. Uma Visão Geral Sobre Mineração de Dados. São Paulo, Novembro de 2003.
SANTOS, José Gonçalo dos. Mineração de Dados Aplicada a Gestão de Relacionamento com Clientes. Vol. 6, ULBRA, Santarém, 2005.
SANTOS, Rafael. Princípios e Aplicações de Mineração de Dados. Instituto Nacional de Pesquisas Espaciais. Acessado em 06/2006. Disponível em : www.lac.inpe.br/_rafael.santos/cap.html
TEIXEIRA, João Carlos de Aquino. A Importância do Marketing. Laboratório de Propaganda e Marketing da UNIC, março de 1999.
TORRE, Francisco de la, Administração hoteleira:parte1-departamentos, São Paulo, Editora Roca, 2001.
TREARLING, Kurt. Data Mining e CRM. Acessado em 05/2006. Disponível em : http://www.wgsystems.com.br/artigos/thearling1.htm
VALENTE, Thais R. G. Marketing de Relacionamento e CRM: Uma Análise da Gestão de Clientes no Setor Financeiro. Universidade de São Paulo, São Paulo, 2002.
VASCONCELOS, Benitz de Souza. Mineração de Regras de Classificação com Sistemas de Banco de Dados Objeto-Relacional. Campina Grande, Dezembro de 2002.