relatÓrio do projeto de ensino - din.uem.brmmdias/documentos/proj_ens_mada.pdf · conhecimento em...
Post on 02-Feb-2019
218 Views
Preview:
TRANSCRIPT
RELATÓRIO DO PROJETO DE ENSINO
ESTUDO E ANÁLISE DE TÉCNICAS E FERRAMENTAS DEMINERAÇÃO DE DADOS
MARIA MADALENA DIAS
RESUMO
Apesar da existência de técnicas e ferramentas de mineração de dados, muitas
organizações ainda desconhecem o quanto o computador pode dar suporte à tomada de
decisão. A pouca utilização dessas técnicas e ferramentas podem estar relacionadas à
dificuldade na escolha da técnica e/ou ferramenta de mineração de dados mais adequada
ao tipo de aplicação. Este relatório sugere alguns parâmetros a serem considerados na
escolha da técnica e da ferramenta de mineração de dados.
2
SUMÁRIO
RESUMO ....................................................................................................................................................1
1 INTRODUÇÃO .......................................................................................................................................4
2 MINERAÇÃO DE DADOS ....................................................................................................................5
2.1 TAREFAS DESEMPENHADAS POR TÉCNICAS DE MINERAÇÃO DE DADOS..............................................62.2 TÉCNICAS DE MINERAÇÃO DE DADOS .................................................................................................72.3 ÁREAS DE APLICAÇÃO DE TÉCNICAS DE MINERAÇÃO DE DADOS ........................................................7
3 O PROCESSO DE DESCOBERTA DE CONHECIMENTO.............................................................9
4 COMO ESCOLHER A TÉCNICA DE MINERAÇÃO DE DADOS MAIS ADEQUADA ............10
5 FERRAMENTAS DE MINERAÇÃO DE DADOS............................................................................12
6 METODOLOGIA PARA AVALIAÇÃO E SELEÇÃO DE SOFTWARE DE MINERAÇÃO DEDADOS......................................................................................................................................................14
6.1 APLICAÇÃO METÓDICA DA ESTRUTURA ..............................................................................17
7 EXEMPLOS DE FERRAMENTAS DE MINERAÇÃO DE DADOS ..............................................18
8 ESTUDO DE CASO..............................................................................................................................19
8.1 PRÉ-PROCESSAMENTO ......................................................................................................................198.2 MINERAÇÃO DE DADOS.....................................................................................................................25
8.2.1 Descoberta de Regras de Associação........................................................................................268.2.2 Árvore de Decisão .....................................................................................................................31
8.3 PÓS-PROCESSAMENTO ......................................................................................................................32
9 PARÂMETROS NA ESCOLHA DE TÉCNICAS DE MINERAÇÃO DE DADOS .......................33
10 PARÂMETROS NA ESCOLHA DE FERRAMENTA DE MINERAÇÃO DE DADOS .............34
11 CONSIDERAÇÕES FINAIS..............................................................................................................35
12 REFERÊNCIAS BIBLIOGRÁFICAS ..............................................................................................36
3
LISTA DE FIGURAS
FIGURA 1: A MINERAÇÃO DE DADOS COMO UM CAMPO MULTIDISCIPLINAR ...............................................5FIGURA 2: PROCESSO DE DESCOBERTA DE CONHECIMENTO .........................................................................9FIGURA 3: FASES DA METODOLOGIA PARA SELEÇÃO DE FERRAMENTAS DE MINERAÇÃO DE DADOS.........17
LISTA DE TABELAS
TABELA 1: TAREFAS REALIZADAS POR TÉCNICAS DE MINERAÇÃO DE DADOS .............................................6TABELA 2: TÉCNICAS DE MINERAÇÃO DE DADOS.........................................................................................7TABELA 3: CARACTERÍSTICAS DE DADOS ...................................................................................................11TABELA 4: CARACTERÍSTICAS GERAIS DA FERRAMENTA ...........................................................................13TABELA 5: CONECTIVIDADE DE BANCOS DE DADOS DA FERRAMENTA.......................................................13TABELA 6: CARACTERÍSTICAS DE MINERAÇÃO DE DADOS DA FERRAMENTA .............................................14TABELA 7: CRITÉRIOS DE DESEMPENHO COMPUTACIONAL ........................................................................15TABELA 8: CRITÉRIOS DE FUNCIONALIDADE ..............................................................................................15TABELA 9: CRITÉRIOS DE USABILIDADE .....................................................................................................16TABELA 10: CRITÉRIOS DE SUPORTE DE ATIVIDADES PRINCIPAIS DE UMA ORGANIZAÇÃO OU SISTEMA ....16TABELA 11: FERRAMENTAS DE MINERAÇÃO DE DADOS .............................................................................18TABELA 12: ATRIBUTOS SELECIONADOS DAS TABELAS DOS BANCOS DE DADOS DA CAPES ....................20TABELA 13: DISCRETIZAÇÃO DOS DADOS DAS TABELAS DO DATASET ......................................................24TABELA 14: RELAÇÃO DAS TABELAS DO DATASET E SEUS ATRIBUTOS......................................................25TABELA 15: REGRAS GERADAS PARA O PRIMEIRO OBJETIVO - APRIORI.....................................................26TABELA 16: REGRAS GERADAS PARA O SEGUNDO OBJETIVO - APRIORI.....................................................28TABELA 17: REGRAS GERADAS PARA O TERCEIRO OBJETIVO - APRIORI ....................................................29TABELA 18: REGRAS GERADAS PARA O PRIMEIRO OBJETIVO – C4.5 E J48.................................................31
4
1 INTRODUÇÃO
Durante várias décadas, desde a invenção do primeiro computador, o principal
objetivo da utilização do computador é solucionar problemas operacionais da
organização. A grande maioria das organizações ainda não possui meios de utilização
dos recursos computacionais na tomada de decisão. Apesar da existência de grandes
bancos de dados com muitas informações sobre o negócio da empresa, ainda são
encontradas dificuldades na descoberta de conhecimento baseada nessas informações.
Essas dificuldades podem estar relacionadas a um dos seguintes fatores: falta de
conhecimento da existência de técnicas de mineração de dados; complexidade na
implementação e aplicação de uma técnica de mineração de dados; falta de ferramentas
adequadas; alto custo das ferramentas de mineração de dados disponíveis no mercado;
falta de parâmetros de referência na escolha da técnica e da ferramenta mais adequadas
a cada problema a ser solucionado.
As técnicas de mineração de dados são aplicadas em sistemas de descoberta de
conhecimento em banco de dados com o objetivo de extrair informações estratégicas
escondidas em grandes bancos de dados, através da pesquisa dessas informações e da
determinação de padrões, classificações e associações entre elas (Goebel e Gruenwald,
1999).
A seguir, na próxima seção, são apresentados alguns conceitos de mineração de
dados e descritas, sucintamente, tarefas e técnicas de mineração de dados. Na seção 3
são mostrados os passos básicos do processo de descoberta de conhecimento. Na seção
4 são discutidas algumas sugestões de como escolher a técnicas de mineração de dados
mais adequada ao tipo de aplicação. Na seção 5 são relacionadas características
importantes na escolha de uma ferramenta de mineração de dados. Na seção 6 é descrita
uma metodologia para avaliação e seleção de software de mineração de dados. Na seção
7 são relacionadas algumas ferramentas de mineração de dados. Na seção 8 é mostrada
a realização de um estudo de caso onde são aplicadas duas técnicas de mineração de
dados sobre dados de cursos de pós-graduação do Brasil. Nas seções 9 e 10 são
relacionados parâmetros a serem considerados na escolha de uma técnica e de uma
ferramenta de mineração de dados, respectivamente. Finalmente, na seção 11, é
apresentada a conclusão deste trabalho.
5
2 MINERAÇÃO DE DADOS
A mineração de dados pode ser considerada como uma parte do processo de
Descoberta de Conhecimento em Banco de Dados (KDD – Knowledge Discovery in
Databases). Segundo Goebel e Gruenwald (1999), o termo KDD é usado para
representar o processo de tornar dados de baixo nível em conhecimento de alto nível,
enquanto mineração de dados pode ser definida como a extração de padrões ou modelos
de dados observados.
A mineração de dados combina métodos e ferramentas das seguintes áreas:
aprendizagem de máquina, estatística, banco de dados, sistemas especialistas e
visualização de dados, conforme Figura 1 (Cratochvil, 1999).
Figura 1: A Mineração de Dados como um Campo Multidisciplinar
“Mineração de dados é a exploração e a análise, por meio automático ou semi-
automático, de grandes quantidades de dados, a fim de descobrir padrões e regras
significativos” (Berry e Linoff, 1997, p.5). Os principais objetivos da mineração de
dados são descobrir relacionamentos entre dados e fornecer subsídios para que possa ser
feita uma previsão de tendências futuras baseada no passado.
Os resultados obtidos com a mineração de dados podem ser usados no
gerenciamento de informação, processamento de pedidos de informação, tomada de
decisão, controle de processo e muitas outras aplicações.
A mineração de dados pode ser aplicada de duas formas: como um processo de
verificação e como um processo de descoberta (Groth, 1998). No processo de
verificação, o usuário sugere uma hipótese acerca da relação entre os dados e tenta
SistemasEspecialistas
Banco deDados
Aprendizagemde Máquina
Estatística
Visualização
KDD
6
prová-la aplicando técnicas como análises estatística e multidimensional sobre um
banco de dados contendo informações passadas. No processo de descoberta não é feita
nenhuma suposição antecipada. Esse processo usa técnicas, tais como descoberta de
regras de associação, árvores de decisão, algoritmos genéticos e redes neurais.
2.1 Tarefas Desempenhadas por Técnicas de Mineração de dados
As técnicas de mineração de dados podem ser aplicadas a tarefas1 como
classificação, estimativa, associação, segmentação e sumarização. Essas tarefas são
apresentadas de forma resumida na Tabela 1 (Dias, 2001).
Tabela 1: Tarefas Realizadas por Técnicas de Mineração de Dados
TAREFA DESCRIÇÃO EXEMPLOSClassificação Constrói um modelo de algum tipo
que possa ser aplicado a dados nãoclassificados a fim de categorizá-losem classes, o objetivo é descobrir umrelacionamento entre um atributo meta(cujo valor será previsto) e umconjunto de atributos de previsão
• Classificar pedidos de crédito• Esclarecer pedidos de seguros
fraudulentos• Identificar a melhor forma de
tratamento de um paciente
Estimativa(ou Regressão)
Usada para definir um valor paraalguma variável contínuadesconhecida
• Estimar o número de filhos ou a rendatotal de uma família
• Estimar o valor em tempo de vida de umcliente
• Estimar a probabilidade de que umpaciente morrerá baseando-se nosresultados de diagnósticos médicos
• Prever a demanda de um consumidorpara um novo produto
Associação Usada para determinar quais itenstendem a serem adquiridos juntos emuma mesma transação
• Determinar que produtos costumam sercolocados juntos em um carrinho desupermercado
Segmentação(ou Clustering)
Processo de partição de umapopulação heterogênea em váriossubgrupos ou grupos maishomogêneos
• Agrupar clientes por região do país• Agrupar clientes com comportamento
de compra similar• Agrupar seções de usuários Web para
prever comportamento futuro de usuárioSumarização Envolve métodos para encontrar uma
descrição compacta para umsubconjunto de dados
• Tabular o significado e desvios padrãopara todos os itens de dados
• Derivar regras de síntese
1 Neste contexto, tarefa é um tipo de problema de descoberta de conhecimento a ser solucionado.
7
2.2 Técnicas de Mineração de dados
Harrison (1998) afirma que não há uma técnica que resolva todos os problemas
de mineração de dados. Diferentes métodos servem para diferentes propósitos, cada
método oferece suas vantagens e suas desvantagens. A familiaridade com as técnicas é
necessária para facilitar a escolha de uma delas de acordo com os problemas
apresentados. A Tabela 2 apresenta um resumo das técnicas de mineração de dados
normalmente usadas.
Tabela 2: Técnicas de Mineração de Dados
TÉCNICA DESCRIÇÃO TAREFAS EXEMPLOSDescoberta deRegras deAssociação
Estabelece uma correlaçãoestatística entre atributos dedados e conjuntos de dados
• Associação Apriori, AprioriTid, AprioriHybrid,AIS, SETM (Agrawal e Srikant,1994) e DHP (Chen et al, 1996).
Árvores deDecisão
Hierarquização dos dados,baseada em estágios dedecisão (nós) e naseparação de classes esubconjuntos
• Classificação• Regressão
CART, CHAID, C5.0, Quest (TwoCrows, 1999);ID-3 (Chen et al, 1996); SLIQ(Metha et al, 1996); SPRINT (Shaferet al, 1996).
RaciocínioBaseado emCasos ou MBR
Baseado no método dovizinho mais próximo,combina e comparaatributos para estabelecerhierarquia de semelhança
• Classificação• Segmentação
BIRCH (Zhang et al, 1996);CLARANS (Chen et al, 1996);CLIQUE (Agrawal et al, 1998).
AlgoritmosGenéticos
Métodos gerais de busca eotimização, inspirados naTeoria da Evolução, onde acada nova geração, soluçõesmelhores têm mais chancede ter “descendentes”
• Classificação• Segmentação
Algoritmo Genético Simples(Goldberg, 1989); Genitor, CHC(Whitley, 1993);Algoritmo de Hillis (Hillis, 1997);GA-Nuggets (Freitas, 1999); GA-PVMINER (Araújo et al, 1999).
Redes NeuraisArtificiais
Modelos inspirados nafisiologia do cérebro, ondeo conhecimento é fruto domapa das conexõesneuronais e dos pesosdessas conexões
• Classificação• Segmentação
Perceptron, Rede MLP, Redes deKohonen, Rede Hopfield, RedeBAM, Redes ART, Rede IAC, RedeLVQ, Rede Counterpropagation,Rede RBF, Rede PNN, Rede TimeDelay, Neocognitron, Rede BSB(Azevedo, 2000), (Braga, 2000),(Haykin, 2001)
2.3 Áreas de Aplicação de Técnicas de Mineração de dados
A seguir, são relacionadas as principais áreas de interesse na utilização de
mineração de dados (Cratochvil, 1999), (Mannila, 1996), (Viveros et al, 1996):
• Marketing. Técnicas de mineração de dados são aplicadas para descobrir
preferências do consumidor e padrões de compra, com o objetivo de realizar
marketing direto de produtos e ofertas promocionais, de acordo com o perfil do
consumidor.
8
• Detecção de fraudes. Muitas fraudes óbvias (tais como, a compensação de cheque
por pessoas falecidas) podem ser encontradas sem mineração de dados, mas padrões
mais sutis de fraude podem ser difíceis de serem detectados, por exemplo, o
desenvolvimento de modelos que predizem quem será um bom cliente ou aquele que
poderá se tornar inadimplente em seus pagamentos.
• Medicina: caracterizar comportamento de paciente para prever visitas, identificar
terapias médicas de sucesso para diferentes doenças, buscar por padrões de novas
doenças.
• Instituições governamentais: descoberta de padrões para melhorar as coletas de
taxas ou descobrir fraudes.
• Ciência: técnicas de mineração de dados podem ajudar cientistas em suas pesquisas,
por exemplo, encontrar padrões em estruturas moleculares, dados genéticos,
mudanças globais de clima, oferecendo conclusões valiosas rapidamente.
• Controle de processos e controle de qualidade: auxiliar no planejamento
estratégico de linhas de produção e buscar por padrões de condições físicas na
embalagem e armazenamento de produtos.
• Banco: detectar padrões de uso de cartão de crédito fraudulento, identificar clientes
“leais”, determinar gastos com cartão de crédito por grupos de clientes, encontrar
correlações escondidas entre diferentes indicadores financeiros.
• Apólice de seguro: análise de reivindicações – determinar quais procedimentos
médicos são reivindicados juntos, prever quais clientes comprarão novas apólices,
identificar padrões de comportamento de clientes perigosos, identificar
comportamento fraudulento.
• Transporte: determinar as escalas de distribuição entre distribuidores, analisar
padrões de carga.
• C & T (Ciência e Tecnologia): avaliar grupos de pesquisa do país (Gonçalves,
2000), (Romão, 1999), (Dias, 2001).
• Web: existem muitas pesquisas direcionadas à aplicação de mineração de dados na
Web, tais como: (Loh et al, 2000), (Kosala e Blockeel, 2000), (Ma et al, 2000),
(Mobasher et al, 2000), (Sarawagi e Nagaralu, 2000), (Spiliopoulou, 2000).
9
3 O Processo de Descoberta de Conhecimento
O processo de descoberta de conhecimento é um método semi-automático
complexo e iterativo (Mannila, 1996). De acordo com Groth (1998), ele pode ser
dividido em cinco passos básicos: preparação de dados, definição de um estudo,
construção de um modelo, entendimento do modelo e predição.
Para Lans (1997), existe um passo que antecede a preparação de dados, trata-se
da definição de objetivos.
A Figura 2 representa o processo de descoberta de conhecimento (Dias,2001).
Figura 2: : Processo de Descoberta de Conhecimento
Definição deObjetivos
Acesso ePreparação de
Dados
Definiçãode um Estudo
Construção deum Modelo
Análise doModelo
Predição
Planejamento de ação Planejamento deavaliação de resultados
Seleção e transformação dos dados Registro no Metadados Registro do DW, DM ou DS
Articular um alvo Escolher uma variável dependente Especificar os campos de dadosusados no estudo
Aplicação de uma técnicade mineração de dados
Análise baseada no tipode técnica de mineraçãode dados aplicada
Escolha do melhorresultado possível
10
4 Como Escolher a Técnica de Mineração de dados mais Adequada
A escolha de uma técnica de mineração de dados a ser aplicada não é uma tarefa
fácil. Segundo Harrison (1998), a escolha das técnicas de mineração de dados dependerá
da tarefa específica a ser executada e dos dados disponíveis para análise. Berry e Linoff
(1997) sugerem que a seleção das técnicas de mineração de dados deve ser dividida em
dois passos:
1) Traduzir o problema de negócio a ser resolvido em séries de tarefas de mineração de
dados;
2) Compreender a natureza dos dados disponíveis em termos de conteúdo e tipos de
campos de dados e estrutura das relações entre os registros.
O primeiro passo na seleção da técnica de mineração de dados é, portanto,
estabelecer uma meta comercial como, por exemplo, ‘manter os clientes’ e transformá-
la em uma ou mais das tarefas de mineração de dados apresentadas anteriormente. Neste
exemplo, a estratégia é identificar assinantes que tenham a intenção de desistir do
serviço, descobrir suas razões para isso e fazer algum tipo de oferta especial que os
agrade. Para o sucesso da estratégia, é preciso não somente identificar os assinantes que
podem cancelar, mas dividi-los em grupos de acordo com seus motivos presumíveis
para a desistência. A primeira tarefa é, obviamente, a classificação. Usando um conjunto
de dados de treinamento com exemplos de clientes que cancelaram o serviço juntamente
com exemplos daqueles que permaneceram, é possível construir um modelo capaz de
rotular cada cliente como ‘fiel’ ou ‘instável’.
O segundo passo, determinar as características dos dados em análise, tem como
meta selecionar a técnica de mineração de dados que minimiza o número e dificuldades
de transformação de dados para, a partir destes, obter bons resultados. A Tabela 3
mostra uma lista de características de dados, baseada em (Berry e Linoff, 1997), que
ajudará na escolha de uma abordagem de mineração de dados.
11
Tabela 3: Características de Dados
Característica Descrição Técnicas de Mineraçãode Dados
Variáveis de categorias São campos que apresentam valores de umconjunto de possibilidades limitado epredeterminado
• Descoberta de regras deassociação
• Árvores de decisãoVariáveis numéricas São aquelas que podem ser somadas e ordenadas • Raciocínio baseado em
casos (MBR)• Árvores de Decisão
Muitos campos porregistro
Este pode ser um fator de decisão da técnicacorreta para uma aplicação específica, uma vezque os métodos de mineração de dados variam nacapacidade de processar grandes números decampos de entrada
• Árvores de decisão
Variáveis dependentesmúltiplas
Caso em que é desejado prever várias variáveisdiferentes baseadas nos mesmos dados deentrada
• Redes neurais
Registro de comprimentovariável
Apresentam dificuldades na maioria das técnicasde mineração de dados, mas existem situaçõesem que a transformação para registros decomprimento fixo não é desejada
• Descoberta de regras deassociação
Dados ordenadoscronologicamente
Apresentam dificuldades para todas as técnicas e,geralmente, requerem aumento dos dados deteste com marcas ou avisos, variáveis dediferença etc.
• Rede neural intervalar(time-delay)
• Descoberta de regras deassociação
Texto sem formatação A maioria das técnicas de mineração de dados éincapaz de manipular texto sem formação
• Raciocínio baseado emcasos (MBR)
“Diferentes esquemas de classificação podem ser usados para categorizar
métodos de mineração de dados sobre os tipos de bancos de dados a serem estudados, os
tipos de conhecimento a serem descobertos e os tipos de técnicas a serem utilizadas”
(Chen et al,1996, p.4), como pode ser visto a seguir:
• Com que tipos de bancos de dados trabalhar:
Um sistema de descoberta de conhecimento pode ser classificado de acordo com os
tipos de bancos de dados sobre os quais técnicas de mineração de dados são
aplicadas, tais como: bancos de dados relacionais, bancos de dados de transação,
orientados a objetos, dedutivos, espaciais, temporais, de multimídia, heterogêneos,
ativos, de herança, banco de informação de Internet e bases textuais.
• Qual o tipo de conhecimento a ser explorado:
Vários tipos de conhecimento podem ser descobertos por extração de dados,
incluindo regras de associação, regras características, regras de classificação, regras
discriminantes, grupamento, evolução e análise de desvio.
12
• Qual tipo de técnica a ser utilizada:
A extração de dados pode ser categorizada de acordo com as técnicas de mineração
de dados subordinadas. Por exemplo, extração dirigida a dados, extração dirigida a
questionamento e extração de dados interativa. Pode ser categorizada, também, de
acordo com a abordagem de mineração de dados subordinada, tal como: extração
de dados baseada em generalização, baseada em padrões, baseada em teorias
estatísticas ou matemáticas, abordagens integradas, etc.
Atualmente, a descoberta de regras de associação parece ser uma das técnicas de
mineração de dados mais utilizada, sendo encontrada em diversas pesquisas (Agrawal e
Srikant, 1994), (Chen et al, 1996), (Hipp et al, 2000), (Holsheimer et al, 1996),
(Mannila, 1997), (Viveros et al, 1996).
5 Ferramentas de Mineração de dados
De acordo com Goebel e Gruenwald (1999), muitas ferramentas atualmente
disponíveis são ferramentas genéricas da Inteligência Artificial ou da comunidade de
estatística. Tais ferramentas geralmente operam separadamente da fonte de dados,
requerendo uma quantidade significativa de tempo gasto com exportação e importação
de dados, pré- e pós-processamento e transformação de dados. Entretanto, segundo os
autores, a conexão rígida entre a ferramenta de descoberta de conhecimento e a base de
dados analisada, utilizando o suporte do SGBD (Sistema de Gerenciamento de Banco de
Dados) existente, é claramente desejável. Para Goebel e Gruenwald (1999), as
características a serem consideradas na escolha de uma ferramenta de descoberta de
conhecimento devem ser as seguintes:
• A habilidade de acesso a uma variedade de fontes de dados, de forma on-line e off-
line;
• A capacidade de incluir modelos de dados orientados a objetos ou modelos não
padronizados (tal como multimídia, espacial ou temporal);
• A capacidade de processamento com relação ao número máximo de
tabelas/tuplas/atributos;
• A capacidade de processamento com relação ao tamanho do banco de dados;
13
• Variedade de tipos de atributos que a ferramenta pode manipular; e
• Tipo de linguagem de consulta.
Goebel e Gruenwald (1999) propõem, também, um esquema de classificação de
características que pode ser usado para estudar ferramentas de descoberta de
conhecimento e de mineração de dados. Neste esquema, as características das
ferramentas são classificadas em três grupos chamados características gerais,
conectividade de banco de dados e características de mineração de dados. As Tabelas 4,
5 e 6 mostram como as características das ferramentas são classificadas de acordo com
esses grupos.
Tabela 4: Características Gerais da Ferramenta
Característica ClassificaçãoProduto Nome e vendedor do produto de softwareStatus da Produção P=Comercial, A=Alfa, B=Beta, R=Protótipo de PesquisaStatus Legal PD=Domínio Público, F=Freeware, S=SharewareLicença Acadêmica Se existe licença acadêmica livre disponível ou redução de custoDemo D=Versão Demo disponível para download na internet, R=Demo disponível
através de requisição, U=Não conhecidoArquitetura S=Standalone, C/S=Cliente/Servidor, P=Processamento ParaleloSistemasOperacionais
Lista de sistemas operacionais para os quais a versão atual do software podeser obtida.
Tabela 5: Conectividade de Bancos de Dados da Ferramenta
Característica ClassificaçãoFontes de Dados T=Arquivos texto Ascii, D=Arquivos Dbase, P=Arquivos Paradox,
F=Arquivos Foxpro, Ix=Informix, O=Oracle, Sy=Sybase, Ig=Ingres, A=MSAccess, OC=Conexão aberta de banco de dados (ODBC), SS=Servidor MSSQL, Ex=MS Excel, L=Lótus 1-2-3.
Conexão a BD Onl=Online, Offl=OfflineTamanho S=Pequeno (até 10.000 registros), M=Mediano (10.000 a 1.000.000 registros),
L=Grande (mais de 1.000.000)Modelo R=Relacional, O=Orientado a Objetos, 1= Uma TabelaAtributos Co=Contínuo, Ca=Categórico (valores numéricos discretos), S=SimbólicoConsulta S=Linguagem de consulta estruturada (SQL ou derivada), Sp=Uma linguagem
de consulta específica, G=Interface gráfica de usuário, N=Não aplicável,U=Não conhecido
14
Tabela 6: Características de Mineração de Dados da Ferramenta
Característica ClassificaçãoTarefas Descobertas Pré=Processamento de Dados (Amostragem, Filtragem), P=Predição,
Regr=Regressão, Clã=Classificação, Clu=Agrupamento, A=Associação,Vis=Visualização do Modelo, EDA=Análise de Dados Exploratória
Metodologia deDescoberta
NN=Redes Neurais, GA=Algoritmos Genéticos, FS=Conjuntos Fuzzy,RS=Conjuntos Irregulares (Rough), St=Métodos Estatísticos, DT=Árvores deDecisão, RI=Indução de Regras, BN=Redes Bayseanas, CBR= RaciocínioBaseado em Casos
Interação Humana A=Autônoma, G=Processo de descoberta guiado ao homem, H=Altamenteinterativo.
6 Metodologia para Avaliação e Seleção de Software de Mineração de Dados
Collier et al (1999) apresentam uma estrutura para avaliar ferramentas de
mineração de dados e descrevem uma metodologia para aplicação desta estrutura.
Quatro categorias de critérios para avaliar ferramentas de mineração de dados
podem ser sugeridas: desempenho, funcionalidade, usabilidade e suporte de atividades
principais de uma organização ou sistema (Collier et al, 1999). A seguir, estas
categorias são descritas.
• Desempenho
Desempenho é a habilidade de manipular uma variedade de fontes de dados de
maneira eficiente. A Tabela 7 relaciona critérios de desempenho computacional.
• Funcionalidade
Funcionalidade é a inclusão de uma variedade de capacidades, técnicas e
metodologias para mineração de dados. Ajuda avaliar o quanto a ferramenta adaptar-se-
á a diferentes domínios de problema de mineração de dados. A Tabela 8 mostra critérios
de funcionalidade.
• Usabilidade
Usabilidade é a acomodação de diferentes níveis e tipos de usuários sem perda
de funcionalidade ou utilidade. Uma boa ferramenta deve fornecer parâmetros
significativos para ajudar a depurar problemas e melhorar a saída. A Tabela 9 relaciona
critérios de usabilidade.
15
• Suporte de atividades principais de uma organização ou sistema
Esta categoria permite ao usuário desempenhar limpeza, manipulação,
transformação, visualização de dados e outras tarefas para suporte à mineração de
dados. A Tabela 10 mostra critérios para a categoria de suporte de atividades principais
de uma organização ou sistema.
Tabela 7: Critérios de Desempenho Computacional
CRITÉRIO DESCRIÇÃOVariedade dePlataforma
O software executa sobre uma grande variedade de plataformas computacionais?Ele executa sobre plataformas de usuário típicas de negócio?
Arquitetura deSoftware
O software usa arquitetura cliente-servidor ou arquitetura stand-alone? O usuáriotem uma escolha de arquiteturas?
Acesso a DadosHeterogêneos
O software tem interface com uma variedade de fontes de dados (RDBMS,ODBC, CORBA etc)? Ele requer qualquer software auxiliar para fazer isto?
Tamanho dosDados
O software escala para grandes conjuntos de dados? O desempenho é linear ouexponencial?
Eficiência O software produz resultados em uma quantidade razoável de tempo relativo aotamanho dos dados, as limitações do algoritmo e outras variáveis?
Interoperabilidade A ferramenta facilita a interface com outras ferramentas de suporte KDD? Ela usauma arquitetura padrão tal como CORBA ou alguma outra API proprietária?
Robustez A ferramenta executa consistentemente sem parar? Se a ferramenta não realizauma análise de mineração de dados, ela falha quando a análise parece estar quasecompleta?
Tabela 8: Critérios de Funcionalidade
CRITÉRIO DESCRIÇÃOVariedadeAlgorítmica
O software fornece uma variedade adequada de técnicas e algoritmos de mineraçãoincluindo redes neurais, indução de regas, árvores de decisão, agrupamento, etc?
MetodologiaPrescrita
O software ajuda o usuário a apresentar um estilo, metodologia de mineraçãopasso a passo para ajudar a evitar resultados incorretos?
Validação doModelo
A ferramenta suporta validação do modelo além da sua criação? A ferramentaencoraja validação como parte da metodologia?
Flexibilidade deTipo de Dado
A implementação dos algoritmos manipula uma grande variedade de tipos dedados, dados contínuos sem amarração, etc?
Facilidade deModificação dosAlgoritmos
O usuário tem a habilidade para modificar e sintonizar bem os algoritmos demodelagem?
Amostragem deDados
A ferramenta permite amostragem randômica de dados para modelagem depredição?
Reportagem Os resultados de uma análise de mineração resultam em uma variedade decaminhos? A ferramenta fornece resultados resumidos e resultados detalhados? Aferramenta seleciona registros de dados precisos que capacitam um perfil meta?
Exportação deModelo
Após um modelo ser validado, a ferramenta fornece uma variedade de caminhospara ser exportada para uso em outro ambiente (por ex., programa C, SQL, etc.)?
16
Tabela 9: Critérios de Usabilidade
CRITÉRIO DESCRIÇÃOInterface doUsuário
A interface do usuário é fácil de usar para navegar e não complicada? A interfaceapresenta resultados de forma significativa?
Aprendizagem A ferramenta é fácil de aprender? Ela é fácil de usar corretamente?Tipos deUsuários
A ferramenta é projetada para usuários iniciantes, intermediários e avançados ouuma combinação de tipos de usuários? Ela é adequada para o tipo de usuário alvo?Ela é fácil de ser usada por analistas? Ela é fácil de ser usada por usuários finais?
Visualização deDados
A ferramenta apresenta bem os dados? A ferramenta apresenta bem os resultadosde modelagem? Existe uma variedade de métodos gráficos usados para comunicarinformação?
Relatório deErros
Os erros relacionados são significativos? As mensagens de erro ajudam o usuáriona depuração dos problemas? A ferramenta acomoda bem os erros ou falsificaconstrução do modelo?
História de Ação A ferramenta mantém uma história de ações realizadas no processo de mineração?O usuário pode modificar partes de sua história e re-executar o roteiro?
Variedade deDomínio
A ferramenta pode ser usada em uma variedade de indústrias diferentes para ajudara solucionar uma variedade de tipos diferentes de problemas de negócio? Aferramenta foca bem sobre um domínio de problema? Ela foca bem sobre umavariedade de domínios?
Tabela 10: Critérios de Suporte de Atividades Principais de uma Organização ouSistema
CRITÉRIO DESCRIÇÃOLimpeza deDados
A ferramenta permite o usuário modificar valores incorretos no conjunto de dadospara desempenhar outras operações de limpeza de dados?
Substituição deValores
A ferramenta permite substituição global de um valor de dado por outro (por ex.,substituir ‘M’ ou ‘F’ por 1 ou 0)?
Filtragem deDados
A ferramenta permite a seleção de subconjuntos dos dados baseando-se emcritérios de seleção definidos pelo usuário?
Discretização A ferramenta permite tornar dados contínuos em dados discretos para melhorar aeficiência da modelagem? A ferramenta requer que dados contínuos sejamdiscretizados ou esta decisão fica a critério do usuário?
Atributos deDerivação
A ferramenta permite a criação de atributos derivados baseando-se em atributos deherança? Existe uma grande variedade de métodos disponíveis para derivaratributos (por ex., funções estatísticas, funções matemáticas, funções booleanas,etc.)?
Definição deDadosRandômicos
A ferramenta permite definir dados randômicos antes da construção do modelo? Adefinição de dados randômicos é eficiente e efetiva?
Exclusão deRegistros
A ferramenta permite exclusão de registros de entrada que podem estarincompletos ou podem predispor os resultados da modelagem de alguma forma? Aferramenta permite a exclusão de registros de segmentos de entrada da população?Se isto é possível, então a ferramenta permite que esses registros possam serintroduzidos facilmente mais tarde se necessário?
Manipulação deEspaços
A ferramenta permite manipular bem espaços? Ela permite que espaços sejamsubstituídos com uma variedade de valores derivados? Ela permite que espaçossejam substituídos com um valor definido pelo usuário? Se isto é possível, podeser globalmente bem como valor por valor?
Manipulação deMetadados
A ferramenta apresenta ao usuário descrições, tipos e códigos categóricos dedados, fórmula para derivar atributos, etc.? Se isto é possível, a ferramenta permiteque o usuário manipule esse metadados?
Realimentaçãode Resultados
A ferramenta permite que os resultados de uma análise de mineração sejamretornados para uma outra análise na construção de mais modelos?
17
6.1 Aplicação Metódica da Estrutura
A metodologia proposta por Collier et al (1999) para seleção entre ferramentas
de mineração de dados comercialmente disponíveis fornece um meio de evitar a seleção
de uma ferramenta inadequada. Ela é dividida em seis fases. A Figura 3 representa estas
fases.
Figura 3: Fases da Metodologia para Seleção de Ferramentas de Mineração de Dados
Pré-seleção daFerramenta
Identificação deCritérios de
Seleção
Atribuição dePesos aosCritérios
Registro dosPontos da
Ferramenta
Avaliação dosPontos
Seleção daFerramenta
Reduzir o conjunto de ferramentas Eliminar ferramentas que não serão selecionadasdevido a restrições rígidas da organização ou dovendedor
Identificar quaisquer critérios adicionais que sãoespecíficos a uma organização particular Considerar custo do software, restrições deplataforma, habilidades do usuário final, projetosde mineração de dados específicos, etc.
Assinalar pesos para cada critério dentro de cadacategoria, de tal forma que o total de pesos emcada categoria seja 1.00 ou 100%.
Escolher uma ferramenta de referência e atribuir 3pontos para cada critério. Registrar pontos a cada critério de seleção para asoutras ferramentas, usando uma escala de taxasdiscretas e baseando-se na ferramenta de referência Atribuir peso para cada categoria de critérios, pordefault pode ser 0.20, mas os pesos podem serajustados para enfatizar ou não particularidades decategorias de critérios.
Rever os pesos assinalados para os critérios deseleção e ajustá-los se necessário.
Escolher a ferramenta com maior peso médio
18
7 EXEMPLOS DE FERRAMENTAS DE MINERAÇÃO DE DADOS
Existem ferramentas que implementam uma ou mais técnicas de mineração de
dados. A Tabela 11 relaciona algumas dessas ferramentas, fornecendo informações tais
como: a empresa fornecedora, as técnicas implementadas de mineração de dados e
exemplos de aplicações.
Tabela 11: Ferramentas de Mineração de Dados
Ferramenta/Empresa Fornecedora
Técnicas deMineração de Dados
Aplicações
AIRA/Hycones IT (1998)
Regras de associação Gerenciamento de relacionamento de cliente,marketing, detecção de fraude, controle deprocesso e controle de qualidade.
Alice 5.1/Isoft AS. (1998)
Árvore de decisãoRaciocínio baseadoem casos
Política de crédito, marketing, saúde, controlede qualidade, recursos humanos.
Clementine/Integral Solutions Limited(ISL, 1996)
Indução de regrasÁrvores de decisãoRedes neurais
Marketing direto, identificação deoportunidades de venda cruzada, retenção decliente, previsão de lucro do cliente,detecção de fraude, segmentação e lucro docliente.
DataMind /DataMind Technology Center(1998), (Groth, 1998)
(abordagem própria) Não identificadas.
Decision Series/Neovista Solutions Inc.(1998)
Árvore de decisãoMétodos estatísticosIndução de regrasRedes neurais
Marketing direcionado, detecção de fraude,retenção de cliente, análise de risco,segmentação de cliente, análise de promoção.
Intelligent Miner/IBM (1997)
Árvores de decisãoRedes neurais
Segmentação de cliente, análise de conjuntode itens, detecção de fraude.
KnowledgeSEEKER/Angoss IL (Groth, 1998)
Árvores de decisãoIndução de regras
Lucro e segmentação de cliente para detecçãode fraude e análise de risco, controle deprocesso, marketing direto.
MineSet/Silicon Graphics ComputerSystems (2000)
Métodos estatísticosÁrvores de decisãoIndução de regras
Áreas da saúde, farmacêutica, biotecnologia equímica.
NeuralWorks Predict/NeuralWare (Groth, 1998)
Rede neural Indústria.
PolyAnalyst/Megaputer Intelligence Ltd.(1998)
Algoritmo genéticoMétodos estatísticosIndução de regras
Marketing direto, pesquisa médica, análise deconjunto de itens.
WEKA Regras de associaçãoÁrvore de decisãoIndução de regras
Marketing direto, detecção de fraude, etc.
19
8 ESTUDO DE CASO
No estudo de caso apresentado a seguir, foram utilizados dados da CAPES do
ano de 1998. A CAPES é uma agência de fomento à Pós-Graduação do Brasil que
mantém um sistema de avaliação de cursos, reconhecido e utilizado por outras
instituições nacionais (CAPES, 2001).
A CAPES possui bancos de dados contendo informações sobre os Programas de
Pós-Graduação do Brasil, tais como: nível do curso, pesquisadores vinculados ao
Programa, produção científica, teses/dissertações defendidas, identificação do
orientador de cada tese/dissertação, etc.
Como pode ser notado, a CAPES é responsável pela avaliação e credenciamento
da pós-graduação strito-senso do país. Para tal, seus instrumentos de captura de
informações, utilizados por cerca de 1400 Programas, procuram mapear as atividades
realizadas anualmente no âmbito de cada Programa. O resultado é a construção de
ampla base de dados que permite inspecionar diversos aspectos da pós-graduação
brasileira.
Para a realização deste estudo de caso, a descoberta de conhecimento foi
realizada seguindo, basicamente, três etapas, são elas: Pré-processamento, Mineração de
Dados e Pós-processamento. A seguir essas etapas são descritas.
8.1 Pré-Processamento
Na etapa de pré-processamento, as principais atividades são (ver Figura 2):
definição de objetivos, acesso e preparação de dados (seleção e transformação de dados)
e definição de um estudo.
Neste estudo, o principal objetivo é mostrar a aplicação de técnicas de mineração
de dados na solução de problemas de associação e de classificação. As técnicas
aplicadas são: Descoberta de Regras de Associação e Árvore de Decisão. Para tal, foram
inspecionados os seguintes objetivos de investigação:
1) Estudo da relação Fomento x Nível de Formação do Quadro Funcional do
Programa: verificar se existe alguma relação entre quantidade de bolsas fornecidas
ao Programa, sua produtividade e a titulação de seus docentes, pesquisadores, e
discentes autores;
20
2) Estudo da relação entre a carga de orientação e tempo de titulação dos orientandos:
verificar se existe alguma relação entre o tempo de formação do aluno e o total de
orientandos do seu orientador;
3) Estudo da relação entre o tempo de titulação com a disponibilidade do Fomento
(bolsas) no Programa ou com a participação discente em projetos: verificar se existe
alguma relação entre o tempo de formação do aluno com o fato do mesmo possuir
ou não bolsa e com a vinculação de sua dissertação a projetos.
O conhecimento descoberto poderá ser aplicado pela CAPES visando:
• A inspeção sobre os dados para verificar se indicadores de qualidade da pós-
graduação apresentam coerência, quando relacionados;
• A verificação de hipóteses de “senso comum” comentadas na comunidade científica
(ex: mais orientandos maior tempo médio de titulação).
Após os objetivos da mineração de dados serem definidos, deve-se selecionar os
atributos necessários para as investigações a serem realizadas. A Tabela 12 relaciona os
atributos selecionados de cada tabela de banco de dados utilizada como base para o
estudo de caso. A seleção de alguns atributos de identificação é necessária, neste
momento, para possibilitar a junção das tabelas na fase de transformação dos dados.
Tabela 12: Atributos Selecionados das Tabelas dos Bancos de Dados da CAPES
Nome da Tabela de Entrada Atributos
COL_PROGRAMAS AnoBase, Codigo, IdIESPais, RdnNivel, Nome, IdAreaBasicaCOL_TESES AnoBase, IdPrograma, Sequencial, IdPessoal, MatriculaAutor,
DefesaTese, Nivel, IdProjetoPesquisaCOL_R_TESES_AGENCIAS AnoBase, IdPrograma, IdTese, NumeroMesesCOL_R_TESES_ORIENTADORES AnoBase, IdPrograma, IdTese, IdPessoalOrientador, TipoCOL_DISCENTES_AUTORES AnoBase, IdPrograma, IdPessoal, NivelTitulacaoCOL_DOCENTES AnoBase, IdPrograma, IdPessoal, NumeroOrientandosMestrado,
NumeroOrientandosDoutorado, TitulacaoAtualCOL_PESQUISADORES AnoBase, IdPrograma, IdPessoal, TitulacaoAtualCOL_PRODUCAO AnoBase, IdPrograma, AreaProdução, VinculoTese,
IdTipoProducao, IdOrientadorTeseG_IES_PAÍS Codigo, Nome, SiglaG_AREA_SUBAREA Código, IdGrandeArea, IdArea
O terceiro passo na etapa de pré-processamento é definir as transformações
necessárias sobre os atributos selecionados. Neste caso, alguns resumos devem ser
obtidos.
21
A seguir, para cada objetivo, são relacionadas tabelas usadas como fonte de
entrada na obtenção de cada tabela de saída, que são as tabelas de dataset2 usadas como
entrada para o algoritmo de mineração de dados. Os resumos são descritos nos atributos
das tabelas de saída.
1) Estudo da relação Fomento x Nível de Formação do Quadro Funcional do Programa
Tabelas de entrada:- COL_TESES
- COL_R_TESES_AGENCIAS
- COL_PRODUCAO
- COL_DOCENTES
- COL_PESQUISADORES
- COL_DISCENTES_AUTORES
- COL_PROGRAMAS
- G_IES_PAIS
- G_AREA_SUBAREA
Tabela de saída:DS_BOLSAS_PRODUTIVIDADE
- IdGrArea;
- Área: descrição da área básica;
- GrandeArea: descrição da grande área;
- BolsaAluno: média do número de meses do financiamento por Programa
(BolsaAluno = ∑ sNumeroMese / ∑Alunos );
- TotalProducao: somatória das produções por Programa.
- Produtividade: média de produção por docente/pesquisador/discente autor
(Produtividade = ∑ oducaoPr / (∑Docentes + quisadoresPes∑ +
∑ utoresDiscentesA ));
- TotalGraduados: total de docentes, pesquisadores e discentes autores com
titulação atual de graduação;
- TotalMestres: total de docentes, pesquisadores e discentes autores com
titulação atual de mestrado;
- TotalDoutores: total de docentes, pesquisadores e discentes autores com
titulação atual de doutorado;
2 Dataset pode ser definido como um “banco de dados” (em um sentido fraco do termo) contendo apenaso conjunto de dados específico para um tipo de investigação a ser realizada.
22
2) Estudo da relação entre a carga de orientação e tempo de titulação dos orientandos
Tabelas de entrada:- COL_R_TESES_ORIENTADORES
- COL_TESES
- COL_DOCENTES
- COL_PROGRAMAS
- G_IES_PAIS
Tabela de saída:DS_ORIENTANDOS_FORMACAO
- IdGrArea;
- Área: descrição a área básica;
- GrandeArea: descrição da grande área;
- TotalOrientandos: número orientandos mestrado + número orientandos
doutorado por orientador;
- MediaMeses: média de meses de formação dos alunos por orientador;
3) Estudo da relação entre o tempo de titulação com a disponibilidade do Fomento
(bolsas) no Programa ou com a participação discente em projetos
Tabelas de entrada:
- COL_TESES
- COL_R_TESES_AGENCIAS
- COL_PRODUCAO
- COL_PROGRAMAS
- G_IES_PAIS
- G_AREA_SUBAREA
Tabela de saída:DS_FORMACAO_BOLSA_VINCULO
- IdGrArea;
- Área: descrição a área básica;
- GrandeArea: descrição da grande área;
- MesesFormação: total de meses para formação do aluno;
- Bolsa: 1 – com bolsa, 0 – sem bolsa;
- Vínculo: 1 – com vínculo a projeto, 0 – sem vínculo a projeto;
Os dados de cada tabela do DataSet foram discretizados, ou seja, transformados
em variáveis de categorias, para diminuir a quantidade de regras geradas por algoritmos
23
de mineração de dados e, principalmente, facilitar o entendimento dos resultados
obtidos. A discretização foi realizada de acordo com as especificações apresentadas na
Tabela 13. Cada variável de entrada é dividida em faixas de valores. As faixas foram
manualmente definidas após uma análise realizada sobre os valores dos dados dos
cursos de pós-graduação da Universidade Federal de Santa Catarina.
A Tabela 14 mostra a relação das tabelas do DataSet, com a unidade de análise
para cada uma das tabelas.
O número de tuplas obtidas em cada tabela do DataSet foi:
• DS_BOLSAS_PRODUTIVIDADE: 474;
• DS_ORIENTANDOS_FORMACAO: 4981;
• DS_FORMACAO_BOLSA_VINCULO: 8398.
Os dados utilizados foram dos cursos de pós-graduação das seguintes
instituições de ensino do Brasil, por região do país3:
• Região Sul: UFSC, UFRGS, UFPR, CEFET/PR, PUC/PR, PUC/RS, UEL, UFPEL,
FURG, UNISINOS, FFFCMPA, UPF.
• Região Sudeste: UFRJ, UFU, UFMG, UFSCAR, UNICAMP, USP, USP/CENA,
USP/RP, UMESP, UNESP, UNESP/ARAR, UNESP/ASS, UNESP/BOT,
UNESP/GUAR, UNESP/JAB, UNESP/MAR, UNESP/RC, UNESP/SJC,
UNESP/SJRP, UNI-RIO, UNIMEP, UGF, UNIFESP.
• Região Nordeste: UFBA, UFPB/CG, UFPB/JP, UFPE, UFRN, UFC, UFPA.
• Região Centro-Oeste: UFG, UFMT, UNB.
3 Não foi possível utilizar os bancos de dados operacionais de todos os cursos de pós-graduação do Brasil
porque houve problema na descompressão de alguns deles.
24
Tabela 13: Discretização dos Dados das Tabelas do DataSet
Variável Faixas ValoresIdGrandeArea Ciências Exatas e da Terra
Ciências BiológicasEngenhariasCiências da SaúdeCiências AgráriasCiências Sociais AplicadasCiências HumanasLingüística, Letras e ArtesGrande Área não InformadaOutros
10000003200000063000000940000001500000046000000770000000800000029000000090000005
BolsaAluno BolsaAluno0_12BolsaAluno13_18BolsaAluno19_24BolsaAluno25_30BolsaAluno31_
maior ou igual a 0 e menor ou igual a 12maior ou igual a 13 e menor ou igual a 18maior ou igual a 19 e menor ou igual a 24maior ou igual a 25 e menor ou igual a 30maior ou igual a 31
Produtividade(Quantitativa)
Produtiv0_1Produtiv2_3Produtiv4_6Produtiv7_10Produtiv11_
maior ou igual a 0 e menor ou igual a 1maior ou igual a 2 e menor ou igual a 3maior ou igual a 4 e menor ou igual a 6maior ou igual a 7 e menor ou igual a 10maior ou igual a 11
TotalProducao TotProd0_50TotProd50_100TotProd101_200TotProd201_300TotProd301_400TotProd401_
maior ou igual a 0 e menor ou igual a 50maior ou igual a 51 e menor ou igual a 100maior ou igual a 101 e menor ou igual a 200maior ou igual a 201 e menor ou igual a 300maior ou igual a 301 e menor ou igual a 400maior ou igual a 401
TotalGraduados TotalGrad0_5TotalGrad6_20TotalGrad21_40TotalGrad41_70TotalGrad71_100TotalGrad101_
maior ou igual a 0 e menor ou igual a 5maior ou igual a 6 e menor ou igual a 20maior ou igual a 21 e menor ou igual a 40maior ou igual a 41 e menor ou igual a 70maior ou igual a 71 e menor ou igual a 100maior ou igual a 101
TotalMestres TotalMest0_20TotalMest21_40TotalMest41_20TotalMest71_20TotalMest101_200TotalMest201_
maior ou igual a 0 e menor ou igual a 20maior ou igual a 21 e menor ou igual a 40maior ou igual a 41 e menor ou igual a 70maior ou igual a 71 e menor ou igual a 100maior ou igual a 101 e menor ou igual a 200maior ou igual a 201
TotalDoutores TotalDout0_20TotalDout21_40TotalDout41_60TotalDout61_80TotalDout81_100TotalDout101_
maior ou igual a 0 e menor ou igual a 20maior ou igual a 21 e menor ou igual a 40maior ou igual a 41 e menor ou igual a 60maior ou igual a 61 e menor ou igual a 80maior ou igual a 81 e menor ou igual a 100maior ou igual a 101
NumeroOrientandos NumOrient_1NumOrient_2NumOrient_3NumOrient4_7NumOrient8_
igual a 1igual a 2igual a 3maior ou igual a 4 e menor ou igual a 7maior ou igual a 8
MesesFormacao MesesForm0_12MesesForm13_18MesesForm19_24MesesForm25_30MesesForm31_36MesesForm36_
maior ou igual a 0 e menor ou igual a 12maior ou igual a 13 e menor ou igual a 18maior ou igual a 19 e menor ou igual a 24maior ou igual a 25 e menor ou igual a 30maior ou igual a 31 e menor ou igual a 36maior ou igual a 36
25
Tabela 14: Relação das Tabelas do DataSet e seus Atributos
Nome da tabela Atributos Unidade Básicade Análise
DS_BOLSAS_PRODUTIVIDADE IdGrArea, Área, GrandeArea,BolsaAluno, TotalProducao,Produtividade, TotalGraduados,TotalMestres, TotalDoutores
Programa dePós-Graduação
DS_ORIENTANDOS_FORMACAO IdGrArea, Área, GrandeArea,TotalOrientandos, MediaMeses
Orientador
DS_FORMACAO_BOLSA_VINCULO IdGrArea, Área, GrandeArea,MesesFormacao, Bolsa, Vinculo
Orientando
8.2 Mineração de Dados
Na etapa de mineração de dados foram identificadas duas tarefas a serem
solucionadas, associação e classificação. Considerando que os dados são classificados
como variáveis de categorias, por terem sido discretizados, Descoberta de Regras de
Associação e Árvore de Decisão são as técnicas mais indicadas para a solução das
tarefas identificadas, de acordo com as Tabelas 2 e 3.
As técnicas de mineração de dados foram aplicadas sobre os dados da CAPES
com a utilização de três algoritmos. O primeiro foi o “apriori”, que implementa a
técnica de Descoberta de Regras de Associação, realizando assim a tarefa de associação.
Este algoritmo foi implementado por Gonçalves (2000) e aplicado através do protótipo
do ambiente ADesC (Dias, 2001).
O segundo algoritmo foi o C4.5 (Quinlan, 1993), que implementa a técnica de
Árvore de Decisão e realiza a tarefa de classificação. Este algoritmo foi estudado e
aplicado no Trabalho de Final de Curso de Igarashi (2002), utilizando o programa C4.5
Decision Tree Generator (C4.5DTG – Versão 1.00), obtido através do endereço
www.sff.sdf.br.
O terceiro algoritmo aplicado foi o J48.PART, que também implementa a
técnica de Árvore de Decisão e realiza a tarefa de classificação. Este algoritmo foi
estudado e aplicado no Trabalho de Graduação de Centeio (2002), utilizando o Weka 3,
que é um software de aprendizagem de máquina em Java, obtido através do endereço
www.cs.waikato.ac.nz/ml/weka/index.html.
A seguir são apresentados os resultados obtidos com a aplicação das técnicas de
Descoberta de Regras de Associação e de Árvore de Decisão.
26
8.2.1 Descoberta de Regras de Associação
A técnica de Descoberta de Regras de Associação foi aplicada neste trabalho
através do algoritmo “apriori”, tendo como parâmetros de entrada os dados dos
Programas de Pós-Graduação do Brasil, já preparados e armazenados no dataset, o
suporte mínimo e o grau de confiança. Os dois últimos parâmetros podem ser escolhidos
e ajustados na busca de resultados que levem aos objetivos relacionados na etapa de
análise do sistema. Os valores mínimos de suporte e confiança utilizados nos
experimentos foram 8% e 40%, respectivamente.
A análise dos resultados baseou-se na abordagem objetiva, ou seja, procurou-se
selecionar as regras de associação de maior interesse conforme os valores de suporte e
confiança e em consistência com os dados. De acordo com os objetivos de investigação
definidos anteriormente, tem-se (Dias, 2001):
1) Estudo da relação Fomento x Nível de Formação do Quadro Funcional do Programa
A Tabela 15 relaciona as regras geradas para este estudo.
Tabela 15: Regras Geradas para o Primeiro Objetivo - Apriori
Regra Suporte ConfiançaSe o Programa possui de 21 a 40 mestres, então ele produz de2 a 3 publicações em média por pesquisador por ano
21,73% 45,18%
Se o Programa possui de 19 a 24 meses de financiamento poraluno concluído, então ele produz de 2 a 3 publicações emmédia por pesquisador
19,62% 53,76%
Se o Programa possui de 25 a 30 meses de financiamento poraluno concluído, então ele produz de 2 a 3 publicações porpesquisador
16,88% 48,19%
Se o Programa possui de 25 a 30 meses de financiamento poraluno concluído, então ele possui de 21 a 40 Mestres
15,19% 43,37%
Interpretação das Regras:
• 21 a 40 mestres implica em Produtividade 2 a 3
21,73% dos Programas de pós-graduação do Brasil possuem de 21 a 40
mestres no corpo docente e discente e produzem de 2 a 3 publicações em
média por pesquisador4.
45,18% dos Programas de pós-graduação do Brasil que possuem de 21 a 40
mestres produzem de 2 a 3 publicações em média por pesquisador.
27
• Bolsa x Aluno 19 a 24 meses implica em Produtividade 2 a 3
19,62% dos Programas possuem em média 19 a 24 meses de financiamento
por aluno concluído e produzem de 2 a 3 publicações em média por
pesquisador.
53,76% dos Programas que possuem em média 19 a 24 meses de
financiamento por aluno concluído produzem de 2 a 3 publicações em média
por pesquisador.
• Bolsa x Aluno 25 a 30 meses implica em Produtividade 2 a 3
16,88% dos Programas possuem em média 25 a 30 meses de financiamento
por aluno e produzem de 2 a 3 publicações por pesquisador.
48,19% dos Programas que possuem em média 25 a 30 meses de
financiamento por aluno concluído produzem de 2 a 3 publicações por
pesquisador.
• Bolsa x Aluno 25 a 30 meses implica em 21 a 40 Mestres
15,19% dos Programas possuem em média 25 a 30 meses de financiamento
por aluno concluído e possuem de 21 a 40 mestres.
43,37% dos Programas que possuem em média 25 a 30 meses de
financiamento por aluno concluído possuem 21 a 40 mestres.
Pode-se observar que o aumento relativo na quantidade de bolsas de um
Programa implica em aumento na Produção, mas há um nível de saturação para esta
regra (quando a média de bolsa por aluno está entre 25 e 30 meses). É interessante
observar que esta constatação vai de encontro à política de redução do tempo máximo
de bolsa adotada pela CAPES.
As regras referentes à Titulação do corpo Docente e Discente não permitem o
mesmo tipo de análise, dado que apresentaram relações absolutas e independentes.
2) Estudo da relação entre a carga de orientação e tempo de titulação dos orientandos:
A Tabela 16 relaciona as regras geradas para este estudo.
4 Pesquisador neste contexto inclui, também, docente e discente-autor.
28
Tabela 16: Regras Geradas para o Segundo Objetivo - Apriori
Regra Suporte ConfiançaSe o orientador possui de 4 a 7 orientandos, então a média detempo de formação de seus orientandos de mestrado é maiorque 36 meses
16,92% 49,21%
Se o orientador possui 1 orientando, então o tempo deformação de seu orientando de mestrado é maior que 36meses
8,43% 41,71%
Interpretação das Regras:
• Número Orientandos 4 a 7 implica em Meses Formação > 36
16,92% dos orientadores têm de 4 a 7 orientandos e o tempo médio de
formação de seus orientandos é maior que 36 meses.
49,21% dos orientadores que têm de 4 a 7 orientandos, o tempo médio de
formação de seus orientandos é maior que 36 meses.
• Número Orientandos 1 implica em Meses Formação > 36
8,43% dos orientadores têm 1 orientando e o tempo de formação de seu
orientando é maior que 36 meses.
41,71% dos orientadores que têm 1 orientando, o tempo de formação de seu
orientando é maior que 36 meses.
O estudo mostra que há um equilíbrio nos valores de confiança entre o número
de orientandos de um orientador e o tempo médio de formação de seus orientandos. Isto
indica que não há suporte para a afirmação que alunos de um professor com mais
orientandos tenham maior tempo médio de titulação.
3) Estudo da relação entre o tempo de titulação com a disponibilidade do Fomento
(bolsas) no Programa ou com a participação discente em projetos:
A Tabela 17 relaciona as regras geradas para este estudo.
29
Tabela 17: Regras Geradas para o Terceiro Objetivo - Apriori
Regra Suporte ConfiançaSe o aluno possui bolsa, então sua dissertação está vinculadaa projeto de pesquisa
36,88% 53,27%
Se o aluno possui bolsa, então seu tempo de formação émaior que 36 meses
28,34% 40,94%
Se a dissertação está vinculada a projeto, então o tempo deformação do aluno é maior que 36 meses
21,30% 42,72%
Se o aluno possui bolsa e sua dissertação está vinculada aprojeto, então seu tempo de formação é maior que 36 meses
14,11% 38,26%
Se a área é Ciências Exatas e da Terra, então o aluno possuibolsa
10,16% 82,66%
Se a área é Ciências Humanas, então o aluno possui bolsa 13,06% 72,70%
Se a área é Engenharia, então o aluno possui bolsa 11,44% 65,78%
Se a área é Engenharia, então a dissertação possui vínculocom projeto
10,04% 57,70%
Interpretação das Regras:
• Bolsa implica em Vínculo com projeto
36,88% dos alunos possuem bolsa e sua dissertação tem vínculo com
projeto.
53,27% dos alunos que possuem bolsa, sua dissertação tem vínculo com
projeto.
• Bolsa implica em meses de formação maior que 36
28,34% dos alunos possuem bolsa e seu tempo de formação é maior que 36
meses.
40,94% dos alunos que possuem bolsa, seu tempo de formação é maior que
36 meses.
• Vínculo com projeto implica em meses de formação maior que 36
21,30% das dissertações têm vínculo com projeto e o tempo de formação do
aluno é maior que 36 meses.
42,72% das dissertações que têm vínculo com projeto, o tempo de formação
do aluno é maior que 36 meses.
• Bolsa e vínculo com projeto implicam em meses de formação maior que
36
14,11% dos alunos de mestrado possuem bolsa e vínculo com projeto e o
tempo de formação do aluno é maior que 36 meses.
30
38,26% dos alunos de mestrado que possuem bolsa e vínculo com projeto, o
tempo de formação do aluno é maior que 36 meses.
• Ciências Exatas e da Terra implica em bolsa
10,16% dos alunos de mestrado são da área de Ciências Exatas e da Terra e
possuem bolsa.
82,66% dos alunos de mestrado da área de Ciências Exatas e da Terra
possuem bolsa.
• Ciências Humanas implica em bolsa
13,06% dos alunos de mestrado são da área de Ciências Humanas e possuem
bolsa.
72,70% dos alunos de mestrado da área de Ciências Humanas possuem
bolsa.
• Engenharia implica em bolsa
11,44% dos alunos de mestrado são da área de Engenharia e possuem bolsa;
65,78% dos alunos de mestrado da área de Engenharia possuem bolsa.
• Engenharia implica em vínculo com projeto
10,04% dos alunos de mestrado são da área de Engenharia e possuem
vínculo com projeto.
57,70% dos alunos de mestrado da área de Engenharia possuem vínculo com
projeto.
O estudo permitiu constatar que há um aumento no tempo médio de titulação
quando o aluno possui bolsa ou quando sua dissertação está relacionada a projeto de
pesquisa.
O estudo também comparou a implicação de participação de bolsistas em
projetos. A regra permite afirmar que o impacto da concessão de bolsa na vinculação
com projeto é maior do que no tempo médio de titulação.
Constatou-se ainda que os Programas das áreas de Ciências Exatas e da Terra,
Ciências Humanas e Engenharia são aqueles que possuem o maior número de bolsas e,
também, que mais da metade das dissertações da área de Engenharia possui vínculo com
projeto.
31
8.2.2 Árvore de Decisão
A técnica de Árvore de Decisão foi aplicada através dos algoritmos C4.5 e
J48.PART do Weka, tendo como parâmetros de entrada os dados dos Programas de Pós-
Graduação do Brasil, os mesmos utilizados no algoritmo “apriori”.
A análise dos resultados também foi baseada na abordagem objetiva e é
apresentada a seguir de acordo com os objetivos de investigação definidos
anteriormente:
1) Estudo da relação Fomento x Nível de Formação do Quadro Funcional do
Programa:
Neste estudo, o atributo meta definido foi “média de produção anual por
pesquisador”.
A Tabela 18 relaciona as regras geradas para este estudo.
Tabela 18: Regras Geradas para o Primeiro Objetivo – C4.5 e J48
Regra ConfiançaSe a grande área for Ciências Exatas e da Terra, então aprodutividade do Programa é de 2 a 3 publicações em médiapor pesquisador
81,5%
Se a grande área for Engenharias, então a produtividade doPrograma é de 2 a 3 publicações em média por pesquisador
76,1%
Se a grande área for Ciências Biológicas, então aprodutividade do Programa é de 2 a 3 publicações em médiapor pesquisador
74,2%
Se a grande área for Ciências Agrárias, então a produtividadedo Programa é de 2 a 3 publicações em média porpesquisador
72,6%
Se a grande área for Ciências Sociais Aplicadas, então aprodutividade do Programa é de 2 a 3 publicações em médiapor pesquisador
67,7%
Se a grande área for Ciências Humanas e o total de mestresfor de 41 a 70, então a produtividade do Programa é de 2 a 3publicações em média por pesquisador
64%
Se a grande área for Lingüística, Letras e Artes, então aprodutividade do Programa é de 4 a 6 publicações em médiapor pesquisador
74,1%
Se a grande área for Ciências Humanas, então aprodutividade do Programa é de 4 a 6 publicações em médiapor pesquisador
56,5%
A produtividade do Programa é de 2 a 3 publicações emmédia por pesquisador, independente da área e da formaçãodos pesquisadores
67,3%
32
O estudo mostra que quase 70% dos pesquisadores produzem em média de 2 a 3
publicações por ano, independente de sua formação e de sua área de atuação. Sendo que
para as áreas de Ciências Exatas e da Terra, Engenharias, Ciências Biológicas e
Ciências Agrárias, este percentual é um pouco maior. As regras geradas mostram
também que a produção anual média por pesquisador é maior nas áreas de Lingüística,
Letras e Artes e Ciências Humanas.
A partir das regras geradas, podemos concluir que o atributo “grau de formação
dos pesquisadores” não pode ser considerado como atributo de previsão do atributo
meta. Outro atributo que foi sugerido como um possível atributo previsor, “média de
meses de bolsa por aluno”, nem sequer foi incluído nas regras geradas pelo algoritmo de
classificação.
2) Estudo da relação entre a carga de orientação e tempo de titulação dos orientandos:
Neste estudo, o atributo meta definido foi “tempo de formação do aluno de
mestrado”.
O resultado obtido foi que o aluno de mestrado demora 31 meses ou mais para se
formar, independente do número de orientandos que seu orientador possui e da área do
curso, com 66,7% de confiança.
4) Estudo da relação entre o tempo de titulação com a disponibilidade do Fomento
(bolsas) no Programa ou com a participação discente em projetos:
Neste estudo, o atributo meta definido também foi “tempo de formação do aluno
de mestrado”.
O resultado obtido foi que o aluno de mestrado demora 31 meses ou mais para se
formar, independente da área do curso, dele possuir ou não bolsa e de sua dissertação
estar ou não vinculada a projeto, com 64,7% de confiança. Portanto, os atributos
selecionados nesta investigação e na anterior não influenciam no tempo de formação do
aluno de mestrado, não sendo encontrado, assim, nenhum atributo previsor para este
atributo meta.
8.3 Pós-Processamento
Para a primeira investigação realizada, os resultados obtidos com a aplicação dos
algoritmos de associação e classificação mostram que um pesquisador produz em média
33
2 a 3 publicações por ano, independente de sua formação e da média de meses de bolsa
por aluno de mestrado do programa. Os resultados dos algoritmos de classificação
mostram ainda que a área de atuação do pesquisador pode ser considerada como um
atributo previsor da média de publicação por pesquisador por ano.
Os resultados da segunda investigação realizada, obtidos pelos algoritmos de
associação e de classificação, mostram que o número de orientandos de um orientador
não influencia no tempo de formação do aluno de mestrado.
Na terceira investigação realizada, os resultados obtidos com a aplicação do
algoritmo “apriori” mostram que os fatos de o aluno possuir bolsa e de sua dissertação
estar vinculada a um projeto podem influenciar no tempo de formação do aluno de
mestrado e que mais da metade dos alunos que possuem bolsa sua dissertação está
vinculada a projeto. Também mostrou que determinadas áreas possuem maior número
de bolsas por aluno.
Os resultados obtidos com a aplicação dos algoritmos de classificação para a
terceira investigação mostram que não existe nenhum atributo previsor para o atributo
meta analisado, que foi o tempo de formação do aluno.
Na análise dos resultados deve ser considerado, também, que os dados de
treinamento não abrangem todos os programas de pós-graduação do Brasil e são
restritos ao ano de 1998. Neste ano, o prazo máximo para a conclusão do mestrado
ainda era de 36 meses. Portanto, o fato do aluno de mestrado demorar mais de 31 meses
para se formar era comum.
Através dos resultados obtidos com os algoritmos de associação e de
classificação, pode-se concluir que, para o tipo de aplicação estudado, Ciência &
Tecnologia, as técnicas Descoberta de Regras de Associação e Árvore de Decisão
podem ser utilizadas com sucesso.
A tarefa de classificação deve ser usada quando o objetivo é descobrir atributo(s)
previsor(es) para um ou poucos atributos meta. A vantagem da tarefa de associação é a
correlação que é feita entre todos os atributos, podendo resultar na descoberta de
atributos previsores para mais de um atributo meta.
9 PARÂMETROS NA ESCOLHA DE TÉCNICAS DE MINERAÇÃO DE DADOS
Basicamente, os principais parâmetros a serem considerados na escolha de uma
técnica de mineração de dados são:
34
• Tipo de problema de descoberta de conhecimento a ser solucionado: este parâmetro
é obtido com a definição da tarefa de mineração de dados, que deve estar de acordo
com os objetivos definidos para a descoberta de conhecimento em questão.
• Características dos dados: a adequação da técnica de mineração de dados às
características dos dados (ver Tabela 3) visa, principalmente, minimizar as
dificuldades geralmente encontradas na transformação de dados.
• Forma de aplicação da mineração de dados: a mineração de dados pode ser aplicada
como um processo de verificação, onde o usuário tenta provar uma hipótese acerca
da relação entre os dados, ou como um processo de descoberta, onde não é feita
nenhuma suposição antecipada. Existem técnicas mais propícias para o processo de
verificação (análises estatística e multidimensional) e outras para o processo de
descoberta (regras de associação, árvores de decisão, algoritmos genéticos e redes
neurais). No entanto, pesquisas atuais mostram a aplicação de algoritmo genético no
processo de verificação (Romão, 2002).
• Disponibilidade de ferramenta de mineração de dados: um problema de descoberta
de conhecimento pode ser solucionado, em determinados casos, com a aplicação de
mais de um tipo de técnica de mineração de dados. Assim, pode ser escolhida uma
técnica ou outra dependendo da ferramenta disponível.
10 PARÂMETROS NA ESCOLHA DE FERRAMENTA DE MINERAÇÃO DE
DADOS
Nas seções 5 e 6 deste relatório, foram descritos parâmetros para a escolha de
ferramenta de mineração de dados, sugeridos por (Goebel e Gruenwald, 1999) e (Collier
et al, 1999). Todos os parâmetros sugeridos são bastante relevantes, no entanto, deve-se
considerar a real necessidade da organização e feita uma análise cuidadosa de custo e
benefício na aquisição e utilização de uma ferramenta desse tipo.
Outro parâmetro muito importante a ser considerado é o suporte técnico da
empresa fornecedora. Geralmente, uma ferramenta de mineração de dados, por mais
amigável que seja a sua interface, apresenta dificuldades em sua utilização, inerentes ao
tipo de aplicação. O usuário de uma ferramenta de mineração de dados precisa ter um
bom conhecimento sobre a área de negócio da organização, sobre as técnicas de
mineração de dados implementadas pela ferramenta e de todo o processo de descoberta
35
de conhecimento. Além disso tudo, o usuário precisa saber analisar os resultados
obtidos pela ferramenta e onde e como utilizá-los.
Os parâmetros, sugeridos pelos autores citados e neste projeto, podem ser
resumidos como segue:
• Habilidade de acesso a uma variedade de fontes de dados, de forma on-line e off-
line;
• Capacidade de incluir modelos de dados orientados a objetos ou modelos não
padronizados;
• Capacidade de processamento com relação ao tamanho do banco de dados e ao
número máximo de tabelas/tuplas/atributos;
• Variedade de tipos de atributos que a ferramenta pode manipular;
• Tipo de linguagem de consulta;
• Capacidade de acomodação de diferentes níveis e tipos de usuários sem perda de
funcionalidade ou utilidade;
• Capacidade de adaptar-se a diferentes domínios de problema de mineração de
dados;
• Capacidade de desempenhar limpeza, manipulação, transformação, visualização de
dados e outras tarefas para suporte à mineração de dados;
• Custo x benefício;
• Suporte técnico da empresa fornecedora.
11 CONSIDERAÇÕES FINAIS
A mineração de dados surgiu com o objetivo principal de dar suporte à tomada
de decisões na empresa. Portanto, a aplicação de técnicas de mineração de dados em
sistemas de descoberta de conhecimento em banco de dados busca a descoberta de
regras e padrões em dados que trarão o conhecimento suficiente e adequado para
aquelas pessoas responsáveis pela tomada de decisões na empresa.
O usuário de um sistema de descoberta de conhecimento em banco de dados
precisa ter um sólido entendimento do negócio da empresa para ser capaz de selecionar
corretamente os subconjuntos de dados e as classes de padrões mais interessantes.
Os resultados de mineração de dados obtidos no estudo de casos, apesar da
confiança não chegar a 50% em muitas regras, permitiram levantar hipóteses da
36
justificativa para políticas organizacionais (redução no tempo máximo das bolsas de
pós-graduação pode ser justificável como instrumento de diminuição do tempo médio
de titulação) e elucidar características relevantes de discussão no âmbito da comunidade
científica e de avaliação de cursos de pós-graduação (por exemplo, o fato de não
necessariamente o aumento no total de orientandos implicar em maior tempo de
titulação dos orientados e do acréscimo no tempo médio de bolsas de um programa não
implicar em maior adesão a projetos por parte do corpo discente).
Quando são poucos os atributos analisados no sistema de descoberta de
conhecimento, não faz muita diferença utilizar a técnica de Descoberta de Regras de
Associação ou a técnica Árvore de Decisão, porque os resultados obtidos quase não se
diferem.
Este relatório de projeto de ensino apresentou uma visão geral das áreas de
mineração de dados e descoberta de conhecimento, mostrou os resultados da aplicação
de algoritmos de associação e classificação e relacionou alguns parâmetros a serem
considerados na escolha de técnicas e de ferramentas de mineração de dados, baseados
em sugestões de diversos autores.
12 REFERÊNCIAS BIBLIOGRÁFICAS
AGRAWAL, R., SRIKANT, R. Fast algorithms for mining association rules. 1994.
AGRAWAL, R. et al. Automatic subspace clustering of high dimensional data for data
mining applications. In: SIGMOD Conference, 1998: 94-105.
ARAÚJO, D.L.A.; LOPES, H.S.; FREITAS, A.A. A parallel genetic algorithm for rule
Discovery in large databases. In: IEEE Systems, Man and Cybernetics Conf., v. III,
940-945. Tokyo, Oct. 1999.
AZEVEDO, F.M.; BRASIL, L.M.; OLIVEIRA, R.C.L. Redes neurais com aplicações
em controle e em sistemas especialistas. Visual Books, 2000.
BERRY, M.J.A.; LINOFF, G. Data mining techniques. John Wiley & Sons, Inc. 1997.
BRAGA, A.P.; LUDERMIR, T.B.; CARVALHO, A.C.P.L.F. Redes neurais artificiais:
teoria e aplicações, Livros Técnicos e Científicos Editora S.A., 2000.
CAPES. Coordenação de Aperfeiçoamento de Pessoal de Nível Superior.
URL:http://www.capes.gov.br, 2001.
37
CENTEIO, S. J. D. M. Mineração de dados usando WEKA. Monografia de final do
curso de Bacharelado em Ciência da Computação da Universidade Estadual de
Maringá, 2002.
CHEN, M.-S.; HAN, J.; YU, P.S. Data mining: an overview from database perspective.
TKDE 8(6): 866-883, 1996.
COLLIER, K.; CAREY, B.; SAUTTER, D.; MARJANIEMI, C. A methodology for
evaluating and selecting data mining software. In: 32nd Hawaii International
Conference on System Sciences, 1999.
CRATOCHVIL, A. Data mining techniques in supporting decision making. Master
thesis, Universiteit Leiden, 1999.
DataMind Technology Center. Agent network technology.
URL:http://datamindcorp.com/paper_agetnetwork.html, 1998.
DIAS, M.M. Um modelo de formalização do processo de desenvolvimento de sistemas
de descoberta de conhecimento em banco de dados. Tese de Doutorado do Curso
de Pós-Graduação em Engenharia de Produção da Universidade Federal de Santa
Catarina, 2001.
FREITAS, A.A. A genetic algorithm for generalized rule induction. In: R. Roy et al.
Advances in Soft Computing – Engineering Design and Manufaturing, 340-353.
(Proc. WSC3, 3rd On-Line World Conference on Soft Computing, hosted on the
Internet, July 1998.) Springer-Verlag, 1999.
GOEBEL, M.; GRUENWALD, L. A survey of data mining and knowledge discovery
software tools. In: SIGKDD Explorations, June 1999.
GOLDBERG, D.A. Genetic algorithms in search, otimization, and machine learning.
Addison-Wesley, Reading, MA, 1989.
GONÇALVES, A.L. Utilização de técnicas de mineração de dados na análise dos
grupos de pesquisa no Brasil. Dissertação de Mestrado do Curso de Pós-Graduação
em Engenharia de Produção da Universidade Federal de Santa Catarina, 2000.
GROTH, R. Data mining. Prentice Hall, Inc. 1998.
HARRISON, T.H. Intranet data warehouse. Editora Berkeley, 1998.
HAYKIN, S. Redes neurais: princípios e prática. Bookman, 2001.
38
HILLIS, D.B. Using a genetic algorithm for multi-hypothesis tracking. In: 9th
International Conference on Tools with Artificial Intelligence (ICTAI’97), 1997.
HIPP, J.; GÜNTZER, U.; NAKHAEIZADEH, G. Algorithms for association rule
mining – a general survey and comparison. In: ACM SIGKDD, July/2000, Vol. 2,
No. 1, p. 58-64.
HOLSHEIMER, M.; KERSTEN, M.; MANNILA, H.; TOIVONEN, H. A perspective
on databases and data mining. In: First International Conference on Knowledge
Discovery and Data Mining, pages 447-467, AAAI Press, Menlo Park, CA. 1996.
HSU, W.; LEE, M.L.; LIU, B.; LING, T.W. Exploration Mining in Diabetic Patients
Databases: Findings and Conclusions. In: KDD 2000, Boston MA USA, 430-436,
2000.
Hycones Information Technology. AIRA – Data mining tool.
URL:http://www.hycones.com.br/portuguese.aira.htm, 1998.
IBM. Intelligent Miner.URL:http://scanner-
group.mit.edu/DATAMINING/Datamining/ibm.html,1997.
IGARASHI, W. Análise e Aplicação de uma Técnica de Mineração de Dados.
Monografia de final do curso de Bacharelado em Informática da Universidade
Estadual de Maringá, 2002.
ISL Decision Systems Inc. Clementine – visual tools.
URL:http://www.isl.co.uk/toolkit.html, 1996.
ISOFT SA. Alice 5.1. URL: http://www.alice-soft.com, 1998.
KOSALA, R.; BLOCKEEL, H. Web mining research: a survey. In: ACM SIGKDD,
July/2000, Vol. 2, No. 1, p. 1-15.
LANS, R.V. O que é data mining e uma análise do mercado de produtos. In: 8o
Congresso Nacional de Novas Tecnologias e Aplicações em Banco de Dados.
1997.
LOH, S.; WIVES, L.K.; OLIVEIRA, J.P.M. Concept-based knowledge Discovery in
texts extracted from the web. In: ACM SIGKDD, July/2000, Vol. 2, No. 1, p. 29-39.
39
MA, Y.; LIU, B.; WONG, C.K. Web for data mining: organizing and interpreting the
discovered rules using the web. In: ACM SIGKDD, July/2000, Vol. 1, No. 1, p.16-
23.
MANNILA, H. Methods and problems in data mining. In: International Conference on
Database Theory, Delphi, Greece, January 1997.
Megaputer Intelligence Ltd. PolyAnalyst 3.5. http://www.megaputer.com, 1998.
MEHTA, M. et al. SLIQ: a fast scalable classifier for data mining. EDBT, 1996: 18-32.
MOBASHER, B.; COOLEY, R.; SRIVASTAVA, Automatic personalization based on
web usage mining. In: Communications of the ACM, Vol. 43, No. 8, 2000, p. 142-
151.
NeoVista Solutions Inc. Decision Series 3.0. http://www.neovista.com, 1998.
QUINLAN, Ross. C4.5: Programs for Machine Learning. San Francisco, CA: Morgan
Kaufmann, 1993.
ROMÃO, W. et al. Extração de regras de associação em C & T: o algoritmo Apriori. In:
XIX Encontro Nacional em Engenharia de Produçao, V ICIE - International
Congress of Industrial Engineering. Rio de Janeiro, 1999.
ROMÃO, W. Descoberta de Conhecimento Relevante em Banco de Dados sobre
Ciência e Tecnologia. Tese de Doutorado do Curso de Pós-Graduação em
Engenharia de Produção da Universidade Federal de Santa Catarina, 2001.
SARAWAGI, A.; NAGARALU, S.H. Data mining models as services on the internet.
In: ACM SIGKDD, July/2000, Vol 2, No. 1, p. 24-28.
SHAFER, J.C. et al. SPRINT: a scalable parallel classifier for data mining . VLDB,
1996: 544-555.
Silicon Graphics Computer Systems. MineSet.
http://www.sgi.com/chembio/apps/datamine.html, 2000.
SPILIOPOULOU, M. Web usage mining for web site evaluation. In: Communications
of the ACM, Vol. 43, No. 8, 2000, p.127-134.
Two Crows Corporation. Introduction to data mining and knowledge discovery. Third
Edition, 1999.
40
VIVEROS, M.S.; NEARHOS, J.P.; ROTHMAN, M.J. Applying data mining techniques
to a health insurance information system. In: 22nd VLDB Conference, Mumbai
(Bombay), India, 1996.
WEKA. Waikato Environment for Knowledge Analysis) (2001 URL:
http://www.cs.waikato.ac.nz/ml/weka).
WHITLEY, D. A Genetic algorithm tutorial. Technical Report, 1993.
ZHANG, T. et al. BIRCH: an efficient data clustering method for very large database.
SIGMOD, 1996, p. 103-114.
top related