tese madalena

Upload: giovani-nobrega

Post on 10-Jan-2016

30 views

Category:

Documents


0 download

DESCRIPTION

Tese

TRANSCRIPT

  • Universidade Federal de Santa Catarina

    Programa de Ps-Graduao em

    Engenharia de Produo

    UM MODELO DE FORMALIZAO

    DO PROCESSO DE DESENVOLVIMENTO DE

    SISTEMAS DE DESCOBERTA DE CONHECIMENTO

    EM BANCO DE DADOS

    Maria Madalena Dias

    Tese apresentada ao Programa de

    Ps-Graduao em Engenharia de Produo da

    Universidade Federal de Santa Catarina

    como requisito parcial para obteno do ttulo de

    Doutor em Engenharia de Produo

    Florianpolis

    2001

  • ii

    Maria Madalena Dias

    UM MODELO DE FORMALIZAO DO PROCESSO DE DESENVOLVIMENTO DE

    SISTEMAS DE DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS

    Esta tese foi julgada e aprovada para a obteno do ttulo de Doutor em Engenharia de Produo no Programa de Ps-Graduao em

    Engenharia de Produo da Universidade Federal de Santa Catarina

    Florianpolis, 23 de fevereiro de 2001.

    Prof. Ricardo Miranda Barcia, Dr. Coordenador do Curso

    BANCA EXAMINADORA _____________________________

    Prof. Roberto C.Santos Pacheco, Dr. Orientador ___________________________ _____________________________ Prof. Alex Alves Freitas, Dr. Profa. Tnia F. Calvi Tait, Dra. ___________________________ _____________________________ Prof. Jos Leomar Todesco, Dr. Prof. Aran Tcholakian Morales, Dr.

  • iii

    Ao meu esposo, Nardnio pelo apoio e pacincia. minha filha Natasha.

  • iv

    Agradecimentos

    Universidade Federal de Santa Catarina.

    Coordenao de Aperfeioamento de Pessoal de Nvel Superior CAPES.

    Ao orientador Prof. Dr. Roberto C. S. Pacheco, pelo acompanhamento e

    dedicao.

    Aos professores do Curso de Ps-Graduao em Engenharia de Produo, pelos

    ensinamentos que deram a base terica e prtica indispensveis realizao desta

    pesquisa.

    Aos meus colegas de curso, pela compreenso e apoio, especialmente ao Andr

    Vincius Castoldi.

    A todos que direta ou indiretamente contriburam para a realizao desta

    pesquisa.

  • v

    Sumrio

    Sumrio................................................................................................................................... v

    Lista de Figuras ...................................................................................................................... x

    Lista de Tabelas ...................................................................................................................xiii

    Resumo ................................................................................................................................xiv

    Abstract................................................................................................................................. xv

    1 INTRODUO................................................................................................................... 1

    1.1 Motivao ...................................................................................................................... 1

    1.2 Objetivos........................................................................................................................ 2

    1.3 Justificativas .................................................................................................................. 3

    1.4 Contribuies................................................................................................................. 3

    1.5 Resultados Esperados .................................................................................................... 4

    1.6 Organizao do Trabalho............................................................................................... 4

    2 FUNDAMENTAO TERICA ...................................................................................... 6

    2.1 Introduo ...................................................................................................................... 6

    2.2 Minerao de Dados ...................................................................................................... 7

    2.2.1 Conceito de Minerao de Dados ........................................................................ 7

    2.2.2 Origem dos Dados................................................................................................ 8

    2.2.3 Tarefas Desempenhadas por Tcnicas de Minerao de Dados .......................... 9

    2.2.4 Tcnicas de Minerao de Dados....................................................................... 11

    2.2.5 Como Escolher a Tcnica de Minerao de Dados mais Adequada.................. 15

    2.2.6 reas de Aplicao de Tcnicas de Minerao de Dados.................................. 16

    2.2.7 O Processo de Descoberta de Conhecimento..................................................... 17

    2.2.8 Metodologias para Sistemas de Descoberta de Conhecimento.......................... 20

    2.2.9 Ferramentas de Minerao de Dados ................................................................. 25

    2.3 Mtodos Formais ......................................................................................................... 26

    2.3.1 Caractersticas de Mtodos Formais .................................................................. 28

    2.3.2 Classificao de Mtodos Formais .................................................................... 29

    2.3.3 Nveis de Rigor em Mtodos Formais .............................................................. 32

    2.3.4 Aplicao de Mtodos Formais.......................................................................... 33

  • vi

    2.3.5 Metodologias Incluindo Mtodos Formais ........................................................ 34

    2.4 Agentes Inteligentes..................................................................................................... 37

    2.4.1 Caractersticas de Agentes ................................................................................. 37

    2.4.2 Aplicao de Agentes......................................................................................... 38

    2.4.3 Classificao de Agentes Baseada no Grau de Mobilidade ............................... 39

    2.4.4 Agentes Mveis.................................................................................................. 40

    2.5 Consideraes Finais ................................................................................................... 42

    3 METODOLOGIA DE DESENVOLVIMENTO DA PESQUISA.................................... 44

    3.1 Introduo .................................................................................................................... 44

    3.2 Modelo da Pesquisa ..................................................................................................... 44

    3.3 Processo de Desenvolvimento da Pesquisa ................................................................. 45

    3.3.1 Escolha do Tema................................................................................................ 45

    3.3.2 Reviso da Literatura ......................................................................................... 46

    3.3.3 Definio da Metodologia.................................................................................. 47

    3.3.4 Especificao do Ambiente................................................................................ 47

    3.3.5 Definio do Modelo ......................................................................................... 48

    3.3.6 Implementao do Prottipo .............................................................................. 48

    3.3.7 Validao do Modelo ......................................................................................... 48

    4 MODELO GERAL PROPOSTO E METODOLOGIA DE DESENVOLVIMENTO

    DE SISTEMAS DE DESCOBERTA DE CONHECIMENTO EM BANCO DE

    DADOS.............................................................................................................................. 49

    4.1 Introduo .................................................................................................................... 49

    4.2 O Modelo Geral Proposto............................................................................................ 50

    4.3 A Metodologia MeDesC.............................................................................................. 52

    4.4 Anlise do Sistema ...................................................................................................... 54

    4.4.1 Descrio Inicial do Problema ........................................................................... 55

    4.4.2 Definio dos Objetivos do Sistema .................................................................. 56

    4.4.3 Construo de Diagramas de Classes do(s) Sistema(s) em Operao ............... 56

    4.4.4 Construo do Diagrama de Classes Corporativo.............................................. 57

    4.5 Projeto Informal........................................................................................................... 57

    4.5.1 Seleo dos Atributos......................................................................................... 58

    4.5.2 Definio das Transformaes dos Dados ........................................................ 60

    4.5.3 Projeto de uma Estrutura de Metadados ............................................................ 62

  • vii

    4.5.4 Projeto do DW/DM/DS...................................................................................... 62

    4.5.5 Definio de Tcnica de Amostragem Estatstica.............................................. 63

    4.5.6 Escolha de Tcnica de Minerao de Dados...................................................... 63

    4.5.7 Construo dos Diagramas de Classes............................................................... 63

    4.5.8 Construo dos Diagramas de Estados .............................................................. 64

    4.5.9 Construo dos Diagramas de Colaborao....................................................... 64

    4.5.10 Determinao da Forma de Povoamento do DW/DM/DS............................... 64

    4.6 Projeto Formal ............................................................................................................. 65

    4.6.1 Mapeamento dos Diagramas UML para E-LOTOS........................................... 66

    4.6.2 Diviso do Sistema em Mdulos ....................................................................... 67

    4.6.3 Definio do Modelo de Comunicao.............................................................. 68

    4.6.4 Declarao dos Mdulos .................................................................................... 70

    4.6.5 Exemplos............................................................................................................ 70

    4.7 Implementao do Sistema .......................................................................................... 74

    4.8 Anlise dos Resultados ................................................................................................ 74

    4.9 Consideraes Finais ................................................................................................... 75

    5 AMBIENTE DE IMPLEMENTAO DE SISTEMAS DE DESCOBERTA DE

    CONHECIMENTO EM BANCO DE DADOS ................................................................ 77

    5.1 Introduo .................................................................................................................... 77

    5.2 Modelo do Ambiente ................................................................................................... 78

    5.3 Projeto Informal do Ambiente ..................................................................................... 82

    5.3.1 Casos de Uso do Ambiente ................................................................................ 82

    5.3.2 Definio das Classes de Objetos ...................................................................... 84

    5.3.3 Funes do Ambiente......................................................................................... 84

    5.3.4 Diagramas de Estados ........................................................................................ 93

    5.3.5 Estrutura do Metadados ..................................................................................... 93

    5.4 Projeto Formal do Ambiente ....................................................................................... 93

    5.5 Consideraes Finais ................................................................................................... 95

    6 APLICAO DO MODELO ........................................................................................... 96

    6.1 Introduo .................................................................................................................... 96

    6.2 Especificao do Sistema ............................................................................................ 96

    6.3 Anlise do Sistema ...................................................................................................... 97

    6.3.1 Descrio do Problema ...................................................................................... 97

  • viii

    6.3.2 Definio dos Objetivos do Sistema ................................................................ 100

    6.3.3 Construo do Diagrama de Classes do Sistema em Operao ....................... 101

    6.3.4 Construo do Diagrama de Classes Corporativo............................................ 101

    6.4 Projeto Informal......................................................................................................... 102

    6.4.1 Seleo dos Atributos....................................................................................... 102

    6.4.2 Definio das Transformaes dos Dados ....................................................... 103

    6.4.3 Projeto de uma Estrutura de Metadados .......................................................... 105

    6.4.4 Projeto do Data Set .......................................................................................... 107

    6.4.5 Definio de Tcnica de Amostragem Estatstica............................................ 107

    6.4.6 Escolha de Tcnica de Minerao de Dados.................................................... 108

    6.4.7 Construo de Diagramas de Classes............................................................... 108

    6.4.8 Construo de Diagramas de Estados .............................................................. 110

    6.4.9 Construo de Diagramas de Colaborao ...................................................... 111

    6.4.10 Determinao da Forma de Povoamento do Data Set ................................... 113

    6.5 Projeto Formal ........................................................................................................... 114

    6.5.1 Diviso do Sistema em Mdulos ..................................................................... 114

    6.5.2 Definio do Modelo de Comunicao............................................................ 114

    6.5.3 Declarao dos Mdulos .................................................................................. 114

    6.6 Implementao do Sistema ........................................................................................ 118

    6.7 Anlise dos Resultados .............................................................................................. 118

    6.8 Consideraes Finais ................................................................................................. 123

    7 CONCLUSES E TRABALHOS FUTUROS ............................................................... 125

    7.1 Concluses................................................................................................................. 125

    7.2 Trabalhos Futuros ...................................................................................................... 127

    8 REFERNCIAS BIBLIOGRFICAS ............................................................................ 129

    9 ANEXOS......................................................................................................................... 136

    9.1 A Linguagem E-LOTOS............................................................................................ 136

    9.2 Diagramas de Estados do Ambiente ADesC ............................................................. 144

    9.3 Um Modelo de Metadados......................................................................................... 151

    9.4 Especificao do Ambiente ADesC em E-LOTOS ................................................... 157

  • ix

    Lista de Figuras

    Figura 2.1: A Minerao de Dados como um Campo Multidisciplinar ................................. 7

    Figura 2.2: Processo de Descoberta de Conhecimento......................................................... 18

    Figura 2.3: O Modelo do Processo KDD (Klemettinen et al, 1997) .................................... 21

    Figura 2.4: Processo KDD (Feldens et al, 1998).................................................................. 22

    Figura 2.5: Fases do Modelo de Processo CRISP-DM (CRISP-DM, 2001)........................ 23

    Figura 2.6: Tarefas do Mtodo ROOA................................................................................. 35

    Figura 2.7: Fases da Metodologia SOFL.............................................................................. 36

    Figura 3.1: Modelo da Pesquisa ........................................................................................... 44

    Figura 3.2: Processo de Desenvolvimento da Pesquisa........................................................ 46

    Figura 4.1: Modelo Geral Proposto ...................................................................................... 50

    Figura 4.2: Etapas da Metodologia MeDesC ....................................................................... 53

    Figura 4.3: Atividades da Etapa Anlise do Sistema............................................................ 55

    Figura 4.4: Diagrama de Classes Corporativo...................................................................... 57

    Figura 4.5: Atividades da Etapa Projeto Informal................................................................ 59

    Figura 4.6: Atividades da Etapa Projeto Formal .................................................................. 67

    Figura 4.7: Modelo Geral de Comunicao ......................................................................... 69

    Figura 4.8: Exemplo de Herana entre Classes de Objetos ................................................. 70

    Figura 4.9: Diagrama de Estados para a Classe Docente .................................................... 73

    Figura 5.1: Modelo do Ambiente ADesC............................................................................. 78

    Figura 5.2: Estrutura de Agentes ......................................................................................... 79

    Figura 5.3: Tipos de Agentes............................................................................................... 80

    Figura 5.4: Diagrama Caso de Uso Usurio Analista....................................................... 83

    Figura 5.5: Diagrama Caso de Uso Usurio Final............................................................. 84

    Figura 5.6: Diagrama de Classes do Ambiente .................................................................... 86

    Figura 5.7: Diagrama de Colaborao Inicializar Ambiente............................................. 87

    Figura 5.8: Diagrama de Colaborao Configurar ............................................................ 87

    Figura 5.9: Diagrama de Colaborao Preparar Dados ..................................................... 89

    Figura 5.10: Diagrama de Colaborao Povoamento........................................................ 90

    Figura 5.11: Diagrama de Colaborao Minerao de Dados........................................... 91

  • x

    Figura 5.12: Diagrama de Colaborao Visualizar Resultados......................................... 91

    Figura 5.13: Diagrama de Colaborao Analisar Resultados............................................ 92

    Figura 5.14: Diagrama de Colaborao Finalizar Ambiente............................................. 93

    Figura 5.15: Modelo de Comunicao do Ambiente ADesC............................................... 94

    Figura 6.1: Modelo de Dados da Aplicao Coleta de Dados 5.0 (CAPES, 1999).............. 99

    Figura 6.2: Diagrama de Classes do Sistema em Operao ............................................... 101

    Figura 6.3: Diagrama de Classes Refinado dos Bancos de Dados em Operao............... 109

    Figura 6.4: Diagrama de Classes do DataSet ..................................................................... 109

    Figura 6.5: Diagrama de Estados da Classe AgenteTransformao................................... 110

    Figura 6.6: Diagrama de Colaborao CalcularBolsaAluno ........................................... 111

    Figura 6.7: Diagrama de Colaborao CalcularProducao ............................................... 111

    Figura 6.8: Diagrama de Colaborao CalcularTotalGraduados..................................... 111

    Figura 6.9: Diagrama de Colaborao CalcularTotalMestres ......................................... 112

    Figura 6.10: Diagrama de Colaborao CalcularTotalDoutores ..................................... 112

    Figura 6.11: Diagrama de Colaborao CalcularTotalOrientandos ................................ 112

    Figura 6.12: Diagrama de Colaborao CalcularMesesFormacao .................................. 113

    Figura 6.13: Diagrama de Colaborao VerificarBolsaVinculo ..................................... 113

    Figura 9.1: Diagrama de Estados da Classe GerenteInterfaces .......................................... 144

    Figura 9.2: Diagrama de Estados da Classe InterfaceEntrada............................................ 144

    Figura 9.3: Diagrama de Estados da Classe InterfaceDados .............................................. 144

    Figura 9.4: Diagrama de Estados da Classe InterfaceTransformao ................................ 145

    Figura 9.5: Diagrama de Estados da Classe InterfaceTecnica............................................ 145

    Figura 9.6: Diagrama de Estados da Classe InterfaceResultados....................................... 145

    Figura 9.7: Diagrama de Estados da Classe InterfaceAnalise ............................................ 145

    Figura 9.8: Diagrama de Estados da Classe InterfacePovoamento .................................... 145

    Figura 9.9: Diagrama de Estados da Classe GerenteServios ............................................ 146

    Figura 9.10: Diagrama de Estados da Classe CoordenadorTransporte .............................. 146

    Figura 9.11: Diagrama de Estados da Classe ServidorAgente ........................................... 147

    Figura 9.12: Diagrama de Estados da Classe AgenteBusca ............................................... 148

    Figura 9.13: Diagrama de Estados da Classe AgenteTransformao................................. 148

    Figura 9.14: Diagrama de Estados da Classe AgenteRoteador .......................................... 148

    Figura 9.15: Diagrama de Estados da Classe AgenteTecnica ............................................ 148

    Figura 9.16: Diagrama de Estados da Classe AgenteAnalise ............................................ 148

    Figura 9.17: Diagrama de Estados da Classe AgentePovoamento..................................... 149

  • xi

    Figura 9.18: Diagrama de Estados da Classe Suporte ........................................................ 149

    Figura 9.19: Diagrama de Estados da Classe BancoDados ................................................ 149

    Figura 9.20: Diagrama de Estados da Classe DataSet ....................................................... 150

    Figura 9.21: Diagrama de Estados da Classe Metadados................................................... 150

    Figura 9.22: Diagrama de Estados da Classe Resultados................................................... 150

    Figura 9.23: Modelo do Metadados.................................................................................... 155

    Figura 9.23: Modelo do Metadados (continuao)............................................................. 156

  • xii

    Lista de Tabelas

    Tabela 2.1: Tarefas Realizadas por Tcnicas de Minerao de Dados ................................ 11

    Tabela 2.2: Tnicas de Minerao de Dados........................................................................ 14

    Tabela 2.3: Ferramentas de Minerao de Dados................................................................. 26

    Tabela 2.4: Classificao de Mtodos Formais .................................................................... 32

    Tabela 2.5: Caractersticas de Agentes................................................................................. 37

    Tabela 5.1: Classes de Objetos do Ambiente ....................................................................... 85

    Tabela 6.1: Atributos Selecionados das Tabelas dos Bancos de Dados da CAPES........... 102

    Tabela 6.2: Relao de Atributos e Mtodos do Agente Transformao........................... 105

    Tabela 6.3: Discretizao dos Dados das Tabelas do DataSet ........................................... 106

    Tabela 6.4: Relao das Tabelas do Metadados e seus Atributos ...................................... 107

    Tabela 6.5: Relao das Tabelas do DataSet e seus Atributos ........................................... 107

    Tabela 6.6: Regras Geradas para o Primeiro Objetivo ....................................................... 119

    Tabela 6.7: Regras Geradas para o Segundo Objetivo ....................................................... 120

    Tabela 6.8: Regras Geradas para o Terceiro Objetivo........................................................ 121

    Tabela 9.1: Sintaxe Resumida de Expresses de Comportamento em E-LOTOS ............. 140

    Tabela 9.2: Descrio das Tabelas que Compem o Modelo de Metadados ..................... 154

  • xiii

    Resumo

    Aps a organizao conseguir sanar seus problemas operacionais, surge a

    necessidade de sistemas para o suporte tomada de deciso. A rea de pesquisa de

    minerao de dados cresce rapidamente para atender a essas novas necessidades. No

    entanto, a utilizao de tcnicas de minerao de dados torna-se difcil pela falta de uma

    metodologia completa e sistemtica para o desenvolvimento de sistemas de descoberta

    de conhecimento. Esta tese apresenta um modelo de formalizao do processo de

    desenvolvimento de sistemas de descoberta de conhecimento em banco de dados, que

    inclui uma metodologia sistemtica e rigorosa e um ambiente interativo para a

    implementao desses sistemas. A metodologia proposta integra UML (Unified

    Modeling Language) e Linguagem E-LOTOS (Enhancements to Language Of Temporal

    Ordering Specification). O principal objetivo gerar informaes relevantes tomada

    de deciso, atravs da aplicao de tcnicas de minerao de dados. O ambiente de

    implementao baseado na Tecnologia de Agentes para facilitar o desempenho de suas

    tarefas. O modelo proposto foi aplicado na plataforma de informaes da ps-graduao

    Brasileira (dados da CAPES 1998). Esta aplicao teve como principal objetivo validar

    a metodologia proposta, segundo critrios de anlise encontrados na literatura.

    Palavras-chave: Minerao de dados, sistemas de descoberta de conhecimento em

    banco de dados, mtodos formais, modelagem orientada a objetos,

    tecnologia de agentes.

  • xiv

    Abstract

    After an organization having solved its operational problems, the need of

    systems appears for the support to the decision taking. Data mining is an area that is

    growing quickly to assist such new needs of the organization. However, the use of data

    mining techniques becomes difficult by the lack of a methodology that defines a

    complete and systematic process for the development of knowledge discovery systems.

    This thesis introduces a formalization model of development process of knowledge

    discovery systems in databases, including a rigorous and systematic methodology and

    an implementation environment for these systems. The methodology integrates UML

    (Unified Modeling Language) and E-LOTOS (Enhancements to Language Of Temporal

    Ordering Specification). The main objective is to generate relevant information to

    decision taking, with the application of data mining techniques. The environment is

    based on Agent Technology to facilitate the performance of its tasks. The model

    proposed was applied on Brazilian pos-graduation information (CAPES data 1998). The

    main objective of this application was to valid the methodological purpose, according to

    the criteria of analyzes found of the literature.

    Keywords: Data mining, knowledge discovery in database, formal methods, object

    oriented, agent technology.

  • 1 INTRODUO

    1.1 MOTIVAO

    Nos ltimos anos, o uso de computadores passou a difundir-se pelos mais

    variados ramos de atividade e no ficou restrito apenas ao meio tecnolgico. Os

    computadores e os sistemas de comunicao so responsveis pela mudana na natureza

    de trabalho das pessoas e, alm disso, esto reformulando o mundo dos negcios.

    O conceito tradicional de trabalho, envolvendo grandes quantidades de papis e

    relatrios complicados, tomada de deciso baseada em fatos pouco concretos, est

    sendo substitudo pelo conceito moderno a que um sistema de informao est ligado.

    Este conceito rene a utilizao das mais variadas tecnologias para o ato de informar

    somente o que for relevante e de forma coerente e direta.

    Durante alguns anos, a maioria das empresas acumulou muitas informaes em

    seus bancos de dados, mas essas empresas, quase sempre, desconhecem o quanto essas

    informaes podem ser teis na busca de melhores perspectivas futuras para seus

    negcios.

    Atualmente, existem ferramentas de software para o suporte tomada de deciso

    que facilitam a gerao de consultas em banco de dados e/ou permitem formas de

    anlise de dados mais complexas. Essas ferramentas incluem sistemas OLAP (On-Line

    Analytic Processing) (Harrison, 1998).

    As tcnicas de minerao de dados, consideradas um dos tipos mais complexos

    de funo analtica, surgiram com o intuito de revelar as informaes estratgicas

    escondidas em grandes bancos de dados, atravs da pesquisa dessas informaes e da

    determinao de padres, classificaes e associaes entre elas. Essas informaes

    valiosas podem ser utilizadas em muitas reas, tais como (Cratochvil, 1999): marketing,

    instituies governamentais, sade e finana.

    A minerao de dados pode ser vista como uma parte fundamental do processo

    de descoberta de conhecimento em banco de dados.

    Apesar da existncia de ferramentas que auxiliam na tarefa de minerao de

    dados, ainda sentida a carncia de ferramentas para o desenvolvimento de sistemas de

  • Introduo

    2

    descoberta de conhecimento em banco de dados que atendam s necessidades

    especficas de cada organizao.

    Outra tcnica que tem sido reconhecida como bastante eficaz no

    desenvolvimento e gerenciamento de sistemas de descoberta de conhecimento em banco

    de dados a tecnologia de agentes, principalmente quando se trata de extrair

    conhecimento em grandes bancos de dados localizados em ns diferentes de redes de

    computadores (Knapik e Johnson, 1998).

    O desenvolvimento de sistemas de descoberta de conhecimento em banco de

    dados ainda se baseia em mtodos ad-hoc, devido falta de uma metodologia

    completa e adequada que garanta a confiabilidade e a qualidade desses sistemas. Assim,

    melhorias so necessrias, tanto no aspecto formal de desenvolvimento desses sistemas,

    quanto em sua eficcia e sua eficincia.

    1.2 OBJETIVOS

    O objetivo geral desta tese de doutorado definir um modelo de formalizao do

    processo de desenvolvimento de sistemas de descoberta de conhecimento em banco de

    dados. Esse modelo engloba uma metodologia formal, denominada MeDesC e um

    ambiente de implementao desses sistemas, denominado ADesC.

    Os objetivos especficos so:

    1. Definir, detalhadamente, as etapas da metodologia proposta;

    2. Utilizar diagramas UML (Unified Modeling Language) para representar os objetos

    do sistema e suas interaes;

    3. Definir uma forma de mapeamento dos diagramas UML para uma linguagem de

    especificao formal, tornando possvel verificao e validao do sistema;

    4. Definir uma estrutura de agentes mveis e os tipos de servios necessrios em sua

    implementao;

    5. Especificar um ambiente de implementao de sistemas de descoberta de

    conhecimento em banco de dados;

    6. Implementar um prottipo para o ambiente ADesC;

    7. Desenvolver uma aplicao prtica utilizando a metodologia MeDesc e implementar

    esta aplicao no ambiente ADesC.

  • Introduo

    3

    1.3 JUSTIFICATIVAS

    As principais justificativas para esta pesquisa so as seguintes:

    As metodologias existentes, que definem um processo completo de desenvolvimento de sistemas computacionais, geralmente, atendem s necessidades da maioria desses

    sistemas. No entanto, essas metodologias so inadequadas ao desenvolvimento de

    sistemas de descoberta de conhecimento em banco de dados, devido ao fato desses

    sistemas se diferenciarem de outros tipos de sistemas, principalmente pela

    caracterstica de indeterminismo neles presentes.

    As outras metodologias propostas para o desenvolvimento de sistemas de descoberta de conhecimento em banco de dados - Metodologia de Klemettinen, Metodologia de

    Feldens e Modelo de Processo CRISP-DM (ver seo 2.2.8 do Captulo 2) - no

    incluem formalismo em nenhuma de suas etapas.

    A maioria das ferramentas de minerao de dados disponveis implementa tipos especficos dessas tcnicas (Goebel e Gruenwald, 1999), o que torna imprescindvel

    um ambiente que implemente diferentes tcnicas de minerao de dados.

    Este trabalho rene importantes reas atuais de pesquisa (minerao de dados, modelagem orientada a objetos, mtodos formais e agentes inteligentes) na busca de

    uma metodologia sistemtica e de um ambiente interativo e eficaz que suportem os

    requisitos de sistemas de descoberta de conhecimento em banco de dados.

    1.4 CONTRIBUIES

    A principal contribuio deste trabalho a definio de um modelo de

    formalizao do processo de desenvolvimento de sistemas de descoberta de

    conhecimento em banco de dados. Outras contribuies importantes:

    A definio de uma metodologia que formaliza modelos UML com o propsito de tornar mais rigorosa a aplicao de modelagem orientada a objetos no processo de

    desenvolvimento de sistemas de descoberta de conhecimento em banco de dados;

    A descrio de uma forma de mapeamento dos diagramas UML para a linguagem de especificao formal E-LOTOS;

    A especificao de um ambiente de implementao de sistemas de descoberta de conhecimento em banco de dados;

  • Introduo

    4

    O uso de tcnicas de minerao de dados na descoberta de conhecimento em banco de dados, segundo mtodo formal de especificao;

    A possibilidade de integrao de diferentes bancos de dados; O emprego da tecnologia de agentes na construo de sistemas de descoberta de

    conhecimento em banco de dados.

    A utilizao das seguintes tecnologias bsicas: modelagem orientada a objetos (UML) e tcnica de descrio formal (E-LOTOS) nas etapas da metodologia

    proposta (MeDesC) e a tecnologia de agentes inteligentes na especificao do

    ambiente proposto (ADesC).

    1.5 RESULTADOS ESPERADOS

    Os resultados que se pretende obter com este trabalho so:

    Um modelo de formalizao do processo de desenvolvimento de sistemas de descoberta de conhecimento em banco de dados;

    A definio detalhada da metodologia MeDesC; A especificao do ambiente ADesC; Um prottipo do ambiente ADesC; O desenvolvimento de uma aplicao prtica utilizando a metodologia MeDesC e a

    implementao dessa aplicao atravs do prottipo do ambiente ADesC.

    1.6 ORGANIZAO DO TRABALHO

    Este trabalho, alm deste captulo que teve como fundamento situar e definir os

    objetivos do trabalho proposto, tem sua continuidade nos captulos a seguir.

    O Captulo 2 (Fundamentao Terica) apresenta um levantamento bibliogrfico

    sobre minerao de dados, mtodos formais e agentes inteligentes.

    No Captulo 3 (Metodologia de Desenvolvimento da Pesquisa) descrita a

    metodologia de desenvolvimento desta pesquisa de tese de doutorado.

    O Captulo 4 (Modelo Geral Proposto e Metodologia de Desenvolvimento de

    Sistemas de Descoberta de Conhecimento em Banco de Dados) apresenta um modelo de

    formalizao do processo de desenvolvimento de sistemas de descoberta de

    conhecimento em banco de dados e descreve as etapas da metodologia MeDesC.

  • Introduo

    5

    O Captulo 5 (Ambiente de Implementao de Sistemas de Descoberta de

    Conhecimento em Banco de Dados) apresenta a especificao completa do ambiente

    ADesC.

    O Captulo 6 (Aplicao do Modelo) apresenta a aplicao do modelo geral

    proposto atravs da especificao e da implementao de estudo de casos, tomando

    como base dados da CAPES, aplicando a metodologia MeDesC e utilizando o prottipo

    do ambiente ADesC.

    Finalmente, no Captulo 7 so apresentadas as concluses deste trabalho e

    sugestes para pesquisas futuras.

  • 2 FUNDAMENTAO TERICA

    2.1 INTRODUO

    Durante vrias dcadas, desde a inveno do primeiro computador, o principal

    objetivo da utilizao do computador solucionar problemas operacionais da

    organizao. A grande maioria das organizaes ainda no possui meios de utilizao

    dos recursos computacionais na tomada de deciso. Apesar da existncia de grandes

    bancos de dados com muitas informaes sobre o negcio da empresa, ainda so

    encontradas dificuldades na descoberta de conhecimento baseada nessas informaes.

    Essas dificuldades podem estar relacionadas falta de conhecimento da existncia de

    tcnicas de minerao de dados e/ou de ferramentas adequadas.

    As tcnicas de minerao de dados so aplicadas em sistemas de descoberta de

    conhecimento em banco de dados com o objetivo de extrair informaes estratgicas

    escondidas em grandes bancos de dados, atravs da pesquisa dessas informaes e da

    determinao de padres, classificaes e associaes entre elas (Goebel e Gruenwald,

    1999).

    Os sistemas de descoberta de conhecimento so considerados sistemas

    complexos. Por isto, eles exigem maior rigor no seu processo de desenvolvimento.

    Os mtodos formais esto sendo atualmente muito utilizados na especificao de

    sistemas complexos com o objetivo de construir sistemas de forma mais sistemtica e

    sem ambigidades. Eles podem ser aplicados durante todo o processo de

    desenvolvimento de sistema ou apenas em determinadas fases do processo, com graus

    variados de rigor (Rushby, 1993).

    Outra tecnologia avanada que pode ser utilizada na implementao de sistemas

    de descoberta de conhecimento em banco de dados a tecnologia de agentes

    inteligentes, para facilitar, principalmente, as tarefas de busca e seleo de informaes

    em grandes bancos de dados espalhados por redes de computadores, de escolha da

    tcnica de minerao de dados mais adequada e de anlise dos resultados.

    Assim, o objetivo deste captulo apresentar uma fundamentao terica sobre

    as reas mais relevantes desta pesquisa, que so: minerao de dados, mtodos formais

    e agentes inteligentes.

  • Fundamentao Terica 7

    2.2 MINERAO DE DADOS

    A minerao de dados pode ser considerada como uma parte do processo de

    Descoberta de Conhecimento em Banco de Dados (KDD Knowledge Discovery in

    Databases).

    Segundo Goebel e Gruenwald (1999), o termo KDD usado para representar o

    processo de tornar dados de baixo nvel em conhecimento de alto nvel, enquanto

    minerao de dados pode ser definida como a extrao de padres ou modelos de dados

    observados.

    A minerao de dados combina mtodos e ferramentas das seguintes reas:

    aprendizagem de mquina, estatstica, banco de dados, sistemas especialistas e

    visualizao de dados, conforme Figura 2.1 (Cratochvil, 1999).

    Figura 2.1: A Minerao de Dados como um Campo Multidisciplinar

    KDD

    Visualizao

    Estatstica

    Aprendizagem de Mquina

    Banco de Dados

    Sistemas Especialistas

    2.2.1 Conceito de Minerao de dados

    Minerao de dados a explorao e a anlise, por meio automtico ou semi-

    automtico, de grandes quantidades de dados, a fim de descobrir padres e regras

    significativos (Berry e Linoff, 1997, p.5).

    Os principais objetivos da minerao de dados so descobrir relacionamentos

    entre dados e fornecer subsdios para que possa ser feita uma previso de tendncias

    futuras baseada no passado.

  • Fundamentao Terica 8

    Os resultados obtidos com a minerao de dados podem ser usados no

    gerenciamento de informao, processamento de pedidos de informao, tomada de

    deciso, controle de processo e muitas outras aplicaes.

    A minerao de dados pode ser aplicada de duas formas: como um processo de

    verificao e como um processo de descoberta (Groth, 1998). No processo de

    verificao, o usurio sugere uma hiptese acerca da relao entre os dados e tenta

    prov-la aplicando tcnicas como anlises estatstica e multidimensional sobre um

    banco de dados contendo informaes passadas. No processo de descoberta no feita

    nenhuma suposio antecipada. Esse processo usa tcnicas, tais como descoberta de

    regras de associao, rvores de deciso, algoritmos genticos e redes neurais.

    2.2.2 Origem dos Dados

    As tcnicas de minerao de dados podem ser aplicadas sobre bancos de dados

    operacionais ou sobre Data Warehouse (DW) ou Data Mart, nos quais geralmente

    resulta uma informao melhor, pois os dados normalmente so preparados antes de

    serem armazenados no DW ou data mart (Dias et al, 1998). Podem ser aplicadas,

    tambm, sobre um data set, que pode ser definido como um banco de dados (em um

    sentido fraco do termo) contendo apenas o conjunto de dados especfico para um tipo de

    investigao a ser realizada.

    Um DW um conjunto de dados baseado em assuntos, integrado, no-voltil e

    variante em relao ao tempo, de apoio s decises gerenciais (Inmon, 1997, p.33). No

    princpio, a expresso representava simplesmente um armazm de dados, como a

    traduo de DW; porm, ao longo do tempo, vem recebendo diversos incrementos em

    sua estrutura.

    Um DW tem por objetivo oferecer organizao, gerenciamento e integrao de

    bancos de dados, assim como ferramentas de explorao dos mesmos, para se obter

    vantagens competitivas no mercado. construdo tendo como base outros bancos de

    dados operacionais que podem estar implementados em diferentes plataformas na

    organizao. usado, geralmente, em aplicaes de suporte tomada de deciso.

    Um data mart um DW departamental, ou seja, um DW construdo para uma

    rea especfica da organizao (Inmon, 1997).

    A tcnica de data mart facilita a tomada de decises em nvel departamental e

    permite dados relacionais ou multidimensionais no volteis (Dias et al, 1998).

  • Fundamentao Terica 9

    2.2.3 Tarefas Desempenhadas por Tcnicas de Minerao de dados

    As tcnicas de minerao de dados podem ser aplicadas a tarefas1 como

    classificao, estimativa, associao, segmentao e sumarizao. Essas tarefas so

    descritas a seguir.

    a) Classificao

    A tarefa de classificao consiste em construir um modelo de algum tipo que

    possa ser aplicado a dados no classificados visando categoriz-los em classes. Um

    objeto examinado e classificado de acordo com uma classe definida (Harrison, 1998).

    A tarefa de classificao pode ser considerada uma tarefa mal definida,

    indeterminstica, que inevitvel pelo fato de envolver predio (Freitas, 2000, p. 65).

    So exemplos de tarefas de classificao (Goebel e Gruenwald, 1999), (Mehta et

    al, 1996): classificar pedidos de crditos como de baixo, mdio e alto risco; esclarecer

    pedidos de seguros fraudulentos; identificar a forma de tratamento na qual um paciente

    est mais propcio a responder, baseando-se em classes de pacientes que respondem

    bem a determinado tipo de tratamento mdico.

    b) Estimativa (ou Regresso)

    A estimativa usada para definir um valor para alguma varivel contnua

    desconhecida como, por exemplo, receita, altura ou saldo de carto de crdito (Harrison,

    1998). Ela lida com resultados contnuos, enquanto que a classificao lida com

    resultados discretos. Ela pode ser usada para executar uma tarefa de classificao,

    convencionando-se que diferentes faixas (intervalos) de valores contnuos

    correspondem a diferentes classes.

    Regresso aprender uma funo que mapea um item de dado para uma

    varivel de predio real estimada (Fayyad, 1996, p. 13).

    Como exemplos de tarefas de estimativa tem-se (Fayyad, 1996), (Harrison,

    1998): estimar o nmero de filhos em uma famlia; estimar a renda total de uma famlia;

    estimar o valor em tempo de vida de um cliente; estimar a probabilidade de que um

    paciente morrer baseando-se nos resultados de um conjunto de diagnsticos mdicos;

    prever a demanda de um consumidor para um novo produto.

    1 Neste contexto, tarefa um tipo de problema de descoberta de conhecimento a ser solucionado.

  • Fundamentao Terica 10

    c) Associao

    A tarefa de associao consiste em determinar quais itens tendem a co-

    ocorrerem (serem adquiridos juntos) em uma mesma transao. O exemplo clssico

    determinar quais produtos costumam ser colocados juntos em um carrinho de

    supermercado, da o termo anlise de market basket. As cadeias de varejo usam

    associao para planejar a disposio dos produtos nas prateleiras das lojas ou em um

    catlogo, de modo que os itens geralmente adquiridos na mesma compra sejam vistos

    prximos entre si (Harrison, 1998).

    A tarefa de associao pode ser considerada uma tarefa bem definida,

    determinstica e relativamente simples, que no envolve predio da mesma forma que a

    tarefa de classificao (Freitas, 2000, p. 65).

    d) Segmentao (ou Clustering)

    A segmentao um processo de partio de uma populao heterognea em

    vrios subgrupos ou clusters mais homogneos (Harrison, 1998). Na segmentao, no

    h classes predefinidas, os registros so agrupados de acordo com a semelhana, o que a

    diferencia da tarefa de classificao.

    Exemplos de segmentao: agrupar os clientes por regio do pas, agrupar

    clientes com comportamento de compra similar (Goebel e Gruenwald, 1999); agrupar

    sees de usurios Web para prever comportamento futuro de usurio (Mobasher et al,

    2000).

    e) Sumarizao

    Segundo Fayyad (1996), a tarefa de sumarizao envolve mtodos para

    encontrar uma descrio compacta para um subconjunto de dados. Um simples exemplo

    desta tarefa poderia ser tabular o significado e desvios padro para todos os itens de

    dados. Mtodos mais sofisticados envolvem a derivao de regras de sumarizao.

    As tarefas de minerao de dados, descritas acima, so apresentadas de forma

    resumida na Tabela 2.1.

  • Fundamentao Terica 11

    Tabela 2.1: Tarefas Realizadas por Tcnicas de Minerao de Dados

    TAREFA DESCRIO EXEMPLOS

    Classificao Constri um modelo de algum tipo que possa ser aplicado a dados no classificados a fim de categoriz-los em classes

    Classificar pedidos de crdito Esclarecer pedidos de seguros

    fraudulentos Identificar a melhor forma de

    tratamento de um paciente Estimativa (ou Regresso)

    Usada para definir um valor para alguma varivel contnua desconhecida

    Estimar o nmero de filhos ou a renda total de uma famlia

    Estimar o valor em tempo de vida de um cliente

    Estimar a probabilidade de que um paciente morrer baseando-se nos resultados de diagnsticos mdicos

    Prever a demanda de um consumidor para um novo produto

    Associao Usada para determinar quais itens tendem a co-ocorrerem (serem adquiridos juntos) em uma mesma transao

    Determinar quais os produtos costumam ser colocados juntos em um carrinho de supermercado

    Segmentao (ou Clustering)

    Processo de partio de uma populao heterognea em vrios subgrupos ou grupos mais homogneos

    Agrupar clientes por regio do pas Agrupar clientes com comportamento

    de compra similar Agrupar sees de usurios Web para

    prever comportamento futuro de usurio Sumarizao Envolve mtodos para encontrar uma

    descrio compacta para um subconjunto de dados

    Tabular o significado e desvios padro para todos os itens de dados

    Derivar regras de sntese

    2.2.4 Tcnicas de Minerao de dados

    Harrison (1998) afirma que no h uma tcnica que resolva todos os problemas

    de minerao de dados. Diferentes mtodos servem para diferentes propsitos, cada

    mtodo oferece suas vantagens e suas desvantagens. A familiaridade com as tcnicas

    necessria para facilitar a escolha de uma delas de acordo com os problemas

    apresentados. A seguir so descritas as tcnicas de minerao de dados normalmente

    usadas.

    a) Descoberta de Regras de Associao

    A tcnica de descoberta de regras de associao estabelece uma correlao

    estatstica entre certos itens de dados em um conjunto de dados (Goebel e Gruenwald,

    1999).

  • Fundamentao Terica 12

    Uma regra de associao tem a forma geral X1 ^ ... ^ Xn => Y [C,S], onde

    X1,..., Xn so itens que prevem a ocorrncia de Y com um grau de confiana C e com

    um suporte mnimo de S e ^ denota um operador de conjuno (AND). Um exemplo

    desta regra pode ser que 90% dos clientes que compram leite, tambm compram po; o

    percentual de 90% chamado a confiana da regra. O suporte da regra leite => po o

    nmero de ocorrncias deste conjunto de itens na mesma transao.

    A tcnica de descoberta de regras de associao apropriada tarefa de

    associao.

    Como exemplos de algoritmos que implementam regras de associao tem-se:

    Apriori, AprioriTid, AprioriHybrid, AIS, SETM (Agrawal e Srikant, 1994) e DHP

    (Chen et al, 1996).

    b) rvores de Deciso

    Uma rvore de deciso uma rvore onde cada n no terminal representa um

    teste ou deciso sobre o item de dado considerado (Goebel e Gruenwald, 1999). O

    objetivo principal separar as classes; tuplas de classes diferentes tendem a ser alocadas

    em subconjuntos diferentes, cada um descrito por regra simples em um ou mais itens de

    dados. Essas regras podem ser expressas como declaraes lgicas, em uma linguagem

    como SQL, de modo que possam ser aplicadas diretamente a novas tuplas. Uma das

    vantagens principais das rvores de deciso o fato de que o modelo bem explicvel,

    uma vez que tem a forma de regras explcitas (Harrison, 1998).

    A tcnica de rvore de deciso, em geral, apropriada s seguintes tarefas:

    classificao e regresso.

    Alguns exemplos de algoritmos de rvore de deciso so: CART, CHAID, C5.0,

    Quest (Two Crows, 1999), ID-3 (Chen et al, 1996), SLIQ (Metha et al, 1996) e SPRINT

    (Shafer et al, 1996).

    c) Raciocnio Baseado em Casos

    Tambm conhecido como MBR (Memory-Based Reasoning raciocnio

    baseado em memria), o raciocnio baseado em casos tem base no mtodo do vizinho

    mais prximo. O MBR procura os vizinhos mais prximos nos exemplos conhecidos e

    combina seus valores para atribuir valores de classificao ou de previso (Harrison,

    1998, p. 195). Tenta solucionar um dado problema fazendo uso direto de experincias e

    solues passadas. A distncia dos vizinhos d uma medida da exatido dos resultados.

  • Fundamentao Terica 13

    Na aplicao do MBR, segundo Berry e Linoff (1997), existem quatro passos

    importantes: 1) escolher o conjunto de dados de treinamento; 2) determinar a funo de

    distncia; 3) escolher o nmero de vizinhos mais prximos; e 4) determinar a funo de

    combinao.

    A tcnica de raciocnio baseado em casos apropriada s seguintes tarefas:

    classificao e segmentao.

    Os seguintes algoritmos implementam a tcnica de raciocnio baseado em casos:

    BIRCH (Zhang et al, 1996), CLARANS (Chen et al, 1996) e CLIQUE (Agrawal et al,

    1998).

    d) Algoritmos Genticos

    Os algoritmos genticos so mtodos generalizados de busca e otimizao que

    simulam os processos naturais de evoluo. Um algoritmo gentico um procedimento

    iterativo para evoluir uma populao de organismos e usado em minerao de dados

    para formular hipteses sobre dependncias entre variveis, na forma de algum

    formalismo interno (Goebel e Gruenwald, 1999).

    Os algoritmos genticos usam os operadores de seleo, cruzamento e mutao

    para desenvolver sucessivas geraes de solues. Com a evoluo do algoritmo,

    somente as solues com maior poder de previso sobrevivem, at os organismos

    convergirem em uma soluo ideal (Harrison, 1998).

    A tcnica de algoritmos genticos apropriada s tarefas de classificao e

    segmentao.

    Exemplos de algoritmos genticos: Algoritmo Gentico Simples (Goldberg,

    1989), Genitor e CHC (Whitley, 1993), Algoritmo de Hillis (Hillis, 1997), GA-Nuggets

    (Freitas, 1999), GA-PVMINER (Arajo et al, 1999).

    e) Redes Neurais Artificiais

    As redes neurais so uma classe especial de sistemas modelados seguindo

    analogia com o funcionamento do crebro humano e so formadas de neurnios

    artificiais conectados de maneira similar aos neurnios do crebro humano (Goebel e

    Gruenwald, 1999).

    Como no crebro humano, a intensidade de interconexes dos neurnios pode

    alterar (ou ser alterada por algoritmo de aprendizagem) em resposta a um estmulo ou

    uma sada obtida que permite a rede aprender (Goebel e Gruenwald, 1999, p. 23).

  • Fundamentao Terica 14

    Uma das principais vantagens das redes neurais sua variedade de aplicao,

    mas os seus dados de entrada so difceis de serem formados e os modelos produzidos

    por elas so difceis de entender (Harrison, 1998).

    A tcnica de redes neurais apropriada s seguintes tarefas: classificao,

    estimativa e segmentao.

    Exemplos de redes neurais: Perceptron, Rede MLP, Redes de Kohonen, Rede

    Hopfield, Rede BAM, Redes ART, Rede IAC, Rede LVQ, Rede Counterpropagation,

    Rede RBF, Rede PNN, Rede Time Delay, Neocognitron, Rede BSB (Azevedo, 2000),

    (Braga, 2000), (Haykin, 2001).

    A Tabela 2.2 apresenta um resumo das tcnicas de minerao de dados aqui

    descritas.

    Tabela 2.2: Tcnicas de Minerao de Dados

    TCNICA DESCRIO TAREFAS EXEMPLOS

    Descoberta de Regras de Associao

    Estabelece uma correlao estatstica entre atributos de dados e conjuntos de dados

    Associao Apriori, AprioriTid, AprioriHybrid, AIS, SETM (Agrawal e Srikant, 1994) e DHP (Chen et al, 1996).

    rvores de Deciso

    Hierarquizao dos dados, baseada em estgios de deciso (ns) e na separao de classes e subconjuntos

    Classificao Regresso

    CART, CHAID, C5.0, Quest (Two Crows, 1999); ID-3 (Chen et al, 1996); SLIQ (Metha et al, 1996); SPRINT (Shafer et al, 1996).

    Raciocnio Baseado em Casos ou MBR

    Baseado no mtodo do vizinho mais prximo, combina e compara atributos para estabelecer

    Classificao Segmentao

    BIRCH (Zhang et al, 1996); CLARANS (Chen et al, 1996); CLIQUE (Agrawal et al, 1998).

    Algoritmos Genticos

    Redes Neurais Artificiais

    hierarquia de semelhana

    Mtodos gerais de busca e otimizao, inspirados na Teoria da Evoluo, onde a cada nova gerao, solues melhores tm mais chance de ter descendentes

    Classificao Segmentao

    Algoritmo Gentico Simples (Goldberg, 1989); Genitor, CHC (Whitley, 1993); Algoritmo de Hillis (Hillis, 1997); GA-Nuggets (Freitas, 1999); GA-PVMINER (Arajo et al, 1999).

    Modelos inspirados na fisiologia do crebro, onde o conhecimento fruto do mapa das conexes neuronais e dos pesos dessas conexes

    Classificao Segmentao

    Perceptron, Rede MLP, Redes de Kohonen, Rede Hopfield, Rede BAM, Redes ART, Rede IAC, Rede LVQ, Rede Counterpropagation, Rede RBF, Rede PNN, Rede Time Delay, Neocognitron, Rede BSB (Azevedo, 2000), (Braga, 2000), (Haykin, 2001)

  • Fundamentao Terica 15

    2.2.5 Como Escolher a Tcnica de Minerao de dados mais Adequada

    A escolha de uma tcnica de minerao de dados a ser aplicada no uma tarefa

    fcil. Segundo Harrison (1998), a escolha das tcnicas de minerao de dados depender

    da tarefa especfica a ser executada e dos dados disponveis para anlise. Harrison

    (1998) sugere que a seleo das tcnicas de minerao de dados deve ser dividida em

    dois passos: 1) traduzir o problema de negcio a ser resolvido em sries de tarefas de

    minerao de dados; 2) compreender a natureza dos dados disponveis em termos de

    contedo e tipos de campos de dados e estrutura das relaes entre os registros.

    Essa escolha pode ser baseada, tambm, em critrios para classificao das

    tcnicas. Uma relao desses tipos de critrios dada por Harrison (1998).

    Diferentes esquemas de classificao podem ser usados para categorizar

    mtodos de minerao de dados sobre os tipos de bancos de dados a serem estudados, os

    tipos de conhecimento a serem descobertos e os tipos de tcnicas a serem utilizadas

    (Chen et al,1996, p.4), como pode ser visto a seguir:

    Com que tipos de bancos de dados trabalhar: Um sistema de descoberta de conhecimento pode ser classificado de acordo com os

    tipos de bancos de dados sobre os quais tcnicas de minerao de dados so

    aplicadas, tais como: bancos de dados relacionais, bancos de dados de transao,

    orientados a objetos, dedutivos, espaciais, temporais, de multimdia, heterogneos,

    ativos, de herana, banco de informao de Internet e bases textuais.

    Qual o tipo de conhecimento a ser explorado: Vrios tipos de conhecimento podem ser descobertos por extrao de dados,

    incluindo regras de associao, regras caractersticas, regras de classificao, regras

    discriminantes, grupamento, evoluo e anlise de desvio.

    Qual tipo de tcnica a ser utilizada: A extrao de dados pode ser categorizada de acordo com as tcnicas de minerao

    de dados subordinadas. Por exemplo, extrao dirigida a dados, extrao dirigida a

    questionamento e extrao de dados interativa. Pode ser categorizada, tambm, de

    acordo com a abordagem de minerao de dados subordinada, tal como: extrao

    de dados baseada em generalizao, baseada em padres, baseada em teorias

    estatsticas ou matemticas, abordagens integradas, etc.

  • Fundamentao Terica 16

    Atualmente, a descoberta de regras de associao parece ser uma das tcnicas de

    minerao de dados mais utilizada, sendo encontrada em diversas pesquisas (Agrawal e

    Srikant, 1994), (Chen et al, 1996), (Hipp et al, 2000), (Holsheimer et al, 1996),

    (Mannila, 1997), (Viveros et al, 1996).

    2.2.6 reas de Aplicao de Tcnicas de Minerao de dados

    A seguir, so relacionadas as principais reas de interesse na utilizao de

    minerao de dados, de acordo com Cratochvil (1999), (Mannila, 1996), (Viveros et al,

    1996):

    Marketing. Tcnicas de minerao de dados so aplicadas para descobrir preferncias do consumidor e padres de compra, com o objetivo de realizar

    marketing direto de produtos e ofertas promocionais, de acordo com o perfil do

    consumidor.

    Deteco de fraudes. Muitas fraudes bvias (tais como, a compensao de cheque por pessoas falecidas) podem ser encontradas sem minerao de dados, mas padres

    mais sutis de fraude podem ser difceis de serem detectados, por exemplo, o

    desenvolvimento de modelos que predizem quem ser um bom cliente ou aquele que

    poder se tornar inadimplente em seus pagamentos.

    Medicina: caracterizar comportamento de paciente para prever visitas, identificar terapias mdicas de sucesso para diferentes doenas, buscar por padres de novas

    doenas.

    Instituies governamentais: descoberta de padres para melhorar as coletas de taxas ou descobrir fraudes.

    Cincia: tcnicas de minerao de dados podem ajudar cientistas em suas pesquisas, por exemplo, encontrar padres em estruturas moleculares, dados genticos,

    mudanas globais de clima, oferecendo concluses valiosas rapidamente.

    Controle de processos e controle de qualidade: auxiliar no planejamento estratgico de linhas de produo e buscar por padres de condies fsicas na

    embalagem e armazenamento de produtos.

  • Fundamentao Terica 17

    Banco: detectar padres de uso de carto de crdito fraudulento, identificar clientes leais, determinar gastos com carto de crdito por grupos de clientes, encontrar

    correlaes escondidas entre diferentes indicadores financeiros.

    Aplice de seguro: anlise de reivindicaes determinar quais procedimentos mdicos so reivindicados juntos, prever quais clientes compraro novas aplices,

    identificar padres de comportamento de clientes perigosos, identificar

    comportamento fraudulento.

    Transporte: determinar as escalas de distribuio entre distribuidores, analisar padres de carga.

    C & T (Cincia e Tecnologia): avaliar grupos de pesquisa do pas (Gonalves, 2000), (Romo, 1999).

    Web: existem muitas pesquisas direcionadas aplicao de minerao de dados na Web, tais como: (Loh et al, 2000), (Kosala e Blockeel, 2000), (Ma et al, 2000),

    (Mobasher et al, 2000), (Sarawagi e Nagaralu, 2000), (Spiliopoulou, 2000).

    2.2.7 O Processo de Descoberta de Conhecimento

    O processo de descoberta de conhecimento um mtodo semi-automtico

    complexo e iterativo (Mannila, 1996). De acordo com Groth (1998), ele pode ser

    dividido em cinco passos bsicos: preparao de dados, definio de um estudo,

    construo de um modelo, entendimento do modelo e predio.

    Para Lans (1997), existe um passo que antecede a preparao de dados, trata-se

    da definio de objetivos.

    A Figura 2.2 representa o processo de descoberta de conhecimento.

    A seguir, os passos bsicos do processo de descoberta de conhecimento so

    descritos.

    1) Definio de Objetivos

    Neste passo, deve-se definir os objetivos de negcio que devero ser alcanados

    com a minerao de dados e o que dever ser feito com os seus resultados, como por

    exemplo: mudana de plano de marketing.

  • Fundamentao Terica 18

    Figura 2.2: Processo de Descoberta de Conhecimento

    Escolha do melhor resultado possvel

    Anlise baseada no tipo de tcnica de minerao de dados aplicada

    Aplicao de uma tcnica de minerao de dados

    Articular um alvo Escolher uma varivel dependente Especificar os campos de dados

    usados no estudo

    Seleo e transformao dos dados Registro no Metadados Registro do DW, DM ou DS

    Planejamento de ao Planejamento de

    avaliao de resultados

    Predio

    Anlise do Modelo

    Construo de um Modelo

    Definio de um Estudo

    Acesso e Preparao de

    Dados

    Definio de Objetivos

    2) Preparao de dados

    A preparao de dados envolve as tarefas de seleo e transformao dos dados.

    Os tipos de dados selecionados podem estar organizados ao longo de mltiplas tabelas.

    Durante a seleo de dados, o usurio pode necessitar executar junes de tabelas ou

    eliminar linhas e/ou colunas de tabelas. Os mtodos de transformao incluem organizar

    dados na forma desejada e converter um tipo de dado em outro tipo. A definio de

  • Fundamentao Terica 19

    novos atributos outro tipo de transformao que pode envolver aplicar operadores

    matemticos ou lgicos sobre os valores de um ou mais atributos.

    Os dados selecionados e transformados so armazenados em um DW, data mart

    ou data set. Para facilitar a realizao desta fase, deve ser mantido um catlogo sobre as

    fontes de dados e sobre o que est no DW, data mart e data set no metadados. Os

    metadados so dados sobre as estruturas contidas em banco de dados. O metadados

    facilita o entendimento sobre o contedo e a estrutura de um DW, bem como a histria

    das modificaes realizadas.

    A realizao das tarefas deste passo exige conhecimento dos dados operacionais

    e de seus relacionamentos, disponibilidade de tempo do analista e/ou usurio e alguns

    cuidados na escolha de subconjuntos de atributos e de dados. Becher et al (2000)

    apresentam uma abordagem para a automatizao desse passo e Hsu et al (2000)

    propem o uso de um sistema semi-automtico de limpeza de dados. Pyle (1999)

    descreve uma metodologia de preparao de dados.

    3) Definio de um estudo

    Definir um estudo pode envolver articular um alvo, escolher uma varivel

    dependente ou uma sada que caracterize um aspecto do alvo e especificar os campos de

    dados que so usados no estudo. Bons estudos so unidos para caracterizar aquilo que

    pode ser descrito com seus dados. Por outro lado, o alvo pode ser usado para agrupar

    tipos similares de dados ou para identificar excees em um conjunto de dados. A

    identificao de excees geralmente usada na descoberta de fraude ou de dados

    incorretos.

    As atividades realizadas neste passo complementam os objetivos de negcio,

    definidos anteriormente, aps a obteno de um conhecimento mais detalhado sobre os

    dados operacionais existentes.

    4) Construo de um modelo

    A construo de um modelo feita atravs de uma tcnica de minerao de

    dados, tendo como base os dados transformados e o estudo definido no passo anterior.

    Um modelo resume grandes quantidades de dados por acumular indicadores. Alguns

    dos indicadores que vrios modelos acumulam so: a) freqncias: mostram em qual

    freqncia que um certo valor ocorre; b) pesos ou impactos: indicam a influncia

    exercida por algumas entradas na ocorrncia de uma sada; c) conjunes: algumas

  • Fundamentao Terica 20

    vezes certas entradas tm mais peso juntas do que separadas; d) diferenciao: indica a

    importncia de uma entrada para uma determinada sada do que para uma outra sada.

    5) Entendimento do modelo

    Dependendo do tipo de modelo usado para representar os dados, existem

    diferentes formas de entend-lo. Os indicadores que muitos modelos podem acumular,

    conforme descritos no passo anterior, podem influenciar no entendimento do modelo,

    alm do tipo de tcnica de minerao de dados aplicada na construo do modelo.

    6) Predio

    A predio o processo de escolher o melhor resultado possvel baseado na

    anlise de dados histricos. O usurio deve analisar a informao descoberta de acordo

    com sua tarefa de suporte deciso e objetivos. Portanto, ele precisa ter um bom

    entendimento sobre o negcio da empresa e sobre o conhecimento descoberto.

    2.2.8 Metodologias para Sistemas de Descoberta de Conhecimento

    O desenvolvimento de um sistema de descoberta de conhecimento em banco de

    dados uma tarefa muito complexa, principalmente pela caracterstica de

    indeterminismo deste tipo de sistema. Portanto, imprescindvel o uso de uma

    metodologia completa e sistemtica.

    Uma metodologia de engenharia de software um processo para a produo

    organizada de software, com utilizao de uma coleo de tcnicas predefinidas

    e convenes de notao. Uma metodologia costuma ser apresentada como uma

    srie de etapas, com tcnicas e notao associadas a cada etapa. (Rumbaugh et

    al, 1994, p. 191).

    Os trabalhos que se propem apresentar uma metodologia para o

    desenvolvimento de sistemas de descoberta de conhecimento no incluem formalismo

    na especificao desses sistemas. Normalmente, as metodologias propostas procuram

    solucionar questes relativas a determinadas etapas do processo de desenvolvimento

    desses sistemas e no apresentam notao para representar as caractersticas do sistema

    como um todo.

  • Fundamentao Terica 21

    A seguir, so relacionados trs trabalhos que propem uma metodologia para

    sistemas de descoberta de conhecimento em banco de dados.

    a) Metodologia de Klemettinen

    Klemettinen et al (1997) apresentam uma metodologia que pode ser usada para

    automatizar aquisio de conhecimento. As fases dessa metodologia so aquelas j

    definidas por outros autores (Fayyad, 1996), (Mannila, 1996): pr-processamento,

    transformao, descoberta, apresentao e utilizao (ver Figura 2.3). No entanto, maior

    nfase dada nas duas fases centrais dessa metodologia:

    Fase de descoberta de padres: onde so encontrados todos os padres potencialmente relevantes para algum critrio bastante livre;

    Fase de apresentao: onde so fornecidos mtodos flexveis para iterativa e interativamente criar diferentes vises para os padres descobertos.

    Figura 2.3: O Modelo do Processo KDD (Klemettinen et al, 1997)

    Nas duas primeiras fases do processo, os dados so coletados e preparados de

    forma adequada para descoberta de padres. Uma viso geral sobre os dados pode ser

    produzida nesta fase. Os atributos identificados como irrelevantes so removidos e

    novos atributos podem ser derivados.

    Na fase de descoberta de padres, todos os padres potencialmente interessantes

    so gerados do conjunto do data set.

    A apresentao do conhecimento descoberto uma parte principal dessa

    metodologia. Nesta fase, os padres relevantes podem ser localizados de grandes

    colees de padres potencialmente relevantes.

  • Fundamentao Terica 22

    b) Metodologia de Feldens

    Feldens et al (1998) propem uma metodologia integrada, na qual as tecnologias

    de minerao de dados e data warehouse, bem como questes de visualizao tm

    papis muito importantes no processo. Tambm supe uma forte interao entre

    mineradores de dados e pessoas da organizao para questes de modelagem e

    preparao de dados. As fases definidas para esta metodologia so: pr-processamento,

    minerao de dados e ps-processamento, conforme Figura 2.4.

    Figura 2.4: Processo KDD (Feldens et al, 1998)

    A fase de pr-processamento inclui tudo o que feito antes da minerao de

    dados, o que significa a anlise que feita na organizao a fim de enfocar o projeto de

    minerao de dados, a anlise dos dados existentes, integrao de fontes de dados,

    transformaes de dados, etc.

    A fase de minerao de dados inclui a aplicao de algoritmos, possivelmente a

    aplicao repetida. A escolha dos algoritmos pode ser realizada baseando-se na anlise

    que feita na fase de pr-processamento.

    A fase de ps-processamento pode ser definida por operaes de filtragem,

    estruturao e classificao. Somente aps esta fase, o conhecimento descoberto

  • Fundamentao Terica 23

    apresentado ao usurio. O conhecimento descoberto pode ser filtrado por alguma

    medida estatstica, por exemplo, suporte, confiana ou outro critrio definido pelo

    usurio. Estruturao significa que o conhecimento pode ser organizado de forma

    hierrquica.

    c) Modelo de Processo CRISP-DM

    O Modelo de Processo CRISP-DM (CRoss-Industry Standard Process for Data

    Mining) define um processo de minerao de dados no linear (CRIP-DM, 2001),

    conforme pode ser visto na Figura 2.5.

    Modelagem

    Utilizao

    Avaliao

    Preparao de Dados

    Entendimento dos Dados

    Entendimento do Negcio

    Dados

    Figura 2.5: Fases do Modelo de Processo CRISP-DM (CRISP-DM, 2001)

    Neste modelo, o ciclo de vida do projeto de minerao de dados consiste de seis

    fases. A seqncia dessas fases no rigorosa, depende do resultado de cada fase ou de

    qual tarefa particular de uma fase precisa ser executada na prxima fase. As flechas

    indicam as dependncias mais importantes e freqentes entre as fases.

    O crculo externo na figura simboliza a natureza cclica da minerao de dados.

    Um processo de minerao de dados continua aps uma soluo ter sido descoberta. Os

    processos de minerao de dados subseqentes se beneficiaro das experincias

    anteriores.

  • Fundamentao Terica 24

    A seguir, cada fase do modelo definida sucintamente.

    A fase inicial do processo, Entendimento do Negcio (Business Understanding),

    visa o entendimento dos objetivos do projeto e dos requisitos sob o ponto de vista do

    negcio. Baseado no conhecimento adquirido, o problema de minerao de dados

    definido e um plano preliminar projetado para ativar os objetivos.

    A fase Entendimento dos Dados (Data Understanding) inicia com uma coleo

    de dados e procede com atividades que visam: buscar familiaridade com os dados,

    identificar problemas de qualidade de dados, descobrir os primeiros discernimentos nos

    dados ou detectar subconjuntos interessantes para formar hipteses da informao

    escondida.

    A fase Preparao de Dados (Data Preparation) cobre todas as atividades de

    construo do dataset final. As tarefas de preparao de dados so, provavelmente,

    desempenhadas vrias vezes e no em qualquer ordem prescrita. Estas tarefas incluem

    seleo de tabelas, registros e atributos, bem como transformao e limpeza dos dados

    para as ferramentas de modelagem.

    Na fase Modelagem (Modelling), vrias tcnicas de modelagem so selecionadas

    e aplicadas e seus parmetros so ajustados para valores timos. Geralmente, existem

    vrias tcnicas para o mesmo tipo de problema de minerao de dados. Algumas

    tcnicas tm requisitos especficos na formao de dados. Portanto, retornar fase de

    preparao de dados freqentemente necessrio.

    Na fase Avaliao (Evaluation), o modelo (ou modelos) construdo na fase

    anterior avaliado e so revistos os passos executados na sua construo para se ter

    certeza de que o modelo representa os objetivos do negcio. O principal objetivo

    determinar se existe alguma questo de negcio importante que no foi suficientemente

    considerada. Nesta fase, uma deciso sobre o uso dos resultados de minerao de dados

    dever ser alcanada.

    Aps o modelo (ou modelos) ser construdo e avaliado, na fase Utilizao, ou

    Aplicao, (Deployment) ele pode ser usado de duas formas. Na primeira forma, o

    analista pode recomendar aes a serem tomadas baseando-se simplesmente na viso do

    modelo e de seus resultados. Na segunda forma, o modelo pode ser aplicado a diferentes

    conjuntos de dados.

  • Fundamentao Terica 25

    2.2.9 Ferramentas de Minerao de dados

    De acordo com Goebel e Gruenwald (1999), muitas ferramentas atualmente

    disponveis so ferramentas genricas da Inteligncia Artificial ou da comunidade de

    estatstica. Tais ferramentas geralmente operam separadamente da fonte de dados,

    requerendo uma quantidade significativa de tempo gasto com exportao e importao

    de dados, pr- e ps-processamento e transformao de dados. Entretanto, segundo os

    autores, a conexo rgida entre a ferramenta de descoberta de conhecimento e a base de

    dados analisada, utilizando o suporte do SGBD (Sistema de Gerenciamento de Banco de

    Dados) existente, claramente desejvel. Para Goebel e Gruenwald (1999), as

    caractersticas a serem consideradas na escolha de uma ferramenta de descoberta de

    conhecimento devem ser as seguintes:

    A habilidade de acesso a uma variedade de fontes de dados, de forma on-line e off-line;

    A capacidade de incluir modelos de dados orientados a objetos ou modelos no padronizados (tal como multimdia, espacial ou temporal);

    A capacidade de processamento com relao ao nmero mximo de tabelas/tuplas/atributos;

    A capacidade de processamento com relao ao tamanho do banco de dados; Variedade de tipos de atributos que a ferramenta pode manipular; e Tipo de linguagem de consulta.

    Existem ferramentas que implementam uma ou mais tcnicas de minerao de

    dados. A Tabela 2.3 relaciona algumas dessas ferramentas, fornecendo informaes tais

    como: a empresa fornecedora, as tcnicas implementadas de minerao de dados e

    exemplos de aplicaes.

    Collier et al (1999) propem uma metodologia para seleo de ferramentas de

    software de minerao de dados disponveis no mercado.

  • Fundamentao Terica 26

    Tabela 2.3: Ferramentas de Minerao de Dados

    FERRAMENTA/

    EMPRESA FORNECEDORA

    TCNICAS DE MINERAO DE

    DADOS

    APLICAES

    AIRA/ Hycones IT (1998)

    Regras de associao Gerenciamento de relacionamento de cliente, marketing, deteco de fraude, controle de processo e controle de qualidade.

    Alice 5.1/ Isoft AS. (1998)

    rvore de deciso Raciocnio baseado em casos

    Poltica de crdito, marketing, sade, controle de qualidade, recursos humanos.

    Clementine/ Integral Solutions Limited (ISL, 1996)

    Induo de regras rvores de deciso Redes neurais

    Marketing direto, identificao de oportunidades de venda cruzada, reteno de cliente, previso de lucro do cliente, deteco de fraude, segmentao e lucro do cliente.

    DataMind / DataMind Technology Center (1998), (Groth, 1998)

    (abordagem prpria) No identificadas.

    Decision Series/ Neovista Solutions Inc. (1998)

    rvore de deciso Mtodos estatsticos Induo de regras Redes neurais

    Marketing direcionado, deteco de fraude, reteno de cliente, anlise de risco, segmentao de cliente, anlise de promoo.

    Intelligent Miner/ IBM (1997)

    rvores de deciso Redes neurais

    Segmentao de cliente, anlise de conjunto de itens, deteco de fraude.

    KnowledgeSEEKER/ Angoss IL (Groth, 1998)

    rvores de deciso Induo de regras

    Lucro e segmentao de cliente para deteco de fraude e anlise de risco, controle de processo, marketing direto.

    MineSet/ Silicon Graphics Computer Systems (2000)

    Mtodos estatsticos rvores de deciso Induo de regras

    reas da sade, farmacutica, biotecnologia e qumica.

    NeuralWorks Predict/ NeuralWare (Groth, 1998)

    Rede neural Indstria.

    PolyAnalyst/ Megaputer Intelligence Ltd. (1998)

    Algoritmo gentico Mtodos estatsticos Induo de regras

    Marketing direto, pesquisa mdica, anlise de conjunto de itens.

    2.3 MTODOS FORMAIS

    "Mtodos Formais so o uso de tcnicas matemticas no projeto e anlise de

    hardware e software de computador; em particular, mtodos formais permitem que

    propriedades de um sistema de computao sejam prognosticadas de um modelo

    matemtico do sistema por um processo semelhante a clculo (Rushby, 1993, p. 7).

    Mtodos formais so um conjunto de ferramentas e notaes (com uma

    semntica formal) usado para especificar de forma no ambgua os requisitos de um

  • Fundamentao Terica 27

    sistema que suporta a prova ou propriedades daquela especificao e provas de

    corretude de uma implementao para aquela especificao (Wiryana, 1998, p. 16).

    Segundo Sinnot e Turner (1994), um mtodo formal baseado em uma

    linguagem formal, isto , uma notao simblica que usa regras no ambguas para

    desenvolver expresses legais naquela linguagem e para interpretar a semntica dessas

    expresses.

    De acordo com Rushby (1993), as linguagens formais em cincia da

    computao, enriquecidas com algumas das idias de linguagens de programao, so

    chamadas linguagens de especificao, mas sua interpretao geralmente baseada

    em uma lgica padro.

    Mtodos Formais geralmente utilizam conceitos matemticos e notaes para

    definir precisamente teorias e modelos de comportamento da aplicao (Bates, 1996).

    Portanto, mtodos formais modelam o comportamento discreto de sistemas

    computacionais usando matemtica discreta.

    De uma forma geral, no processo de desenvolvimento de sistemas, os requisitos

    e as especificaes so documentados, geralmente, em linguagem natural;

    possivelmente com o auxlio de diagramas, equaes, fluxogramas, dicionrios de dados

    e pseudocdigo. Segundo Rushby (1993), o processo de desenvolvimento de sistemas

    considerados de segurana crtica e outros tipos de sistemas incluem componentes

    conhecidos como verificao e validao (V & V).

    A verificao o processo de determinar que cada nvel de especificao e o

    prprio cdigo final, completa e exclusivamente, implementam os requisitos da

    especificao como um todo. A verificao mostra que o sistema foi construdo de

    acordo com os requisitos.

    A validao, o outro componente de V & V, o processo de confirmar que a

    especificao uma representao verdadeira do mundo real. A validao mostra que os

    requisitos esto corretos.

    Existem vantagens, dificuldades e custos associados com o uso de mtodos

    formais. Segundo Rushby (1993), as vantagens variam com: a natureza e o fator crtico

    da aplicao; os estgios do ciclo de vida no qual mtodos formais so usados; o grau de

    formalidade empregada; a qualidade do mtodo e de quaisquer ferramentas mecanizadas

    que o suportam; e a experincia e competncia dos profissionais.

  • Fundamentao Terica 28

    Experincias mostram que a adio de mtodos formais ao processo de

    desenvolvimento pode levar a um aumento significativo nos custos, mas que

    quando mtodos formais so integrados completamente ao processo de

    desenvolvimento e os custos so medidos sobre todas as fases do ciclo de vida,

    os custos podem diminuir (Liu et al, 1998, p. 24).

    As vantagens exigidas a todos os mtodos formais so a deteco de falhas o

    mais cedo possvel. Isto ocorre porque as previses podem ser realizadas o mais cedo

    possvel no ciclo de vida e pelo fato dos mtodos formais suportarem anlises mais

    sistemticas do que mtodos informais.

    A vantagem exigida para especificaes formais a reduo da ambigidade e

    da impreciso de especificaes em linguagem natural.

    Segundo Wiryana (1998), o uso de mtodos formais contribui para:

    A possibilidade de raciocnio sobre aspectos de usabilidade do sistema; A capacidade de execuo da especificao do sistema; O refinamento e a estruturao do processo; A capacidade de modificao; A completeza da especificao.

    2.3.1 Caractersticas de Mtodos Formais

    De acordo com Clarke e Wing (1997), alguns mtodos formais, tais como Z,

    VDM e Larch, tratam da especificao do comportamento de sistemas seqenciais.

    Nesses mtodos, os estados so descritos em termos de estruturas matemticas ricas

    como conjuntos, relaes e funes; transies de estado so dadas em termos de pr- e

    ps-condies.

    Clarke e Wing (1997) afirmam, tambm, que outros mtodos, tais como CSP,

    CCS, Statecharts, Lgica Temporal e Autmato de E/S, tratam da especificao do

    comportamento de sistemas concorrentes; os estados variam tipicamente sobre domnios

    simples como inteiros e o comportamento definido em termos de seqncias, rvores

    ou ordens parciais de eventos.

    O uso dos conceitos matemticos de abstrao e composio comum a todos

    esses mtodos.

  • Fundamentao Terica 29

    2.3.2 Classificao de Mtodos Formais

    Liu et al (1997) classificam mtodos formais em cinco classes ou tipos:

    a) Abordagem Baseada em Modelo;

    b) Abordagem Baseada em Lgica;

    c) Abordagem Algbrica;

    d) Abordagem da lgebra de Processos;

    e) Abordagem Baseada em Rede.

    a) Abordagem Baseada em Modelo

    Nesta abordagem, um sistema modelado expl