tcc_ii_ versão_final.pdf

Upload: fabiano-caputo

Post on 10-Oct-2015

15 views

Category:

Documents


0 download

TRANSCRIPT

  • CENTRO UNIVERSITRIO FEEVALE

    MERSON BUTZEN

    PROPOSTA DE UM MDULO DE DATA MINING PARA

    SISTEMA DE SCOUT NO VOLEIBOL

    Novo Hamburgo, novembro de 2008.

  • MERSON BUTZEN MARQUES

    PROPOSTA DE UM MDULO DE DATA MINING PARA

    SISTEMA DE SCOUT NO VOLEIBOL

    Centro Universitrio Feevale

    Instituto de Cincias Exatas e Tecnolgicas

    Curso de Sistemas de Informao

    Trabalho de Concluso de Curso

    Professor Orientador: Alexandre de Oliveira Zamberlam

    Novo Hamburgo, novembro de 2008.

  • AGRADECIMENTOS

    Gostaria de agradecer a todos os que, de alguma

    maneira, contriburam para a realizao desse

    trabalho de concluso, em especial:

    Meu pai, Jos Jorge Marques da Silveira, que

    foi quem me ensinou a nunca desistir, minha

    me, Teresinha Dolores Butzen Marques, pela

    dedicao aos filhos, meu orientador,

    Alexandre de Oliveira Zamberlam, que me

    auxiliou de maneira nica para a realizao

    deste projeto, a minha namorada, Mnica

    Reichert, pelo incentivo a crescer sempre e

    pacincia em alguns momentos, ao meu amigo

    Rafael Arnold pela oportunidade que me

    indicou, aos amigos tricolores (Hoff, Minuzzo e

    Thiago), aos demais amigos e pessoas que

    convivem comigo, minha sincera gratido, pelo

    apoio em todos os perodos do trabalho.

    Obrigado pela confiana.

  • RESUMO

    Sistemas de Apoio a Deciso, normalmente utilizados em empresas no processo de

    tomada de deciso, tambm so utilizados em equipes de voleibol e/ou em outros esportes,

    com a finalidade de gerar melhores resultados. Nesse universo de equipes esportivas, foram

    elaborados sistemas estatsticos de monitoramento de desempenho de atletas e de equipes,

    tambm conhecidos como sistemas de scout, permitindo s comisses tcnicas decidirem

    sobre treinamentos, estratgias de jogo e tticas sobre jogadas. Contudo, a quantia de

    informaes (precisas e/ou desnecessrias) mesmo assim enorme, deixando o processo de

    decidir bastante emprico, ou seja, dependente da experincia do tcnico ou de algum

    integrante da comisso tcnica. A minerao de dados (data mining) entra nesse campo com o

    intuito de descobrir informaes mais precisas, evitando assim informaes desnecessrias.

    Dessa forma, o objetivo deste trabalho realizar a anlise e o projeto de um mdulo de data

    mining para o sistema de scout do projeto de pesquisa A IA entrando na quadra de vlei: Scout Inteligente.

    Palavras-chave: Sistemas de Apoio a Deciso. Minerao de Dados. Sistema de

    Monitoramento de Desempenho. Scout Voleibol.

  • ABSTRACT

    Decision Support Systems, normally used in companies in the making decisions

    process, also are used in volleyball teams and/or in other sports, with the aim to get better

    results. In this universe of sport teams, statistics systems of performance tracking of athletes

    and of teams were prepared, also known like scout (Scout Systems), allowing to the technical

    committees decide about training, game strategies and tactical moves. However, the amount

    of information (precise and/or unnecessary) is, anyway, enormous, letting the decision

    process a lot empirical, in other words, dependent on the couch experience or on any other

    person of the technical committee. The data mining gets into this field with the purpose of

    discovering precise information, avoiding unnecessary information. This way, the goal of this

    study is to perform the analysis and the project of a data mining module to the scout system of

    the research project The IA getting into the volleyball court: Intelligent Scout.

    Key words: Decision Support Systems. Data Mining. Statistics Systems of Performance

    Tracking of Athletes. Scout Volleyball.

  • LISTA DE FIGURAS

    Figura 1.1 Etapas que precedem a aplicao de tcnicas de Minerao de Dados ............... 17

    Figura 1.2 rvore de Deciso de classificao de grau ......................................................... 24

    Figura 1.3 Exemplos de diferentes esquemas ........................................................................ 25

    Figura 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo) ............................................. 28

    Figura 2.1 Figura da tabela de anlise estatstica dos fundamentos de voleibol. .................. 34

    Figura 3.1 Esquema geral do scout inteligente ...................................................................... 40

    Figura 3.2 Modelagem do banco de dados do sistema scout................................................. 41

    Figura 3.3 Modelagem do banco de dados alterada .............................................................. 42

    Figura 3.4 Diagrama de Atividade do sistema scout de Raimann (2008) ............................. 43

    Figura 3.5 Mapa Conceitual do Fundamento Saque.............................................................. 44

    Figura 3.6 Mapa Conceitual dos Fundamentos Defesa/Passe ............................................... 45

    Figura 3.7 Mapa Conceitual dos Fundamentos Levantamento ............................................. 45

    Figura 3.8 Mapa Conceitual dos Fundamentos Cortada........................................................ 46

    Figura 3.9 Mapa Conceitual dos Fundamentos Bloqueio...................................................... 46

    Figura 3.10 Diagrama de Caso de Uso geral ......................................................................... 50

    Figura 3.11 Diagrama de Caso de Uso geral do mdulo de Minerao de Dados ................ 51

    Figura 3.12 Diagrama de Atividade referente a gerar dados para anlise ............................. 53

    Figura 3.13 Diagrama de Atividade referente a selecionar dados gerados para anlise ....... 55

    Figura 3.14 Diagrama de Atividade referente a aplicar tcnicas de minerao de dados ..... 57

    Figura 3.15 Diagrama de Classes referente a integrao do mdulo MD e o WEKA .......... 59

    Figura 3.16 Diagrama de Seqncia referente ao caso de uso UC001 (Gerar Dados para

    Anlise) ..................................................................................................................................... 60

    Figura 3.17 Diagrama de Seqncia referente ao caso de uso UC002 (Selecionar Dados

    Gerados para Anlise) .............................................................................................................. 60

  • Figura 3.18 Diagrama de Seqncia referente ao caso de uso UC002 (Selecionar Dados

    Gerados para Anlise) .............................................................................................................. 61

    Figura 4.1 Prottipo da tela inicial do mdulo de minerao de dados................................. 65

    Figura 4.2 Prottipo da tela de gerao de dados para o mdulo de MD .............................. 65

    Figura 4.3 Prottipo da tela de selecionar dados gerados para anlise.................................. 66

    Figura 4.4 Prottipo da tela de aplicar tcnicas de minerao de dados ............................... 66

    Figura 4.5 Modelagem do Data Mart .................................................................................... 67

    Figura 4.6 Figura apresenta o cdigo fonte da classe de integrao ClusteringEM .............. 69

    Figura 4.7 Figura apresenta o cdigo fonte da classe de integrao ClusteringFarthestFirst 70

    Figura 4.8 Figura apresenta o arquivo ARFF submetido ao algoritmo EM do WEKA ........ 71

    Figura 4.9 Figura apresenta o resultado da aplicao do algoritmo EM do WEKA ............. 72

    Figura 4.10 Figura do arquivo ARFF submetido ao algoritmo FarthestFirst do WEKA ...... 73

    Figura 4.11 Figura mostra o resultado da aplicao do algoritmo FarthestFirst do WEKA . 73

    Figura Apndice 1 Funo SQL do PostgreSQL para gerao de dados no DataMart ........ 81

    Figura Apndice 2 Funo SQL do PostgreSQL que gera o arquivo para o relatrio de

    agrupamento de atletas por efeito de fundamento .................................................................... 82

    Figura Apndice 3 Funo SQL do PostgreSQL que gera o arquivo para o relatrio de

    agrupamento de atletas por posio e efeito de fundamento .................................................... 82

  • LISTA DE TABELAS

    Tabela 1.1 Jogos de jogadores e aproveitamento do fundamento bloqueio .......................... 21

    Tabela 1.2 Classificao de dados do grau ............................................................................ 23

    Tabela 1.3 Simples exemplo de agrupamento de informao ............................................... 24

    Tabela 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo)............................................. 27

  • LISTA DE QUADROS

    Quadro 3.1 Caso de Uso Gerar Dados para Anlise.............................................................. 51

    Quadro 3.2 Caso de Uso Selecionar Dados Gerados para Anlise ....................................... 53

    Quadro 3.3 Caso de Uso Aplicar Tcnicas de Minerao de Dados ..................................... 55

  • LISTA DE ABREVIATURAS E SIGLAS

    MD Minerao de Dados

    DM Data Mining

    DCBD Descoberta de Conhecimento em Base de Dados

    KDD Knowledge Discovery in Databases

    OLAP On-Line Analytic Processing

    SGBD Sistema de Gerenciamento de Banco de Dados

  • SUMRIO

    INTRODUO ...................................................................................................................... 13

    1 MINERAO DE DADOS ................................................................................................ 16 1.1 O processo de minerao de dados ................................................................................ 17

    1.1.1 Definio do problema ........................................................................................ 18

    1.1.2 Coleta dos dados .................................................................................................. 18

    1.1.3 Pr-processamento dos dados .............................................................................. 19 1.1.4 Especificao do possvel mtodo ....................................................................... 20 1.1.5 Interpretao e anlise dos dados produzidos pelo mtodo ................................. 20

    1.2 Principais mtodos de minerao de dados ................................................................... 21 1.2.1 Regras de Associao (Association Rules) .......................................................... 21

    1.2.2 Classificao (Classification) .............................................................................. 22 1.2.3 Agrupamento (Clustering) ................................................................................... 24 1.2.4 Dados em sries temporais (Time-Series Data) ................................................... 26

    1.2.5 Padres seqenciais (Sequential Patterns) .......................................................... 29

    1.3 Ferramentas de Minerao de Dados ............................................................................ 30

    1.3.1 WEKA ................................................................................................................. 30 1.3.2 RapidMiner .......................................................................................................... 31

    2 SCOUT .................................................................................................................................. 33 2.1 Trabalho Correlato - Advanced Scout: Data Mining and Knowledge Discovery in NBA

    Data 36 2.2 Utilizao de tcnicas de KDD em um call center ativo ............................................... 37

    3 A PROPOSTA DE MDULO DE MINERAO .......................................................... 39 3.1 Especificao dos requisitos .......................................................................................... 47

    3.1.1 Requisitos funcionais ........................................................................................... 47 3.1.2 Requisitos no funcionais .................................................................................... 48

    3.2 Casos de Uso ................................................................................................................. 49

    3.2.1 Diagrama de Casos de Uso .................................................................................. 50

    3.2.2 Casos de Uso Estendidos ..................................................................................... 51

    3.3 Diagrama de Classes ...................................................................................................... 58 3.4 Diagrama de Seqncia ................................................................................................. 60

    4 PROTTIPO DO MDULO DE MINERAO DE DADOS ...................................... 62 4.1 Linguagem de Programao .......................................................................................... 62 4.2 Sistema de Gerenciamento de Banco de Dados ............................................................ 63 4.3 Ferramenta para Administrao do PostgreSQL ........................................................... 64 4.4 Modelagem do Mdulo de Minerao de Dados .......................................................... 64

  • 4.5 Prottipo do Mdulo de Minerao de Dados ............................................................... 64 4.6 Preparao dos Dados Minerao de Dados ................................................................. 67

    4.7 Classes de integrao Mdulo com o WEKA ............................................................... 68 4.8 Resultados ...................................................................................................................... 70

    CONCLUSO ......................................................................................................................... 75

    REFERNCIAS BIBLIOGRFICAS ................................................................................. 77

    APNDICES ........................................................................................................................... 80

  • INTRODUO

    Na atualidade, os sistemas de informao so requisitos bsicos para a tomada de

    deciso automatizada, pois o processo decisrio apia-se na malha de sistemas de informao

    de uma organizao (BINDER, 1994). A importncia da informao nas organizaes

    aumenta de acordo com o crescimento da complexidade da sociedade e das organizaes, ou

    seja, em todos os nveis organizacionais a informao um recurso fundamental (FREITAS et

    al, 1997).

    H muito tempo, existe a preocupao de como a informao processada, pois

    segundo Martin (1984), h muitas situaes em que os gestores no recebem a informao de

    que necessitam dos seus diversos sistemas. Binder (1994) alega que em um ambiente

    propcio, a informtica torna-se til no processo de tomada de deciso, possibilitando

    obteno de dados com melhor qualidade. Freitas (1997) afirma que a forma com que a

    informao trabalhada deve ser observada, pois no pode haver risco que um usurio,

    envolvido em processo decisrio, receba rudos em sua informao. A partir dessas

    afirmaes, deve-se saber distinguir o que so dados e o que so informaes.

    De acordo com (DAVIS; OLSON, apud FREITAS, 1997) os dados so a matria

    prima da informao, so grupos de smbolos no aleatrios que representam quantidades,

    aes, objetos, etc. Ainda, segundo o mesmo autor, a informao um dado que foi

    processado de uma forma significativa para o usurio e seu valor real ou percebido no

    momento, ou em aes prospectivas nas decises.

    Binder (1994) aponta que a atividade mxima de um lder a tomada de deciso.

    Esse o momento onde se demonstra toda sua capacidade de direcionar sua equipe e sua

    razo de ser dentro de uma organizao. A tomada de deciso consiste, basicamente, na

  • 14

    escolha de uma opo entre diversas alternativas existentes, seguindo determinados passos

    previamente estabelecidos e culminando na resoluo ou no de problema.

    Na gesto de um time de voleibol, a todo o momento, a partir de uma quantidade

    diversificada de informaes, decises importantes devem ser tomadas. Decidir onde um

    jogador deve sacar, qual sua posio na quadra oferece maior rendimento, qual jogador

    substituir e por quem, que tipo de treinamento deve ser realizado para apurar um atleta e/ou a

    equipe toda (treino de fundamentos de voleibol, posicionamento, jogadas, saque, etc), enfim,

    qual a melhor estratgia ou quais tticas utilizar so situaes as quais uma comisso tcnica

    de voleibol deve estar atenta (ZAMBERLAM et al., 2005).

    Por isso, existem sistemas estatsticos que auxiliam nessa tarefa, conhecidos como

    scout. So sistemas que capturam e processam informaes estatsticas de desempenho dos

    atletas da equipe e da equipe adversria. Porm, eles no levam em considerao o histrico

    do jogador de toda uma temporada (comportamento do atleta em outros jogos) e o contexto de

    uma partida de vlei, ou seja, o comportamento do atleta nos diferentes nveis da partida. Um

    set (parte de uma partida) de vlei possui basicamente trs nveis. O terceiro nvel, prximo

    do final, o de maior tenso em que o fsico e o emocional do atleta devem estar ajustados.

    Dessa forma, os sistemas atuais, simplesmente, repassam dados para a comisso, que avalia

    essa gama diversificada referente aos fundamentos bsicos do vlei e/ou jogadas realizadas

    pela equipe adversria, num tempo extremamente reduzido e toma decises relacionadas com

    aqueles dados relatados. Decises muitas vezes baseadas mais no conhecimento emprico do

    tcnico ou da comisso do que no fator racional real daquela situao (ZAMBERLAM et al.,

    2005).

    A minerao de dados, ou data mining, entra nesse contexto para oferecer um

    ambiente propcio e dados confiveis, pois atravs dela, existe o processo de seleo, de

    explorao e de modelagem de dados em grande escala (GIUDICI, 2003).

    O projeto de pesquisa A IA entrando na quadra de vlei: Scout Inteligente

    (ZAMBERLAM et al., 2005) busca mostrar que equipes de voleibol no so diferentes no que

    diz respeito ao processo de tomada de deciso, em que a comisso tcnica est

    constantemente monitorando os jogadores e seu desempenho, a fim de decidir a melhor ttica

    ou estratgia de jogo ou de treinamento. Sua proposta tem como foco descrever como tcnicas

    de Inteligncia Artificial, que combinam agentes inteligentes e minerao de dados, podem

  • 15

    ser utilizadas para auxiliar a comisso tcnica. Esse projeto tem como objetivo final projetar e

    construir um sistema de observao inteligente para a gesto de equipes de voleibol, a fim de

    manipular e produzir conhecimentos especficos de forma quantitativa e qualitativa para o

    processo de deciso, reduzindo assim o fator emprico e o tempo das decises.

    Surge ento este trabalho, como parte do projeto de pesquisa acima citado. Portanto,

    atravs da base de dados do sistema de scout, projetado por Raimann (2008), tambm parte

    desse projeto, foi realizada a aplicao de tcnicas de data mining. Os resultados foram

    analisados e a tcnica de data mining escolhida foi a de agrupamento. Espera-se, assim,

    auxiliar professores e profissionais de Educao Fsica no ensino de gesto de equipes, bem

    como a gesto de jogadores e tipos de treinamentos.

    O trabalho foi dividido em quatro captulos, sendo que o primeiro trata sobre

    Minerao de Dados, mostrando as principais tcnicas e aplicaes. O segundo aborda o

    scout, ou seja, o sistema de avaliao de desempenho de atletas, apresentando o que esse

    sistema, quais suas finalidades e como utilizado geralmente, tambm foram encontrados

    alguns trabalhos correlatos nesse captulo. No terceiro captulo, apresenta-se a proposta de

    mdulo de data mining em um sistema de scout. O quarto captulo apresenta o prottipo do

    mdulo, e a aplicao da tcnica de agrupamento atravs de dois de seus algoritmos.

    Finalmente, as consideraes finais e as referncias bibliogrficas.

  • 1 MINERAO DE DADOS

    A grande quantidade de dados armazenados em bancos de dados na atualidade um

    problema de muitas empresas. Esse problema gera muitas dificuldades para organizaes em

    geral, desde a aquisio de servidores que suportem a maior demanda de processamento,

    passando por unidades de armazenamento enormes dificuldade em obter informaes

    precisas. Dados de um relatrio de 2003 apontam uma populao de 6,3 bilhes de pessoas, e

    que cada pessoa produz 800 megabytes por ano (CHARLES et al., 2003). Dentro desse

    panorama existem tecnologias que podem fazer de um grande banco de dados uma fonte de

    informaes at ento desconhecidas, obtendo assim uma vantagem competitiva. Uma dessas

    tecnologias a Minerao de Dados (MD), tambm conhecida como Data Mining (DM).

    De acordo com o dicionrio de Ferreira (1988), minerao significa explorao de

    minas, a explorao de minas remete ao ato de descobrir preciosidades da Terra, assim a

    minerao de dados busca essas preciosidades na forma de informao. Para Giudici (2003), a

    associao de dados com essa palavra sugere uma pesquisa em profundidade para encontrar

    informaes adicionais que, anteriormente passaram despercebidas na massa de dados

    disponveis. O mesmo autor aponta que o termo minerao de dados foi formalizado por

    Usama Fayyad, em 1995, na Primeira Conferncia Internacional de Descoberta de

    Conhecimento e Minerao de Dados em Montreal. Esse evento considerado uma das

    principais conferncias sobre o tema.

    Segundo Feldens et al. apud Wives (2004) a minerao de dados uma etapa do

    processo de Descoberta do Conhecimento em Banco de Dados (DCBD) mais conhecido por

    Knowledge Discovery in Databases (KDD). Em (GOEBEL; GRUENWALD, apud WIVES,

    2004) tambm observado que muitas vezes o termo minerao de dados utilizado como

    sinnimo para todo o processo de descoberta de conhecimento, entretanto ela a etapa mais

    importante, respondendo por 15 a 25 por cento do processo de descoberta. Cabena et al. apud

  • 17

    Gonchoroski (2007) aponta que a minerao de dados o processo de extrair informaes

    vlidas antes desconhecidas, de grandes bases de dados, auxiliando em decises cruciais no

    mundo dos negcios.

    Para isso, data mining utiliza-se de tcnicas ou algoritmos de reas como

    Aprendizado de Mquinas, Estatstica, Redes Neurais, Algoritmos Genricos, etc (ELMASRI;

    NAVATHE, 2005). O mesmo autor aponta que a minerao de dados apia o conhecimento

    indutivo, descobrindo novas regras e padres nos dados minerados. Para Kantardzic (2003),

    os dois primeiros objetivos da minerao de dados so: a predio e a descrio. A predio

    utiliza algumas variveis ou campos de um conjunto de dados para prever valores

    desconhecidos ou futuros de outras variveis de interesse. A descrio concentra-se em

    encontrar padres nos dados que possam ser interpretados por humanos.

    Como a minerao de dados uma parte do processo de Descoberta do

    Conhecimento em Banco de Dados, as etapas (Figura 1.1) devem ser realizadas antes de

    aplicar-se alguma tcnica de data mining. Conforme Bramer (2007), os dados possivelmente

    vm a partir de muitas fontes, esses dados devem ser integrados e/ou coletados e armazenados

    em lugar comum. O prximo passo a preparao dos dados, ento aplicada alguma tcnica

    de minerao de dados, que produz uma sada na forma de regras ou em algum tipo de padro.

    Figura 1.1 Etapas que precedem a aplicao de tcnicas de Minerao de Dados

    Fonte: Adaptado de BRAMER, 2007

    Essas regras ou padres so tambm conhecidos como modos de descoberta, os mais

    conhecidos so a descoberta de regras de associao, classificao, agrupamento, padres

    seqenciais e padres em sries temporais.

    1.1 O processo de minerao de dados

    Para Kantardzic (2003) o processo de minerao de dados composto por cinco

    fases. So elas: definio do problema; seleo e coleta dos dados; pr-processamento dos

  • 18

    dados; especificao de possvel mtodo; interpretao e anlise dos dados produzidos pelo

    mtodo.

    1.1.1 Definio do problema

    Segundo Giudici (2003), nem sempre fcil de definir o fenmeno que se quer

    analisar. Os objetivos e o problema da empresa ou equipe que so passados so claros, mas os

    problemas subjacentes podem ser difceis de traduzir em objetivos a serem analisados.

    Kantardzic (2003) aponta que a grande maioria das bases de dados existentes especfica para

    os seus sistemas, o que requer experincia e domnio de um perito. Uma declarao clara do

    problema e os objetivos a atingir so os pr-requisitos para a criao da anlise correta. Pode-

    se utilizar, como exemplo no voleibol, os excessivos erros do fundamento saque, quando

    realizada a anlise dos dados, pode-se concluir que o destino/alvo do saque tem sido sempre o

    mesmo, assim a comisso tcnica interage com os jogadores para que mudem o destino/alvo

    de seu saque. Nesse caso, fica explcito a definio do problema - porque erramos os

    saques. Sendo assim, os estatsticos e os mineradores de dados (data miners) sabem onde

    devem atuar - nos dados do fundamento saque, e extrair o mximo de informaes possveis

    para a comisso tcnica.

    1.1.2 Coleta dos dados

    A principal preocupao dessa etapa a forma como os dados so gerados e/ou

    coletados. Em geral, d-se de duas maneiras distintas: a primeira quando o processo est

    sobre o domnio de um perito, em que o mesmo realiza a coleta; a segunda possibilidade

    quando o perito no pode influenciar o processo de gerao de dados. Essa conhecida como

    a abordagem observacional, e dados podem ser perdidos (KANTARDZIC, 2003). Um

    exemplo pode ser visto no prprio voleibol, quando vrios scouters1 utilizam bases

    independentes em seus laptos. Essas bases devem ser integradas para gerar a informao

    correta. Nesses casos, a minerao normalmente aplicada aps os jogos.

    1 Responsvel em realizar o scout.

  • 19

    1.1.3 Pr-processamento dos dados

    Giudici (2003) divide essa tarefa em duas etapas. A primeira composta por seleo,

    organizao e tratamento inicial dos dados. Nessa etapa so identificadas as fontes de dados,

    em que o ideal que seja um armazm de dados (data warehouse) histrico que no esteja

    sujeito a mudanas, facilitando a coleta de dados. Nela, tambm necessria uma limpeza

    preliminar nos dados. A segunda etapa contm a anlise de dados e posterior transformao.

    Aqui, desenvolvida uma anlise exploratria dos dados semelhante a tcnicas de OLAP,

    uma anlise inicial da importncia dos dados pode levar a uma transformao das variveis

    originais para melhor compreender o fenmeno, ou que pode levar a mtodos estatsticos em

    que satisfaam objetivos especficos iniciais. Giudici (2003) afirma que fundamental essa

    fase, pois permite ao analista prever mtodos estatsticos que possam ser mais adequados na

    prxima fase. Utilizando-se do exemplo anterior (voleibol e bases independentes em

    notebooks), uma base de dados tem vrias entidades: Clube; Cidade; Equipe; Jogador;

    JogadorPartida; Sets; JogoSetRotacao; Movimento; Evento; Saque; etc, Nesse caso eliminar

    entidades como Cidade e Clube e dados sobre ex-atletas da entidade Jogador seria

    interessante. Os demais dados podem ser armazenados em um data warehouse, eliminando-se

    possveis rudos na informao que ser gerada pela minerao de dados.

    1.1.3.1 Armazm de Dados (Data Warehouse)

    O armazm de dados uma coleo de dados orientada por assunto, integrada, no

    voltil, variante no tempo, que d apoio s decises. Proporciona acesso aos dados para uma

    anlise complexa, descoberta de conhecimento e tomada de deciso (ELMASRI; NAVATHE,

    2005).

    Alm do Data Warehouse existe o Data Mart (mercado de dados), que normalmente

    uma parte extrada do Data Wharehouse. O Data Mart uma base de dados temtica

    originalmente orientada para o campo do marketing (GIUDICI, 2003). O escopo confinado

    aos assuntos especficos selecionados (HAN; KAMBER, 2006).

    Um Data Mart pode ser criado (em algumas situaes com certa dificuldade) mesmo

    quando no h nenhum sistema de armazm de dados (Data Warehouse) integrado. A criao

    de estruturas de dados temticos como Data Marts representa o primeiro e movimento

    fundamental para um ambiente informativo para a atividade da minerao de dados

    (GIUDICI, 2003).

  • 20

    1.1.3.2 Processamento Analtico On-Line (OLAP)

    De acordo com Barbieri apud Wagner (2008), o termo OLAP (On-line Analytical

    Processing), traduzido para Processamento Analtico On-line, representa essa caracterstica de

    se trabalhar os dados, com operadores dimensionais, possibilitando uma forma mltipla e

    combinada de anlise. Elmasri e Navathe (2005) apontam que OLAP a anlise de dados

    complexos a partir de um armazm de dados.

    Han e Kamber (2006) sugerem a utilizao dessas trs tecnologias conjuntas,

    afirmando que o armazm de dados pode ser empregado para a descoberta do conhecimento e

    a tomada de deciso usando ferramentas da minerao de dados. Sendo necessrio assim trs

    tipos de aplicaes do armazm de dados: processamento de informao, processamento

    analtico (OLAP) e minerao de dados.

    1.1.4 Especificao do possvel mtodo

    A escolha do mtodo depende do problema a ser estudado ou o tipo de dados

    disponveis. Os mtodos utilizados podem ser classificados de acordo com o objetivo da

    anlise (GIUDICI, 2003). Esse processo no simples, a aplicao baseada em vrios

    mtodos. Os principais mtodos ou tcnicas (descritos no captulo 1.2) e a seleo dos

    melhores uma tarefa adicional (KANTARDZIC, 2003). Um possvel mtodo a ser utilizado

    num mdulo de Data Mining para scout de Vlei o mtodo de agrupamento (Clustering),

    aplicado no fundamento saque, em que os dados ficariam agrupados por faixas de

    aproveitamento.

    1.1.5 Interpretao e anlise dos dados produzidos pelo mtodo

    O objetivo dos dados obtidos pelo mtodo ajudar a tomada de deciso. Empresas

    ou equipes esportivas possuem peritos que podem analisar se os dados obtidos so ou no

    interessantes para o tomador de deciso. Dessa maneira, pode-se descartar um determinado

    mtodo que no gerou dados de relativo interesse. Vale observar que os mtodos de

    interpretao mais fceis so os mtodos com menor preciso.

    Finalizada a descrio das fases do processo de minerao de dados, indicadas por

    Kantardzic (2003), segue uma contextualizao dos principais mtodos de minerao.

  • 21

    1.2 Principais mtodos de minerao de dados

    Os mtodos ou tcnicas so, na verdade, algoritmos computacionais. Cada um desses

    algoritmos tem caractersticas particulares, normalmente entradas e sadas especficas

    (GONCHOROSKI, 2007). A seguir so apresentados os algoritmos mais utilizados.

    1.2.1 Regras de Associao (Association Rules)

    O objetivo encontrar qualquer relao existente entre os valores das variveis

    (BRAMER, 2007). Para Kantardzic (2003), a tcnica de regras de associao uma das

    principais tcnicas de minerao de dados. Atravs dela possvel recuperar todos os padres

    interessantes em uma base de dados. A base de dados uma coleo de transaes, no

    voleibol possvel elencar caractersticas semelhantes que podem ser identificadas atravs de

    regras de associao. A Tabela 1.1 mostra os jogadores em quadra e o aproveitamento da

    equipe no fundamento bloqueio.

    Tabela 1.1 Jogos de jogadores e aproveitamento do fundamento bloqueio

    IdJogo (Partida) iNumeroCamisetaJogador (em quadra) Bloqueio (Resultado)

    1 2, 5, 6, 8, 10, 11 Excelente

    1 1, 4, 5, 6, 8, 10 Regular

    2 2, 3, 5, 8, 10, 11 Bom

    2 1, 3, 4, 8, 9, 11 Pssimo Fonte: AUTOR, 2008

    Uma regra de associao da forma X => Y, onde X = {x1, x2,..., xn} e Y = {y1,

    y2,..., ym} so conjuntos de itens com xi e yi sendo distintos para todo i e todo o j. Essa

    associao estabelece que quando o jogador X estiver escalado, ele estar propenso a jogar

    com o Jogador Y. Caso este tambm estiver escalado na mesma equipe ou da equipe

    adversria, um determinado bloqueador escalado para bloquear especfico atacante.

    Normalmente essas regras de associao tm a forma LME (lado da mo esquerda) e LMD

    (lado da mo direita), cada uma formando um conjunto de itens. Quando LME une-se a LMD

    (LME LMD) tem-se o conjunto-item, que , no exemplo do voleibol, o conjunto de todos

    os jogadores escalados. Para descobrir interesses nessa regra, ela precisa satisfazer algumas

    medidas, as mais comuns fornecem suporte e confiana (ELMASRI; NAVATHE, 2005).

    O suporte para a regra LME => LMD refere-se freqncia que ela ocorre no banco

    de dados, ou seja, o percentual de transaes que contm todos os itens na prpria relao

    LME LMD. Se o suporte baixo, implica que no existe evidncia significativa que os

  • 22

    itens LME LMD ocorram juntos. A confiana dessa regra calculada como o suporte

    (LME LMD) / suporte (LMD). Pode-se assim analisar a possibilidade dos jogadores do

    LMD sejam escalados juntos, dado que os jogadores do LME tambm sejam escalados pelo

    tcnico (ELMASRI; NAVATHE, 2005).

    Para exemplificar o suporte e a confiana, considere essas regras: Jogador 10 =>

    Jogador 11 e Jogador 8 => Jogador 11. Observa-se na Tabela 1.1 que existem quatro

    transaes de duas partidas de vlei: o suporte para {Jogador 10, Jogador 11} de 50%, e o

    suporte de {Jogador 8, Jogador 11} 75%. J a confiana de Jogador 10 => Jogador 11 de

    66,7%, ou seja, das trs vezes em que o jogador 10 escalado, duas tem a companhia do

    jogador 11, e a confiana do Jogador 8 => Jogador 11 tambm de 66,7%.

    Pode-se notar que o suporte e a confiana nem sempre so proporcionais. A meta

    para as regras de associao gerar todas as possveis regras que excedam a especificao do

    usurio garantindo suporte e confiana acima do limite definido (ELMASRI; NAVATHE,

    2005). O principal algoritmo de regras de associao o algoritmo Apriori.

    1.2.2 Classificao (Classification)

    De acordo com Bramer (2007), a classificao uma das aplicaes mais comuns de

    minerao de dados. Ela corresponde a uma tarefa que ocorre com freqncia na vida diria

    do ser humano. Por exemplo, um hospital pode querer classificar pacientes mdicos naqueles

    que esto em elevado, em mdio ou em baixo risco de adquirir uma determinada doena. J

    uma pesquisa de opinio de votao pode desejar classificar as pessoas entrevistadas naquelas

    que tendem a votar em um partido poltico ou so indecisos. Pode-se desejar classificar um

    trabalho de um estudante com a distino, merec-lo, pass-lo ou reprov-lo. Apesar de

    diferentes todos so exemplos de classificao.

    Para Elmasri e Navathe (2005), a classificao o processo de encontrar um modelo

    que descreva classes diferentes de dados. Essas classes so predeterminadas e essa atividade

    tambm chamada de aprendizado supervisionado. Dado que esse modelo construdo, ele

    pode ento ser usado para classificar novos dados. A primeira etapa do modelo de

    aprendizado realizada usando um treinamento com um conjunto de dados que j foi

    classificado, cada registro de dados desse treinamento possui um atributo, conhecido como

    rtulo de classe, indicando a que classe o registro pertence.

  • 23

    O exemplo a seguir mostra uma situao tpica (Figura 1.2). Tem-se uma srie de

    dados no formulrio de uma tabela que contm graus estudantes em cinco disciplinas (os

    valores dos atributos TCI, BDII, INOVTEC, GERPROJ e TOPAVA) e em suas classificaes

    totais do grau. Procura-se encontrar alguma maneira de predizer a classificao para outros

    estudantes dados somente sua turma Perfil.

    Tabela 1.2 Classificao de dados do grau

    TCI BDII INOVTEC GERPROJ TOPAVA TURMA

    A B A B B Segunda

    A B B B B Segunda

    B A A B A Segunda

    A A A A B Primeira

    A A B B A Primeira

    B A A B B Segunda

    A A B A B Primeira Fonte: Adaptado de BRAMER, 2007

    Segundo Bramer (2007) existem vrias maneiras para fazer isto, incluindo as

    seguintes:

    Vizinho mais prximo de correspondncia (Nearest Neighbour

    Matching): este mtodo confia em identificar (palavra) os cinco

    exemplos que so "mais prximos", em algum sentido a um no

    classificada. Se os cinco "mais prximos vizinhos" tm graus B, A, B, B

    e B pode-se concluir razoavelmente que a nova instncia dever ser

    classificada como 'Segunda'.

    Regras de classificao (Classification Rules): Procura-se as regras que

    pode-se predizer a classificao de um exemplo despercebido, segue

    exemplos: SE TCI=A E TOPAVA=A ENTO TURMA=Primeira, SE

    TCI=A E TOPAVA=B E BDII=B ENTO TURMA=Segunda ou ainda

    SE TCI=B ENTAO TURMA=Segunda;

    rvore da classificao (Classification Tree): uma forma de gerao de

    regras de classificao por intermdio de estrutura chamada rvore de

    classificao ou de uma deciso rvore, como a seguir:

  • 24

    Figura 1.2 rvore de Deciso de classificao de grau Fonte: Adaptado de BRAMER, 2007

    1.2.3 Agrupamento (Clustering)

    Uma dada populao de eventos ou novos itens podem ser particionados

    (segmentados) em conjuntos de elementos padres (ELMASRI; NAVATHE, 2005). Bramer

    (2007) confirma que os algoritmos de agrupamento analisam os dados para encontrar grupos

    de itens que so semelhantes. Amostras de agrupamento so representadas como um vetor de

    medies, ou, mais formalmente, como um ponto em um espao multidimensional. As

    amostras de um agrupamento vlido so mais semelhantes (no necessariamente iguais) entre

    si do que as amostras que pertencem a um agrupamento diferente (KANTARDZIC, 2003).

    De acordo com Kantardzic (2003), a tcnica de agrupamento adequada para a

    explorao de inter-relaes entre as amostras e para fazer uma avaliao preliminar da

    estrutura da amostra. A Tabela 1.3 tem um simples exemplo de agrupamento de informao.

    So doze atletas distribudos em trs agrupamentos. As caractersticas que descrevem esses

    atletas so: o aproveitamento em percentual no fundamento bloqueio e o nmero de bloqueios

    realizados.

    Tabela 1.3 Simples exemplo de agrupamento de informao

    Agrupamentos Aproveitamento Bloqueios Realizados Atletas

    Agrupamento 1

    100% 1 Jogador 1

    90% 4 Jogador 3

    80% 1 Jogador 6

    Agrupamento 2

    70% 20 Jogador 2, Jogador 9

    60% 30 Jogador 4, Jogador5

    50% 30 Jogador 8

    Agrupamento 3

    40% 10 Jogador 7

    20% 3 Jogador11

    0% 5 Jogador 10, Jogador 12 Fonte: AUTOR, 2008

  • 25

    Pode-se concluir que o Agrupamento 1 tem o melhor aproveitamento, mas

    pouqussimos bloqueios foram efetuados por seus atletas. No Agrupamento 2, existe a melhor

    mdia, pois vrios bloqueios foram efetuados. O Agrupamento 3 apresenta atletas que

    possivelmente no tenham esse fundamento como principal caracterstica.

    Para utilizar a tcnica de agrupamento, necessrio um critrio objetivo. Para

    descrever esse processo preciso dominar os conceitos bsicos e o processo de agrupamento.

    A entrada para uma anlise de agrupamento pode ser descrita como um par requisitado (X, s),

    ou (X, d), onde X um jogo (descries das amostras), e s e d so medidas para a

    similaridade ou a dissimilaridade (distncia) entre amostras, respectivamente. A sada uma

    diviso = {G1, G2,, GN} onde Gk, k = 1,, N um subconjunto cristalino de X tal que G1

    G2 ... GN = X, e Gi Gj = , i j. Assim os membros G1, G2,, GN de so

    chamados de agrupamentos. Cada um dos agrupamentos descrito com algumas

    caractersticas. Na descoberta, tanto o agrupamento (um conjunto de pontos distintos em X)

    quanto suas caractersticas, so gerados como resultado de um procedimento de agrupamento

    (KANTARDZIC, 2003).

    Kantardzic (2003) aponta que a representao da descoberta por agrupamento pode

    se dar por diferentes esquemas (Figura 1.3), os mais conhecidos so:

    Representar o agrupamento dos pontos em um espao n-dimensional

    (amostras) por seu centride ou por um conjunto de distantes (fronteira)

    pontos em um agrupamento;

    Representar graficamente usando um agrupamento de ns em um

    agrupamento de rvore;

    Representar agrupamentos, usando a expresso lgica de amostra de

    atributos.

    Figura 1.3 Exemplos de diferentes esquemas Fonte: KANTARDZIC, 2003

  • 26

    A vasta coleo de algoritmos de agrupamento disponveis na literatura e os

    diferentes softwares confundem os usurios que tentam selecionar aproximaes mais

    apropriadas para o seu problema. A maior parte dos algoritmos de agrupamento tem por base

    as duas seguintes abordagens: agrupamento hierrquico e agrupamento particional iterativo.

    As tcnicas hierrquicas organizam dados em uma seqncia aninhada dos grupos, que

    normalmente so indicados atravs de uma estrutura de rvore. J os algoritmos particionais

    tentam obter essa divisria que minimiza o espalhamento dentro do agrupamento ou

    maximiza o espalhamento entre os agrupamentos. Esses mtodos no so hierrquicos porque

    todos os agrupamentos resultantes so grupos das amostras no mesmo nvel da divisria

    (KANTARDZIC, 2003).

    1.2.4 Dados em sries temporais (Time-Series Data)

    Para Elmasri e Navathe (2005) esses padres podem ser encontrados em posies de

    uma srie temporal de dados, que uma seqncia de dados capturada a intervalos regulares

    (segundos, horas, dias, semanas, etc). Han e Kamber (2006) confirmam dizendo que sries

    temporais consistem em seqncias de valores ou medidas repetidas, excessivamente, em

    intervalos de tempos. As aplicaes mais populares com base de dados de padres com sries

    temporais so as de anlise da bolsa de valores, ndices econmicos, observao de

    fenmenos naturais (tais como a atmosfera, a temperatura, o vento, o terremoto) e

    experincias cientficas e da engenharia.

    Com a distribuio crescente de um grande nmero de sensores, de dispositivos da

    telemetria, e de outras ferramentas de levantamento de dados, a quantidade de dados em sries

    temporais est aumentando rapidamente, freqentemente na ordem dos gigabytes por dia

    (como o nmeros de negociaes na bolsa de valores) ou por minuto (como de programas do

    espao da NASA). A minerao de dados em sries temporais tem o desafio de analisar tais

    nmeros enormes de dados em sries temporais para encontrar os padres similares ou

    regulares, tendncias rapidamente ou mesmo responder em tempo real (HAN; KAMBER,

    2006).

    No vlei, pode-se analisar o desempenho de atletas pelo tempo de jogo, e analisar

    assim qual o tempo de jogo ideal para ele (perodo no set ou no jogo todo). Existem atletas

    que jogam com um mesmo nvel a partida inteira, outros atletas tm um incio de alto nvel, e

    no decorrer da partida o nvel cai, mas aps o perodo de estresse, o nvel volta a ser bom.

  • 27

    Outros que mantm um bom nvel durante boa parte da partida, mas depois o nvel cai e no

    retorna mais. H de se considerar, aqui, tambm o aspecto emocional de cada atleta, no

    apenas os nmeros. Na Tabela 1.4, podem-se ver os dois ltimos tipos de atletas citados e

    seus desempenhos. Esse um exemplo ilustrativo apenas, j que em uma situao real o

    volume de dados seria muito maior. Pode-se, tambm, dividir um set em fases (de 0 a 8

    pontos, fase um; de 9 a 19, fase dois; e de 20 a 25, fase 3). Nessa diviso possvel perceber

    os diferentes comportamentos dos atletas (qualidade da jogada, concentrao, obedincia

    tcnica e ttica) devido ao aumento do estresse emocional do final do set.

    Tabela 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo)

    Atletas Tempo de Jogo (minutos)

    5 min. 10 min. 15 min. 20 min. 30 min. 40 min. 60 min.

    Jogador 01 100 % 80 % 70 % 60 % 40 % 50 % 80 %

    Jogador 02 60 % 60 % 60 % 70 % 70 % 70 % 65 %

    Fonte: AUTOR, 2008

    Em geral, so dois os objetivos na anlise de sries temporais: modelagem das sries

    temporais (isto , ganhar uma viso sobre os mecanismos subjacentes ou foras que geram as

    sries temporais), e previso de sries temporais (isto , predizer os futuros valores do tempo

    de sries de variveis), as tcnicas mais usadas so a anlise de tendncias e a pesquisa por

    semelhana (HAN; KAMBER, 2006).

    No voleibol, a anlise de tendncia parece ser a mais atrativa, j que a partir dos

    dados histricos possvel traar tendncias de jogadas de equipes adversrias, e analisando

    os dados da Tabela 1.4, pode-se visualizar a tendncia de aproveitamento dos atletas

    conforme o tempo de jogo. Segundo Han e Kamber (2006) uma srie temporal que envolve

    uma varivel Y, representando, por exemplo, o aproveitamento de uma atleta ao final de um

    set ou partida, pode ser vista em funo do tempo t, isto , Y = F (t). Essa funo ilustrada

    como um grfico de sries temporais, como mostrado na Figura 1.4, que descreve um ponto

    em movimento com o passar do tempo.

  • 28

    Figura 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo) Fonte: AUTOR, 2008

    Han e Kamber (2006) apontam que anlise de tendncia consiste nos quatro

    componentes seguintes ou movimentos para caracterizar dados em uma srie temporal:

    Tendncia ou movimentos em longo prazo: indicam o sentido geral em

    que um grfico de srie temporal est se movendo sobre um intervalo

    longo do tempo. Esse movimento indicado por uma curva da

    tendncia, ou por uma linha da tendncia. Por exemplo, a curva da

    tendncia de Figura 1.4 indicada por uma curva tracejada. Os mtodos

    tpicos para determinar uma curva da tendncia ou uma linha da

    tendncia incluem o mtodo de mdias mveis e o mtodo dos mnimos

    quadrados;

    Movimentos cclicos ou variaes cclicas: consultam as oscilaes em

    longo prazo sobre uma linha ou uma curva da tendncia, que possam ou

    no possam ser peridicas. Isto , os ciclos no necessitam

    necessariamente seguir exatamente testes padres similares aps

    intervalos iguais do tempo;

    Movimentos sazonais ou variaes sazonais: so sistemticos ou

    relacionados ao calendrio. Os exemplos incluem os eventos que

    retornam anualmente, como o aumento repentino nas vendas dos

    chocolates e das flores antes do dia de namorados ou aumento observado

  • 29

    no consumo da gua no vero devido ao calor. Nesses exemplos, os

    movimentos sazonais so os testes padres idnticos ou quase idnticos

    que uma srie de tempo parece seguir durante meses correspondentes de

    anos sucessivos;

    Movimentos irregulares ou aleatrios: caracterizam o movimento

    espordico da srie de tempo devido aleatoriedade, tais como disputas

    trabalhistas e as inundaes fazem parte desde tipo.

    Para a anlise no vlei, a utilizao do primeiro movimento j proporciona

    resultados, pois atravs dos resultados das mdias mveis j se observa a tendncia de

    desempenho futura.

    1.2.5 Padres seqenciais (Sequential Patterns)

    Elmasri e Navathe (2005) apontam que a tcnica de padres seqenciais a

    investigao de seqncias de aes ou eventos. Han e Kamber (2006) escrevem que uma

    tcnica desafiadora, pois pode gerar e/ou testar um nmero combinatrio explosivo de

    seqncias intermedirias. Para Sumathi e Sivanandam (2006), essa tcnica tem algumas

    similaridades com a tcnica de regras, a diferena que faz exame da dimenso seqencial

    dos dados analisados. O problema de minerao de dados em padres seqenciais foi

    introduzido pela primeira vez por Agrawal e Srikant, em 1995, com base no seu estudo de que

    cliente compra em seqncia. Segue um exemplo: dada uma relao de seqncias, em que

    cada seqncia consiste em uma lista dos eventos (ou dos elementos) e cada evento consiste

    em um conjunto de artigos. E dado um ponto inicial mnimo, especificado pelo usurio, da

    sustentao do limite mnimo, os achados seqenciais da minerao do teste padro

    freqentam subseqncias, isto , as subseqncias cuja freqncia da ocorrncia na relao

    das seqncias no nenhum menos do que limite mnimo (HAN; KAMBER, 2006).

    Esse problema foi motivado inicialmente por aplicaes na indstria do comrcio e

    varejo, e de satisfao de cliente. Mas os resultados aplicam-se a muitos domnios cientficos

    e de negcio. Por exemplo, no domnio mdico, uma seqncia dos dados pode corresponder

    aos sintomas ou s doenas de um paciente, com uma transao que corresponde aos sintomas

    exibidos ou s doenas diagnosticadas durante uma visita ao mdico. Os testes padres

  • 30

    descobertos usando os dados poderiam ser usados na pesquisa da doena ajudar identificar os

    sintomas/doenas que precedem determinadas doenas (SUMATHI; SIVANANDAM, 2006).

    No voleibol, essa tcnica pode ser utilizada para identificar o comportamento padro

    de ataque ou defesa de equipes adversrias. Existem casos em que equipes tm jogadas

    prontas, principalmente por caractersticas e/ou limitaes tcnicas de seus atletas. Essas

    jogadas podem dar resultados positivos sempre que bem efetuadas, mas se a outra equipe

    identificar esse padro de jogo durante a partida, pode se beneficiar e ganhar a partida, pois

    estaria anulando a jogada de seu adversrio. Mas muitas vezes no identificada essa

    seqncia padro de acontecimentos. Para exemplificar uma seqncia de jogada padro:

    equipe A saca, jogador seis da equipe B recepciona e passa para jogador trs de sua equipe,

    que levanta para o jogador cinco que efetua a cortada. Na prxima jogada tem-se a recepo

    do jogador cinco, que passa para o jogador trs e recebe o levantamento para a cortada. Mais

    uma jogada, mas agora quem recepciona o jogador dois que passa para o jogador trs que

    levanta para o jogador cinco cortar. J possvel perceber uma seqncia padro nessas

    jogadas. Toda vez que o jogador trs receber a bola, ele levantar sempre, ou na grande

    maioria, para o jogador cinco fazer a cortada. Utilizando a tcnica de padres seqncias, esse

    comportamento padro seria percebido no resultado da minerao. O suporte de confiana ou

    limite mnino especificado pela comisso tcnica, nesse caso poderia ser: jogador cinco

    recebe mais de dois levantamentos do mesmo jogador trs.

    1.3 Ferramentas de Minerao de Dados

    Existem vrias ferramentas de Minerao de Dados, as duas ferramentas escolhidas

    foram o WEKA e o RapidMiner, nas prximas duas sees so abordados mais detalhes de

    cada uma dessas ferramentas.

    1.3.1 WEKA

    Desenvolvido na Univesidade de Waikato, o WEKA (Waikato Enviroment

    Knowledge Analysis) uma coleo de algoritmos da aprendizagem de mquina para tarefas

    de minerao de dados. Esses algoritmos podem ser aplicados diretamente a uma srie de

    dados ou serem chamados de seu prprio cdigo Java. O WEKA contm ferramentas para o

    pr-processamento dos dados, a classificao, a regresso, o agrupamento, as regras da

    associao e visualizao, tambm bem adequado para o desenvolvimento de novos

  • 31

    sistemas de aprendizagem. Atravs da interface grfica chamada Explorer possvel com

    facilidade utilizar todas as funes atravs de menus de seleo. Por exemplo, possvel

    rapidamente ler uma srie de dados de dentro um arquivo e construir uma rvore de deciso

    (decision tree) dessa srie de dados, mas rvore de deciso apenas o comeo: h muitos

    outros algoritmos disponveis a explorar (WITTEN; FRANK, 2005).

    Para trabalhar as sries de dados, recomenda-se que converta a srie em arquivos do

    formato ARFF (Attribute-Relation File Format). Esse formato um arquivo texto composto

    por trs partes: relao, atributos e dados. Outra caracterstica do WEKA sua portabilidade

    para outras aplicaes Java atravs de suas classes (SANTOS, 2005).

    O WEKA tem sido usada em diversos trabalhos. Podem-se citar os trabalhos de

    Gonchoroski (2007) e Wagner (2008), por ter explorado os principais algoritmos e tcnicas de

    minerao de dados.

    1.3.2 RapidMiner

    RapidMiner (anteriormente Yale) um ambiente para aprendizagem de mquina e do

    processo de minerao de dados desenvolvido na Universidade de Dortmund. O RapidMiner

    introduz novos conceitos de manipulao de dados transparente e modelagem do processo que

    facilitam a configurao do processo para usurios finais (MIERSWA et al., 2006).

    Segundo Coelho (2008), sua operao se d por processos, isto significa que, para

    realizar uma classificao de dados nesta ferramenta, necessrio incluir operadores para

    cada processo que antecede a tarefa final desejada, sendo que alguns operadores possuem

    parmetros configurveis. A lista de operadores, sua seqncia de execuo e parmetros so

    armazenados em um arquivo XML para edio. O RapidMiner conta com diversos operadores

    para as mais diversas finalidades de minerao de dados.

    Mierswa et al. (2006) aponta que muito simples alcanar os dados de um SGBD

    como Oracle, Microsoft SQL Server, PostgreSQL ou MySQL. O RapidMiner suporta uma

    escala larga desses sistemas sem nenhum esforo adicional.

    Aps essa breve conceituao e caracterizao da minerao de dados, suas tcnicas

    e algumas ferramentas, chama a ateno que no existe uma tcnica que seja melhor que

    outra. atravs da sua aplicao aos problemas que se ter uma avaliao de qual se encaixa

  • 32

    melhor ao problema definido. No caso de um sistema de scout, no diferente, devem ser

    aplicadas tcnicas, a fim de analisar os resultados, para definir a melhor tcnica. No prximo

    capitulo apresenta-se alguns conceitos e caractersticas dos sistemas scout.

  • 2 SCOUT

    A informtica est presente, cada dia mais, nas vidas das pessoas. Como no podia

    ser diferente, est presente no esporte, onde existem sistemas de avaliao de desempenho de

    atletas que so normalmente chamados por scout. Esse tipo de sistema, como apresentado na

    Introduo, tem como funo capturar e processar informaes estatsticas de desempenho

    dos atletas da equipe e da adversria, e que, em muitas vezes, no levam em considerao o

    histrico do jogador em outros jogos e nem o comportamento do atleta nos diferentes

    nveis/fases da partida. Dessa forma, os sistemas repassam dados para a comisso, que avalia

    essa gama diversificada referente aos fundamentos bsicos do vlei e/ou jogadas realizadas

    pela equipe adversria, num tempo reduzido e toma decises muitas vezes baseadas mais no

    conhecimento emprico do tcnico ou da comisso do que no fator racional real daquela

    situao (ZAMBERLAM et al., 2005).

    Bizzocchi apud (RAIMANN, 2008) aponta que nos jogos olmpicos de 1984, os

    norte-americanos foram os responsveis pela incluso do computador na quadra de voleibol,

    tornando-se obrigatrio tambm para treinamentos e elaborao de planos tticos e tcnicos.

    A seleo brasileira de vlei, comandada pelo tcnico Bernardo Rezende

    (Bernardinho), utiliza-se dos dois scouts: ttico e tcnico. O ttico faz um mapeamento da

    quantidade, do percentual e do tipo de jogadas do time adversrio; analisa tendncias dos

    atletas (direes, preferncias e posicionamentos). O scout tcnico analisa o prprio time,

    como cada atleta se comporta em cada fundamento, qual seu aproveitamento final. Isso

    possibilita, por exemplo, elaborar quadros evolutivos de saque de um determinado atleta

    (BERNARDINHO, 2006). A planilha, encontrada na Figura 2.1, foi apresentada pelo tcnico

    da seleo brasileira, com o objetivo de exemplificar a utilizao da anlise estatstica nos

    jogos da seleo. Essa planilha apresenta os dados coletados durante os Jogos Olmpicos,

  • 34

    realizado na Grcia, na data do dia 29 de agosto de 2004. O jogo em questo foi final dos

    Jogos Olmpicos, realizado entre Brasil e Itlia.

    Figura 2.1 Figura da tabela de anlise estatstica dos fundamentos de voleibol.

    Fonte: BERNARDINHO, 2006

    Esses dados so coletados durante a partida por um ou mais scouters. Antes da

    informtica, os scouters coletavam esses dados em planilhas manuais, analisando os jogos

    gravados em fitas de vdeo (VHS). Atualmente, os sistemas scouts permitem o armazenando

    desses dados durante a partida, o processo de coleta de dados (ao longo do jogo) difcil, pois

    a velocidade com que um jogo de vlei transcorre alta, ento normal que contenham erros

    em seqncias de jogadas. Alguns sistemas scouts possuem regras que no permitem erros

    primrios, por exemplo, depois de um saque ocorrer um levantamento da equipe adversria

    sem ocorrer uma recepo.

    De posse dos dados, os estatsticos das equipes comeam a fazer os estudos para

    apresentarem para suas comisses tcnicas, emitindo, assim, relatrios estatsticos comisso

    tcnica, que por sua vez faz uma anlise emprica em cima dos dados que a mesma considera

    importantes. No calor de uma partida, dados podem ser interpretados de maneira

    equivocada, proporcionando tomadas de decises equivocadas. Esses estudos so realizados

    antes, durante e aps a partida (RAIMANN, 2008).

    Bernardinho (2006) aponta que ao analisar a Figura 2.1, a relao total de saques-

    errados / saques-pontos tem um saldo muito positivo, pois a equipe teve 10 saques errados,

    mas, fez nove aces (pontos obtidos direto do saque). Avaliando a coluna bloqueio (BLOK),

    possvel distinguir entre bloqueio-ponto (BP) e bloqueio para contra-ataque (BC), ou seja,

    aqueles que propiciam contra-ataques so bloqueios defensivos extremamente importantes.

    muito freqente, durante os jogos, ocorrerem um nmero pequeno de BP, mas um nmero

  • 35

    elevado de BC. So avaliados ainda os passes, a qualidade de cada ao e a proporo de

    passes acertos (PA), ditos perfeitos sobre o total de aes, Bernardinho (2006) afirma que as

    colunas de contra-ataque mostram talvez o ponto menos eficiente do jogo. Do total de contra-

    ataques (29), 14 foram convertidos em pontos, ou seja, 48% de aproveitamento. Observa-se

    tambm a grande atuao do atleta Gustavo, camisa 13, com 100% de aproveitamento. A

    coluna E aponta erros cometidos sem relao com as aes anteriormente avaliadas: mo na

    rede, dois toques, etc. J a coluna APV mede o aproveitamento individual de cada jogador:

    pontos efetuados pontos concedidos.

    Alm do sistema da seleo brasileira, que foi criado pela estatstica Roberta Giglio,

    existem outros sistemas scouts. Os mais conhecidos, de acordo com Raimann (2008), so:

    Scout Graph 1.0: sistema scout proprietrio da empresa SFW

    Informtica tem como funes armazenar dados de jogos especficos e

    gerar relatrios para uma anlise mais precisa de cada equipe, atleta ou

    fundamento, um sistema portvel a outros esportes como futebol,

    futebol de salo, basquete, voleibol e handebol;

    SisVolei: sistema scout proprietrio e atravs dele possvel analisar

    todos os fundamentos do vlei, sendo eles: saque, passe (recepo),

    levantamento, ataque, bloqueio e defesa, voltado ao voleibol apenas;

    Data Volley: sistema scout proprietrio desenvolvido pela empresa

    DataProject permite monitorar todos os fundamentos do voleibol, com

    uma avaliao completa, que inclui, alm do sentido, o tipo de ataque e

    as zonas de partida e de chegada, at mesmo, informaes especficas

    como o nmero de jogadores em bloco e o tipo de erro, alm disso,

    possui integrao com outros sistemas da empresa como o Data Video

    2007 que permite sincronizar, o scout com o filme do jogo, facilitando

    assim o estudo e entendimento dos atletas, apresentando

    posicionamentos em funo das possveis alteraes de jogadores da

    equipe adversria. A maioria das grandes selees de vlei utiliza esse

    sistema.

  • 36

    Raimann (2008) aponta como clara a importncia dos Sistemas de Monitoramento

    para auxiliar na tomada de deciso quando aplicada a esportes como o vlei. Por exemplo,

    jogadas velozes combinadas com boa ttica, posicionamento correto e anlise do adversrio,

    podem ser decisivos para a vitria do jogo e at mesmo do campeonato.

    O scout desenvolvido por Raimann (2008) tem as seguintes caractersticas: no um

    sistema proprietrio, possui cadastro de jogos, cadastro de sets, cadastro de rotao inicial do

    set, o mdulo de entrada de dados de um jogo, em que os fundamentos so cadastrados na

    forma de caracteres. Com a finalidade de tornar mais rpida a entrada de dados, foi proposta

    uma gramtica para anlise de comandos suprindo as necessidades de velocidade no cadastro

    das jogadas. A gramtica de comandos foi criada de forma a ser mais completa, mas para o

    sistema scout aborda somente a entrada de dados relativa aos fundamentos do voleibol.

    Enfim, aps a descrio de um sistema scout, segue a apresentao de um sistema

    scout (para o basquete) que se utiliza da minerao de dados.

    2.1 Trabalho Correlato - Advanced Scout: Data Mining and Knowledge Discovery in NBA Data

    Em (BHANDARI et al.,1997), apresentado o software Advanced Scout (AS). Esse

    sistema procura e descobre padres interessantes em dados de jogos da NBA (liga norte-

    americana de basquete). Sua primeira utilizao se deu na temporada 1995-1996, onde

    dezesseis das vinte e nove equipes o receberam para avaliao. As comisses tcnicas o

    avaliaram positivamente, afirmando ser uma valiosa ferramenta. Esse software trabalha em

    quatro etapas: coleta de dados, pr-processamento, minerao de dados e interpretao do

    conhecimento descoberto.

    A coleta de dados feita por um software especialmente desenhado para o registro

    de dados de basquete. Esses dados so armazenados em uma base de dados comum a todas as

    equipes. Posteriormente, as equipes realizam o download dessa base de dados e a manipulam

    de forma independente e sigilosa.

    O pr-processamento feito aps o download da base de dados. O AS permite

    realizar uma srie de consistncias na base de dados, visto que informaes errneas

    permitiriam interpretaes erradas dos dados, assim os dados errados so corrigidos por meio

    de regras base ou atravs de algum que tenha domnio do assunto. Aps a consistncia, os

  • 37

    dados so transformados e reformatados. Os dados brutos so reformatados na forma de

    fichas de jogo, que so familiares para as comisses tcnicas que, assim, analisam os eventos

    discretos (padres) de um jogo. Nessa fase os dados so enriquecidos atravs da verificao

    das regras ou da entrada de dados adicionais.

    A minerao de dados no AS ocorre quando um membro da comisso tcnica inicia

    uma consulta geral. Automaticamente a minerao de dados procura por padres interessantes

    na equipe da casa ou na visitante, em busca dos arremessos cesta de basquete (um dos

    fundamentos do basquete, por exemplo), detectando o percentual padro de desempenho

    (aproveitamento). As anlises posteriores podem incluir consultas mais especficas em torno

    de atributos (como por exemplo, o jogador, a funo do jogador, lado da quadra, etc.) ou

    fundamentos particulares (rebote, arremesso, etc.). A tcnica de minerao de dados utilizada

    no AS conhecida como Attribute Focusing (AF) (BHANDARI, 1995).

    A interpretao do conhecimento descoberto a forma como o resultado da

    minerao de dados mostrada. No AS, os resultado so vistos de duas formas: atravs de

    uma descrio textual ou grfica. O objetivo que os resultados sejam compreendidos

    facilmente pela comisso tcnica. O processo de interpretao de padres representa a

    descoberta de conhecimento e exige, normalmente, algum que tenha domnio do assunto.

    Essa interpretao facilitada pela possibilidade do usurio ter vrias formas de aprofundar a

    anlise interativamente para obter informaes adicionais ao resultado.

    A seguir, a descrio de um trabalho, fora do domnio de sistemas de scout, mas que

    colaborou na realizao deste trabalho.

    2.2 Utilizao de tcnicas de KDD em um call center ativo

    O Trabalho de Concluso de Curso apresentado por Gonchoroski (2007), mostrou

    que o fato de Call Center no possuir nenhuma tcnica de minerao de dados pode significar

    um mau aproveitamento dos dados disponveis. Uma vez que o emprego de minerao

    confirmou a existncia de informaes importantes que no estavam disponveis na

    visualizao dos dados, que dizem respeito relao entre as caractersticas dos clientes e o

    resultado do contato. Como so vrios os fatores que influenciam as vendas, importante a

    combinao de mais de uma caracterstica do cliente, e isso pode ser fundamental para definir

    o perfil da pessoa que mais adquire produtos.

  • 38

    O foco da aplicao das tcnicas de Descoberta de Conhecimento em Base de Dados

    (DCBD) ou Knowledge Discovery in Databases (KDD) desse trabalho foi a venda de ttulos

    de capitalizao, pois grande quantidade de atributos presentes em cada registro de cliente a

    ser contatado, crescendo a possibilidade de aumentar o grau de qualidade e diversidade das

    informaes geradas. A tcnica de KDD escolhida foi a de classificao. As rvores de

    classificao tornaram possvel organizar os atributos e a relao entre eles, para os contatos

    com venda ou recusa. O software de minerao utilizado foi WEKA verso 3, que possui

    todas as funcionalidades necessrias para aplicar KDD e dar todo o suporte para que os dados

    sejam minerados. A aplicao de tcnicas de KDD permitiu conhecer os perfis dos

    compradores em potencial dos produtos, possibilitando unir o conhecimento adquirido pelos

    analistas de informaes da empresa de telemarketing e o conhecimento descoberto com a

    minerao, auxiliando a seleo mais eficiente dos prospectos, aumentando as vendas e

    reduzindo a quantidade de contatos telefnicos com os clientes.

    Aps apresentar esses trabalhos correlatos mostrando a influncia da Data Mining

    sobre os Sistemas de Tomada de Deciso, no prximo captulo apresentada a proposta de

    um Mdulo de Data Mining para o sistema scout de Raimann (2008).

  • 3 A PROPOSTA DE MDULO DE MINERAO

    Um sistema scout, como j escrito, um sistema estatstico de monitoramento de

    atletas, auxiliando em decises importantes na gesto de equipes. Entretanto, a quantidade de

    informaes continua muito grande, deixando o processo de decidir dependente da

    experincia do tcnico ou de algum integrante da comisso tcnica.

    Solieman (2006) aponta que h igualmente muitos tipos de estatsticas que so

    recolhidas para cada atleta. Por exemplo, um jogador de basquetebol ter dados para pontos,

    rebotes, assistncias, roubadas e bloqueios para cada jogo. Isso pode conduzir sobrecarga de

    informao para aqueles que tentam derivar o significado das estatsticas. Assim, os esportes

    so ideais para ferramentas e tcnicas da minerao de dados.

    A vantagem para equipes esportivas quando utilizam a minerao de dados est no

    desempenho resultante de suas equipes e respectivos jogadores. Alguns esportes so

    atualmente mais avanados do que outros, em especial no caso do voleibol e de seu uso atual

    da anlise estatstica.

    Por isso, surge a idia deste trabalho - desenvolver um mdulo de minerao de

    dados para o sistema: Scout: Sistema de Monitoramento em Equipes de Voleibol

    desenvolvido por Raimann (2008), parte integrante do projeto de pesquisa A IA entrando na

    quadra de vlei: Scout Inteligente (ZAMBERLAM, 2005). Para facilitar a visualizao, a

    Figura 3.1 ilustra o que est sendo realizado e como o mdulo de minerao far parte do

    sistema scout.

  • 40

    Figura 3.1 Esquema geral do scout inteligente

    Fonte: ZAMBERLAM, 2005

    O mdulo de minerao interage com a base de dados, destacado com crculo na

    Figura 3.1, fornecendo informaes mais precisas comisso tcnica, evitando assim o uso de

    complicadas planilhas, pois existem grandes dificuldades nas leituras dessas planilhas. Os

    dados que so inseridos no passam por nenhuma filtragem, no saltam aos olhos os

    problemas ou as vantagens das equipes na partida.

    Na Figura 3.2 possvel visualizar parte da estrutura do banco de dados do sistema

    de scout desenvolvido por Raimann (2008), a fim de ilustrar em quais dados a minerao

    dever atuar. Para armazenar os dados de maneira mais eficiente, foram feitas algumas

    alteraes na base de dados original. As alteraes foram a incluso do campo Tempo na

    tabela de Movimento, para saber em qual momento do jogo ocorreu o movimento; a outra foi

    a inverso das cardinalidades entre as tabelas Movimento e Evento, onde um movimento ter

    N eventos at a concluso do ponto. E entre tabelas Evento, Saque, DefesaPasse,

    Levantamento, Cortada e Bloqueio, onde cada evento representa um fundamento at a

    concluso do movimento. Essa alterao pode ser vista na Figura 3.3.

  • 41

    Figura 3.2 Modelagem do banco de dados do sistema scout

    Fonte: RAIMANN, 2008

  • 42

    Figura 3.3 Modelagem do banco de dados alterada

    Fonte: Autor, 2008

  • 43

    Atravs dessa estrutura do banco de dados, possvel perceber a quantidade de dados

    que uma partida de voleibol pode gerar. Por meio do diagrama de atividade apresentado na

    Figura 3.4, pode-se visualizar como o sistema de scout se comporta.

    Figura 3.4 Diagrama de Atividade do sistema scout de Raimann (2008)

    Fonte: Autor, 2008

    De forma simplificada, pode-se dizer que o processo de scout de uma partida

    propriamente dito, inicia a partir do cadastro de jogos, para cada jogo so cadastrados todos os

    jogadores (duas equipes por partida) que ficaro disponveis para a disputa. O prximo passo

  • 44

    cadastrar os sets e quais sero os fundamentos (saque, bloqueio, etc.) que sero analisados.

    Ao inicializar cada set so informados os jogadores que entram em quadra. Esse o cadastro

    de rotao inicial, tambm deve ser sinalizado qual o jogador sacador, por meio desses

    dados que ser controlada a rotao do jogo, que realizada automaticamente pelo sistema. A

    partir desse ponto, os scouters (pessoas que ficam na quadra cadastrando cada jogada e

    substituies ocorridas durante a partida) do a entrada de dados do jogo.

    Conforme Raimann (2008), esses dados so gravados na forma de caracteres, com o

    objetivo de tornar mais rpida a entrada de dados. Cada fundamento e sua seqencia de

    caracteres so separados por ponto e vrgula. Abaixo descrito e ilustrado a seqncia de

    fundamentos executados em uma partida e como os dados devem ser inserido dentro do

    sistema scout de Raimann (2008).

    O fundamento saque armazena: nmero da camiseta do jogador, posio em que fez

    o saque, tipo de saque, direo em que fez o saque, efeito do saque e observaes. Na Figura

    3.5 possvel visualizar o Mapa Conceitual desse fundamento.

    Figura 3.5 Mapa Conceitual do Fundamento Saque

    Fonte: RAIMANN, 2008

    Os fundamentos defesa e passe armazenam as seguintes informaes: nmero da

    camiseta do jogador, posio em que fez a defesa, tipo de defesa, efeito da defesa e

    observaes, Figura 3.6 apresenta seu mapa conceitual.

  • 45

    Figura 3.6 Mapa Conceitual dos Fundamentos Defesa/Passe

    Fonte: RAIMANN, 2008

    O fundamento levantamento armazena: nmero da camiseta do jogador, posio em

    que fez o levantamento, forma de levantamento, qualidade do levantamento, direo do

    levantamento e observaes, veja seu mapa conceitual (Figura 3.7).

    Figura 3.7 Mapa Conceitual dos Fundamentos Levantamento

    Fonte: RAIMANN, 2008

    No fundamento de ataque cortada, os dados so os seguintes: nmero da camiseta do

    jogador, posio em que fez a cortada, direo da cortada, efeito da cortada, velocidade da

    cortada e observaes, detalhes dos dados Figura 3.8.

  • 46

    Figura 3.8 Mapa Conceitual dos Fundamentos Cortada

    Fonte: RAIMANN, 2008

    Fundamento de defesa bloqueio armazena essas informaes: nmero da camiseta do

    jogador, posio em que fez o bloqueio, tipo de bloqueio, efeito do bloqueio e observaes,

    detalhes dos dados Figura 3.9.

    Figura 3.9 Mapa Conceitual dos Fundamentos Bloqueio

    Fonte: RAIMANN, 2008

    So essas as informaes que o mdulo de Data Mining vai analisar, pois atravs

    de dados como o nmero do jogador que ser analisado o desempenho do mesmo em um set

    ou em uma partida. A posio de cada fundamento essencial para analisar as preferncias

    dos jogadores e tambm pontos fracos dos mesmos. O efeito a conseqncia do fundamento,

    que uma numerao de 0 a 3, onde zero erro do fundamento, gerando assim ponto para o

  • 47

    adversrio, 1 continuidade negativa, pois possibilita ao adversrio um contra ataque, 2 uma

    continuidade positiva pois gerou dificuldades ao adversrio e 3 e ponto direto da equipe.

    Alguns fundamentos tm outras informaes relevantes, como a direo comum a

    saque, levantamento e cortada. O fundamento de defesa/passe ainda conta com informao

    sobre o tipo de defesa/passe. No levantamento a forma e a qualidade so informaes

    imprescindveis. Na cortada a velocidade pode ser um fator relevante e no bloqueio seu tipo

    a informao mais importante. Essas informaes vo passar por um tratamento, que ser a

    etapa da preparao de dados que est inserida no captulo 4.

    Uma vez contextualizado os dados a serem manipulados pelo mdulo proposto,

    seguem os detalhes da modelagem.

    3.1 Especificao dos requisitos

    De acordo com Guedes (2008); a especificao de requisitos de software contm e

    descreve os requisitos, ou seja, define o produto e pode servir como um documento auxiliar

    no contrato de desenvolvimento do produto. As sees que seguem, referentes modelagem,

    foram baseadas nas orientaes encontradas em (MEDEIROS, 2004).

    3.1.1 Requisitos funcionais

    Conforme Guedes (2008) os requisitos funcionais so declaraes de funes que o

    sistema deve fornecer, como o sistema deve reagir a entradas especficas e como deve se

    comportar em determinadas situaes.

    REQF1 [Controlar Acesso ao Sistema]

    Requisito corresponde ao controle de acesso s opes do site: caso o usurio esteja

    com o status bloqueado ele no ter acesso a nenhuma opo no sistema, herdado do sistema

    proposto por Raimann (2008).

    Classificao: Essencial

  • 48

    REQF2 [Gerar Dados para Anlise]

    Requisito que corresponde a gerar dados para anlise para o mdulo de Minerao de

    Dados. Deve constar: data e hora da gerao dos dados. atravs desse requisito que so

    executados os primeiros passos da minerao de dados, onde os dados da base de dados

    original so selecionados e inseridos no Data Mart, esses dados ganham um cdigo e data e

    hora de gerao para futuras comparaes histricas. Esse procedimento ser realizado

    atravs de comandos SQL (select, insert) que sero colocados em uma funo do PostgreSQL,

    essa executada a partir do site da aplicao.

    Classificao: Essencial

    REQF3 [Selecionar Dados Gerados para Anlise]

    Requisito que corresponde a consultar os dados para anlise para o mdulo de

    Minerao de Dados. Atravs de uma lista de cdigos, data e hora o usurio selecionar a

    gerao desejada para a minerao de dados.

    Classificao: Essencial

    REQF4 [Aplicar Tcnicas de Minerao de Dados]

    Requisito que corresponde a aplicao das tcnicas de minerao de dados na

    consulta selecionada no REQF3, esse requisito consiste nos demais passos da minerao de

    dados, nesse requisito que so gerados os arquivos ARFF para serem submetidos s classes

    selecionadas do WEKA.

    Classificao: Essencial

    3.1.2 Requisitos no funcionais

    Guedes (2008) afirma que so restries sobre os servios ou as funes oferecidas

    pelo sistema. Entre eles, destacam-se restries de tempo, restries sobre o processo de

    desenvolvimento, padres e outros.

  • 49

    REQNF1 [Utilizao de Banco de Dados Relacional]

    Requisito que corresponde a utilizao de um banco de dados relacional. Vai manter-

    se a utilizao do PostgreSQL.

    Classificao: Essencial

    REQNF2 [Base de dados Alimentada]

    A base de dados do sistema desenvolvido por Raimann (2008) deve estar alimentada

    com dados de pelo menos cinco jogos envolvendo uma determinada equipe para que os

    resultados da minerao de dados sejam proveitosos efetivamente.

    Classificao: Essencial

    REQNF3 [Links/cones/Botes para Acesso s Principais Funes]

    Requisito corresponde ao acesso s principais funes por meio de links/cones.

    Facilitando assim a utilizao do sistema.

    Classificao: Essencial

    REQNF4 [Java Virtual Machine]

    Requisito corresponde execuo do mdulo.

    Classificao: Essencial

    3.2 Casos de Uso

    Para Guedes (2008) o diagrama mais geral da UML2, utilizado na maioria das

    vezes nas fases de levantamento e anlise de requisitos do sistema, tambm utilizado

    durante todo o processo de modelagem e serve como base para outros diagramas, fornecendo

    uma compreenso comum entre todos os envolvidos no projeto.

    2 UML: Unified Modeling Language ou simplesmente Linguagem de Modelagem Unificada.

  • 50

    3.2.1 Diagrama de Casos de Uso

    O diagrama apresenta uma macro atividade do sistema, descrevendo/detalhando as

    opes que o sistema disponibilizar. Tambm busca identificar os atores que executam

    atividades, bem como outros sistemas que possam interagir com o sistema. Para Medeiros

    (2004) um Ator pode ser uma pessoa, um sistema ou mesmo uma entidade externa.

    Na Figura 3.10 apresentado um diagrama geral do sistema scout e onde o mdulo

    de Minerao de Dados entra. A Figura 3.11 detalha as opes que o mdulo de Minerao,

    assim como os Atores que tero interao com o mesmo.

    Figura 3.10 Diagrama de Caso de Uso geral

    Fonte: AUTOR, 2008

  • 51

    Figura 3.11 Diagrama de Caso de Uso geral do mdulo de Minerao de Dados

    Fonte: AUTOR, 2008

    3.2.2 Casos de Uso Estendidos

    So utilizados para detalhar de forma mais precisa as interaes entre os usurios e o

    mdulo de minerao de dados. Lembrando que essa estrutura foi baseada em (MEDEIROS,

    2004).

    UC001 Gerar Dados para Anlise

    Breve Descritivo: Este caso de uso descreve o processo de Gerar Dados para

    Anlise.

    Quadro 3.1 Caso de Uso Gerar Dados para Anlise

    Requisitos Funcionais: REQF1 [Controlar Acesso ao Sistema]

    Requisitos No Funcionais: REQNF1 [Utilizao de Banco de Dados Relacional]

    REQNF2 [Base de dados Alimentada]

    REQNF3 [Links/cones/Botes para Acesso s Principais Funes]

  • 52

    REQNF4 [Java Virtual Machine]

    Atores: Usurio Administrador.

    Pr-condies: Ser um usurio com permisses de administrador.

    Fluxo Principal: O administrador acessa o mdulo de minerao de

    dados e clica na opo gerar dados para anlise.

    Campo: data e hora da gerao.

    Subfluxo:

    1. Gerar Dados.

    Subfluxos: 1. Gerar Dados:

    1.1 O administrador informa a data e a hora da nova gerao;

    1.2 O administrador clica no boto/link Gerar Dados;

    1.3 O mdulo verifica os dados e sugere um cdigo para a nova gerao;

    1.4 O mdulo executa a funo do PostgreSQL (Figura Apndice 1) que seleciona os dados na

    base de dados original e os insere no Data

    Mart, essa etapa no processo de minerao de

    dados equivale a preparao dos dados;

    1.5 O mdulo retorna a mensagem: Dados gerados com sucesso..

    Tratamento de Excees: 1.3.1 Verifica se os dados foram preenchidos

    corretamente. Caso no estejam ele retorna a

    mensagem de erro Dados para gerao no informados..

    1.3.2 Caso o banco de dados no responda a

    requisio ele retorna a mensagem de erro Banco indisponvel..

    Ps-condies: Os usurios administrador, scouter, restrito estaro

    aptos a consultar os dados gerados para anlise.

    Fonte: Autor, 2008.

    O Diagrama de Atividade referente gerar dados para anlise apresentado na

    Figura 3.12. importante ressaltar que o uso de diagramas de atividades com casos de usos

    estendidos auxilia na validao dos fluxos, subfluxos e excees descritas nos casos de uso.

  • 53

    Figura 3.12 Diagrama de Atividade referente a gerar dados para anlise

    Fonte: AUTOR, 2008

    UC002 Selecionar Dados Gerados para Anlise

    Breve Descritivo: Este caso de uso descreve o processo de Selecionar Dados

    Gerados para Anlise.

    Quadro 3.2 Caso de Uso Selecionar Dados Gerados para Anlise

    Requisitos Funcionais: REQF1 [Controlar Acesso ao Sistema]

    REQF2 [Gerar Dados para Anlise]

    Requisitos No Funcionais: REQNF1 [Utilizao de Banco de Dados Relacional]

  • 54

    REQNF2 [Base de dados Alimentada]

    REQNF3 [Links/cones/Botes para Acesso s Principais Funes]

    REQNF4 [Java Virtual Machine]

    Atores: Usurio Administrador, Scouter e Restrito.

    Pr-condies: Ser um usurio cadastrado no sistema.

    Ter dados gerados para consulta.

    Fluxo Principal: O usurio acessa o mdulo de minerao de dados e

    clica na opo selecionar dados gerados para anlise.

    Campos: Data Incio e Data Fim

    Subfluxo:

    1. Consultar Geraes;

    2. Selecionar Gerao.

    Subfluxos: 1. Consultar Geraes:

    1.1 O usurio informa a data e hora de incio e fim da gerao que deseja realizar anlises;

    1.2 O usurio clica no boto/link Consultar Geraes;

    1.3 O mdulo carrega os dados em uma tabela, listados com o cdigo, data e hora de sua

    gerao alm da coluna selecionado;

    2. Selecionar Gerao:

    2.1 O usurio seleciona a gerao desejada clicando sobre o boto de checagem da coluna

    selecionado;

    2.2 O usurio clica no boto/link Salvar Informaes;

    2.3 O mdulo grava as informaes no banco de dados;

    2.4 O mdulo retorna a mensagem: Dados salvos com sucesso..

    Tratamento de Excees: 1.3.1 e 2.3.1 Caso o banco de dados no responda a

    requisio ele retorna a mensagem de erro Banco indisponvel..

    Ps-condies: Os usurios estaro aptos a aplicar as tcnicas de MD.

    Fonte: Autor, 2008.

    Figura 3.13 apresenta o diagrama de atividade, a fim de contemplar o caso de uso

    estendido.

  • 55

    Figura 3.13 Diagrama de Atividade referente a selecionar dados gerados para anlise

    Fonte: AUTOR, 2008

    UC003 Aplicar Tcnicas de Minerao de Dados

    Breve Descritivo: Este caso de uso descreve o processo de Aplicar Tcnicas de

    Minerao de Dados.

    Quadro 3.3 Caso de Uso Aplicar Tcnicas de Minerao de Dados

    Requisitos Funcionais: REQF1 [Controlar Acesso ao Sistema]

    REQF2 [Gerar Dados para Anlise]

  • 56

    REQF3 [Selecionar Dados Gerados para Anlise]

    Requisitos No Funcionais: REQNF1 [Utilizao de Banco de Dados Relacional]

    REQNF2 [Base de dados Alimentada]

    REQNF3 [Links/cones/Botes para Acesso s Principais Funes]

    REQNF4 [Java Virtual Machine]

    Atores: Usurio Administrador, Scouter e Restrito.

    Pr-condies: Ser um usurio cadastrado no sistema.

    Ter selecionado dados para a anlise.

    Fluxo Principal: O usurio acessa o mdulo de minerao de dados e

    clica na opo aplicar tcnicas de minerao de dados.

    Subfluxo:

    1. Relatrio de Agrupamento de Atletas por Efeito de Fundamento;

    2. Relatrio de Agrupamento de Atletas por Posio e Efeito de Fundamento.

    Subfluxos: 1. Relatrio de Agrupamento de Atletas por Efeito de Fundamento:

    1.1 Usurio clica no boto/link Agrupamento de Atletas por Efeito de Fundamento;

    1.2 O mdulo atravs de uma funo do PostgreSQL (Figura Apndice 2) gera o

    arquivo ARFF e o grava no disco rgido;

    1.3 O mdulo, atravs da classe de integrao ClusteringEM carrega o arquivo ARFF e

    submete a classe EM do WEKA atravs do

    mtodo buildClusterer, depois o retorno lido

    pela classe de integrao atravs do mtodo

    getNumClusters da classe ClusterEvaluation;

    1.4 Esse retorno tratado para que os dados sejam de fcil entendimento da comisso tcnica;

    2. Relatrio de Agrupamento de Atletas por Posio e Efeito de Fundamento:

    2.1 Usurio clica no boto/link Agrupamento de Atletas por Posio e Efeito de Fundamento;

    2.2 O mdulo atravs de uma funo do PostgreSQL (Figura Apndice 3) gera o

    arquivo ARFF e o grava no disco rgido;

    2.3 O mdulo, atravs da classe de integrao ClusteringFarthestFirst carrega o arquivo ARFF

    e submete a classe FarthestFirst do WEKA

  • 57

    atravs do mtodo buildClusterer, depois o

    retorno lido pela classe de integrao atravs

    dos mtodos getNumClusters e toString da

    prpria classe ClusterEvaluation FarthestFirst;

    2.4 Esse retorno tratado para que os dados sejam de fcil entendimento da comisso tcnica.

    Tratamento de Excees: 1.2.1 e 2.2.1 Caso o banco de dados no responda a

    requisio ele retorna a mensagem de erro Banco indisponvel..

    Ps-condies: Os usurios administrador, scouter, restrito estaro

    aptos analisar relatrio das tcnicas aplicadas.

    Fonte: Autor, 2008.

    Figura 3.14 apresenta o diagrama de atividade, como forma de validar o caso de uso

    estendido.

    Figura 3.14 Diagrama de Atividade referente a aplicar tcnicas de minerao de dados

    Fonte: AUTOR, 2008

  • 58

    3.3 Diagrama de Classes

    Guedes (2008) aponta que o principal objetivo do diagrama de classes apresentar

    quais classes vo compor o mdulo com seus respectivos atributos e mtodos, alm de

    demonstrar como as classes se relacionam. Na seguir (Figura 3.15) apresentado o diagrama

    de classes do mdulo proposto.

  • 59

    Figura 3.15 Diagrama de Classes referente a integrao do mdulo MD e o WEKA

    Fonte: AUTOR, 2008

  • 60

    3.4 Diagrama de Seqncia

    Medeiros (2004) afirma que esse diagrama pode ser usado para mostrar a evoluo

    de uma dada situao em determinado momento do software, mostrar uma dada colaborao

    entre as classes e pode, tambm, ser usado para mostrar a traduo do caso de uso. Enfim,

    atravs desse diagrama que mtodos so definidos e em quais classes eles sero depositados.

    A se