tcc_ii_ versão_final.pdf

CENTRO UNIVERSITRIO FEEVALE

MERSON BUTZEN

PROPOSTA DE UM MDULO DE DATA MINING PARA

SISTEMA DE SCOUT NO VOLEIBOL

Novo Hamburgo, novembro de 2008.

MERSON BUTZEN MARQUES

PROPOSTA DE UM MDULO DE DATA MINING PARA

SISTEMA DE SCOUT NO VOLEIBOL

Centro Universitrio Feevale

Instituto de Cincias Exatas e Tecnolgicas

Curso de Sistemas de Informao

Trabalho de Concluso de Curso

Professor Orientador: Alexandre de Oliveira Zamberlam

Novo Hamburgo, novembro de 2008.

AGRADECIMENTOS

Gostaria de agradecer a todos os que, de alguma

maneira, contriburam para a realizao desse

trabalho de concluso, em especial:

Meu pai, Jos Jorge Marques da Silveira, que

foi quem me ensinou a nunca desistir, minha

me, Teresinha Dolores Butzen Marques, pela

dedicao aos filhos, meu orientador,

Alexandre de Oliveira Zamberlam, que me

auxiliou de maneira nica para a realizao

deste projeto, a minha namorada, Mnica

Reichert, pelo incentivo a crescer sempre e

pacincia em alguns momentos, ao meu amigo

Rafael Arnold pela oportunidade que me

indicou, aos amigos tricolores (Hoff, Minuzzo e

Thiago), aos demais amigos e pessoas que

convivem comigo, minha sincera gratido, pelo

apoio em todos os perodos do trabalho.

Obrigado pela confiana.

RESUMO

Sistemas de Apoio a Deciso, normalmente utilizados em empresas no processo de

tomada de deciso, tambm so utilizados em equipes de voleibol e/ou em outros esportes,

com a finalidade de gerar melhores resultados. Nesse universo de equipes esportivas, foram

elaborados sistemas estatsticos de monitoramento de desempenho de atletas e de equipes,

tambm conhecidos como sistemas de scout, permitindo s comisses tcnicas decidirem

sobre treinamentos, estratgias de jogo e tticas sobre jogadas. Contudo, a quantia de

informaes (precisas e/ou desnecessrias) mesmo assim enorme, deixando o processo de

decidir bastante emprico, ou seja, dependente da experincia do tcnico ou de algum

integrante da comisso tcnica. A minerao de dados (data mining) entra nesse campo com o

intuito de descobrir informaes mais precisas, evitando assim informaes desnecessrias.

Dessa forma, o objetivo deste trabalho realizar a anlise e o projeto de um mdulo de data

mining para o sistema de scout do projeto de pesquisa A IA entrando na quadra de vlei: Scout Inteligente.

Palavras-chave: Sistemas de Apoio a Deciso. Minerao de Dados. Sistema de

Monitoramento de Desempenho. Scout Voleibol.

ABSTRACT

Decision Support Systems, normally used in companies in the making decisions

process, also are used in volleyball teams and/or in other sports, with the aim to get better

results. In this universe of sport teams, statistics systems of performance tracking of athletes

and of teams were prepared, also known like scout (Scout Systems), allowing to the technical

committees decide about training, game strategies and tactical moves. However, the amount

of information (precise and/or unnecessary) is, anyway, enormous, letting the decision

process a lot empirical, in other words, dependent on the couch experience or on any other

person of the technical committee. The data mining gets into this field with the purpose of

discovering precise information, avoiding unnecessary information. This way, the goal of this

study is to perform the analysis and the project of a data mining module to the scout system of

the research project The IA getting into the volleyball court: Intelligent Scout.

Key words: Decision Support Systems. Data Mining. Statistics Systems of Performance

Tracking of Athletes. Scout Volleyball.

LISTA DE FIGURAS

Figura 1.1 Etapas que precedem a aplicao de tcnicas de Minerao de Dados ............... 17

Figura 1.2 rvore de Deciso de classificao de grau ......................................................... 24

Figura 1.3 Exemplos de diferentes esquemas ........................................................................ 25

Figura 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo) ............................................. 28

Figura 2.1 Figura da tabela de anlise estatstica dos fundamentos de voleibol. .................. 34

Figura 3.1 Esquema geral do scout inteligente ...................................................................... 40

Figura 3.2 Modelagem do banco de dados do sistema scout................................................. 41

Figura 3.3 Modelagem do banco de dados alterada .............................................................. 42

Figura 3.4 Diagrama de Atividade do sistema scout de Raimann (2008) ............................. 43

Figura 3.5 Mapa Conceitual do Fundamento Saque.............................................................. 44

Figura 3.6 Mapa Conceitual dos Fundamentos Defesa/Passe ............................................... 45

Figura 3.7 Mapa Conceitual dos Fundamentos Levantamento ............................................. 45

Figura 3.8 Mapa Conceitual dos Fundamentos Cortada........................................................ 46

Figura 3.9 Mapa Conceitual dos Fundamentos Bloqueio...................................................... 46

Figura 3.10 Diagrama de Caso de Uso geral ......................................................................... 50

Figura 3.11 Diagrama de Caso de Uso geral do mdulo de Minerao de Dados ................ 51

Figura 3.12 Diagrama de Atividade referente a gerar dados para anlise ............................. 53

Figura 3.13 Diagrama de Atividade referente a selecionar dados gerados para anlise ....... 55

Figura 3.14 Diagrama de Atividade referente a aplicar tcnicas de minerao de dados ..... 57

Figura 3.15 Diagrama de Classes referente a integrao do mdulo MD e o WEKA .......... 59

Figura 3.16 Diagrama de Seqncia referente ao caso de uso UC001 (Gerar Dados para

Anlise) ..................................................................................................................................... 60

Figura 3.17 Diagrama de Seqncia referente ao caso de uso UC002 (Selecionar Dados

Gerados para Anlise) .............................................................................................................. 60

Figura 3.18 Diagrama de Seqncia referente ao caso de uso UC002 (Selecionar Dados

Gerados para Anlise) .............................................................................................................. 61

Figura 4.1 Prottipo da tela inicial do mdulo de minerao de dados................................. 65

Figura 4.2 Prottipo da tela de gerao de dados para o mdulo de MD .............................. 65

Figura 4.3 Prottipo da tela de selecionar dados gerados para anlise.................................. 66

Figura 4.4 Prottipo da tela de aplicar tcnicas de minerao de dados ............................... 66

Figura 4.5 Modelagem do Data Mart .................................................................................... 67

Figura 4.6 Figura apresenta o cdigo fonte da classe de integrao ClusteringEM .............. 69

Figura 4.7 Figura apresenta o cdigo fonte da classe de integrao ClusteringFarthestFirst 70

Figura 4.8 Figura apresenta o arquivo ARFF submetido ao algoritmo EM do WEKA ........ 71

Figura 4.9 Figura apresenta o resultado da aplicao do algoritmo EM do WEKA ............. 72

Figura 4.10 Figura do arquivo ARFF submetido ao algoritmo FarthestFirst do WEKA ...... 73

Figura 4.11 Figura mostra o resultado da aplicao do algoritmo FarthestFirst do WEKA . 73

Figura Apndice 1 Funo SQL do PostgreSQL para gerao de dados no DataMart ........ 81

Figura Apndice 2 Funo SQL do PostgreSQL que gera o arquivo para o relatrio de

agrupamento de atletas por efeito de fundamento .................................................................... 82

Figura Apndice 3 Funo SQL do PostgreSQL que gera o arquivo para o relatrio de

agrupamento de atletas por posio e efeito de fundamento .................................................... 82

LISTA DE TABELAS

Tabela 1.1 Jogos de jogadores e aproveitamento do fundamento bloqueio .......................... 21

Tabela 1.2 Classificao de dados do grau ............................................................................ 23

Tabela 1.3 Simples exemplo de agrupamento de informao ............................................... 24

Tabela 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo)............................................. 27

LISTA DE QUADROS

Quadro 3.1 Caso de Uso Gerar Dados para Anlise.............................................................. 51

Quadro 3.2 Caso de Uso Selecionar Dados Gerados para Anlise ....................................... 53

Quadro 3.3 Caso de Uso Aplicar Tcnicas de Minerao de Dados ..................................... 55

LISTA DE ABREVIATURAS E SIGLAS

MD Minerao de Dados

DM Data Mining

DCBD Descoberta de Conhecimento em Base de Dados

KDD Knowledge Discovery in Databases

OLAP On-Line Analytic Processing

SGBD Sistema de Gerenciamento de Banco de Dados

SUMRIO

INTRODUO ...................................................................................................................... 13

1 MINERAO DE DADOS ................................................................................................ 16 1.1 O processo de minerao de dados ................................................................................ 17

1.1.1 Definio do problema ........................................................................................ 18

1.1.2 Coleta dos dados .................................................................................................. 18

1.1.3 Pr-processamento dos dados .............................................................................. 19 1.1.4 Especificao do possvel mtodo ....................................................................... 20 1.1.5 Interpretao e anlise dos dados produzidos pelo mtodo ................................. 20

1.2 Principais mtodos de minerao de dados ................................................................... 21 1.2.1 Regras de Associao (Association Rules) .......................................................... 21

1.2.2 Classificao (Classification) .............................................................................. 22 1.2.3 Agrupamento (Clustering) ................................................................................... 24 1.2.4 Dados em sries temporais (Time-Series Data) ................................................... 26

1.2.5 Padres seqenciais (Sequential Patterns) .......................................................... 29

1.3 Ferramentas de Minerao de Dados ............................................................................ 30

1.3.1 WEKA ................................................................................................................. 30 1.3.2 RapidMiner .......................................................................................................... 31

2 SCOUT .................................................................................................................................. 33 2.1 Trabalho Correlato - Advanced Scout: Data Mining and Knowledge Discovery in NBA

Data 36 2.2 Utilizao de tcnicas de KDD em um call center ativo ............................................... 37

3 A PROPOSTA DE MDULO DE MINERAO .......................................................... 39 3.1 Especificao dos requisitos .......................................................................................... 47

3.1.1 Requisitos funcionais ........................................................................................... 47 3.1.2 Requisitos no funcionais .................................................................................... 48

3.2 Casos de Uso ................................................................................................................. 49

3.2.1 Diagrama de Casos de Uso .................................................................................. 50

3.2.2 Casos de Uso Estendidos ..................................................................................... 51

3.3 Diagrama de Classes ...................................................................................................... 58 3.4 Diagrama de Seqncia ................................................................................................. 60

4 PROTTIPO DO MDULO DE MINERAO DE DADOS ...................................... 62 4.1 Linguagem de Programao .......................................................................................... 62 4.2 Sistema de Gerenciamento de Banco de Dados ............................................................ 63 4.3 Ferramenta para Administrao do PostgreSQL ........................................................... 64 4.4 Modelagem do Mdulo de Minerao de Dados .......................................................... 64

4.5 Prottipo do Mdulo de Minerao de Dados ............................................................... 64 4.6 Preparao dos Dados Minerao de Dados ................................................................. 67

4.7 Classes de integrao Mdulo com o WEKA ............................................................... 68 4.8 Resultados ...................................................................................................................... 70

CONCLUSO ......................................................................................................................... 75

REFERNCIAS BIBLIOGRFICAS ................................................................................. 77

APNDICES ........................................................................................................................... 80

INTRODUO

Na atualidade, os sistemas de informao so requisitos bsicos para a tomada de

deciso automatizada, pois o processo decisrio apia-se na malha de sistemas de informao

de uma organizao (BINDER, 1994). A importncia da informao nas organizaes

aumenta de acordo com o crescimento da complexidade da sociedade e das organizaes, ou

seja, em todos os nveis organizacionais a informao um recurso fundamental (FREITAS et

al, 1997).

H muito tempo, existe a preocupao de como a informao processada, pois

segundo Martin (1984), h muitas situaes em que os gestores no recebem a informao de

que necessitam dos seus diversos sistemas. Binder (1994) alega que em um ambiente

propcio, a informtica torna-se til no processo de tomada de deciso, possibilitando

obteno de dados com melhor qualidade. Freitas (1997) afirma que a forma com que a

informao trabalhada deve ser observada, pois no pode haver risco que um usurio,

envolvido em processo decisrio, receba rudos em sua informao. A partir dessas

afirmaes, deve-se saber distinguir o que so dados e o que so informaes.

De acordo com (DAVIS; OLSON, apud FREITAS, 1997) os dados so a matria

prima da informao, so grupos de smbolos no aleatrios que representam quantidades,

aes, objetos, etc. Ainda, segundo o mesmo autor, a informao um dado que foi

processado de uma forma significativa para o usurio e seu valor real ou percebido no

momento, ou em aes prospectivas nas decises.

Binder (1994) aponta que a atividade mxima de um lder a tomada de deciso.

Esse o momento onde se demonstra toda sua capacidade de direcionar sua equipe e sua

razo de ser dentro de uma organizao. A tomada de deciso consiste, basicamente, na

14

escolha de uma opo entre diversas alternativas existentes, seguindo determinados passos

previamente estabelecidos e culminando na resoluo ou no de problema.

Na gesto de um time de voleibol, a todo o momento, a partir de uma quantidade

diversificada de informaes, decises importantes devem ser tomadas. Decidir onde um

jogador deve sacar, qual sua posio na quadra oferece maior rendimento, qual jogador

substituir e por quem, que tipo de treinamento deve ser realizado para apurar um atleta e/ou a

equipe toda (treino de fundamentos de voleibol, posicionamento, jogadas, saque, etc), enfim,

qual a melhor estratgia ou quais tticas utilizar so situaes as quais uma comisso tcnica

de voleibol deve estar atenta (ZAMBERLAM et al., 2005).

Por isso, existem sistemas estatsticos que auxiliam nessa tarefa, conhecidos como

scout. So sistemas que capturam e processam informaes estatsticas de desempenho dos

atletas da equipe e da equipe adversria. Porm, eles no levam em considerao o histrico

do jogador de toda uma temporada (comportamento do atleta em outros jogos) e o contexto de

uma partida de vlei, ou seja, o comportamento do atleta nos diferentes nveis da partida. Um

set (parte de uma partida) de vlei possui basicamente trs nveis. O terceiro nvel, prximo

do final, o de maior tenso em que o fsico e o emocional do atleta devem estar ajustados.

Dessa forma, os sistemas atuais, simplesmente, repassam dados para a comisso, que avalia

essa gama diversificada referente aos fundamentos bsicos do vlei e/ou jogadas realizadas

pela equipe adversria, num tempo extremamente reduzido e toma decises relacionadas com

aqueles dados relatados. Decises muitas vezes baseadas mais no conhecimento emprico do

tcnico ou da comisso do que no fator racional real daquela situao (ZAMBERLAM et al.,

2005).

A minerao de dados, ou data mining, entra nesse contexto para oferecer um

ambiente propcio e dados confiveis, pois atravs dela, existe o processo de seleo, de

explorao e de modelagem de dados em grande escala (GIUDICI, 2003).

O projeto de pesquisa A IA entrando na quadra de vlei: Scout Inteligente

(ZAMBERLAM et al., 2005) busca mostrar que equipes de voleibol no so diferentes no que

diz respeito ao processo de tomada de deciso, em que a comisso tcnica est

constantemente monitorando os jogadores e seu desempenho, a fim de decidir a melhor ttica

ou estratgia de jogo ou de treinamento. Sua proposta tem como foco descrever como tcnicas

de Inteligncia Artificial, que combinam agentes inteligentes e minerao de dados, podem

15

ser utilizadas para auxiliar a comisso tcnica. Esse projeto tem como objetivo final projetar e

construir um sistema de observao inteligente para a gesto de equipes de voleibol, a fim de

manipular e produzir conhecimentos especficos de forma quantitativa e qualitativa para o

processo de deciso, reduzindo assim o fator emprico e o tempo das decises.

Surge ento este trabalho, como parte do projeto de pesquisa acima citado. Portanto,

atravs da base de dados do sistema de scout, projetado por Raimann (2008), tambm parte

desse projeto, foi realizada a aplicao de tcnicas de data mining. Os resultados foram

analisados e a tcnica de data mining escolhida foi a de agrupamento. Espera-se, assim,

auxiliar professores e profissionais de Educao Fsica no ensino de gesto de equipes, bem

como a gesto de jogadores e tipos de treinamentos.

O trabalho foi dividido em quatro captulos, sendo que o primeiro trata sobre

Minerao de Dados, mostrando as principais tcnicas e aplicaes. O segundo aborda o

scout, ou seja, o sistema de avaliao de desempenho de atletas, apresentando o que esse

sistema, quais suas finalidades e como utilizado geralmente, tambm foram encontrados

alguns trabalhos correlatos nesse captulo. No terceiro captulo, apresenta-se a proposta de

mdulo de data mining em um sistema de scout. O quarto captulo apresenta o prottipo do

mdulo, e a aplicao da tcnica de agrupamento atravs de dois de seus algoritmos.

Finalmente, as consideraes finais e as referncias bibliogrficas.

1 MINERAO DE DADOS

A grande quantidade de dados armazenados em bancos de dados na atualidade um

problema de muitas empresas. Esse problema gera muitas dificuldades para organizaes em

geral, desde a aquisio de servidores que suportem a maior demanda de processamento,

passando por unidades de armazenamento enormes dificuldade em obter informaes

precisas. Dados de um relatrio de 2003 apontam uma populao de 6,3 bilhes de pessoas, e

que cada pessoa produz 800 megabytes por ano (CHARLES et al., 2003). Dentro desse

panorama existem tecnologias que podem fazer de um grande banco de dados uma fonte de

informaes at ento desconhecidas, obtendo assim uma vantagem competitiva. Uma dessas

tecnologias a Minerao de Dados (MD), tambm conhecida como Data Mining (DM).

De acordo com o dicionrio de Ferreira (1988), minerao significa explorao de

minas, a explorao de minas remete ao ato de descobrir preciosidades da Terra, assim a

minerao de dados busca essas preciosidades na forma de informao. Para Giudici (2003), a

associao de dados com essa palavra sugere uma pesquisa em profundidade para encontrar

informaes adicionais que, anteriormente passaram despercebidas na massa de dados

disponveis. O mesmo autor aponta que o termo minerao de dados foi formalizado por

Usama Fayyad, em 1995, na Primeira Conferncia Internacional de Descoberta de

Conhecimento e Minerao de Dados em Montreal. Esse evento considerado uma das

principais conferncias sobre o tema.

Segundo Feldens et al. apud Wives (2004) a minerao de dados uma etapa do

processo de Descoberta do Conhecimento em Banco de Dados (DCBD) mais conhecido por

Knowledge Discovery in Databases (KDD). Em (GOEBEL; GRUENWALD, apud WIVES,

2004) tambm observado que muitas vezes o termo minerao de dados utilizado como

sinnimo para todo o processo de descoberta de conhecimento, entretanto ela a etapa mais

importante, respondendo por 15 a 25 por cento do processo de descoberta. Cabena et al. apud

17

Gonchoroski (2007) aponta que a minerao de dados o processo de extrair informaes

vlidas antes desconhecidas, de grandes bases de dados, auxiliando em decises cruciais no

mundo dos negcios.

Para isso, data mining utiliza-se de tcnicas ou algoritmos de reas como

Aprendizado de Mquinas, Estatstica, Redes Neurais, Algoritmos Genricos, etc (ELMASRI;

NAVATHE, 2005). O mesmo autor aponta que a minerao de dados apia o conhecimento

indutivo, descobrindo novas regras e padres nos dados minerados. Para Kantardzic (2003),

os dois primeiros objetivos da minerao de dados so: a predio e a descrio. A predio

utiliza algumas variveis ou campos de um conjunto de dados para prever valores

desconhecidos ou futuros de outras variveis de interesse. A descrio concentra-se em

encontrar padres nos dados que possam ser interpretados por humanos.

Como a minerao de dados uma parte do processo de Descoberta do

Conhecimento em Banco de Dados, as etapas (Figura 1.1) devem ser realizadas antes de

aplicar-se alguma tcnica de data mining. Conforme Bramer (2007), os dados possivelmente

vm a partir de muitas fontes, esses dados devem ser integrados e/ou coletados e armazenados

em lugar comum. O prximo passo a preparao dos dados, ento aplicada alguma tcnica

de minerao de dados, que produz uma sada na forma de regras ou em algum tipo de padro.

Figura 1.1 Etapas que precedem a aplicao de tcnicas de Minerao de Dados

Fonte: Adaptado de BRAMER, 2007

Essas regras ou padres so tambm conhecidos como modos de descoberta, os mais

conhecidos so a descoberta de regras de associao, classificao, agrupamento, padres

seqenciais e padres em sries temporais.

1.1 O processo de minerao de dados

Para Kantardzic (2003) o processo de minerao de dados composto por cinco

fases. So elas: definio do problema; seleo e coleta dos dados; pr-processamento dos

18

dados; especificao de possvel mtodo; interpretao e anlise dos dados produzidos pelo

mtodo.

1.1.1 Definio do problema

Segundo Giudici (2003), nem sempre fcil de definir o fenmeno que se quer

analisar. Os objetivos e o problema da empresa ou equipe que so passados so claros, mas os

problemas subjacentes podem ser difceis de traduzir em objetivos a serem analisados.

Kantardzic (2003) aponta que a grande maioria das bases de dados existentes especfica para

os seus sistemas, o que requer experincia e domnio de um perito. Uma declarao clara do

problema e os objetivos a atingir so os pr-requisitos para a criao da anlise correta. Pode-

se utilizar, como exemplo no voleibol, os excessivos erros do fundamento saque, quando

realizada a anlise dos dados, pode-se concluir que o destino/alvo do saque tem sido sempre o

mesmo, assim a comisso tcnica interage com os jogadores para que mudem o destino/alvo

de seu saque. Nesse caso, fica explcito a definio do problema - porque erramos os

saques. Sendo assim, os estatsticos e os mineradores de dados (data miners) sabem onde

devem atuar - nos dados do fundamento saque, e extrair o mximo de informaes possveis

para a comisso tcnica.

1.1.2 Coleta dos dados

A principal preocupao dessa etapa a forma como os dados so gerados e/ou

coletados. Em geral, d-se de duas maneiras distintas: a primeira quando o processo est

sobre o domnio de um perito, em que o mesmo realiza a coleta; a segunda possibilidade

quando o perito no pode influenciar o processo de gerao de dados. Essa conhecida como

a abordagem observacional, e dados podem ser perdidos (KANTARDZIC, 2003). Um

exemplo pode ser visto no prprio voleibol, quando vrios scouters1 utilizam bases

independentes em seus laptos. Essas bases devem ser integradas para gerar a informao

correta. Nesses casos, a minerao normalmente aplicada aps os jogos.

1 Responsvel em realizar o scout.

19

1.1.3 Pr-processamento dos dados

Giudici (2003) divide essa tarefa em duas etapas. A primeira composta por seleo,

organizao e tratamento inicial dos dados. Nessa etapa so identificadas as fontes de dados,

em que o ideal que seja um armazm de dados (data warehouse) histrico que no esteja

sujeito a mudanas, facilitando a coleta de dados. Nela, tambm necessria uma limpeza

preliminar nos dados. A segunda etapa contm a anlise de dados e posterior transformao.

Aqui, desenvolvida uma anlise exploratria dos dados semelhante a tcnicas de OLAP,

uma anlise inicial da importncia dos dados pode levar a uma transformao das variveis

originais para melhor compreender o fenmeno, ou que pode levar a mtodos estatsticos em

que satisfaam objetivos especficos iniciais. Giudici (2003) afirma que fundamental essa

fase, pois permite ao analista prever mtodos estatsticos que possam ser mais adequados na

prxima fase. Utilizando-se do exemplo anterior (voleibol e bases independentes em

notebooks), uma base de dados tem vrias entidades: Clube; Cidade; Equipe; Jogador;

JogadorPartida; Sets; JogoSetRotacao; Movimento; Evento; Saque; etc, Nesse caso eliminar

entidades como Cidade e Clube e dados sobre ex-atletas da entidade Jogador seria

interessante. Os demais dados podem ser armazenados em um data warehouse, eliminando-se

possveis rudos na informao que ser gerada pela minerao de dados.

1.1.3.1 Armazm de Dados (Data Warehouse)

O armazm de dados uma coleo de dados orientada por assunto, integrada, no

voltil, variante no tempo, que d apoio s decises. Proporciona acesso aos dados para uma

anlise complexa, descoberta de conhecimento e tomada de deciso (ELMASRI; NAVATHE,

2005).

Alm do Data Warehouse existe o Data Mart (mercado de dados), que normalmente

uma parte extrada do Data Wharehouse. O Data Mart uma base de dados temtica

originalmente orientada para o campo do marketing (GIUDICI, 2003). O escopo confinado

aos assuntos especficos selecionados (HAN; KAMBER, 2006).

Um Data Mart pode ser criado (em algumas situaes com certa dificuldade) mesmo

quando no h nenhum sistema de armazm de dados (Data Warehouse) integrado. A criao

de estruturas de dados temticos como Data Marts representa o primeiro e movimento

fundamental para um ambiente informativo para a atividade da minerao de dados

(GIUDICI, 2003).

20

1.1.3.2 Processamento Analtico On-Line (OLAP)

De acordo com Barbieri apud Wagner (2008), o termo OLAP (On-line Analytical

Processing), traduzido para Processamento Analtico On-line, representa essa caracterstica de

se trabalhar os dados, com operadores dimensionais, possibilitando uma forma mltipla e

combinada de anlise. Elmasri e Navathe (2005) apontam que OLAP a anlise de dados

complexos a partir de um armazm de dados.

Han e Kamber (2006) sugerem a utilizao dessas trs tecnologias conjuntas,

afirmando que o armazm de dados pode ser empregado para a descoberta do conhecimento e

a tomada de deciso usando ferramentas da minerao de dados. Sendo necessrio assim trs

tipos de aplicaes do armazm de dados: processamento de informao, processamento

analtico (OLAP) e minerao de dados.

1.1.4 Especificao do possvel mtodo

A escolha do mtodo depende do problema a ser estudado ou o tipo de dados

disponveis. Os mtodos utilizados podem ser classificados de acordo com o objetivo da

anlise (GIUDICI, 2003). Esse processo no simples, a aplicao baseada em vrios

mtodos. Os principais mtodos ou tcnicas (descritos no captulo 1.2) e a seleo dos

melhores uma tarefa adicional (KANTARDZIC, 2003). Um possvel mtodo a ser utilizado

num mdulo de Data Mining para scout de Vlei o mtodo de agrupamento (Clustering),

aplicado no fundamento saque, em que os dados ficariam agrupados por faixas de

aproveitamento.

1.1.5 Interpretao e anlise dos dados produzidos pelo mtodo

O objetivo dos dados obtidos pelo mtodo ajudar a tomada de deciso. Empresas

ou equipes esportivas possuem peritos que podem analisar se os dados obtidos so ou no

interessantes para o tomador de deciso. Dessa maneira, pode-se descartar um determinado

mtodo que no gerou dados de relativo interesse. Vale observar que os mtodos de

interpretao mais fceis so os mtodos com menor preciso.

Finalizada a descrio das fases do processo de minerao de dados, indicadas por

Kantardzic (2003), segue uma contextualizao dos principais mtodos de minerao.

21

1.2 Principais mtodos de minerao de dados

Os mtodos ou tcnicas so, na verdade, algoritmos computacionais. Cada um desses

algoritmos tem caractersticas particulares, normalmente entradas e sadas especficas

(GONCHOROSKI, 2007). A seguir so apresentados os algoritmos mais utilizados.

1.2.1 Regras de Associao (Association Rules)

O objetivo encontrar qualquer relao existente entre os valores das variveis

(BRAMER, 2007). Para Kantardzic (2003), a tcnica de regras de associao uma das

principais tcnicas de minerao de dados. Atravs dela possvel recuperar todos os padres

interessantes em uma base de dados. A base de dados uma coleo de transaes, no

voleibol possvel elencar caractersticas semelhantes que podem ser identificadas atravs de

regras de associao. A Tabela 1.1 mostra os jogadores em quadra e o aproveitamento da

equipe no fundamento bloqueio.

Tabela 1.1 Jogos de jogadores e aproveitamento do fundamento bloqueio

IdJogo (Partida) iNumeroCamisetaJogador (em quadra) Bloqueio (Resultado)

1 2, 5, 6, 8, 10, 11 Excelente

1 1, 4, 5, 6, 8, 10 Regular

2 2, 3, 5, 8, 10, 11 Bom

2 1, 3, 4, 8, 9, 11 Pssimo Fonte: AUTOR, 2008

Uma regra de associao da forma X => Y, onde X = {x1, x2,..., xn} e Y = {y1,

y2,..., ym} so conjuntos de itens com xi e yi sendo distintos para todo i e todo o j. Essa

associao estabelece que quando o jogador X estiver escalado, ele estar propenso a jogar

com o Jogador Y. Caso este tambm estiver escalado na mesma equipe ou da equipe

adversria, um determinado bloqueador escalado para bloquear especfico atacante.

Normalmente essas regras de associao tm a forma LME (lado da mo esquerda) e LMD

(lado da mo direita), cada uma formando um conjunto de itens. Quando LME une-se a LMD

(LME LMD) tem-se o conjunto-item, que , no exemplo do voleibol, o conjunto de todos

os jogadores escalados. Para descobrir interesses nessa regra, ela precisa satisfazer algumas

medidas, as mais comuns fornecem suporte e confiana (ELMASRI; NAVATHE, 2005).

O suporte para a regra LME => LMD refere-se freqncia que ela ocorre no banco

de dados, ou seja, o percentual de transaes que contm todos os itens na prpria relao

LME LMD. Se o suporte baixo, implica que no existe evidncia significativa que os

22

itens LME LMD ocorram juntos. A confiana dessa regra calculada como o suporte

(LME LMD) / suporte (LMD). Pode-se assim analisar a possibilidade dos jogadores do

LMD sejam escalados juntos, dado que os jogadores do LME tambm sejam escalados pelo

tcnico (ELMASRI; NAVATHE, 2005).

Para exemplificar o suporte e a confiana, considere essas regras: Jogador 10 =>

Jogador 11 e Jogador 8 => Jogador 11. Observa-se na Tabela 1.1 que existem quatro

transaes de duas partidas de vlei: o suporte para {Jogador 10, Jogador 11} de 50%, e o

suporte de {Jogador 8, Jogador 11} 75%. J a confiana de Jogador 10 => Jogador 11 de

66,7%, ou seja, das trs vezes em que o jogador 10 escalado, duas tem a companhia do

jogador 11, e a confiana do Jogador 8 => Jogador 11 tambm de 66,7%.

Pode-se notar que o suporte e a confiana nem sempre so proporcionais. A meta

para as regras de associao gerar todas as possveis regras que excedam a especificao do

usurio garantindo suporte e confiana acima do limite definido (ELMASRI; NAVATHE,

2005). O principal algoritmo de regras de associao o algoritmo Apriori.

1.2.2 Classificao (Classification)

De acordo com Bramer (2007), a classificao uma das aplicaes mais comuns de

minerao de dados. Ela corresponde a uma tarefa que ocorre com freqncia na vida diria

do ser humano. Por exemplo, um hospital pode querer classificar pacientes mdicos naqueles

que esto em elevado, em mdio ou em baixo risco de adquirir uma determinada doena. J

uma pesquisa de opinio de votao pode desejar classificar as pessoas entrevistadas naquelas

que tendem a votar em um partido poltico ou so indecisos. Pode-se desejar classificar um

trabalho de um estudante com a distino, merec-lo, pass-lo ou reprov-lo. Apesar de

diferentes todos so exemplos de classificao.

Para Elmasri e Navathe (2005), a classificao o processo de encontrar um modelo

que descreva classes diferentes de dados. Essas classes so predeterminadas e essa atividade

tambm chamada de aprendizado supervisionado. Dado que esse modelo construdo, ele

pode ento ser usado para classificar novos dados. A primeira etapa do modelo de

aprendizado realizada usando um treinamento com um conjunto de dados que j foi

classificado, cada registro de dados desse treinamento possui um atributo, conhecido como

rtulo de classe, indicando a que classe o registro pertence.

23

O exemplo a seguir mostra uma situao tpica (Figura 1.2). Tem-se uma srie de

dados no formulrio de uma tabela que contm graus estudantes em cinco disciplinas (os

valores dos atributos TCI, BDII, INOVTEC, GERPROJ e TOPAVA) e em suas classificaes

totais do grau. Procura-se encontrar alguma maneira de predizer a classificao para outros

estudantes dados somente sua turma Perfil.

Tabela 1.2 Classificao de dados do grau

TCI BDII INOVTEC GERPROJ TOPAVA TURMA

A B A B B Segunda

A B B B B Segunda

B A A B A Segunda

A A A A B Primeira

A A B B A Primeira

B A A B B Segunda

A A B A B Primeira Fonte: Adaptado de BRAMER, 2007

Segundo Bramer (2007) existem vrias maneiras para fazer isto, incluindo as

seguintes:

Vizinho mais prximo de correspondncia (Nearest Neighbour

Matching): este mtodo confia em identificar (palavra) os cinco

exemplos que so "mais prximos", em algum sentido a um no

classificada. Se os cinco "mais prximos vizinhos" tm graus B, A, B, B

e B pode-se concluir razoavelmente que a nova instncia dever ser

classificada como 'Segunda'.

Regras de classificao (Classification Rules): Procura-se as regras que

pode-se predizer a classificao de um exemplo despercebido, segue

exemplos: SE TCI=A E TOPAVA=A ENTO TURMA=Primeira, SE

TCI=A E TOPAVA=B E BDII=B ENTO TURMA=Segunda ou ainda

SE TCI=B ENTAO TURMA=Segunda;

rvore da classificao (Classification Tree): uma forma de gerao de

regras de classificao por intermdio de estrutura chamada rvore de

classificao ou de uma deciso rvore, como a seguir:

24

Figura 1.2 rvore de Deciso de classificao de grau Fonte: Adaptado de BRAMER, 2007

1.2.3 Agrupamento (Clustering)

Uma dada populao de eventos ou novos itens podem ser particionados

(segmentados) em conjuntos de elementos padres (ELMASRI; NAVATHE, 2005). Bramer

(2007) confirma que os algoritmos de agrupamento analisam os dados para encontrar grupos

de itens que so semelhantes. Amostras de agrupamento so representadas como um vetor de

medies, ou, mais formalmente, como um ponto em um espao multidimensional. As

amostras de um agrupamento vlido so mais semelhantes (no necessariamente iguais) entre

si do que as amostras que pertencem a um agrupamento diferente (KANTARDZIC, 2003).

De acordo com Kantardzic (2003), a tcnica de agrupamento adequada para a

explorao de inter-relaes entre as amostras e para fazer uma avaliao preliminar da

estrutura da amostra. A Tabela 1.3 tem um simples exemplo de agrupamento de informao.

So doze atletas distribudos em trs agrupamentos. As caractersticas que descrevem esses

atletas so: o aproveitamento em percentual no fundamento bloqueio e o nmero de bloqueios

realizados.

Tabela 1.3 Simples exemplo de agrupamento de informao

Agrupamentos Aproveitamento Bloqueios Realizados Atletas

Agrupamento 1

100% 1 Jogador 1

90% 4 Jogador 3

80% 1 Jogador 6

Agrupamento 2

70% 20 Jogador 2, Jogador 9

60% 30 Jogador 4, Jogador5

50% 30 Jogador 8

Agrupamento 3

40% 10 Jogador 7

20% 3 Jogador11

0% 5 Jogador 10, Jogador 12 Fonte: AUTOR, 2008

25

Pode-se concluir que o Agrupamento 1 tem o melhor aproveitamento, mas

pouqussimos bloqueios foram efetuados por seus atletas. No Agrupamento 2, existe a melhor

mdia, pois vrios bloqueios foram efetuados. O Agrupamento 3 apresenta atletas que

possivelmente no tenham esse fundamento como principal caracterstica.

Para utilizar a tcnica de agrupamento, necessrio um critrio objetivo. Para

descrever esse processo preciso dominar os conceitos bsicos e o processo de agrupamento.

A entrada para uma anlise de agrupamento pode ser descrita como um par requisitado (X, s),

ou (X, d), onde X um jogo (descries das amostras), e s e d so medidas para a

similaridade ou a dissimilaridade (distncia) entre amostras, respectivamente. A sada uma

diviso = {G1, G2,, GN} onde Gk, k = 1,, N um subconjunto cristalino de X tal que G1

G2 ... GN = X, e Gi Gj = , i j. Assim os membros G1, G2,, GN de so

chamados de agrupamentos. Cada um dos agrupamentos descrito com algumas

caractersticas. Na descoberta, tanto o agrupamento (um conjunto de pontos distintos em X)

quanto suas caractersticas, so gerados como resultado de um procedimento de agrupamento

(KANTARDZIC, 2003).

Kantardzic (2003) aponta que a representao da descoberta por agrupamento pode

se dar por diferentes esquemas (Figura 1.3), os mais conhecidos so:

Representar o agrupamento dos pontos em um espao n-dimensional

(amostras) por seu centride ou por um conjunto de distantes (fronteira)

pontos em um agrupamento;

Representar graficamente usando um agrupamento de ns em um

agrupamento de rvore;

Representar agrupamentos, usando a expresso lgica de amostra de

atributos.

Figura 1.3 Exemplos de diferentes esquemas Fonte: KANTARDZIC, 2003

26

A vasta coleo de algoritmos de agrupamento disponveis na literatura e os

diferentes softwares confundem os usurios que tentam selecionar aproximaes mais

apropriadas para o seu problema. A maior parte dos algoritmos de agrupamento tem por base

as duas seguintes abordagens: agrupamento hierrquico e agrupamento particional iterativo.

As tcnicas hierrquicas organizam dados em uma seqncia aninhada dos grupos, que

normalmente so indicados atravs de uma estrutura de rvore. J os algoritmos particionais

tentam obter essa divisria que minimiza o espalhamento dentro do agrupamento ou

maximiza o espalhamento entre os agrupamentos. Esses mtodos no so hierrquicos porque

todos os agrupamentos resultantes so grupos das amostras no mesmo nvel da divisria

(KANTARDZIC, 2003).

1.2.4 Dados em sries temporais (Time-Series Data)

Para Elmasri e Navathe (2005) esses padres podem ser encontrados em posies de

uma srie temporal de dados, que uma seqncia de dados capturada a intervalos regulares

(segundos, horas, dias, semanas, etc). Han e Kamber (2006) confirmam dizendo que sries

temporais consistem em seqncias de valores ou medidas repetidas, excessivamente, em

intervalos de tempos. As aplicaes mais populares com base de dados de padres com sries

temporais so as de anlise da bolsa de valores, ndices econmicos, observao de

fenmenos naturais (tais como a atmosfera, a temperatura, o vento, o terremoto) e

experincias cientficas e da engenharia.

Com a distribuio crescente de um grande nmero de sensores, de dispositivos da

telemetria, e de outras ferramentas de levantamento de dados, a quantidade de dados em sries

temporais est aumentando rapidamente, freqentemente na ordem dos gigabytes por dia

(como o nmeros de negociaes na bolsa de valores) ou por minuto (como de programas do

espao da NASA). A minerao de dados em sries temporais tem o desafio de analisar tais

nmeros enormes de dados em sries temporais para encontrar os padres similares ou

regulares, tendncias rapidamente ou mesmo responder em tempo real (HAN; KAMBER,

2006).

No vlei, pode-se analisar o desempenho de atletas pelo tempo de jogo, e analisar

assim qual o tempo de jogo ideal para ele (perodo no set ou no jogo todo). Existem atletas

que jogam com um mesmo nvel a partida inteira, outros atletas tm um incio de alto nvel, e

no decorrer da partida o nvel cai, mas aps o perodo de estresse, o nvel volta a ser bom.

27

Outros que mantm um bom nvel durante boa parte da partida, mas depois o nvel cai e no

retorna mais. H de se considerar, aqui, tambm o aspecto emocional de cada atleta, no

apenas os nmeros. Na Tabela 1.4, podem-se ver os dois ltimos tipos de atletas citados e

seus desempenhos. Esse um exemplo ilustrativo apenas, j que em uma situao real o

volume de dados seria muito maior. Pode-se, tambm, dividir um set em fases (de 0 a 8

pontos, fase um; de 9 a 19, fase dois; e de 20 a 25, fase 3). Nessa diviso possvel perceber

os diferentes comportamentos dos atletas (qualidade da jogada, concentrao, obedincia

tcnica e ttica) devido ao aumento do estresse emocional do final do set.

Tabela 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo)

Atletas Tempo de Jogo (minutos)

5 min. 10 min. 15 min. 20 min. 30 min. 40 min. 60 min.

Jogador 01 100 % 80 % 70 % 60 % 40 % 50 % 80 %

Jogador 02 60 % 60 % 60 % 70 % 70 % 70 % 65 %

Fonte: AUTOR, 2008

Em geral, so dois os objetivos na anlise de sries temporais: modelagem das sries

temporais (isto , ganhar uma viso sobre os mecanismos subjacentes ou foras que geram as

sries temporais), e previso de sries temporais (isto , predizer os futuros valores do tempo

de sries de variveis), as tcnicas mais usadas so a anlise de tendncias e a pesquisa por

semelhana (HAN; KAMBER, 2006).

No voleibol, a anlise de tendncia parece ser a mais atrativa, j que a partir dos

dados histricos possvel traar tendncias de jogadas de equipes adversrias, e analisando

os dados da Tabela 1.4, pode-se visualizar a tendncia de aproveitamento dos atletas

conforme o tempo de jogo. Segundo Han e Kamber (2006) uma srie temporal que envolve

uma varivel Y, representando, por exemplo, o aproveitamento de uma atleta ao final de um

set ou partida, pode ser vista em funo do tempo t, isto , Y = F (t). Essa funo ilustrada

como um grfico de sries temporais, como mostrado na Figura 1.4, que descreve um ponto

em movimento com o passar do tempo.

28

Figura 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo) Fonte: AUTOR, 2008

Han e Kamber (2006) apontam que anlise de tendncia consiste nos quatro

componentes seguintes ou movimentos para caracterizar dados em uma srie temporal:

Tendncia ou movimentos em longo prazo: indicam o sentido geral em

que um grfico de srie temporal est se movendo sobre um intervalo

longo do tempo. Esse movimento indicado por uma curva da

tendncia, ou por uma linha da tendncia. Por exemplo, a curva da

tendncia de Figura 1.4 indicada por uma curva tracejada. Os mtodos

tpicos para determinar uma curva da tendncia ou uma linha da

tendncia incluem o mtodo de mdias mveis e o mtodo dos mnimos

quadrados;

Movimentos cclicos ou variaes cclicas: consultam as oscilaes em

longo prazo sobre uma linha ou uma curva da tendncia, que possam ou

no possam ser peridicas. Isto , os ciclos no necessitam

necessariamente seguir exatamente testes padres similares aps

intervalos iguais do tempo;

Movimentos sazonais ou variaes sazonais: so sistemticos ou

relacionados ao calendrio. Os exemplos incluem os eventos que

retornam anualmente, como o aumento repentino nas vendas dos

chocolates e das flores antes do dia de namorados ou aumento observado

29

no consumo da gua no vero devido ao calor. Nesses exemplos, os

movimentos sazonais so os testes padres idnticos ou quase idnticos

que uma srie de tempo parece seguir durante meses correspondentes de

anos sucessivos;

Movimentos irregulares ou aleatrios: caracterizam o movimento

espordico da srie de tempo devido aleatoriedade, tais como disputas

trabalhistas e as inundaes fazem parte desde tipo.

Para a anlise no vlei, a utilizao do primeiro movimento j proporciona

resultados, pois atravs dos resultados das mdias mveis j se observa a tendncia de

desempenho futura.

1.2.5 Padres seqenciais (Sequential Patterns)

Elmasri e Navathe (2005) apontam que a tcnica de padres seqenciais a

investigao de seqncias de aes ou eventos. Han e Kamber (2006) escrevem que uma

tcnica desafiadora, pois pode gerar e/ou testar um nmero combinatrio explosivo de

seqncias intermedirias. Para Sumathi e Sivanandam (2006), essa tcnica tem algumas

similaridades com a tcnica de regras, a diferena que faz exame da dimenso seqencial

dos dados analisados. O problema de minerao de dados em padres seqenciais foi

introduzido pela primeira vez por Agrawal e Srikant, em 1995, com base no seu estudo de que

cliente compra em seqncia. Segue um exemplo: dada uma relao de seqncias, em que

cada seqncia consiste em uma lista dos eventos (ou dos elementos) e cada evento consiste

em um conjunto de artigos. E dado um ponto inicial mnimo, especificado pelo usurio, da

sustentao do limite mnimo, os achados seqenciais da minerao do teste padro

freqentam subseqncias, isto , as subseqncias cuja freqncia da ocorrncia na relao

das seqncias no nenhum menos do que limite mnimo (HAN; KAMBER, 2006).

Esse problema foi motivado inicialmente por aplicaes na indstria do comrcio e

varejo, e de satisfao de cliente. Mas os resultados aplicam-se a muitos domnios cientficos

e de negcio. Por exemplo, no domnio mdico, uma seqncia dos dados pode corresponder

aos sintomas ou s doenas de um paciente, com uma transao que corresponde aos sintomas

exibidos ou s doenas diagnosticadas durante uma visita ao mdico. Os testes padres

30

descobertos usando os dados poderiam ser usados na pesquisa da doena ajudar identificar os

sintomas/doenas que precedem determinadas doenas (SUMATHI; SIVANANDAM, 2006).

No voleibol, essa tcnica pode ser utilizada para identificar o comportamento padro

de ataque ou defesa de equipes adversrias. Existem casos em que equipes tm jogadas

prontas, principalmente por caractersticas e/ou limitaes tcnicas de seus atletas. Essas

jogadas podem dar resultados positivos sempre que bem efetuadas, mas se a outra equipe

identificar esse padro de jogo durante a partida, pode se beneficiar e ganhar a partida, pois

estaria anulando a jogada de seu adversrio. Mas muitas vezes no identificada essa

seqncia padro de acontecimentos. Para exemplificar uma seqncia de jogada padro:

equipe A saca, jogador seis da equipe B recepciona e passa para jogador trs de sua equipe,

que levanta para o jogador cinco que efetua a cortada. Na prxima jogada tem-se a recepo

do jogador cinco, que passa para o jogador trs e recebe o levantamento para a cortada. Mais

uma jogada, mas agora quem recepciona o jogador dois que passa para o jogador trs que

levanta para o jogador cinco cortar. J possvel perceber uma seqncia padro nessas

jogadas. Toda vez que o jogador trs receber a bola, ele levantar sempre, ou na grande

maioria, para o jogador cinco fazer a cortada. Utilizando a tcnica de padres seqncias, esse

comportamento padro seria percebido no resultado da minerao. O suporte de confiana ou

limite mnino especificado pela comisso tcnica, nesse caso poderia ser: jogador cinco

recebe mais de dois levantamentos do mesmo jogador trs.

1.3 Ferramentas de Minerao de Dados

Existem vrias ferramentas de Minerao de Dados, as duas ferramentas escolhidas

foram o WEKA e o RapidMiner, nas prximas duas sees so abordados mais detalhes de

cada uma dessas ferramentas.

1.3.1 WEKA

Desenvolvido na Univesidade de Waikato, o WEKA (Waikato Enviroment

Knowledge Analysis) uma coleo de algoritmos da aprendizagem de mquina para tarefas

de minerao de dados. Esses algoritmos podem ser aplicados diretamente a uma srie de

dados ou serem chamados de seu prprio cdigo Java. O WEKA contm ferramentas para o

pr-processamento dos dados, a classificao, a regresso, o agrupamento, as regras da

associao e visualizao, tambm bem adequado para o desenvolvimento de novos

31

sistemas de aprendizagem. Atravs da interface grfica chamada Explorer possvel com

facilidade utilizar todas as funes atravs de menus de seleo. Por exemplo, possvel

rapidamente ler uma srie de dados de dentro um arquivo e construir uma rvore de deciso

(decision tree) dessa srie de dados, mas rvore de deciso apenas o comeo: h muitos

outros algoritmos disponveis a explorar (WITTEN; FRANK, 2005).

Para trabalhar as sries de dados, recomenda-se que converta a srie em arquivos do

formato ARFF (Attribute-Relation File Format). Esse formato um arquivo texto composto

por trs partes: relao, atributos e dados. Outra caracterstica do WEKA sua portabilidade

para outras aplicaes Java atravs de suas classes (SANTOS, 2005).

O WEKA tem sido usada em diversos trabalhos. Podem-se citar os trabalhos de

Gonchoroski (2007) e Wagner (2008), por ter explorado os principais algoritmos e tcnicas de

minerao de dados.

1.3.2 RapidMiner

RapidMiner (anteriormente Yale) um ambiente para aprendizagem de mquina e do

processo de minerao de dados desenvolvido na Universidade de Dortmund. O RapidMiner

introduz novos conceitos de manipulao de dados transparente e modelagem do processo que

facilitam a configurao do processo para usurios finais (MIERSWA et al., 2006).

Segundo Coelho (2008), sua operao se d por processos, isto significa que, para

realizar uma classificao de dados nesta ferramenta, necessrio incluir operadores para

cada processo que antecede a tarefa final desejada, sendo que alguns operadores possuem

parmetros configurveis. A lista de operadores, sua seqncia de execuo e parmetros so

armazenados em um arquivo XML para edio. O RapidMiner conta com diversos operadores

para as mais diversas finalidades de minerao de dados.

Mierswa et al. (2006) aponta que muito simples alcanar os dados de um SGBD

como Oracle, Microsoft SQL Server, PostgreSQL ou MySQL. O RapidMiner suporta uma

escala larga desses sistemas sem nenhum esforo adicional.

Aps essa breve conceituao e caracterizao da minerao de dados, suas tcnicas

e algumas ferramentas, chama a ateno que no existe uma tcnica que seja melhor que

outra. atravs da sua aplicao aos problemas que se ter uma avaliao de qual se encaixa

32

melhor ao problema definido. No caso de um sistema de scout, no diferente, devem ser

aplicadas tcnicas, a fim de analisar os resultados, para definir a melhor tcnica. No prximo

capitulo apresenta-se alguns conceitos e caractersticas dos sistemas scout.

2 SCOUT

A informtica est presente, cada dia mais, nas vidas das pessoas. Como no podia

ser diferente, est presente no esporte, onde existem sistemas de avaliao de desempenho de

atletas que so normalmente chamados por scout. Esse tipo de sistema, como apresentado na

Introduo, tem como funo capturar e processar informaes estatsticas de desempenho

dos atletas da equipe e da adversria, e que, em muitas vezes, no levam em considerao o

histrico do jogador em outros jogos e nem o comportamento do atleta nos diferentes

nveis/fases da partida. Dessa forma, os sistemas repassam dados para a comisso, que avalia

essa gama diversificada referente aos fundamentos bsicos do vlei e/ou jogadas realizadas

pela equipe adversria, num tempo reduzido e toma decises muitas vezes baseadas mais no

conhecimento emprico do tcnico ou da comisso do que no fator racional real daquela

situao (ZAMBERLAM et al., 2005).

Bizzocchi apud (RAIMANN, 2008) aponta que nos jogos olmpicos de 1984, os

norte-americanos foram os responsveis pela incluso do computador na quadra de voleibol,

tornando-se obrigatrio tambm para treinamentos e elaborao de planos tticos e tcnicos.

A seleo brasileira de vlei, comandada pelo tcnico Bernardo Rezende

(Bernardinho), utiliza-se dos dois scouts: ttico e tcnico. O ttico faz um mapeamento da

quantidade, do percentual e do tipo de jogadas do time adversrio; analisa tendncias dos

atletas (direes, preferncias e posicionamentos). O scout tcnico analisa o prprio time,

como cada atleta se comporta em cada fundamento, qual seu aproveitamento final. Isso

possibilita, por exemplo, elaborar quadros evolutivos de saque de um determinado atleta

(BERNARDINHO, 2006). A planilha, encontrada na Figura 2.1, foi apresentada pelo tcnico

da seleo brasileira, com o objetivo de exemplificar a utilizao da anlise estatstica nos

jogos da seleo. Essa planilha apresenta os dados coletados durante os Jogos Olmpicos,

34

realizado na Grcia, na data do dia 29 de agosto de 2004. O jogo em questo foi final dos

Jogos Olmpicos, realizado entre Brasil e Itlia.

Figura 2.1 Figura da tabela de anlise estatstica dos fundamentos de voleibol.

Fonte: BERNARDINHO, 2006

Esses dados so coletados durante a partida por um ou mais scouters. Antes da

informtica, os scouters coletavam esses dados em planilhas manuais, analisando os jogos

gravados em fitas de vdeo (VHS). Atualmente, os sistemas scouts permitem o armazenando

desses dados durante a partida, o processo de coleta de dados (ao longo do jogo) difcil, pois

a velocidade com que um jogo de vlei transcorre alta, ento normal que contenham erros

em seqncias de jogadas. Alguns sistemas scouts possuem regras que no permitem erros

primrios, por exemplo, depois de um saque ocorrer um levantamento da equipe adversria

sem ocorrer uma recepo.

De posse dos dados, os estatsticos das equipes comeam a fazer os estudos para

apresentarem para suas comisses tcnicas, emitindo, assim, relatrios estatsticos comisso

tcnica, que por sua vez faz uma anlise emprica em cima dos dados que a mesma considera

importantes. No calor de uma partida, dados podem ser interpretados de maneira

equivocada, proporcionando tomadas de decises equivocadas. Esses estudos so realizados

antes, durante e aps a partida (RAIMANN, 2008).

Bernardinho (2006) aponta que ao analisar a Figura 2.1, a relao total de saques-

errados / saques-pontos tem um saldo muito positivo, pois a equipe teve 10 saques errados,

mas, fez nove aces (pontos obtidos direto do saque). Avaliando a coluna bloqueio (BLOK),

possvel distinguir entre bloqueio-ponto (BP) e bloqueio para contra-ataque (BC), ou seja,

aqueles que propiciam contra-ataques so bloqueios defensivos extremamente importantes.

muito freqente, durante os jogos, ocorrerem um nmero pequeno de BP, mas um nmero

35

elevado de BC. So avaliados ainda os passes, a qualidade de cada ao e a proporo de

passes acertos (PA), ditos perfeitos sobre o total de aes, Bernardinho (2006) afirma que as

colunas de contra-ataque mostram talvez o ponto menos eficiente do jogo. Do total de contra-

ataques (29), 14 foram convertidos em pontos, ou seja, 48% de aproveitamento. Observa-se

tambm a grande atuao do atleta Gustavo, camisa 13, com 100% de aproveitamento. A

coluna E aponta erros cometidos sem relao com as aes anteriormente avaliadas: mo na

rede, dois toques, etc. J a coluna APV mede o aproveitamento individual de cada jogador:

pontos efetuados pontos concedidos.

Alm do sistema da seleo brasileira, que foi criado pela estatstica Roberta Giglio,

existem outros sistemas scouts. Os mais conhecidos, de acordo com Raimann (2008), so:

Scout Graph 1.0: sistema scout proprietrio da empresa SFW

Informtica tem como funes armazenar dados de jogos especficos e

gerar relatrios para uma anlise mais precisa de cada equipe, atleta ou

fundamento, um sistema portvel a outros esportes como futebol,

futebol de salo, basquete, voleibol e handebol;

SisVolei: sistema scout proprietrio e atravs dele possvel analisar

todos os fundamentos do vlei, sendo eles: saque, passe (recepo),

levantamento, ataque, bloqueio e defesa, voltado ao voleibol apenas;

Data Volley: sistema scout proprietrio desenvolvido pela empresa

DataProject permite monitorar todos os fundamentos do voleibol, com

uma avaliao completa, que inclui, alm do sentido, o tipo de ataque e

as zonas de partida e de chegada, at mesmo, informaes especficas

como o nmero de jogadores em bloco e o tipo de erro, alm disso,

possui integrao com outros sistemas da empresa como o Data Video

2007 que permite sincronizar, o scout com o filme do jogo, facilitando

assim o estudo e entendimento dos atletas, apresentando

posicionamentos em funo das possveis alteraes de jogadores da

equipe adversria. A maioria das grandes selees de vlei utiliza esse

sistema.

36

Raimann (2008) aponta como clara a importncia dos Sistemas de Monitoramento

para auxiliar na tomada de deciso quando aplicada a esportes como o vlei. Por exemplo,

jogadas velozes combinadas com boa ttica, posicionamento correto e anlise do adversrio,

podem ser decisivos para a vitria do jogo e at mesmo do campeonato.

O scout desenvolvido por Raimann (2008) tem as seguintes caractersticas: no um

sistema proprietrio, possui cadastro de jogos, cadastro de sets, cadastro de rotao inicial do

set, o mdulo de entrada de dados de um jogo, em que os fundamentos so cadastrados na

forma de caracteres. Com a finalidade de tornar mais rpida a entrada de dados, foi proposta

uma gramtica para anlise de comandos suprindo as necessidades de velocidade no cadastro

das jogadas. A gramtica de comandos foi criada de forma a ser mais completa, mas para o

sistema scout aborda somente a entrada de dados relativa aos fundamentos do voleibol.

Enfim, aps a descrio de um sistema scout, segue a apresentao de um sistema

scout (para o basquete) que se utiliza da minerao de dados.

2.1 Trabalho Correlato - Advanced Scout: Data Mining and Knowledge Discovery in NBA Data

Em (BHANDARI et al.,1997), apresentado o software Advanced Scout (AS). Esse

sistema procura e descobre padres interessantes em dados de jogos da NBA (liga norte-

americana de basquete). Sua primeira utilizao se deu na temporada 1995-1996, onde

dezesseis das vinte e nove equipes o receberam para avaliao. As comisses tcnicas o

avaliaram positivamente, afirmando ser uma valiosa ferramenta. Esse software trabalha em

quatro etapas: coleta de dados, pr-processamento, minerao de dados e interpretao do

conhecimento descoberto.

A coleta de dados feita por um software especialmente desenhado para o registro

de dados de basquete. Esses dados so armazenados em uma base de dados comum a todas as

equipes. Posteriormente, as equipes realizam o download dessa base de dados e a manipulam

de forma independente e sigilosa.

O pr-processamento feito aps o download da base de dados. O AS permite

realizar uma srie de consistncias na base de dados, visto que informaes errneas

permitiriam interpretaes erradas dos dados, assim os dados errados so corrigidos por meio

de regras base ou atravs de algum que tenha domnio do assunto. Aps a consistncia, os

37

dados so transformados e reformatados. Os dados brutos so reformatados na forma de

fichas de jogo, que so familiares para as comisses tcnicas que, assim, analisam os eventos

discretos (padres) de um jogo. Nessa fase os dados so enriquecidos atravs da verificao

das regras ou da entrada de dados adicionais.

A minerao de dados no AS ocorre quando um membro da comisso tcnica inicia

uma consulta geral. Automaticamente a minerao de dados procura por padres interessantes

na equipe da casa ou na visitante, em busca dos arremessos cesta de basquete (um dos

fundamentos do basquete, por exemplo), detectando o percentual padro de desempenho

(aproveitamento). As anlises posteriores podem incluir consultas mais especficas em torno

de atributos (como por exemplo, o jogador, a funo do jogador, lado da quadra, etc.) ou

fundamentos particulares (rebote, arremesso, etc.). A tcnica de minerao de dados utilizada

no AS conhecida como Attribute Focusing (AF) (BHANDARI, 1995).

A interpretao do conhecimento descoberto a forma como o resultado da

minerao de dados mostrada. No AS, os resultado so vistos de duas formas: atravs de

uma descrio textual ou grfica. O objetivo que os resultados sejam compreendidos

facilmente pela comisso tcnica. O processo de interpretao de padres representa a

descoberta de conhecimento e exige, normalmente, algum que tenha domnio do assunto.

Essa interpretao facilitada pela possibilidade do usurio ter vrias formas de aprofundar a

anlise interativamente para obter informaes adicionais ao resultado.

A seguir, a descrio de um trabalho, fora do domnio de sistemas de scout, mas que

colaborou na realizao deste trabalho.

2.2 Utilizao de tcnicas de KDD em um call center ativo

O Trabalho de Concluso de Curso apresentado por Gonchoroski (2007), mostrou

que o fato de Call Center no possuir nenhuma tcnica de minerao de dados pode significar

um mau aproveitamento dos dados disponveis. Uma vez que o emprego de minerao

confirmou a existncia de informaes importantes que no estavam disponveis na

visualizao dos dados, que dizem respeito relao entre as caractersticas dos clientes e o

resultado do contato. Como so vrios os fatores que influenciam as vendas, importante a

combinao de mais de uma caracterstica do cliente, e isso pode ser fundamental para definir

o perfil da pessoa que mais adquire produtos.

38

O foco da aplicao das tcnicas de Descoberta de Conhecimento em Base de Dados

(DCBD) ou Knowledge Discovery in Databases (KDD) desse trabalho foi a venda de ttulos

de capitalizao, pois grande quantidade de atributos presentes em cada registro de cliente a

ser contatado, crescendo a possibilidade de aumentar o grau de qualidade e diversidade das

informaes geradas. A tcnica de KDD escolhida foi a de classificao. As rvores de

classificao tornaram possvel organizar os atributos e a relao entre eles, para os contatos

com venda ou recusa. O software de minerao utilizado foi WEKA verso 3, que possui

todas as funcionalidades necessrias para aplicar KDD e dar todo o suporte para que os dados

sejam minerados. A aplicao de tcnicas de KDD permitiu conhecer os perfis dos

compradores em potencial dos produtos, possibilitando unir o conhecimento adquirido pelos

analistas de informaes da empresa de telemarketing e o conhecimento descoberto com a

minerao, auxiliando a seleo mais eficiente dos prospectos, aumentando as vendas e

reduzindo a quantidade de contatos telefnicos com os clientes.

Aps apresentar esses trabalhos correlatos mostrando a influncia da Data Mining

sobre os Sistemas de Tomada de Deciso, no prximo captulo apresentada a proposta de

um Mdulo de Data Mining para o sistema scout de Raimann (2008).

3 A PROPOSTA DE MDULO DE MINERAO

Um sistema scout, como j escrito, um sistema estatstico de monitoramento de

atletas, auxiliando em decises importantes na gesto de equipes. Entretanto, a quantidade de

informaes continua muito grande, deixando o processo de decidir dependente da

experincia do tcnico ou de algum integrante da comisso tcnica.

Solieman (2006) aponta que h igualmente muitos tipos de estatsticas que so

recolhidas para cada atleta. Por exemplo, um jogador de basquetebol ter dados para pontos,

rebotes, assistncias, roubadas e bloqueios para cada jogo. Isso pode conduzir sobrecarga de

informao para aqueles que tentam derivar o significado das estatsticas. Assim, os esportes

so ideais para ferramentas e tcnicas da minerao de dados.

A vantagem para equipes esportivas quando utilizam a minerao de dados est no

desempenho resultante de suas equipes e respectivos jogadores. Alguns esportes so

atualmente mais avanados do que outros, em especial no caso do voleibol e de seu uso atual

da anlise estatstica.

Por isso, surge a idia deste trabalho - desenvolver um mdulo de minerao de

dados para o sistema: Scout: Sistema de Monitoramento em Equipes de Voleibol

desenvolvido por Raimann (2008), parte integrante do projeto de pesquisa A IA entrando na

quadra de vlei: Scout Inteligente (ZAMBERLAM, 2005). Para facilitar a visualizao, a

Figura 3.1 ilustra o que est sendo realizado e como o mdulo de minerao far parte do

sistema scout.

40

Figura 3.1 Esquema geral do scout inteligente

Fonte: ZAMBERLAM, 2005

O mdulo de minerao interage com a base de dados, destacado com crculo na

Figura 3.1, fornecendo informaes mais precisas comisso tcnica, evitando assim o uso de

complicadas planilhas, pois existem grandes dificuldades nas leituras dessas planilhas. Os

dados que so inseridos no passam por nenhuma filtragem, no saltam aos olhos os

problemas ou as vantagens das equipes na partida.

Na Figura 3.2 possvel visualizar parte da estrutura do banco de dados do sistema

de scout desenvolvido por Raimann (2008), a fim de ilustrar em quais dados a minerao

dever atuar. Para armazenar os dados de maneira mais eficiente, foram feitas algumas

alteraes na base de dados original. As alteraes foram a incluso do campo Tempo na

tabela de Movimento, para saber em qual momento do jogo ocorreu o movimento; a outra foi

a inverso das cardinalidades entre as tabelas Movimento e Evento, onde um movimento ter

N eventos at a concluso do ponto. E entre tabelas Evento, Saque, DefesaPasse,

Levantamento, Cortada e Bloqueio, onde cada evento representa um fundamento at a

concluso do movimento. Essa alterao pode ser vista na Figura 3.3.

41

Figura 3.2 Modelagem do banco de dados do sistema scout

Fonte: RAIMANN, 2008

42

Figura 3.3 Modelagem do banco de dados alterada

Fonte: Autor, 2008

43

Atravs dessa estrutura do banco de dados, possvel perceber a quantidade de dados

que uma partida de voleibol pode gerar. Por meio do diagrama de atividade apresentado na

Figura 3.4, pode-se visualizar como o sistema de scout se comporta.

Figura 3.4 Diagrama de Atividade do sistema scout de Raimann (2008)

Fonte: Autor, 2008

De forma simplificada, pode-se dizer que o processo de scout de uma partida

propriamente dito, inicia a partir do cadastro de jogos, para cada jogo so cadastrados todos os

jogadores (duas equipes por partida) que ficaro disponveis para a disputa. O prximo passo

44

cadastrar os sets e quais sero os fundamentos (saque, bloqueio, etc.) que sero analisados.

Ao inicializar cada set so informados os jogadores que entram em quadra. Esse o cadastro

de rotao inicial, tambm deve ser sinalizado qual o jogador sacador, por meio desses

dados que ser controlada a rotao do jogo, que realizada automaticamente pelo sistema. A

partir desse ponto, os scouters (pessoas que ficam na quadra cadastrando cada jogada e

substituies ocorridas durante a partida) do a entrada de dados do jogo.

Conforme Raimann (2008), esses dados so gravados na forma de caracteres, com o

objetivo de tornar mais rpida a entrada de dados. Cada fundamento e sua seqencia de

caracteres so separados por ponto e vrgula. Abaixo descrito e ilustrado a seqncia de

fundamentos executados em uma partida e como os dados devem ser inserido dentro do

sistema scout de Raimann (2008).

O fundamento saque armazena: nmero da camiseta do jogador, posio em que fez

o saque, tipo de saque, direo em que fez o saque, efeito do saque e observaes. Na Figura

3.5 possvel visualizar o Mapa Conceitual desse fundamento.

Figura 3.5 Mapa Conceitual do Fundamento Saque


Os fundamentos defesa e passe armazenam as seguintes informaes: nmero da

camiseta do jogador, posio em que fez a defesa, tipo de defesa, efeito da defesa e

observaes, Figura 3.6 apresenta seu mapa conceitual.

45

Figura 3.6 Mapa Conceitual dos Fundamentos Defesa/Passe


O fundamento levantamento armazena: nmero da camiseta do jogador, posio em

que fez o levantamento, forma de levantamento, qualidade do levantamento, direo do

levantamento e observaes, veja seu mapa conceitual (Figura 3.7).

Figura 3.7 Mapa Conceitual dos Fundamentos Levantamento


No fundamento de ataque cortada, os dados so os seguintes: nmero da camiseta do

jogador, posio em que fez a cortada, direo da cortada, efeito da cortada, velocidade da

cortada e observaes, detalhes dos dados Figura 3.8.

46

Figura 3.8 Mapa Conceitual dos Fundamentos Cortada


Fundamento de defesa bloqueio armazena essas informaes: nmero da camiseta do

jogador, posio em que fez o bloqueio, tipo de bloqueio, efeito do bloqueio e observaes,

detalhes dos dados Figura 3.9.

Figura 3.9 Mapa Conceitual dos Fundamentos Bloqueio


So essas as informaes que o mdulo de Data Mining vai analisar, pois atravs

de dados como o nmero do jogador que ser analisado o desempenho do mesmo em um set

ou em uma partida. A posio de cada fundamento essencial para analisar as preferncias

dos jogadores e tambm pontos fracos dos mesmos. O efeito a conseqncia do fundamento,

que uma numerao de 0 a 3, onde zero erro do fundamento, gerando assim ponto para o

47

adversrio, 1 continuidade negativa, pois possibilita ao adversrio um contra ataque, 2 uma

continuidade positiva pois gerou dificuldades ao adversrio e 3 e ponto direto da equipe.

Alguns fundamentos tm outras informaes relevantes, como a direo comum a

saque, levantamento e cortada. O fundamento de defesa/passe ainda conta com informao

sobre o tipo de defesa/passe. No levantamento a forma e a qualidade so informaes

imprescindveis. Na cortada a velocidade pode ser um fator relevante e no bloqueio seu tipo

a informao mais importante. Essas informaes vo passar por um tratamento, que ser a

etapa da preparao de dados que est inserida no captulo 4.

Uma vez contextualizado os dados a serem manipulados pelo mdulo proposto,

seguem os detalhes da modelagem.

3.1 Especificao dos requisitos

De acordo com Guedes (2008); a especificao de requisitos de software contm e

descreve os requisitos, ou seja, define o produto e pode servir como um documento auxiliar

no contrato de desenvolvimento do produto. As sees que seguem, referentes modelagem,

foram baseadas nas orientaes encontradas em (MEDEIROS, 2004).

3.1.1 Requisitos funcionais

Conforme Guedes (2008) os requisitos funcionais so declaraes de funes que o

sistema deve fornecer, como o sistema deve reagir a entradas especficas e como deve se

comportar em determinadas situaes.

REQF1 [Controlar Acesso ao Sistema]

Requisito corresponde ao controle de acesso s opes do site: caso o usurio esteja

com o status bloqueado ele no ter acesso a nenhuma opo no sistema, herdado do sistema

proposto por Raimann (2008).

Classificao: Essencial

48

REQF2 [Gerar Dados para Anlise]

Requisito que corresponde a gerar dados para anlise para o mdulo de Minerao de

Dados. Deve constar: data e hora da gerao dos dados. atravs desse requisito que so

executados os primeiros passos da minerao de dados, onde os dados da base de dados

original so selecionados e inseridos no Data Mart, esses dados ganham um cdigo e data e

hora de gerao para futuras comparaes histricas. Esse procedimento ser realizado

atravs de comandos SQL (select, insert) que sero colocados em uma funo do PostgreSQL,

essa executada a partir do site da aplicao.


REQF3 [Selecionar Dados Gerados para Anlise]

Requisito que corresponde a consultar os dados para anlise para o mdulo de

Minerao de Dados. Atravs de uma lista de cdigos, data e hora o usurio selecionar a

gerao desejada para a minerao de dados.


REQF4 [Aplicar Tcnicas de Minerao de Dados]

Requisito que corresponde a aplicao das tcnicas de minerao de dados na

consulta selecionada no REQF3, esse requisito consiste nos demais passos da minerao de

dados, nesse requisito que so gerados os arquivos ARFF para serem submetidos s classes

selecionadas do WEKA.


3.1.2 Requisitos no funcionais

Guedes (2008) afirma que so restries sobre os servios ou as funes oferecidas

pelo sistema. Entre eles, destacam-se restries de tempo, restries sobre o processo de

desenvolvimento, padres e outros.

49

REQNF1 [Utilizao de Banco de Dados Relacional]

Requisito que corresponde a utilizao de um banco de dados relacional. Vai manter-

se a utilizao do PostgreSQL.


REQNF2 [Base de dados Alimentada]

A base de dados do sistema desenvolvido por Raimann (2008) deve estar alimentada

com dados de pelo menos cinco jogos envolvendo uma determinada equipe para que os

resultados da minerao de dados sejam proveitosos efetivamente.


REQNF3 [Links/cones/Botes para Acesso s Principais Funes]

Requisito corresponde ao acesso s principais funes por meio de links/cones.

Facilitando assim a utilizao do sistema.


REQNF4 [Java Virtual Machine]

Requisito corresponde execuo do mdulo.


3.2 Casos de Uso

Para Guedes (2008) o diagrama mais geral da UML2, utilizado na maioria das

vezes nas fases de levantamento e anlise de requisitos do sistema, tambm utilizado

durante todo o processo de modelagem e serve como base para outros diagramas, fornecendo

uma compreenso comum entre todos os envolvidos no projeto.

2 UML: Unified Modeling Language ou simplesmente Linguagem de Modelagem Unificada.

50

3.2.1 Diagrama de Casos de Uso

O diagrama apresenta uma macro atividade do sistema, descrevendo/detalhando as

opes que o sistema disponibilizar. Tambm busca identificar os atores que executam

atividades, bem como outros sistemas que possam interagir com o sistema. Para Medeiros

(2004) um Ator pode ser uma pessoa, um sistema ou mesmo uma entidade externa.

Na Figura 3.10 apresentado um diagrama geral do sistema scout e onde o mdulo

de Minerao de Dados entra. A Figura 3.11 detalha as opes que o mdulo de Minerao,

assim como os Atores que tero interao com o mesmo.

Figura 3.10 Diagrama de Caso de Uso geral

Fonte: AUTOR, 2008

51

Figura 3.11 Diagrama de Caso de Uso geral do mdulo de Minerao de Dados

Fonte: AUTOR, 2008

3.2.2 Casos de Uso Estendidos

So utilizados para detalhar de forma mais precisa as interaes entre os usurios e o

mdulo de minerao de dados. Lembrando que essa estrutura foi baseada em (MEDEIROS,

2004).

UC001 Gerar Dados para Anlise

Breve Descritivo: Este caso de uso descreve o processo de Gerar Dados para

Anlise.

Quadro 3.1 Caso de Uso Gerar Dados para Anlise

Requisitos Funcionais: REQF1 [Controlar Acesso ao Sistema]

Requisitos No Funcionais: REQNF1 [Utilizao de Banco de Dados Relacional]



52


Atores: Usurio Administrador.

Pr-condies: Ser um usurio com permisses de administrador.

Fluxo Principal: O administrador acessa o mdulo de minerao de

dados e clica na opo gerar dados para anlise.

Campo: data e hora da gerao.

Subfluxo:

1. Gerar Dados.

Subfluxos: 1. Gerar Dados:

1.1 O administrador informa a data e a hora da nova gerao;

1.2 O administrador clica no boto/link Gerar Dados;

1.3 O mdulo verifica os dados e sugere um cdigo para a nova gerao;

1.4 O mdulo executa a funo do PostgreSQL (Figura Apndice 1) que seleciona os dados na

base de dados original e os insere no Data

Mart, essa etapa no processo de minerao de

dados equivale a preparao dos dados;

1.5 O mdulo retorna a mensagem: Dados gerados com sucesso..

Tratamento de Excees: 1.3.1 Verifica se os dados foram preenchidos

corretamente. Caso no estejam ele retorna a

mensagem de erro Dados para gerao no informados..

1.3.2 Caso o banco de dados no responda a

requisio ele retorna a mensagem de erro Banco indisponvel..

Ps-condies: Os usurios administrador, scouter, restrito estaro

aptos a consultar os dados gerados para anlise.

Fonte: Autor, 2008.

O Diagrama de Atividade referente gerar dados para anlise apresentado na

Figura 3.12. importante ressaltar que o uso de diagramas de atividades com casos de usos

estendidos auxilia na validao dos fluxos, subfluxos e excees descritas nos casos de uso.

53

Figura 3.12 Diagrama de Atividade referente a gerar dados para anlise

Fonte: AUTOR, 2008

UC002 Selecionar Dados Gerados para Anlise

Breve Descritivo: Este caso de uso descreve o processo de Selecionar Dados

Gerados para Anlise.

Quadro 3.2 Caso de Uso Selecionar Dados Gerados para Anlise




54




Atores: Usurio Administrador, Scouter e Restrito.

Pr-condies: Ser um usurio cadastrado no sistema.

Ter dados gerados para consulta.

Fluxo Principal: O usurio acessa o mdulo de minerao de dados e

clica na opo selecionar dados gerados para anlise.

Campos: Data Incio e Data Fim

Subfluxo:

1. Consultar Geraes;

2. Selecionar Gerao.

Subfluxos: 1. Consultar Geraes:

1.1 O usurio informa a data e hora de incio e fim da gerao que deseja realizar anlises;

1.2 O usurio clica no boto/link Consultar Geraes;

1.3 O mdulo carrega os dados em uma tabela, listados com o cdigo, data e hora de sua

gerao alm da coluna selecionado;

2. Selecionar Gerao:

2.1 O usurio seleciona a gerao desejada clicando sobre o boto de checagem da coluna

selecionado;

2.2 O usurio clica no boto/link Salvar Informaes;

2.3 O mdulo grava as informaes no banco de dados;

2.4 O mdulo retorna a mensagem: Dados salvos com sucesso..

Tratamento de Excees: 1.3.1 e 2.3.1 Caso o banco de dados no responda a


Ps-condies: Os usurios estaro aptos a aplicar as tcnicas de MD.

Fonte: Autor, 2008.

Figura 3.13 apresenta o diagrama de atividade, a fim de contemplar o caso de uso

estendido.

55

Figura 3.13 Diagrama de Atividade referente a selecionar dados gerados para anlise

Fonte: AUTOR, 2008

UC003 Aplicar Tcnicas de Minerao de Dados

Breve Descritivo: Este caso de uso descreve o processo de Aplicar Tcnicas de

Minerao de Dados.

Quadro 3.3 Caso de Uso Aplicar Tcnicas de Minerao de Dados



56

REQF3 [Selecionar Dados Gerados para Anlise]





Atores: Usurio Administrador, Scouter e Restrito.

Pr-condies: Ser um usurio cadastrado no sistema.

Ter selecionado dados para a anlise.

Fluxo Principal: O usurio acessa o mdulo de minerao de dados e

clica na opo aplicar tcnicas de minerao de dados.

Subfluxo:

1. Relatrio de Agrupamento de Atletas por Efeito de Fundamento;

2. Relatrio de Agrupamento de Atletas por Posio e Efeito de Fundamento.

Subfluxos: 1. Relatrio de Agrupamento de Atletas por Efeito de Fundamento:

1.1 Usurio clica no boto/link Agrupamento de Atletas por Efeito de Fundamento;

1.2 O mdulo atravs de uma funo do PostgreSQL (Figura Apndice 2) gera o

arquivo ARFF e o grava no disco rgido;

1.3 O mdulo, atravs da classe de integrao ClusteringEM carrega o arquivo ARFF e

submete a classe EM do WEKA atravs do

mtodo buildClusterer, depois o retorno lido

pela classe de integrao atravs do mtodo

getNumClusters da classe ClusterEvaluation;

1.4 Esse retorno tratado para que os dados sejam de fcil entendimento da comisso tcnica;

2. Relatrio de Agrupamento de Atletas por Posio e Efeito de Fundamento:

2.1 Usurio clica no boto/link Agrupamento de Atletas por Posio e Efeito de Fundamento;

2.2 O mdulo atravs de uma funo do PostgreSQL (Figura Apndice 3) gera o

arquivo ARFF e o grava no disco rgido;

2.3 O mdulo, atravs da classe de integrao ClusteringFarthestFirst carrega o arquivo ARFF

e submete a classe FarthestFirst do WEKA

57

atravs do mtodo buildClusterer, depois o

retorno lido pela classe de integrao atravs

dos mtodos getNumClusters e toString da

prpria classe ClusterEvaluation FarthestFirst;

2.4 Esse retorno tratado para que os dados sejam de fcil entendimento da comisso tcnica.

Tratamento de Excees: 1.2.1 e 2.2.1 Caso o banco de dados no responda a


Ps-condies: Os usurios administrador, scouter, restrito estaro

aptos analisar relatrio das tcnicas aplicadas.

Fonte: Autor, 2008.

Figura 3.14 apresenta o diagrama de atividade, como forma de validar o caso de uso

estendido.

Figura 3.14 Diagrama de Atividade referente a aplicar tcnicas de minerao de dados

Fonte: AUTOR, 2008

58

3.3 Diagrama de Classes

Guedes (2008) aponta que o principal objetivo do diagrama de classes apresentar

quais classes vo compor o mdulo com seus respectivos atributos e mtodos, alm de

demonstrar como as classes se relacionam. Na seguir (Figura 3.15) apresentado o diagrama

de classes do mdulo proposto.

59

Figura 3.15 Diagrama de Classes referente a integrao do mdulo MD e o WEKA

Fonte: AUTOR, 2008

60

3.4 Diagrama de Seqncia

Medeiros (2004) afirma que esse diagrama pode ser usado para mostrar a evoluo

de uma dada situao em determinado momento do software, mostrar uma dada colaborao

entre as classes e pode, tambm, ser usado para mostrar a traduo do caso de uso. Enfim,

atravs desse diagrama que mtodos so definidos e em quais classes eles sero depositados.

A se

tcc_ii_ versão_final.pdf

Documents