tcc_ii_ versão_final.pdf
TRANSCRIPT
-
CENTRO UNIVERSITRIO FEEVALE
MERSON BUTZEN
PROPOSTA DE UM MDULO DE DATA MINING PARA
SISTEMA DE SCOUT NO VOLEIBOL
Novo Hamburgo, novembro de 2008.
-
MERSON BUTZEN MARQUES
PROPOSTA DE UM MDULO DE DATA MINING PARA
SISTEMA DE SCOUT NO VOLEIBOL
Centro Universitrio Feevale
Instituto de Cincias Exatas e Tecnolgicas
Curso de Sistemas de Informao
Trabalho de Concluso de Curso
Professor Orientador: Alexandre de Oliveira Zamberlam
Novo Hamburgo, novembro de 2008.
-
AGRADECIMENTOS
Gostaria de agradecer a todos os que, de alguma
maneira, contriburam para a realizao desse
trabalho de concluso, em especial:
Meu pai, Jos Jorge Marques da Silveira, que
foi quem me ensinou a nunca desistir, minha
me, Teresinha Dolores Butzen Marques, pela
dedicao aos filhos, meu orientador,
Alexandre de Oliveira Zamberlam, que me
auxiliou de maneira nica para a realizao
deste projeto, a minha namorada, Mnica
Reichert, pelo incentivo a crescer sempre e
pacincia em alguns momentos, ao meu amigo
Rafael Arnold pela oportunidade que me
indicou, aos amigos tricolores (Hoff, Minuzzo e
Thiago), aos demais amigos e pessoas que
convivem comigo, minha sincera gratido, pelo
apoio em todos os perodos do trabalho.
Obrigado pela confiana.
-
RESUMO
Sistemas de Apoio a Deciso, normalmente utilizados em empresas no processo de
tomada de deciso, tambm so utilizados em equipes de voleibol e/ou em outros esportes,
com a finalidade de gerar melhores resultados. Nesse universo de equipes esportivas, foram
elaborados sistemas estatsticos de monitoramento de desempenho de atletas e de equipes,
tambm conhecidos como sistemas de scout, permitindo s comisses tcnicas decidirem
sobre treinamentos, estratgias de jogo e tticas sobre jogadas. Contudo, a quantia de
informaes (precisas e/ou desnecessrias) mesmo assim enorme, deixando o processo de
decidir bastante emprico, ou seja, dependente da experincia do tcnico ou de algum
integrante da comisso tcnica. A minerao de dados (data mining) entra nesse campo com o
intuito de descobrir informaes mais precisas, evitando assim informaes desnecessrias.
Dessa forma, o objetivo deste trabalho realizar a anlise e o projeto de um mdulo de data
mining para o sistema de scout do projeto de pesquisa A IA entrando na quadra de vlei: Scout Inteligente.
Palavras-chave: Sistemas de Apoio a Deciso. Minerao de Dados. Sistema de
Monitoramento de Desempenho. Scout Voleibol.
-
ABSTRACT
Decision Support Systems, normally used in companies in the making decisions
process, also are used in volleyball teams and/or in other sports, with the aim to get better
results. In this universe of sport teams, statistics systems of performance tracking of athletes
and of teams were prepared, also known like scout (Scout Systems), allowing to the technical
committees decide about training, game strategies and tactical moves. However, the amount
of information (precise and/or unnecessary) is, anyway, enormous, letting the decision
process a lot empirical, in other words, dependent on the couch experience or on any other
person of the technical committee. The data mining gets into this field with the purpose of
discovering precise information, avoiding unnecessary information. This way, the goal of this
study is to perform the analysis and the project of a data mining module to the scout system of
the research project The IA getting into the volleyball court: Intelligent Scout.
Key words: Decision Support Systems. Data Mining. Statistics Systems of Performance
Tracking of Athletes. Scout Volleyball.
-
LISTA DE FIGURAS
Figura 1.1 Etapas que precedem a aplicao de tcnicas de Minerao de Dados ............... 17
Figura 1.2 rvore de Deciso de classificao de grau ......................................................... 24
Figura 1.3 Exemplos de diferentes esquemas ........................................................................ 25
Figura 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo) ............................................. 28
Figura 2.1 Figura da tabela de anlise estatstica dos fundamentos de voleibol. .................. 34
Figura 3.1 Esquema geral do scout inteligente ...................................................................... 40
Figura 3.2 Modelagem do banco de dados do sistema scout................................................. 41
Figura 3.3 Modelagem do banco de dados alterada .............................................................. 42
Figura 3.4 Diagrama de Atividade do sistema scout de Raimann (2008) ............................. 43
Figura 3.5 Mapa Conceitual do Fundamento Saque.............................................................. 44
Figura 3.6 Mapa Conceitual dos Fundamentos Defesa/Passe ............................................... 45
Figura 3.7 Mapa Conceitual dos Fundamentos Levantamento ............................................. 45
Figura 3.8 Mapa Conceitual dos Fundamentos Cortada........................................................ 46
Figura 3.9 Mapa Conceitual dos Fundamentos Bloqueio...................................................... 46
Figura 3.10 Diagrama de Caso de Uso geral ......................................................................... 50
Figura 3.11 Diagrama de Caso de Uso geral do mdulo de Minerao de Dados ................ 51
Figura 3.12 Diagrama de Atividade referente a gerar dados para anlise ............................. 53
Figura 3.13 Diagrama de Atividade referente a selecionar dados gerados para anlise ....... 55
Figura 3.14 Diagrama de Atividade referente a aplicar tcnicas de minerao de dados ..... 57
Figura 3.15 Diagrama de Classes referente a integrao do mdulo MD e o WEKA .......... 59
Figura 3.16 Diagrama de Seqncia referente ao caso de uso UC001 (Gerar Dados para
Anlise) ..................................................................................................................................... 60
Figura 3.17 Diagrama de Seqncia referente ao caso de uso UC002 (Selecionar Dados
Gerados para Anlise) .............................................................................................................. 60
-
Figura 3.18 Diagrama de Seqncia referente ao caso de uso UC002 (Selecionar Dados
Gerados para Anlise) .............................................................................................................. 61
Figura 4.1 Prottipo da tela inicial do mdulo de minerao de dados................................. 65
Figura 4.2 Prottipo da tela de gerao de dados para o mdulo de MD .............................. 65
Figura 4.3 Prottipo da tela de selecionar dados gerados para anlise.................................. 66
Figura 4.4 Prottipo da tela de aplicar tcnicas de minerao de dados ............................... 66
Figura 4.5 Modelagem do Data Mart .................................................................................... 67
Figura 4.6 Figura apresenta o cdigo fonte da classe de integrao ClusteringEM .............. 69
Figura 4.7 Figura apresenta o cdigo fonte da classe de integrao ClusteringFarthestFirst 70
Figura 4.8 Figura apresenta o arquivo ARFF submetido ao algoritmo EM do WEKA ........ 71
Figura 4.9 Figura apresenta o resultado da aplicao do algoritmo EM do WEKA ............. 72
Figura 4.10 Figura do arquivo ARFF submetido ao algoritmo FarthestFirst do WEKA ...... 73
Figura 4.11 Figura mostra o resultado da aplicao do algoritmo FarthestFirst do WEKA . 73
Figura Apndice 1 Funo SQL do PostgreSQL para gerao de dados no DataMart ........ 81
Figura Apndice 2 Funo SQL do PostgreSQL que gera o arquivo para o relatrio de
agrupamento de atletas por efeito de fundamento .................................................................... 82
Figura Apndice 3 Funo SQL do PostgreSQL que gera o arquivo para o relatrio de
agrupamento de atletas por posio e efeito de fundamento .................................................... 82
-
LISTA DE TABELAS
Tabela 1.1 Jogos de jogadores e aproveitamento do fundamento bloqueio .......................... 21
Tabela 1.2 Classificao de dados do grau ............................................................................ 23
Tabela 1.3 Simples exemplo de agrupamento de informao ............................................... 24
Tabela 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo)............................................. 27
-
LISTA DE QUADROS
Quadro 3.1 Caso de Uso Gerar Dados para Anlise.............................................................. 51
Quadro 3.2 Caso de Uso Selecionar Dados Gerados para Anlise ....................................... 53
Quadro 3.3 Caso de Uso Aplicar Tcnicas de Minerao de Dados ..................................... 55
-
LISTA DE ABREVIATURAS E SIGLAS
MD Minerao de Dados
DM Data Mining
DCBD Descoberta de Conhecimento em Base de Dados
KDD Knowledge Discovery in Databases
OLAP On-Line Analytic Processing
SGBD Sistema de Gerenciamento de Banco de Dados
-
SUMRIO
INTRODUO ...................................................................................................................... 13
1 MINERAO DE DADOS ................................................................................................ 16 1.1 O processo de minerao de dados ................................................................................ 17
1.1.1 Definio do problema ........................................................................................ 18
1.1.2 Coleta dos dados .................................................................................................. 18
1.1.3 Pr-processamento dos dados .............................................................................. 19 1.1.4 Especificao do possvel mtodo ....................................................................... 20 1.1.5 Interpretao e anlise dos dados produzidos pelo mtodo ................................. 20
1.2 Principais mtodos de minerao de dados ................................................................... 21 1.2.1 Regras de Associao (Association Rules) .......................................................... 21
1.2.2 Classificao (Classification) .............................................................................. 22 1.2.3 Agrupamento (Clustering) ................................................................................... 24 1.2.4 Dados em sries temporais (Time-Series Data) ................................................... 26
1.2.5 Padres seqenciais (Sequential Patterns) .......................................................... 29
1.3 Ferramentas de Minerao de Dados ............................................................................ 30
1.3.1 WEKA ................................................................................................................. 30 1.3.2 RapidMiner .......................................................................................................... 31
2 SCOUT .................................................................................................................................. 33 2.1 Trabalho Correlato - Advanced Scout: Data Mining and Knowledge Discovery in NBA
Data 36 2.2 Utilizao de tcnicas de KDD em um call center ativo ............................................... 37
3 A PROPOSTA DE MDULO DE MINERAO .......................................................... 39 3.1 Especificao dos requisitos .......................................................................................... 47
3.1.1 Requisitos funcionais ........................................................................................... 47 3.1.2 Requisitos no funcionais .................................................................................... 48
3.2 Casos de Uso ................................................................................................................. 49
3.2.1 Diagrama de Casos de Uso .................................................................................. 50
3.2.2 Casos de Uso Estendidos ..................................................................................... 51
3.3 Diagrama de Classes ...................................................................................................... 58 3.4 Diagrama de Seqncia ................................................................................................. 60
4 PROTTIPO DO MDULO DE MINERAO DE DADOS ...................................... 62 4.1 Linguagem de Programao .......................................................................................... 62 4.2 Sistema de Gerenciamento de Banco de Dados ............................................................ 63 4.3 Ferramenta para Administrao do PostgreSQL ........................................................... 64 4.4 Modelagem do Mdulo de Minerao de Dados .......................................................... 64
-
4.5 Prottipo do Mdulo de Minerao de Dados ............................................................... 64 4.6 Preparao dos Dados Minerao de Dados ................................................................. 67
4.7 Classes de integrao Mdulo com o WEKA ............................................................... 68 4.8 Resultados ...................................................................................................................... 70
CONCLUSO ......................................................................................................................... 75
REFERNCIAS BIBLIOGRFICAS ................................................................................. 77
APNDICES ........................................................................................................................... 80
-
INTRODUO
Na atualidade, os sistemas de informao so requisitos bsicos para a tomada de
deciso automatizada, pois o processo decisrio apia-se na malha de sistemas de informao
de uma organizao (BINDER, 1994). A importncia da informao nas organizaes
aumenta de acordo com o crescimento da complexidade da sociedade e das organizaes, ou
seja, em todos os nveis organizacionais a informao um recurso fundamental (FREITAS et
al, 1997).
H muito tempo, existe a preocupao de como a informao processada, pois
segundo Martin (1984), h muitas situaes em que os gestores no recebem a informao de
que necessitam dos seus diversos sistemas. Binder (1994) alega que em um ambiente
propcio, a informtica torna-se til no processo de tomada de deciso, possibilitando
obteno de dados com melhor qualidade. Freitas (1997) afirma que a forma com que a
informao trabalhada deve ser observada, pois no pode haver risco que um usurio,
envolvido em processo decisrio, receba rudos em sua informao. A partir dessas
afirmaes, deve-se saber distinguir o que so dados e o que so informaes.
De acordo com (DAVIS; OLSON, apud FREITAS, 1997) os dados so a matria
prima da informao, so grupos de smbolos no aleatrios que representam quantidades,
aes, objetos, etc. Ainda, segundo o mesmo autor, a informao um dado que foi
processado de uma forma significativa para o usurio e seu valor real ou percebido no
momento, ou em aes prospectivas nas decises.
Binder (1994) aponta que a atividade mxima de um lder a tomada de deciso.
Esse o momento onde se demonstra toda sua capacidade de direcionar sua equipe e sua
razo de ser dentro de uma organizao. A tomada de deciso consiste, basicamente, na
-
14
escolha de uma opo entre diversas alternativas existentes, seguindo determinados passos
previamente estabelecidos e culminando na resoluo ou no de problema.
Na gesto de um time de voleibol, a todo o momento, a partir de uma quantidade
diversificada de informaes, decises importantes devem ser tomadas. Decidir onde um
jogador deve sacar, qual sua posio na quadra oferece maior rendimento, qual jogador
substituir e por quem, que tipo de treinamento deve ser realizado para apurar um atleta e/ou a
equipe toda (treino de fundamentos de voleibol, posicionamento, jogadas, saque, etc), enfim,
qual a melhor estratgia ou quais tticas utilizar so situaes as quais uma comisso tcnica
de voleibol deve estar atenta (ZAMBERLAM et al., 2005).
Por isso, existem sistemas estatsticos que auxiliam nessa tarefa, conhecidos como
scout. So sistemas que capturam e processam informaes estatsticas de desempenho dos
atletas da equipe e da equipe adversria. Porm, eles no levam em considerao o histrico
do jogador de toda uma temporada (comportamento do atleta em outros jogos) e o contexto de
uma partida de vlei, ou seja, o comportamento do atleta nos diferentes nveis da partida. Um
set (parte de uma partida) de vlei possui basicamente trs nveis. O terceiro nvel, prximo
do final, o de maior tenso em que o fsico e o emocional do atleta devem estar ajustados.
Dessa forma, os sistemas atuais, simplesmente, repassam dados para a comisso, que avalia
essa gama diversificada referente aos fundamentos bsicos do vlei e/ou jogadas realizadas
pela equipe adversria, num tempo extremamente reduzido e toma decises relacionadas com
aqueles dados relatados. Decises muitas vezes baseadas mais no conhecimento emprico do
tcnico ou da comisso do que no fator racional real daquela situao (ZAMBERLAM et al.,
2005).
A minerao de dados, ou data mining, entra nesse contexto para oferecer um
ambiente propcio e dados confiveis, pois atravs dela, existe o processo de seleo, de
explorao e de modelagem de dados em grande escala (GIUDICI, 2003).
O projeto de pesquisa A IA entrando na quadra de vlei: Scout Inteligente
(ZAMBERLAM et al., 2005) busca mostrar que equipes de voleibol no so diferentes no que
diz respeito ao processo de tomada de deciso, em que a comisso tcnica est
constantemente monitorando os jogadores e seu desempenho, a fim de decidir a melhor ttica
ou estratgia de jogo ou de treinamento. Sua proposta tem como foco descrever como tcnicas
de Inteligncia Artificial, que combinam agentes inteligentes e minerao de dados, podem
-
15
ser utilizadas para auxiliar a comisso tcnica. Esse projeto tem como objetivo final projetar e
construir um sistema de observao inteligente para a gesto de equipes de voleibol, a fim de
manipular e produzir conhecimentos especficos de forma quantitativa e qualitativa para o
processo de deciso, reduzindo assim o fator emprico e o tempo das decises.
Surge ento este trabalho, como parte do projeto de pesquisa acima citado. Portanto,
atravs da base de dados do sistema de scout, projetado por Raimann (2008), tambm parte
desse projeto, foi realizada a aplicao de tcnicas de data mining. Os resultados foram
analisados e a tcnica de data mining escolhida foi a de agrupamento. Espera-se, assim,
auxiliar professores e profissionais de Educao Fsica no ensino de gesto de equipes, bem
como a gesto de jogadores e tipos de treinamentos.
O trabalho foi dividido em quatro captulos, sendo que o primeiro trata sobre
Minerao de Dados, mostrando as principais tcnicas e aplicaes. O segundo aborda o
scout, ou seja, o sistema de avaliao de desempenho de atletas, apresentando o que esse
sistema, quais suas finalidades e como utilizado geralmente, tambm foram encontrados
alguns trabalhos correlatos nesse captulo. No terceiro captulo, apresenta-se a proposta de
mdulo de data mining em um sistema de scout. O quarto captulo apresenta o prottipo do
mdulo, e a aplicao da tcnica de agrupamento atravs de dois de seus algoritmos.
Finalmente, as consideraes finais e as referncias bibliogrficas.
-
1 MINERAO DE DADOS
A grande quantidade de dados armazenados em bancos de dados na atualidade um
problema de muitas empresas. Esse problema gera muitas dificuldades para organizaes em
geral, desde a aquisio de servidores que suportem a maior demanda de processamento,
passando por unidades de armazenamento enormes dificuldade em obter informaes
precisas. Dados de um relatrio de 2003 apontam uma populao de 6,3 bilhes de pessoas, e
que cada pessoa produz 800 megabytes por ano (CHARLES et al., 2003). Dentro desse
panorama existem tecnologias que podem fazer de um grande banco de dados uma fonte de
informaes at ento desconhecidas, obtendo assim uma vantagem competitiva. Uma dessas
tecnologias a Minerao de Dados (MD), tambm conhecida como Data Mining (DM).
De acordo com o dicionrio de Ferreira (1988), minerao significa explorao de
minas, a explorao de minas remete ao ato de descobrir preciosidades da Terra, assim a
minerao de dados busca essas preciosidades na forma de informao. Para Giudici (2003), a
associao de dados com essa palavra sugere uma pesquisa em profundidade para encontrar
informaes adicionais que, anteriormente passaram despercebidas na massa de dados
disponveis. O mesmo autor aponta que o termo minerao de dados foi formalizado por
Usama Fayyad, em 1995, na Primeira Conferncia Internacional de Descoberta de
Conhecimento e Minerao de Dados em Montreal. Esse evento considerado uma das
principais conferncias sobre o tema.
Segundo Feldens et al. apud Wives (2004) a minerao de dados uma etapa do
processo de Descoberta do Conhecimento em Banco de Dados (DCBD) mais conhecido por
Knowledge Discovery in Databases (KDD). Em (GOEBEL; GRUENWALD, apud WIVES,
2004) tambm observado que muitas vezes o termo minerao de dados utilizado como
sinnimo para todo o processo de descoberta de conhecimento, entretanto ela a etapa mais
importante, respondendo por 15 a 25 por cento do processo de descoberta. Cabena et al. apud
-
17
Gonchoroski (2007) aponta que a minerao de dados o processo de extrair informaes
vlidas antes desconhecidas, de grandes bases de dados, auxiliando em decises cruciais no
mundo dos negcios.
Para isso, data mining utiliza-se de tcnicas ou algoritmos de reas como
Aprendizado de Mquinas, Estatstica, Redes Neurais, Algoritmos Genricos, etc (ELMASRI;
NAVATHE, 2005). O mesmo autor aponta que a minerao de dados apia o conhecimento
indutivo, descobrindo novas regras e padres nos dados minerados. Para Kantardzic (2003),
os dois primeiros objetivos da minerao de dados so: a predio e a descrio. A predio
utiliza algumas variveis ou campos de um conjunto de dados para prever valores
desconhecidos ou futuros de outras variveis de interesse. A descrio concentra-se em
encontrar padres nos dados que possam ser interpretados por humanos.
Como a minerao de dados uma parte do processo de Descoberta do
Conhecimento em Banco de Dados, as etapas (Figura 1.1) devem ser realizadas antes de
aplicar-se alguma tcnica de data mining. Conforme Bramer (2007), os dados possivelmente
vm a partir de muitas fontes, esses dados devem ser integrados e/ou coletados e armazenados
em lugar comum. O prximo passo a preparao dos dados, ento aplicada alguma tcnica
de minerao de dados, que produz uma sada na forma de regras ou em algum tipo de padro.
Figura 1.1 Etapas que precedem a aplicao de tcnicas de Minerao de Dados
Fonte: Adaptado de BRAMER, 2007
Essas regras ou padres so tambm conhecidos como modos de descoberta, os mais
conhecidos so a descoberta de regras de associao, classificao, agrupamento, padres
seqenciais e padres em sries temporais.
1.1 O processo de minerao de dados
Para Kantardzic (2003) o processo de minerao de dados composto por cinco
fases. So elas: definio do problema; seleo e coleta dos dados; pr-processamento dos
-
18
dados; especificao de possvel mtodo; interpretao e anlise dos dados produzidos pelo
mtodo.
1.1.1 Definio do problema
Segundo Giudici (2003), nem sempre fcil de definir o fenmeno que se quer
analisar. Os objetivos e o problema da empresa ou equipe que so passados so claros, mas os
problemas subjacentes podem ser difceis de traduzir em objetivos a serem analisados.
Kantardzic (2003) aponta que a grande maioria das bases de dados existentes especfica para
os seus sistemas, o que requer experincia e domnio de um perito. Uma declarao clara do
problema e os objetivos a atingir so os pr-requisitos para a criao da anlise correta. Pode-
se utilizar, como exemplo no voleibol, os excessivos erros do fundamento saque, quando
realizada a anlise dos dados, pode-se concluir que o destino/alvo do saque tem sido sempre o
mesmo, assim a comisso tcnica interage com os jogadores para que mudem o destino/alvo
de seu saque. Nesse caso, fica explcito a definio do problema - porque erramos os
saques. Sendo assim, os estatsticos e os mineradores de dados (data miners) sabem onde
devem atuar - nos dados do fundamento saque, e extrair o mximo de informaes possveis
para a comisso tcnica.
1.1.2 Coleta dos dados
A principal preocupao dessa etapa a forma como os dados so gerados e/ou
coletados. Em geral, d-se de duas maneiras distintas: a primeira quando o processo est
sobre o domnio de um perito, em que o mesmo realiza a coleta; a segunda possibilidade
quando o perito no pode influenciar o processo de gerao de dados. Essa conhecida como
a abordagem observacional, e dados podem ser perdidos (KANTARDZIC, 2003). Um
exemplo pode ser visto no prprio voleibol, quando vrios scouters1 utilizam bases
independentes em seus laptos. Essas bases devem ser integradas para gerar a informao
correta. Nesses casos, a minerao normalmente aplicada aps os jogos.
1 Responsvel em realizar o scout.
-
19
1.1.3 Pr-processamento dos dados
Giudici (2003) divide essa tarefa em duas etapas. A primeira composta por seleo,
organizao e tratamento inicial dos dados. Nessa etapa so identificadas as fontes de dados,
em que o ideal que seja um armazm de dados (data warehouse) histrico que no esteja
sujeito a mudanas, facilitando a coleta de dados. Nela, tambm necessria uma limpeza
preliminar nos dados. A segunda etapa contm a anlise de dados e posterior transformao.
Aqui, desenvolvida uma anlise exploratria dos dados semelhante a tcnicas de OLAP,
uma anlise inicial da importncia dos dados pode levar a uma transformao das variveis
originais para melhor compreender o fenmeno, ou que pode levar a mtodos estatsticos em
que satisfaam objetivos especficos iniciais. Giudici (2003) afirma que fundamental essa
fase, pois permite ao analista prever mtodos estatsticos que possam ser mais adequados na
prxima fase. Utilizando-se do exemplo anterior (voleibol e bases independentes em
notebooks), uma base de dados tem vrias entidades: Clube; Cidade; Equipe; Jogador;
JogadorPartida; Sets; JogoSetRotacao; Movimento; Evento; Saque; etc, Nesse caso eliminar
entidades como Cidade e Clube e dados sobre ex-atletas da entidade Jogador seria
interessante. Os demais dados podem ser armazenados em um data warehouse, eliminando-se
possveis rudos na informao que ser gerada pela minerao de dados.
1.1.3.1 Armazm de Dados (Data Warehouse)
O armazm de dados uma coleo de dados orientada por assunto, integrada, no
voltil, variante no tempo, que d apoio s decises. Proporciona acesso aos dados para uma
anlise complexa, descoberta de conhecimento e tomada de deciso (ELMASRI; NAVATHE,
2005).
Alm do Data Warehouse existe o Data Mart (mercado de dados), que normalmente
uma parte extrada do Data Wharehouse. O Data Mart uma base de dados temtica
originalmente orientada para o campo do marketing (GIUDICI, 2003). O escopo confinado
aos assuntos especficos selecionados (HAN; KAMBER, 2006).
Um Data Mart pode ser criado (em algumas situaes com certa dificuldade) mesmo
quando no h nenhum sistema de armazm de dados (Data Warehouse) integrado. A criao
de estruturas de dados temticos como Data Marts representa o primeiro e movimento
fundamental para um ambiente informativo para a atividade da minerao de dados
(GIUDICI, 2003).
-
20
1.1.3.2 Processamento Analtico On-Line (OLAP)
De acordo com Barbieri apud Wagner (2008), o termo OLAP (On-line Analytical
Processing), traduzido para Processamento Analtico On-line, representa essa caracterstica de
se trabalhar os dados, com operadores dimensionais, possibilitando uma forma mltipla e
combinada de anlise. Elmasri e Navathe (2005) apontam que OLAP a anlise de dados
complexos a partir de um armazm de dados.
Han e Kamber (2006) sugerem a utilizao dessas trs tecnologias conjuntas,
afirmando que o armazm de dados pode ser empregado para a descoberta do conhecimento e
a tomada de deciso usando ferramentas da minerao de dados. Sendo necessrio assim trs
tipos de aplicaes do armazm de dados: processamento de informao, processamento
analtico (OLAP) e minerao de dados.
1.1.4 Especificao do possvel mtodo
A escolha do mtodo depende do problema a ser estudado ou o tipo de dados
disponveis. Os mtodos utilizados podem ser classificados de acordo com o objetivo da
anlise (GIUDICI, 2003). Esse processo no simples, a aplicao baseada em vrios
mtodos. Os principais mtodos ou tcnicas (descritos no captulo 1.2) e a seleo dos
melhores uma tarefa adicional (KANTARDZIC, 2003). Um possvel mtodo a ser utilizado
num mdulo de Data Mining para scout de Vlei o mtodo de agrupamento (Clustering),
aplicado no fundamento saque, em que os dados ficariam agrupados por faixas de
aproveitamento.
1.1.5 Interpretao e anlise dos dados produzidos pelo mtodo
O objetivo dos dados obtidos pelo mtodo ajudar a tomada de deciso. Empresas
ou equipes esportivas possuem peritos que podem analisar se os dados obtidos so ou no
interessantes para o tomador de deciso. Dessa maneira, pode-se descartar um determinado
mtodo que no gerou dados de relativo interesse. Vale observar que os mtodos de
interpretao mais fceis so os mtodos com menor preciso.
Finalizada a descrio das fases do processo de minerao de dados, indicadas por
Kantardzic (2003), segue uma contextualizao dos principais mtodos de minerao.
-
21
1.2 Principais mtodos de minerao de dados
Os mtodos ou tcnicas so, na verdade, algoritmos computacionais. Cada um desses
algoritmos tem caractersticas particulares, normalmente entradas e sadas especficas
(GONCHOROSKI, 2007). A seguir so apresentados os algoritmos mais utilizados.
1.2.1 Regras de Associao (Association Rules)
O objetivo encontrar qualquer relao existente entre os valores das variveis
(BRAMER, 2007). Para Kantardzic (2003), a tcnica de regras de associao uma das
principais tcnicas de minerao de dados. Atravs dela possvel recuperar todos os padres
interessantes em uma base de dados. A base de dados uma coleo de transaes, no
voleibol possvel elencar caractersticas semelhantes que podem ser identificadas atravs de
regras de associao. A Tabela 1.1 mostra os jogadores em quadra e o aproveitamento da
equipe no fundamento bloqueio.
Tabela 1.1 Jogos de jogadores e aproveitamento do fundamento bloqueio
IdJogo (Partida) iNumeroCamisetaJogador (em quadra) Bloqueio (Resultado)
1 2, 5, 6, 8, 10, 11 Excelente
1 1, 4, 5, 6, 8, 10 Regular
2 2, 3, 5, 8, 10, 11 Bom
2 1, 3, 4, 8, 9, 11 Pssimo Fonte: AUTOR, 2008
Uma regra de associao da forma X => Y, onde X = {x1, x2,..., xn} e Y = {y1,
y2,..., ym} so conjuntos de itens com xi e yi sendo distintos para todo i e todo o j. Essa
associao estabelece que quando o jogador X estiver escalado, ele estar propenso a jogar
com o Jogador Y. Caso este tambm estiver escalado na mesma equipe ou da equipe
adversria, um determinado bloqueador escalado para bloquear especfico atacante.
Normalmente essas regras de associao tm a forma LME (lado da mo esquerda) e LMD
(lado da mo direita), cada uma formando um conjunto de itens. Quando LME une-se a LMD
(LME LMD) tem-se o conjunto-item, que , no exemplo do voleibol, o conjunto de todos
os jogadores escalados. Para descobrir interesses nessa regra, ela precisa satisfazer algumas
medidas, as mais comuns fornecem suporte e confiana (ELMASRI; NAVATHE, 2005).
O suporte para a regra LME => LMD refere-se freqncia que ela ocorre no banco
de dados, ou seja, o percentual de transaes que contm todos os itens na prpria relao
LME LMD. Se o suporte baixo, implica que no existe evidncia significativa que os
-
22
itens LME LMD ocorram juntos. A confiana dessa regra calculada como o suporte
(LME LMD) / suporte (LMD). Pode-se assim analisar a possibilidade dos jogadores do
LMD sejam escalados juntos, dado que os jogadores do LME tambm sejam escalados pelo
tcnico (ELMASRI; NAVATHE, 2005).
Para exemplificar o suporte e a confiana, considere essas regras: Jogador 10 =>
Jogador 11 e Jogador 8 => Jogador 11. Observa-se na Tabela 1.1 que existem quatro
transaes de duas partidas de vlei: o suporte para {Jogador 10, Jogador 11} de 50%, e o
suporte de {Jogador 8, Jogador 11} 75%. J a confiana de Jogador 10 => Jogador 11 de
66,7%, ou seja, das trs vezes em que o jogador 10 escalado, duas tem a companhia do
jogador 11, e a confiana do Jogador 8 => Jogador 11 tambm de 66,7%.
Pode-se notar que o suporte e a confiana nem sempre so proporcionais. A meta
para as regras de associao gerar todas as possveis regras que excedam a especificao do
usurio garantindo suporte e confiana acima do limite definido (ELMASRI; NAVATHE,
2005). O principal algoritmo de regras de associao o algoritmo Apriori.
1.2.2 Classificao (Classification)
De acordo com Bramer (2007), a classificao uma das aplicaes mais comuns de
minerao de dados. Ela corresponde a uma tarefa que ocorre com freqncia na vida diria
do ser humano. Por exemplo, um hospital pode querer classificar pacientes mdicos naqueles
que esto em elevado, em mdio ou em baixo risco de adquirir uma determinada doena. J
uma pesquisa de opinio de votao pode desejar classificar as pessoas entrevistadas naquelas
que tendem a votar em um partido poltico ou so indecisos. Pode-se desejar classificar um
trabalho de um estudante com a distino, merec-lo, pass-lo ou reprov-lo. Apesar de
diferentes todos so exemplos de classificao.
Para Elmasri e Navathe (2005), a classificao o processo de encontrar um modelo
que descreva classes diferentes de dados. Essas classes so predeterminadas e essa atividade
tambm chamada de aprendizado supervisionado. Dado que esse modelo construdo, ele
pode ento ser usado para classificar novos dados. A primeira etapa do modelo de
aprendizado realizada usando um treinamento com um conjunto de dados que j foi
classificado, cada registro de dados desse treinamento possui um atributo, conhecido como
rtulo de classe, indicando a que classe o registro pertence.
-
23
O exemplo a seguir mostra uma situao tpica (Figura 1.2). Tem-se uma srie de
dados no formulrio de uma tabela que contm graus estudantes em cinco disciplinas (os
valores dos atributos TCI, BDII, INOVTEC, GERPROJ e TOPAVA) e em suas classificaes
totais do grau. Procura-se encontrar alguma maneira de predizer a classificao para outros
estudantes dados somente sua turma Perfil.
Tabela 1.2 Classificao de dados do grau
TCI BDII INOVTEC GERPROJ TOPAVA TURMA
A B A B B Segunda
A B B B B Segunda
B A A B A Segunda
A A A A B Primeira
A A B B A Primeira
B A A B B Segunda
A A B A B Primeira Fonte: Adaptado de BRAMER, 2007
Segundo Bramer (2007) existem vrias maneiras para fazer isto, incluindo as
seguintes:
Vizinho mais prximo de correspondncia (Nearest Neighbour
Matching): este mtodo confia em identificar (palavra) os cinco
exemplos que so "mais prximos", em algum sentido a um no
classificada. Se os cinco "mais prximos vizinhos" tm graus B, A, B, B
e B pode-se concluir razoavelmente que a nova instncia dever ser
classificada como 'Segunda'.
Regras de classificao (Classification Rules): Procura-se as regras que
pode-se predizer a classificao de um exemplo despercebido, segue
exemplos: SE TCI=A E TOPAVA=A ENTO TURMA=Primeira, SE
TCI=A E TOPAVA=B E BDII=B ENTO TURMA=Segunda ou ainda
SE TCI=B ENTAO TURMA=Segunda;
rvore da classificao (Classification Tree): uma forma de gerao de
regras de classificao por intermdio de estrutura chamada rvore de
classificao ou de uma deciso rvore, como a seguir:
-
24
Figura 1.2 rvore de Deciso de classificao de grau Fonte: Adaptado de BRAMER, 2007
1.2.3 Agrupamento (Clustering)
Uma dada populao de eventos ou novos itens podem ser particionados
(segmentados) em conjuntos de elementos padres (ELMASRI; NAVATHE, 2005). Bramer
(2007) confirma que os algoritmos de agrupamento analisam os dados para encontrar grupos
de itens que so semelhantes. Amostras de agrupamento so representadas como um vetor de
medies, ou, mais formalmente, como um ponto em um espao multidimensional. As
amostras de um agrupamento vlido so mais semelhantes (no necessariamente iguais) entre
si do que as amostras que pertencem a um agrupamento diferente (KANTARDZIC, 2003).
De acordo com Kantardzic (2003), a tcnica de agrupamento adequada para a
explorao de inter-relaes entre as amostras e para fazer uma avaliao preliminar da
estrutura da amostra. A Tabela 1.3 tem um simples exemplo de agrupamento de informao.
So doze atletas distribudos em trs agrupamentos. As caractersticas que descrevem esses
atletas so: o aproveitamento em percentual no fundamento bloqueio e o nmero de bloqueios
realizados.
Tabela 1.3 Simples exemplo de agrupamento de informao
Agrupamentos Aproveitamento Bloqueios Realizados Atletas
Agrupamento 1
100% 1 Jogador 1
90% 4 Jogador 3
80% 1 Jogador 6
Agrupamento 2
70% 20 Jogador 2, Jogador 9
60% 30 Jogador 4, Jogador5
50% 30 Jogador 8
Agrupamento 3
40% 10 Jogador 7
20% 3 Jogador11
0% 5 Jogador 10, Jogador 12 Fonte: AUTOR, 2008
-
25
Pode-se concluir que o Agrupamento 1 tem o melhor aproveitamento, mas
pouqussimos bloqueios foram efetuados por seus atletas. No Agrupamento 2, existe a melhor
mdia, pois vrios bloqueios foram efetuados. O Agrupamento 3 apresenta atletas que
possivelmente no tenham esse fundamento como principal caracterstica.
Para utilizar a tcnica de agrupamento, necessrio um critrio objetivo. Para
descrever esse processo preciso dominar os conceitos bsicos e o processo de agrupamento.
A entrada para uma anlise de agrupamento pode ser descrita como um par requisitado (X, s),
ou (X, d), onde X um jogo (descries das amostras), e s e d so medidas para a
similaridade ou a dissimilaridade (distncia) entre amostras, respectivamente. A sada uma
diviso = {G1, G2,, GN} onde Gk, k = 1,, N um subconjunto cristalino de X tal que G1
G2 ... GN = X, e Gi Gj = , i j. Assim os membros G1, G2,, GN de so
chamados de agrupamentos. Cada um dos agrupamentos descrito com algumas
caractersticas. Na descoberta, tanto o agrupamento (um conjunto de pontos distintos em X)
quanto suas caractersticas, so gerados como resultado de um procedimento de agrupamento
(KANTARDZIC, 2003).
Kantardzic (2003) aponta que a representao da descoberta por agrupamento pode
se dar por diferentes esquemas (Figura 1.3), os mais conhecidos so:
Representar o agrupamento dos pontos em um espao n-dimensional
(amostras) por seu centride ou por um conjunto de distantes (fronteira)
pontos em um agrupamento;
Representar graficamente usando um agrupamento de ns em um
agrupamento de rvore;
Representar agrupamentos, usando a expresso lgica de amostra de
atributos.
Figura 1.3 Exemplos de diferentes esquemas Fonte: KANTARDZIC, 2003
-
26
A vasta coleo de algoritmos de agrupamento disponveis na literatura e os
diferentes softwares confundem os usurios que tentam selecionar aproximaes mais
apropriadas para o seu problema. A maior parte dos algoritmos de agrupamento tem por base
as duas seguintes abordagens: agrupamento hierrquico e agrupamento particional iterativo.
As tcnicas hierrquicas organizam dados em uma seqncia aninhada dos grupos, que
normalmente so indicados atravs de uma estrutura de rvore. J os algoritmos particionais
tentam obter essa divisria que minimiza o espalhamento dentro do agrupamento ou
maximiza o espalhamento entre os agrupamentos. Esses mtodos no so hierrquicos porque
todos os agrupamentos resultantes so grupos das amostras no mesmo nvel da divisria
(KANTARDZIC, 2003).
1.2.4 Dados em sries temporais (Time-Series Data)
Para Elmasri e Navathe (2005) esses padres podem ser encontrados em posies de
uma srie temporal de dados, que uma seqncia de dados capturada a intervalos regulares
(segundos, horas, dias, semanas, etc). Han e Kamber (2006) confirmam dizendo que sries
temporais consistem em seqncias de valores ou medidas repetidas, excessivamente, em
intervalos de tempos. As aplicaes mais populares com base de dados de padres com sries
temporais so as de anlise da bolsa de valores, ndices econmicos, observao de
fenmenos naturais (tais como a atmosfera, a temperatura, o vento, o terremoto) e
experincias cientficas e da engenharia.
Com a distribuio crescente de um grande nmero de sensores, de dispositivos da
telemetria, e de outras ferramentas de levantamento de dados, a quantidade de dados em sries
temporais est aumentando rapidamente, freqentemente na ordem dos gigabytes por dia
(como o nmeros de negociaes na bolsa de valores) ou por minuto (como de programas do
espao da NASA). A minerao de dados em sries temporais tem o desafio de analisar tais
nmeros enormes de dados em sries temporais para encontrar os padres similares ou
regulares, tendncias rapidamente ou mesmo responder em tempo real (HAN; KAMBER,
2006).
No vlei, pode-se analisar o desempenho de atletas pelo tempo de jogo, e analisar
assim qual o tempo de jogo ideal para ele (perodo no set ou no jogo todo). Existem atletas
que jogam com um mesmo nvel a partida inteira, outros atletas tm um incio de alto nvel, e
no decorrer da partida o nvel cai, mas aps o perodo de estresse, o nvel volta a ser bom.
-
27
Outros que mantm um bom nvel durante boa parte da partida, mas depois o nvel cai e no
retorna mais. H de se considerar, aqui, tambm o aspecto emocional de cada atleta, no
apenas os nmeros. Na Tabela 1.4, podem-se ver os dois ltimos tipos de atletas citados e
seus desempenhos. Esse um exemplo ilustrativo apenas, j que em uma situao real o
volume de dados seria muito maior. Pode-se, tambm, dividir um set em fases (de 0 a 8
pontos, fase um; de 9 a 19, fase dois; e de 20 a 25, fase 3). Nessa diviso possvel perceber
os diferentes comportamentos dos atletas (qualidade da jogada, concentrao, obedincia
tcnica e ttica) devido ao aumento do estresse emocional do final do set.
Tabela 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo)
Atletas Tempo de Jogo (minutos)
5 min. 10 min. 15 min. 20 min. 30 min. 40 min. 60 min.
Jogador 01 100 % 80 % 70 % 60 % 40 % 50 % 80 %
Jogador 02 60 % 60 % 60 % 70 % 70 % 70 % 65 %
Fonte: AUTOR, 2008
Em geral, so dois os objetivos na anlise de sries temporais: modelagem das sries
temporais (isto , ganhar uma viso sobre os mecanismos subjacentes ou foras que geram as
sries temporais), e previso de sries temporais (isto , predizer os futuros valores do tempo
de sries de variveis), as tcnicas mais usadas so a anlise de tendncias e a pesquisa por
semelhana (HAN; KAMBER, 2006).
No voleibol, a anlise de tendncia parece ser a mais atrativa, j que a partir dos
dados histricos possvel traar tendncias de jogadas de equipes adversrias, e analisando
os dados da Tabela 1.4, pode-se visualizar a tendncia de aproveitamento dos atletas
conforme o tempo de jogo. Segundo Han e Kamber (2006) uma srie temporal que envolve
uma varivel Y, representando, por exemplo, o aproveitamento de uma atleta ao final de um
set ou partida, pode ser vista em funo do tempo t, isto , Y = F (t). Essa funo ilustrada
como um grfico de sries temporais, como mostrado na Figura 1.4, que descreve um ponto
em movimento com o passar do tempo.
-
28
Figura 1.4 Aproveitamento de Saque (Atleta/Tempo de Jogo) Fonte: AUTOR, 2008
Han e Kamber (2006) apontam que anlise de tendncia consiste nos quatro
componentes seguintes ou movimentos para caracterizar dados em uma srie temporal:
Tendncia ou movimentos em longo prazo: indicam o sentido geral em
que um grfico de srie temporal est se movendo sobre um intervalo
longo do tempo. Esse movimento indicado por uma curva da
tendncia, ou por uma linha da tendncia. Por exemplo, a curva da
tendncia de Figura 1.4 indicada por uma curva tracejada. Os mtodos
tpicos para determinar uma curva da tendncia ou uma linha da
tendncia incluem o mtodo de mdias mveis e o mtodo dos mnimos
quadrados;
Movimentos cclicos ou variaes cclicas: consultam as oscilaes em
longo prazo sobre uma linha ou uma curva da tendncia, que possam ou
no possam ser peridicas. Isto , os ciclos no necessitam
necessariamente seguir exatamente testes padres similares aps
intervalos iguais do tempo;
Movimentos sazonais ou variaes sazonais: so sistemticos ou
relacionados ao calendrio. Os exemplos incluem os eventos que
retornam anualmente, como o aumento repentino nas vendas dos
chocolates e das flores antes do dia de namorados ou aumento observado
-
29
no consumo da gua no vero devido ao calor. Nesses exemplos, os
movimentos sazonais so os testes padres idnticos ou quase idnticos
que uma srie de tempo parece seguir durante meses correspondentes de
anos sucessivos;
Movimentos irregulares ou aleatrios: caracterizam o movimento
espordico da srie de tempo devido aleatoriedade, tais como disputas
trabalhistas e as inundaes fazem parte desde tipo.
Para a anlise no vlei, a utilizao do primeiro movimento j proporciona
resultados, pois atravs dos resultados das mdias mveis j se observa a tendncia de
desempenho futura.
1.2.5 Padres seqenciais (Sequential Patterns)
Elmasri e Navathe (2005) apontam que a tcnica de padres seqenciais a
investigao de seqncias de aes ou eventos. Han e Kamber (2006) escrevem que uma
tcnica desafiadora, pois pode gerar e/ou testar um nmero combinatrio explosivo de
seqncias intermedirias. Para Sumathi e Sivanandam (2006), essa tcnica tem algumas
similaridades com a tcnica de regras, a diferena que faz exame da dimenso seqencial
dos dados analisados. O problema de minerao de dados em padres seqenciais foi
introduzido pela primeira vez por Agrawal e Srikant, em 1995, com base no seu estudo de que
cliente compra em seqncia. Segue um exemplo: dada uma relao de seqncias, em que
cada seqncia consiste em uma lista dos eventos (ou dos elementos) e cada evento consiste
em um conjunto de artigos. E dado um ponto inicial mnimo, especificado pelo usurio, da
sustentao do limite mnimo, os achados seqenciais da minerao do teste padro
freqentam subseqncias, isto , as subseqncias cuja freqncia da ocorrncia na relao
das seqncias no nenhum menos do que limite mnimo (HAN; KAMBER, 2006).
Esse problema foi motivado inicialmente por aplicaes na indstria do comrcio e
varejo, e de satisfao de cliente. Mas os resultados aplicam-se a muitos domnios cientficos
e de negcio. Por exemplo, no domnio mdico, uma seqncia dos dados pode corresponder
aos sintomas ou s doenas de um paciente, com uma transao que corresponde aos sintomas
exibidos ou s doenas diagnosticadas durante uma visita ao mdico. Os testes padres
-
30
descobertos usando os dados poderiam ser usados na pesquisa da doena ajudar identificar os
sintomas/doenas que precedem determinadas doenas (SUMATHI; SIVANANDAM, 2006).
No voleibol, essa tcnica pode ser utilizada para identificar o comportamento padro
de ataque ou defesa de equipes adversrias. Existem casos em que equipes tm jogadas
prontas, principalmente por caractersticas e/ou limitaes tcnicas de seus atletas. Essas
jogadas podem dar resultados positivos sempre que bem efetuadas, mas se a outra equipe
identificar esse padro de jogo durante a partida, pode se beneficiar e ganhar a partida, pois
estaria anulando a jogada de seu adversrio. Mas muitas vezes no identificada essa
seqncia padro de acontecimentos. Para exemplificar uma seqncia de jogada padro:
equipe A saca, jogador seis da equipe B recepciona e passa para jogador trs de sua equipe,
que levanta para o jogador cinco que efetua a cortada. Na prxima jogada tem-se a recepo
do jogador cinco, que passa para o jogador trs e recebe o levantamento para a cortada. Mais
uma jogada, mas agora quem recepciona o jogador dois que passa para o jogador trs que
levanta para o jogador cinco cortar. J possvel perceber uma seqncia padro nessas
jogadas. Toda vez que o jogador trs receber a bola, ele levantar sempre, ou na grande
maioria, para o jogador cinco fazer a cortada. Utilizando a tcnica de padres seqncias, esse
comportamento padro seria percebido no resultado da minerao. O suporte de confiana ou
limite mnino especificado pela comisso tcnica, nesse caso poderia ser: jogador cinco
recebe mais de dois levantamentos do mesmo jogador trs.
1.3 Ferramentas de Minerao de Dados
Existem vrias ferramentas de Minerao de Dados, as duas ferramentas escolhidas
foram o WEKA e o RapidMiner, nas prximas duas sees so abordados mais detalhes de
cada uma dessas ferramentas.
1.3.1 WEKA
Desenvolvido na Univesidade de Waikato, o WEKA (Waikato Enviroment
Knowledge Analysis) uma coleo de algoritmos da aprendizagem de mquina para tarefas
de minerao de dados. Esses algoritmos podem ser aplicados diretamente a uma srie de
dados ou serem chamados de seu prprio cdigo Java. O WEKA contm ferramentas para o
pr-processamento dos dados, a classificao, a regresso, o agrupamento, as regras da
associao e visualizao, tambm bem adequado para o desenvolvimento de novos
-
31
sistemas de aprendizagem. Atravs da interface grfica chamada Explorer possvel com
facilidade utilizar todas as funes atravs de menus de seleo. Por exemplo, possvel
rapidamente ler uma srie de dados de dentro um arquivo e construir uma rvore de deciso
(decision tree) dessa srie de dados, mas rvore de deciso apenas o comeo: h muitos
outros algoritmos disponveis a explorar (WITTEN; FRANK, 2005).
Para trabalhar as sries de dados, recomenda-se que converta a srie em arquivos do
formato ARFF (Attribute-Relation File Format). Esse formato um arquivo texto composto
por trs partes: relao, atributos e dados. Outra caracterstica do WEKA sua portabilidade
para outras aplicaes Java atravs de suas classes (SANTOS, 2005).
O WEKA tem sido usada em diversos trabalhos. Podem-se citar os trabalhos de
Gonchoroski (2007) e Wagner (2008), por ter explorado os principais algoritmos e tcnicas de
minerao de dados.
1.3.2 RapidMiner
RapidMiner (anteriormente Yale) um ambiente para aprendizagem de mquina e do
processo de minerao de dados desenvolvido na Universidade de Dortmund. O RapidMiner
introduz novos conceitos de manipulao de dados transparente e modelagem do processo que
facilitam a configurao do processo para usurios finais (MIERSWA et al., 2006).
Segundo Coelho (2008), sua operao se d por processos, isto significa que, para
realizar uma classificao de dados nesta ferramenta, necessrio incluir operadores para
cada processo que antecede a tarefa final desejada, sendo que alguns operadores possuem
parmetros configurveis. A lista de operadores, sua seqncia de execuo e parmetros so
armazenados em um arquivo XML para edio. O RapidMiner conta com diversos operadores
para as mais diversas finalidades de minerao de dados.
Mierswa et al. (2006) aponta que muito simples alcanar os dados de um SGBD
como Oracle, Microsoft SQL Server, PostgreSQL ou MySQL. O RapidMiner suporta uma
escala larga desses sistemas sem nenhum esforo adicional.
Aps essa breve conceituao e caracterizao da minerao de dados, suas tcnicas
e algumas ferramentas, chama a ateno que no existe uma tcnica que seja melhor que
outra. atravs da sua aplicao aos problemas que se ter uma avaliao de qual se encaixa
-
32
melhor ao problema definido. No caso de um sistema de scout, no diferente, devem ser
aplicadas tcnicas, a fim de analisar os resultados, para definir a melhor tcnica. No prximo
capitulo apresenta-se alguns conceitos e caractersticas dos sistemas scout.
-
2 SCOUT
A informtica est presente, cada dia mais, nas vidas das pessoas. Como no podia
ser diferente, est presente no esporte, onde existem sistemas de avaliao de desempenho de
atletas que so normalmente chamados por scout. Esse tipo de sistema, como apresentado na
Introduo, tem como funo capturar e processar informaes estatsticas de desempenho
dos atletas da equipe e da adversria, e que, em muitas vezes, no levam em considerao o
histrico do jogador em outros jogos e nem o comportamento do atleta nos diferentes
nveis/fases da partida. Dessa forma, os sistemas repassam dados para a comisso, que avalia
essa gama diversificada referente aos fundamentos bsicos do vlei e/ou jogadas realizadas
pela equipe adversria, num tempo reduzido e toma decises muitas vezes baseadas mais no
conhecimento emprico do tcnico ou da comisso do que no fator racional real daquela
situao (ZAMBERLAM et al., 2005).
Bizzocchi apud (RAIMANN, 2008) aponta que nos jogos olmpicos de 1984, os
norte-americanos foram os responsveis pela incluso do computador na quadra de voleibol,
tornando-se obrigatrio tambm para treinamentos e elaborao de planos tticos e tcnicos.
A seleo brasileira de vlei, comandada pelo tcnico Bernardo Rezende
(Bernardinho), utiliza-se dos dois scouts: ttico e tcnico. O ttico faz um mapeamento da
quantidade, do percentual e do tipo de jogadas do time adversrio; analisa tendncias dos
atletas (direes, preferncias e posicionamentos). O scout tcnico analisa o prprio time,
como cada atleta se comporta em cada fundamento, qual seu aproveitamento final. Isso
possibilita, por exemplo, elaborar quadros evolutivos de saque de um determinado atleta
(BERNARDINHO, 2006). A planilha, encontrada na Figura 2.1, foi apresentada pelo tcnico
da seleo brasileira, com o objetivo de exemplificar a utilizao da anlise estatstica nos
jogos da seleo. Essa planilha apresenta os dados coletados durante os Jogos Olmpicos,
-
34
realizado na Grcia, na data do dia 29 de agosto de 2004. O jogo em questo foi final dos
Jogos Olmpicos, realizado entre Brasil e Itlia.
Figura 2.1 Figura da tabela de anlise estatstica dos fundamentos de voleibol.
Fonte: BERNARDINHO, 2006
Esses dados so coletados durante a partida por um ou mais scouters. Antes da
informtica, os scouters coletavam esses dados em planilhas manuais, analisando os jogos
gravados em fitas de vdeo (VHS). Atualmente, os sistemas scouts permitem o armazenando
desses dados durante a partida, o processo de coleta de dados (ao longo do jogo) difcil, pois
a velocidade com que um jogo de vlei transcorre alta, ento normal que contenham erros
em seqncias de jogadas. Alguns sistemas scouts possuem regras que no permitem erros
primrios, por exemplo, depois de um saque ocorrer um levantamento da equipe adversria
sem ocorrer uma recepo.
De posse dos dados, os estatsticos das equipes comeam a fazer os estudos para
apresentarem para suas comisses tcnicas, emitindo, assim, relatrios estatsticos comisso
tcnica, que por sua vez faz uma anlise emprica em cima dos dados que a mesma considera
importantes. No calor de uma partida, dados podem ser interpretados de maneira
equivocada, proporcionando tomadas de decises equivocadas. Esses estudos so realizados
antes, durante e aps a partida (RAIMANN, 2008).
Bernardinho (2006) aponta que ao analisar a Figura 2.1, a relao total de saques-
errados / saques-pontos tem um saldo muito positivo, pois a equipe teve 10 saques errados,
mas, fez nove aces (pontos obtidos direto do saque). Avaliando a coluna bloqueio (BLOK),
possvel distinguir entre bloqueio-ponto (BP) e bloqueio para contra-ataque (BC), ou seja,
aqueles que propiciam contra-ataques so bloqueios defensivos extremamente importantes.
muito freqente, durante os jogos, ocorrerem um nmero pequeno de BP, mas um nmero
-
35
elevado de BC. So avaliados ainda os passes, a qualidade de cada ao e a proporo de
passes acertos (PA), ditos perfeitos sobre o total de aes, Bernardinho (2006) afirma que as
colunas de contra-ataque mostram talvez o ponto menos eficiente do jogo. Do total de contra-
ataques (29), 14 foram convertidos em pontos, ou seja, 48% de aproveitamento. Observa-se
tambm a grande atuao do atleta Gustavo, camisa 13, com 100% de aproveitamento. A
coluna E aponta erros cometidos sem relao com as aes anteriormente avaliadas: mo na
rede, dois toques, etc. J a coluna APV mede o aproveitamento individual de cada jogador:
pontos efetuados pontos concedidos.
Alm do sistema da seleo brasileira, que foi criado pela estatstica Roberta Giglio,
existem outros sistemas scouts. Os mais conhecidos, de acordo com Raimann (2008), so:
Scout Graph 1.0: sistema scout proprietrio da empresa SFW
Informtica tem como funes armazenar dados de jogos especficos e
gerar relatrios para uma anlise mais precisa de cada equipe, atleta ou
fundamento, um sistema portvel a outros esportes como futebol,
futebol de salo, basquete, voleibol e handebol;
SisVolei: sistema scout proprietrio e atravs dele possvel analisar
todos os fundamentos do vlei, sendo eles: saque, passe (recepo),
levantamento, ataque, bloqueio e defesa, voltado ao voleibol apenas;
Data Volley: sistema scout proprietrio desenvolvido pela empresa
DataProject permite monitorar todos os fundamentos do voleibol, com
uma avaliao completa, que inclui, alm do sentido, o tipo de ataque e
as zonas de partida e de chegada, at mesmo, informaes especficas
como o nmero de jogadores em bloco e o tipo de erro, alm disso,
possui integrao com outros sistemas da empresa como o Data Video
2007 que permite sincronizar, o scout com o filme do jogo, facilitando
assim o estudo e entendimento dos atletas, apresentando
posicionamentos em funo das possveis alteraes de jogadores da
equipe adversria. A maioria das grandes selees de vlei utiliza esse
sistema.
-
36
Raimann (2008) aponta como clara a importncia dos Sistemas de Monitoramento
para auxiliar na tomada de deciso quando aplicada a esportes como o vlei. Por exemplo,
jogadas velozes combinadas com boa ttica, posicionamento correto e anlise do adversrio,
podem ser decisivos para a vitria do jogo e at mesmo do campeonato.
O scout desenvolvido por Raimann (2008) tem as seguintes caractersticas: no um
sistema proprietrio, possui cadastro de jogos, cadastro de sets, cadastro de rotao inicial do
set, o mdulo de entrada de dados de um jogo, em que os fundamentos so cadastrados na
forma de caracteres. Com a finalidade de tornar mais rpida a entrada de dados, foi proposta
uma gramtica para anlise de comandos suprindo as necessidades de velocidade no cadastro
das jogadas. A gramtica de comandos foi criada de forma a ser mais completa, mas para o
sistema scout aborda somente a entrada de dados relativa aos fundamentos do voleibol.
Enfim, aps a descrio de um sistema scout, segue a apresentao de um sistema
scout (para o basquete) que se utiliza da minerao de dados.
2.1 Trabalho Correlato - Advanced Scout: Data Mining and Knowledge Discovery in NBA Data
Em (BHANDARI et al.,1997), apresentado o software Advanced Scout (AS). Esse
sistema procura e descobre padres interessantes em dados de jogos da NBA (liga norte-
americana de basquete). Sua primeira utilizao se deu na temporada 1995-1996, onde
dezesseis das vinte e nove equipes o receberam para avaliao. As comisses tcnicas o
avaliaram positivamente, afirmando ser uma valiosa ferramenta. Esse software trabalha em
quatro etapas: coleta de dados, pr-processamento, minerao de dados e interpretao do
conhecimento descoberto.
A coleta de dados feita por um software especialmente desenhado para o registro
de dados de basquete. Esses dados so armazenados em uma base de dados comum a todas as
equipes. Posteriormente, as equipes realizam o download dessa base de dados e a manipulam
de forma independente e sigilosa.
O pr-processamento feito aps o download da base de dados. O AS permite
realizar uma srie de consistncias na base de dados, visto que informaes errneas
permitiriam interpretaes erradas dos dados, assim os dados errados so corrigidos por meio
de regras base ou atravs de algum que tenha domnio do assunto. Aps a consistncia, os
-
37
dados so transformados e reformatados. Os dados brutos so reformatados na forma de
fichas de jogo, que so familiares para as comisses tcnicas que, assim, analisam os eventos
discretos (padres) de um jogo. Nessa fase os dados so enriquecidos atravs da verificao
das regras ou da entrada de dados adicionais.
A minerao de dados no AS ocorre quando um membro da comisso tcnica inicia
uma consulta geral. Automaticamente a minerao de dados procura por padres interessantes
na equipe da casa ou na visitante, em busca dos arremessos cesta de basquete (um dos
fundamentos do basquete, por exemplo), detectando o percentual padro de desempenho
(aproveitamento). As anlises posteriores podem incluir consultas mais especficas em torno
de atributos (como por exemplo, o jogador, a funo do jogador, lado da quadra, etc.) ou
fundamentos particulares (rebote, arremesso, etc.). A tcnica de minerao de dados utilizada
no AS conhecida como Attribute Focusing (AF) (BHANDARI, 1995).
A interpretao do conhecimento descoberto a forma como o resultado da
minerao de dados mostrada. No AS, os resultado so vistos de duas formas: atravs de
uma descrio textual ou grfica. O objetivo que os resultados sejam compreendidos
facilmente pela comisso tcnica. O processo de interpretao de padres representa a
descoberta de conhecimento e exige, normalmente, algum que tenha domnio do assunto.
Essa interpretao facilitada pela possibilidade do usurio ter vrias formas de aprofundar a
anlise interativamente para obter informaes adicionais ao resultado.
A seguir, a descrio de um trabalho, fora do domnio de sistemas de scout, mas que
colaborou na realizao deste trabalho.
2.2 Utilizao de tcnicas de KDD em um call center ativo
O Trabalho de Concluso de Curso apresentado por Gonchoroski (2007), mostrou
que o fato de Call Center no possuir nenhuma tcnica de minerao de dados pode significar
um mau aproveitamento dos dados disponveis. Uma vez que o emprego de minerao
confirmou a existncia de informaes importantes que no estavam disponveis na
visualizao dos dados, que dizem respeito relao entre as caractersticas dos clientes e o
resultado do contato. Como so vrios os fatores que influenciam as vendas, importante a
combinao de mais de uma caracterstica do cliente, e isso pode ser fundamental para definir
o perfil da pessoa que mais adquire produtos.
-
38
O foco da aplicao das tcnicas de Descoberta de Conhecimento em Base de Dados
(DCBD) ou Knowledge Discovery in Databases (KDD) desse trabalho foi a venda de ttulos
de capitalizao, pois grande quantidade de atributos presentes em cada registro de cliente a
ser contatado, crescendo a possibilidade de aumentar o grau de qualidade e diversidade das
informaes geradas. A tcnica de KDD escolhida foi a de classificao. As rvores de
classificao tornaram possvel organizar os atributos e a relao entre eles, para os contatos
com venda ou recusa. O software de minerao utilizado foi WEKA verso 3, que possui
todas as funcionalidades necessrias para aplicar KDD e dar todo o suporte para que os dados
sejam minerados. A aplicao de tcnicas de KDD permitiu conhecer os perfis dos
compradores em potencial dos produtos, possibilitando unir o conhecimento adquirido pelos
analistas de informaes da empresa de telemarketing e o conhecimento descoberto com a
minerao, auxiliando a seleo mais eficiente dos prospectos, aumentando as vendas e
reduzindo a quantidade de contatos telefnicos com os clientes.
Aps apresentar esses trabalhos correlatos mostrando a influncia da Data Mining
sobre os Sistemas de Tomada de Deciso, no prximo captulo apresentada a proposta de
um Mdulo de Data Mining para o sistema scout de Raimann (2008).
-
3 A PROPOSTA DE MDULO DE MINERAO
Um sistema scout, como j escrito, um sistema estatstico de monitoramento de
atletas, auxiliando em decises importantes na gesto de equipes. Entretanto, a quantidade de
informaes continua muito grande, deixando o processo de decidir dependente da
experincia do tcnico ou de algum integrante da comisso tcnica.
Solieman (2006) aponta que h igualmente muitos tipos de estatsticas que so
recolhidas para cada atleta. Por exemplo, um jogador de basquetebol ter dados para pontos,
rebotes, assistncias, roubadas e bloqueios para cada jogo. Isso pode conduzir sobrecarga de
informao para aqueles que tentam derivar o significado das estatsticas. Assim, os esportes
so ideais para ferramentas e tcnicas da minerao de dados.
A vantagem para equipes esportivas quando utilizam a minerao de dados est no
desempenho resultante de suas equipes e respectivos jogadores. Alguns esportes so
atualmente mais avanados do que outros, em especial no caso do voleibol e de seu uso atual
da anlise estatstica.
Por isso, surge a idia deste trabalho - desenvolver um mdulo de minerao de
dados para o sistema: Scout: Sistema de Monitoramento em Equipes de Voleibol
desenvolvido por Raimann (2008), parte integrante do projeto de pesquisa A IA entrando na
quadra de vlei: Scout Inteligente (ZAMBERLAM, 2005). Para facilitar a visualizao, a
Figura 3.1 ilustra o que est sendo realizado e como o mdulo de minerao far parte do
sistema scout.
-
40
Figura 3.1 Esquema geral do scout inteligente
Fonte: ZAMBERLAM, 2005
O mdulo de minerao interage com a base de dados, destacado com crculo na
Figura 3.1, fornecendo informaes mais precisas comisso tcnica, evitando assim o uso de
complicadas planilhas, pois existem grandes dificuldades nas leituras dessas planilhas. Os
dados que so inseridos no passam por nenhuma filtragem, no saltam aos olhos os
problemas ou as vantagens das equipes na partida.
Na Figura 3.2 possvel visualizar parte da estrutura do banco de dados do sistema
de scout desenvolvido por Raimann (2008), a fim de ilustrar em quais dados a minerao
dever atuar. Para armazenar os dados de maneira mais eficiente, foram feitas algumas
alteraes na base de dados original. As alteraes foram a incluso do campo Tempo na
tabela de Movimento, para saber em qual momento do jogo ocorreu o movimento; a outra foi
a inverso das cardinalidades entre as tabelas Movimento e Evento, onde um movimento ter
N eventos at a concluso do ponto. E entre tabelas Evento, Saque, DefesaPasse,
Levantamento, Cortada e Bloqueio, onde cada evento representa um fundamento at a
concluso do movimento. Essa alterao pode ser vista na Figura 3.3.
-
41
Figura 3.2 Modelagem do banco de dados do sistema scout
Fonte: RAIMANN, 2008
-
42
Figura 3.3 Modelagem do banco de dados alterada
Fonte: Autor, 2008
-
43
Atravs dessa estrutura do banco de dados, possvel perceber a quantidade de dados
que uma partida de voleibol pode gerar. Por meio do diagrama de atividade apresentado na
Figura 3.4, pode-se visualizar como o sistema de scout se comporta.
Figura 3.4 Diagrama de Atividade do sistema scout de Raimann (2008)
Fonte: Autor, 2008
De forma simplificada, pode-se dizer que o processo de scout de uma partida
propriamente dito, inicia a partir do cadastro de jogos, para cada jogo so cadastrados todos os
jogadores (duas equipes por partida) que ficaro disponveis para a disputa. O prximo passo
-
44
cadastrar os sets e quais sero os fundamentos (saque, bloqueio, etc.) que sero analisados.
Ao inicializar cada set so informados os jogadores que entram em quadra. Esse o cadastro
de rotao inicial, tambm deve ser sinalizado qual o jogador sacador, por meio desses
dados que ser controlada a rotao do jogo, que realizada automaticamente pelo sistema. A
partir desse ponto, os scouters (pessoas que ficam na quadra cadastrando cada jogada e
substituies ocorridas durante a partida) do a entrada de dados do jogo.
Conforme Raimann (2008), esses dados so gravados na forma de caracteres, com o
objetivo de tornar mais rpida a entrada de dados. Cada fundamento e sua seqencia de
caracteres so separados por ponto e vrgula. Abaixo descrito e ilustrado a seqncia de
fundamentos executados em uma partida e como os dados devem ser inserido dentro do
sistema scout de Raimann (2008).
O fundamento saque armazena: nmero da camiseta do jogador, posio em que fez
o saque, tipo de saque, direo em que fez o saque, efeito do saque e observaes. Na Figura
3.5 possvel visualizar o Mapa Conceitual desse fundamento.
Figura 3.5 Mapa Conceitual do Fundamento Saque
Fonte: RAIMANN, 2008
Os fundamentos defesa e passe armazenam as seguintes informaes: nmero da
camiseta do jogador, posio em que fez a defesa, tipo de defesa, efeito da defesa e
observaes, Figura 3.6 apresenta seu mapa conceitual.
-
45
Figura 3.6 Mapa Conceitual dos Fundamentos Defesa/Passe
Fonte: RAIMANN, 2008
O fundamento levantamento armazena: nmero da camiseta do jogador, posio em
que fez o levantamento, forma de levantamento, qualidade do levantamento, direo do
levantamento e observaes, veja seu mapa conceitual (Figura 3.7).
Figura 3.7 Mapa Conceitual dos Fundamentos Levantamento
Fonte: RAIMANN, 2008
No fundamento de ataque cortada, os dados so os seguintes: nmero da camiseta do
jogador, posio em que fez a cortada, direo da cortada, efeito da cortada, velocidade da
cortada e observaes, detalhes dos dados Figura 3.8.
-
46
Figura 3.8 Mapa Conceitual dos Fundamentos Cortada
Fonte: RAIMANN, 2008
Fundamento de defesa bloqueio armazena essas informaes: nmero da camiseta do
jogador, posio em que fez o bloqueio, tipo de bloqueio, efeito do bloqueio e observaes,
detalhes dos dados Figura 3.9.
Figura 3.9 Mapa Conceitual dos Fundamentos Bloqueio
Fonte: RAIMANN, 2008
So essas as informaes que o mdulo de Data Mining vai analisar, pois atravs
de dados como o nmero do jogador que ser analisado o desempenho do mesmo em um set
ou em uma partida. A posio de cada fundamento essencial para analisar as preferncias
dos jogadores e tambm pontos fracos dos mesmos. O efeito a conseqncia do fundamento,
que uma numerao de 0 a 3, onde zero erro do fundamento, gerando assim ponto para o
-
47
adversrio, 1 continuidade negativa, pois possibilita ao adversrio um contra ataque, 2 uma
continuidade positiva pois gerou dificuldades ao adversrio e 3 e ponto direto da equipe.
Alguns fundamentos tm outras informaes relevantes, como a direo comum a
saque, levantamento e cortada. O fundamento de defesa/passe ainda conta com informao
sobre o tipo de defesa/passe. No levantamento a forma e a qualidade so informaes
imprescindveis. Na cortada a velocidade pode ser um fator relevante e no bloqueio seu tipo
a informao mais importante. Essas informaes vo passar por um tratamento, que ser a
etapa da preparao de dados que est inserida no captulo 4.
Uma vez contextualizado os dados a serem manipulados pelo mdulo proposto,
seguem os detalhes da modelagem.
3.1 Especificao dos requisitos
De acordo com Guedes (2008); a especificao de requisitos de software contm e
descreve os requisitos, ou seja, define o produto e pode servir como um documento auxiliar
no contrato de desenvolvimento do produto. As sees que seguem, referentes modelagem,
foram baseadas nas orientaes encontradas em (MEDEIROS, 2004).
3.1.1 Requisitos funcionais
Conforme Guedes (2008) os requisitos funcionais so declaraes de funes que o
sistema deve fornecer, como o sistema deve reagir a entradas especficas e como deve se
comportar em determinadas situaes.
REQF1 [Controlar Acesso ao Sistema]
Requisito corresponde ao controle de acesso s opes do site: caso o usurio esteja
com o status bloqueado ele no ter acesso a nenhuma opo no sistema, herdado do sistema
proposto por Raimann (2008).
Classificao: Essencial
-
48
REQF2 [Gerar Dados para Anlise]
Requisito que corresponde a gerar dados para anlise para o mdulo de Minerao de
Dados. Deve constar: data e hora da gerao dos dados. atravs desse requisito que so
executados os primeiros passos da minerao de dados, onde os dados da base de dados
original so selecionados e inseridos no Data Mart, esses dados ganham um cdigo e data e
hora de gerao para futuras comparaes histricas. Esse procedimento ser realizado
atravs de comandos SQL (select, insert) que sero colocados em uma funo do PostgreSQL,
essa executada a partir do site da aplicao.
Classificao: Essencial
REQF3 [Selecionar Dados Gerados para Anlise]
Requisito que corresponde a consultar os dados para anlise para o mdulo de
Minerao de Dados. Atravs de uma lista de cdigos, data e hora o usurio selecionar a
gerao desejada para a minerao de dados.
Classificao: Essencial
REQF4 [Aplicar Tcnicas de Minerao de Dados]
Requisito que corresponde a aplicao das tcnicas de minerao de dados na
consulta selecionada no REQF3, esse requisito consiste nos demais passos da minerao de
dados, nesse requisito que so gerados os arquivos ARFF para serem submetidos s classes
selecionadas do WEKA.
Classificao: Essencial
3.1.2 Requisitos no funcionais
Guedes (2008) afirma que so restries sobre os servios ou as funes oferecidas
pelo sistema. Entre eles, destacam-se restries de tempo, restries sobre o processo de
desenvolvimento, padres e outros.
-
49
REQNF1 [Utilizao de Banco de Dados Relacional]
Requisito que corresponde a utilizao de um banco de dados relacional. Vai manter-
se a utilizao do PostgreSQL.
Classificao: Essencial
REQNF2 [Base de dados Alimentada]
A base de dados do sistema desenvolvido por Raimann (2008) deve estar alimentada
com dados de pelo menos cinco jogos envolvendo uma determinada equipe para que os
resultados da minerao de dados sejam proveitosos efetivamente.
Classificao: Essencial
REQNF3 [Links/cones/Botes para Acesso s Principais Funes]
Requisito corresponde ao acesso s principais funes por meio de links/cones.
Facilitando assim a utilizao do sistema.
Classificao: Essencial
REQNF4 [Java Virtual Machine]
Requisito corresponde execuo do mdulo.
Classificao: Essencial
3.2 Casos de Uso
Para Guedes (2008) o diagrama mais geral da UML2, utilizado na maioria das
vezes nas fases de levantamento e anlise de requisitos do sistema, tambm utilizado
durante todo o processo de modelagem e serve como base para outros diagramas, fornecendo
uma compreenso comum entre todos os envolvidos no projeto.
2 UML: Unified Modeling Language ou simplesmente Linguagem de Modelagem Unificada.
-
50
3.2.1 Diagrama de Casos de Uso
O diagrama apresenta uma macro atividade do sistema, descrevendo/detalhando as
opes que o sistema disponibilizar. Tambm busca identificar os atores que executam
atividades, bem como outros sistemas que possam interagir com o sistema. Para Medeiros
(2004) um Ator pode ser uma pessoa, um sistema ou mesmo uma entidade externa.
Na Figura 3.10 apresentado um diagrama geral do sistema scout e onde o mdulo
de Minerao de Dados entra. A Figura 3.11 detalha as opes que o mdulo de Minerao,
assim como os Atores que tero interao com o mesmo.
Figura 3.10 Diagrama de Caso de Uso geral
Fonte: AUTOR, 2008
-
51
Figura 3.11 Diagrama de Caso de Uso geral do mdulo de Minerao de Dados
Fonte: AUTOR, 2008
3.2.2 Casos de Uso Estendidos
So utilizados para detalhar de forma mais precisa as interaes entre os usurios e o
mdulo de minerao de dados. Lembrando que essa estrutura foi baseada em (MEDEIROS,
2004).
UC001 Gerar Dados para Anlise
Breve Descritivo: Este caso de uso descreve o processo de Gerar Dados para
Anlise.
Quadro 3.1 Caso de Uso Gerar Dados para Anlise
Requisitos Funcionais: REQF1 [Controlar Acesso ao Sistema]
Requisitos No Funcionais: REQNF1 [Utilizao de Banco de Dados Relacional]
REQNF2 [Base de dados Alimentada]
REQNF3 [Links/cones/Botes para Acesso s Principais Funes]
-
52
REQNF4 [Java Virtual Machine]
Atores: Usurio Administrador.
Pr-condies: Ser um usurio com permisses de administrador.
Fluxo Principal: O administrador acessa o mdulo de minerao de
dados e clica na opo gerar dados para anlise.
Campo: data e hora da gerao.
Subfluxo:
1. Gerar Dados.
Subfluxos: 1. Gerar Dados:
1.1 O administrador informa a data e a hora da nova gerao;
1.2 O administrador clica no boto/link Gerar Dados;
1.3 O mdulo verifica os dados e sugere um cdigo para a nova gerao;
1.4 O mdulo executa a funo do PostgreSQL (Figura Apndice 1) que seleciona os dados na
base de dados original e os insere no Data
Mart, essa etapa no processo de minerao de
dados equivale a preparao dos dados;
1.5 O mdulo retorna a mensagem: Dados gerados com sucesso..
Tratamento de Excees: 1.3.1 Verifica se os dados foram preenchidos
corretamente. Caso no estejam ele retorna a
mensagem de erro Dados para gerao no informados..
1.3.2 Caso o banco de dados no responda a
requisio ele retorna a mensagem de erro Banco indisponvel..
Ps-condies: Os usurios administrador, scouter, restrito estaro
aptos a consultar os dados gerados para anlise.
Fonte: Autor, 2008.
O Diagrama de Atividade referente gerar dados para anlise apresentado na
Figura 3.12. importante ressaltar que o uso de diagramas de atividades com casos de usos
estendidos auxilia na validao dos fluxos, subfluxos e excees descritas nos casos de uso.
-
53
Figura 3.12 Diagrama de Atividade referente a gerar dados para anlise
Fonte: AUTOR, 2008
UC002 Selecionar Dados Gerados para Anlise
Breve Descritivo: Este caso de uso descreve o processo de Selecionar Dados
Gerados para Anlise.
Quadro 3.2 Caso de Uso Selecionar Dados Gerados para Anlise
Requisitos Funcionais: REQF1 [Controlar Acesso ao Sistema]
REQF2 [Gerar Dados para Anlise]
Requisitos No Funcionais: REQNF1 [Utilizao de Banco de Dados Relacional]
-
54
REQNF2 [Base de dados Alimentada]
REQNF3 [Links/cones/Botes para Acesso s Principais Funes]
REQNF4 [Java Virtual Machine]
Atores: Usurio Administrador, Scouter e Restrito.
Pr-condies: Ser um usurio cadastrado no sistema.
Ter dados gerados para consulta.
Fluxo Principal: O usurio acessa o mdulo de minerao de dados e
clica na opo selecionar dados gerados para anlise.
Campos: Data Incio e Data Fim
Subfluxo:
1. Consultar Geraes;
2. Selecionar Gerao.
Subfluxos: 1. Consultar Geraes:
1.1 O usurio informa a data e hora de incio e fim da gerao que deseja realizar anlises;
1.2 O usurio clica no boto/link Consultar Geraes;
1.3 O mdulo carrega os dados em uma tabela, listados com o cdigo, data e hora de sua
gerao alm da coluna selecionado;
2. Selecionar Gerao:
2.1 O usurio seleciona a gerao desejada clicando sobre o boto de checagem da coluna
selecionado;
2.2 O usurio clica no boto/link Salvar Informaes;
2.3 O mdulo grava as informaes no banco de dados;
2.4 O mdulo retorna a mensagem: Dados salvos com sucesso..
Tratamento de Excees: 1.3.1 e 2.3.1 Caso o banco de dados no responda a
requisio ele retorna a mensagem de erro Banco indisponvel..
Ps-condies: Os usurios estaro aptos a aplicar as tcnicas de MD.
Fonte: Autor, 2008.
Figura 3.13 apresenta o diagrama de atividade, a fim de contemplar o caso de uso
estendido.
-
55
Figura 3.13 Diagrama de Atividade referente a selecionar dados gerados para anlise
Fonte: AUTOR, 2008
UC003 Aplicar Tcnicas de Minerao de Dados
Breve Descritivo: Este caso de uso descreve o processo de Aplicar Tcnicas de
Minerao de Dados.
Quadro 3.3 Caso de Uso Aplicar Tcnicas de Minerao de Dados
Requisitos Funcionais: REQF1 [Controlar Acesso ao Sistema]
REQF2 [Gerar Dados para Anlise]
-
56
REQF3 [Selecionar Dados Gerados para Anlise]
Requisitos No Funcionais: REQNF1 [Utilizao de Banco de Dados Relacional]
REQNF2 [Base de dados Alimentada]
REQNF3 [Links/cones/Botes para Acesso s Principais Funes]
REQNF4 [Java Virtual Machine]
Atores: Usurio Administrador, Scouter e Restrito.
Pr-condies: Ser um usurio cadastrado no sistema.
Ter selecionado dados para a anlise.
Fluxo Principal: O usurio acessa o mdulo de minerao de dados e
clica na opo aplicar tcnicas de minerao de dados.
Subfluxo:
1. Relatrio de Agrupamento de Atletas por Efeito de Fundamento;
2. Relatrio de Agrupamento de Atletas por Posio e Efeito de Fundamento.
Subfluxos: 1. Relatrio de Agrupamento de Atletas por Efeito de Fundamento:
1.1 Usurio clica no boto/link Agrupamento de Atletas por Efeito de Fundamento;
1.2 O mdulo atravs de uma funo do PostgreSQL (Figura Apndice 2) gera o
arquivo ARFF e o grava no disco rgido;
1.3 O mdulo, atravs da classe de integrao ClusteringEM carrega o arquivo ARFF e
submete a classe EM do WEKA atravs do
mtodo buildClusterer, depois o retorno lido
pela classe de integrao atravs do mtodo
getNumClusters da classe ClusterEvaluation;
1.4 Esse retorno tratado para que os dados sejam de fcil entendimento da comisso tcnica;
2. Relatrio de Agrupamento de Atletas por Posio e Efeito de Fundamento:
2.1 Usurio clica no boto/link Agrupamento de Atletas por Posio e Efeito de Fundamento;
2.2 O mdulo atravs de uma funo do PostgreSQL (Figura Apndice 3) gera o
arquivo ARFF e o grava no disco rgido;
2.3 O mdulo, atravs da classe de integrao ClusteringFarthestFirst carrega o arquivo ARFF
e submete a classe FarthestFirst do WEKA
-
57
atravs do mtodo buildClusterer, depois o
retorno lido pela classe de integrao atravs
dos mtodos getNumClusters e toString da
prpria classe ClusterEvaluation FarthestFirst;
2.4 Esse retorno tratado para que os dados sejam de fcil entendimento da comisso tcnica.
Tratamento de Excees: 1.2.1 e 2.2.1 Caso o banco de dados no responda a
requisio ele retorna a mensagem de erro Banco indisponvel..
Ps-condies: Os usurios administrador, scouter, restrito estaro
aptos analisar relatrio das tcnicas aplicadas.
Fonte: Autor, 2008.
Figura 3.14 apresenta o diagrama de atividade, como forma de validar o caso de uso
estendido.
Figura 3.14 Diagrama de Atividade referente a aplicar tcnicas de minerao de dados
Fonte: AUTOR, 2008
-
58
3.3 Diagrama de Classes
Guedes (2008) aponta que o principal objetivo do diagrama de classes apresentar
quais classes vo compor o mdulo com seus respectivos atributos e mtodos, alm de
demonstrar como as classes se relacionam. Na seguir (Figura 3.15) apresentado o diagrama
de classes do mdulo proposto.
-
59
Figura 3.15 Diagrama de Classes referente a integrao do mdulo MD e o WEKA
Fonte: AUTOR, 2008
-
60
3.4 Diagrama de Seqncia
Medeiros (2004) afirma que esse diagrama pode ser usado para mostrar a evoluo
de uma dada situao em determinado momento do software, mostrar uma dada colaborao
entre as classes e pode, tambm, ser usado para mostrar a traduo do caso de uso. Enfim,
atravs desse diagrama que mtodos so definidos e em quais classes eles sero depositados.
A se