[ieee 2014 9th iberian conference on information systems and technologies (cisti) - barcelona, spain...

4

Click here to load reader

Upload: leonel

Post on 16-Apr-2017

218 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: [IEEE 2014 9th Iberian Conference on Information Systems and Technologies (CISTI) - Barcelona, Spain (2014.6.18-2014.6.21)] 2014 9th Iberian Conference on Information Systems and Technologies

Análise do desempenho das equipas no campeonato de futebol português

Leonel Dias [email protected]

DEI/FEUP, R. Dr. Roberto Frias, 4200-465 Porto, Portugal INESC TEC, Campus da FEUP, R. Dr. Roberto Frias, 4200-465 Porto, Portugal

Resumo — O Futebol é o desporto coletivo mais popular no mundo. Por outro lado, o conhecimento no Futebol tem sido reconhecido como um dos mais heterogéneos e ricos recursos que permite o desenvolvimento de novas metodologias para gestão de tomadas de decisões inteligentes. O Data Mining é um processo que nos permite encontrar novos padrões de conhecimento não-trivial em grandes conjuntos de dados, que potenciam inovações e capacidade de continuamente criar serviços excelentes em termos de complexidade, flexibilidade e criatividade. Neste sentido, este artigo descreve um trabalho exploratório de análise da performance das equipas no Campeonato Nacional de Futebol Português no século XXI, determinando quais os fatores de um jogo de futebol, mais decisivos para a classificação final de uma equipa, além do número de vitórias, empates ou derrotas.

Palavras Chave - Extração de Conhecimento; Análise de Dados; Qualidade de dados; Aprendizagem Computacional; Futebol;

I. INTRODUÇÃO Na atualidade é muito comum existirem grandes bases de

dados com milhares ou milhões de registos, tornando necessária a utilização das mais modernas tecnologias de informação para facilitar ou otimizar o processo de extração de conhecimento, aumentando assim a velocidade das respostas e melhorando a qualidade dos resultados após processamento da informação. A extração de conhecimento em grandes bases de dados denomina-se Data Mining [1]. Apesar das definições de Data Mining levarem a crer que o processo de extração de conhecimento funciona de uma forma totalmente automática, sabe-se hoje claramente que de facto isso não é verdade [2]. Mesmo havendo diversas ferramentas especializadas para extração de conhecimento que nos auxiliam na execução dos vários algoritmos utilizados neste âmbito, os resultados ainda precisam de uma análise humana. No entanto, o Data Mining contribui de forma significativa no processo de descoberta de conhecimento, permitindo aos especialistas concentrarem esforços apenas nas partes mais significativas da informação. Existem alguns trabalhos que exploram diversas metodologias de extração de conhecimento com o propósito de fazer o reconhecimento de padrões não triviais em conjuntos de dados sobre eventos desportivos. Os autores de Sports Data Mining [3] exploram de forma exaustiva de que forma é que o Data Mining pode contribuir significativamente para desportos tão variados como o Basebol, Cricket, Râguebi ou Futebol. Este livro é o primeiro do género a apresentar várias técnicas de extração de conhecimento e aprendizagem computacional para análise desportiva.

A influência e popularidade do futebol a nível mundial e sobretudo na europa é sempre muito atrativo em diversos domínios do conhecimento. Um exemplo disso é o trabalho [4] elaborado por autores da Faculdade de Engenharia da Universidade do Porto, que exploram a pesquisa e previsão de conhecimento não-trivial, tendo como fonte de dados os jogos realizados no campeonato nacional na época desportiva 2004/2005. Para a concretização dos objetivos, estes autores aplicaram várias técnicas de modelação com diferentes parâmetros calibrados para otimização, no entanto, segundo os autores, nenhuma das técnicas atingiu os objetivos propostos. Uma das eventuais razões para tal acontecer, poderá ser a amostra não ser a mais representativa, quer pela escassez de atributos quer pela fraca capacidade discriminativa dos poucos existentes. O trabalho apresentado neste documento partilha dos mesmos objetivos do trabalho apresentado em [4], no entanto, o tipo de dados e a metodologia utilizada será bastante diferente, como se poderá ver nas secções seguintes. O trabalho que se descreve de seguida tem como objetivo a análise da performance das equipas que participam ou participaram no campeonato nacional de futebol. Muito sucintamente, queremos responder à pergunta: “o que mais/menos contribui para uma equipa ser campeã?”. Sabemos antemão que o que mais contribui são o número de vitórias de uma equipa, mas existiram mais variáveis do jogo que podem ter influência? Será que a região de Portugal de onde é oriunda uma equipa tem influência? Esta e outras questões serão respondidas com a construção de modelos preditivos.

Os modelos de regressão são classificados como um método de aprendizagem supervisionado de previsão ou estimação e têm sido considerados como uma ferramenta poderosa na interpretação da informação e no auxílio na tomada de decisão. Os modelos de regressão são utilizados em todas as áreas do conhecimento e são uma das técnicas mais utilizadas para analisar dados. Sumariamente, o fenómeno da regressão observado primeiramente por Sir Francis Galton (1822 – 1911) nasce da tentativa de relacionar um conjunto de observações de certas variáveis, designadas genericamente por ( = 1 … ), com as leituras de uma certa grandeza . No caso da regressão linear, está subjacente uma relação do tipo: = + + + ⋯ +

onde a, b1, b2, ..., bp são os parâmetros da relação linear procurada. O objetivo pode ser puramente explicativo, ou seja, demonstrar uma relação matemática que pode indicar, mas não prova, uma relação de causa-efeito, ou preditivo, isto é, obter uma relação que nos permita, perante futuras observações das

Page 2: [IEEE 2014 9th Iberian Conference on Information Systems and Technologies (CISTI) - Barcelona, Spain (2014.6.18-2014.6.21)] 2014 9th Iberian Conference on Information Systems and Technologies

variáveis , prever o correspondente valor de , sem necessidade de o medir. Quaisquer que sejam os objetivos, as variáveis são muitas vezes designadas por variáveis explicativas, uma vez que tentam explicar as razões da variação de Y [5].

II. CONJUNTO DE DADOS Os dados utilizados neste trabalho foram recolhidos

manualmente do website www.zerozero.pt [6] e dizem respeito às informações finais de cada clube, que participou na primeira divisão do campeonato nacional no presente século. Os dados foram posteriormente armazenados num ficheiro Excel.

A. Preparação dos Dados O conjunto de dados contêm 238 casos de participações.

Desde da época de 1999/2000 até 2012/2013, participaram 33 clubes distintos, com diferente número de presenças. Para o conjunto de dados acima citado, foi possível recolher 63 distintos atributos para cada uma das participações do clube participante numa determinada época. Os únicos atributos que não faziam parte da fonte escolhida e que foram posteriormente gerados foram:

Distrito (Distrito/Região de Portugal a qual pertence a equipa) - este atributo foi acrescentado à posterior para permitir análises da performance dos distritos/regiões participantes em cada campeonato;

Campeão e Despromoção foram calculados à posterior, tendo em conta a posição final da equipa no campeonato, cruzando com as regras de atribuição de títulos e despromoções de divisão, em vigor em cada época.

Vencedor da Taça, Melhor Marcador, Número de Jogos do Melhor Marcador, Prémios individuais e Títulos coletivos europeus foram acrescentados a partir de informações recolhidas da Liga Portuguesa de Futebol [7].

B. Exploração dos Dados Através de uma análise cuidada é possível verificar: o

domínio dos chamados três grandes (Porto, Benfica e Sporting); a evolução de classificação do Braga ao longo dos últimos 13 anos; as intermitências de classificações de algumas equipas como é o caso do Guimarães ou Nacional, entre outros.

Analisando os dados concluímos também que existem três regiões que dominam o panorama nacional: Lisboa, Porto e Braga, com o maior número de presenças ao longo deste século. Contudo, e apesar de uma equipa do distrito do Porto ter sido mais vezes campeã que qualquer outra do País é a região de Lisboa a que mais se distinguiu, desde 2000, com melhores classificações no final de cada época.

Neste conjunto de dados, podemos verificar que a região Madeira tem um razoável número de presenças nos campeonatos nacionais e nunca viu uma equipa ser despromovida para divisões inferiores, neste século. Pelo contrário, neste século os Açores, Aveiro e Portalegre têm uma fraca assiduidade de equipas na primeira divisão e com muita tendência para serem despromovidas para a divisão inferior.

Tendo em conta que existem três condições para terminar um jogo (Vitória, Derrota ou Empate), para os últimos 5 jogos

do campeonato, é possível ter 35 = 243 possibilidades de criar uma sequência de resultados. Analisando o conjunto de dados, podemos concluir que só foram concretizadas 144 das 243 possibilidades. Restringindo apenas às sequências mais frequentes, concluímos que apenas 22 sequências foram repetidas 3 ou mais vezes.

Para o conjunto de dados, relativo ao século atual quase nos é tentado dizer que uma equipa que vence 10 ou mais jogos, com 3 ou mais golos nunca será campeã. Mais ainda, é obrigatório ganhar pelo menos 3 jogos por 3 ou mais golos, para se ser campeão. Só alargando o número de casos de participação ao longo do tempo em todas as edições do campeonato nacional de futebol é que se poderá confirmar estas hipóteses, mas é curioso que, para este conjunto de dados, seja possível verificar tal facto.

C. Qualidade, Limpeza e Tratamento de Dados

1) Valores em Falta A deteção dos valores em falta por cada atributo foi efetuada através das ferramentas facultadas no RapidMiner [8], para importação de conjunto de dados. Dos 63 atributos existentes, apenas foram detetadas falhas de 18 de 239 valores no atributo Reviravolta. Este atributo foi eliminado do conjunto de dados.

2) Valores Discrepantes

A deteção de possíveis valores discrepantes em cada atributo foi efetuada através dos cálculos estatísticos sobre o conjunto de dados. Tendo-se encontrado possivelmente 2 discrepâncias:

Caso 1: Duas despromoções apesar do lugar classificativo garantir sempre não descida de divisão?

Quando se pensa numa despromoção, é normal pensarmos que esta acontece sempre que uma equipa fica abaixo da chamada linha de água. Após análise do conjunto de dados deste trabalho, conclui-se que existem dois valores discrepantes, que surgem devido a casos de não cumprimento dos regulamentos e que conduziram a uma descida de divisão, apesar de a equipa ter terminado em posições classificativas que não implicavam a despromoção. Analisando os dois valores que aparentam ser discrepantes, de facto não se tratam de discrepâncias, pois estas duas equipas desceram por infração dos regulamentos, mas mesmo assim estas duas entradas serão eliminadas, para não interferir na análise da performance dos clubes.

Caso 2: 16 penalties numa só época não será demais?

Numa determinada época, quando o Sporting foi campeão, teve 16 penalties a seu favor, sendo este valor muito discrepante em relação aos existentes. Será discrepância? Terá mesmo acontecido? (pelo menos apresenta alguma inconsistência). A dimensão da fonte de dados permite-nos aprofundar a fase de exploração dos dados e conclui-se tratar de valores verdadeiros. Caso o volume de dados fosse maior, seria mais complicado despistar esta possível discrepância.

Page 3: [IEEE 2014 9th Iberian Conference on Information Systems and Technologies (CISTI) - Barcelona, Spain (2014.6.18-2014.6.21)] 2014 9th Iberian Conference on Information Systems and Technologies

3) Valores errados Comparando os golos marcados e sofridos nos diferentes momentos de jogo, através da Figura 1, verifica-se que existe uma pequena discrepância nos valores obtidos. De facto, se uma equipa marca um golo num determinado momento de jogo, significa que também será considerado um golo sofrido (associado ao adversário que consente golo) no mesmo momento de jogo. Sendo assim, como se pode ver, os dados apresentados para Golos Marcados e Golos Sofridos têm algumas discrepâncias em 5 intervalos de tempo associados ao jogo de futebol. A resolução desta discrepância não é fácil, uma vez que cada golo em cada momento de jogo está associado a uma equipa. Não sendo possível saber com este conjunto de dados em que equipas os valores estão incorretos, salvaguarda-se a integridade dos restantes dados, sendo que estes atributos deixam de fazer parte do conjunto de dados que será utilizado em fases posteriores.

Figura 1 – Golos Marcados vs Golos Sofridos

III. MODELAÇÃO E AVALIAÇÃO O objetivo do trabalho é analisar as classificações finais

(variável-objetivo) de um ou mais clubes, tendo como base os valores das variáveis independentes que caracterizam as várias participações de clubes no conjunto de dados selecionado e definido anteriormente. Em problemas de regressão como este, em que a variável de saída é do tipo quantitativo a medida de avaliação mais utilizada é o erro médio quadrático (E.M.Q.) coadjuvado com o coeficiente de determinação (R2). Este coeficiente varia entre 0 e 1, indicando, em percentagem, o quanto o modelo consegue explicar os valores observados. Portanto, a qualidade da regressão dos vários modelos testados e obtidos vai ser avaliada mediante o erro obtido entre os valores reais e os previstos, e a correlação entre os atributos.

A obtenção do modelo de regressão foi realizada através do RapidMiner [4], e para tal foram testados diferentes parametrizações de diferentes algoritmos.

O processo de treino visou encontrar a solução de valores para os atributos que minimizam o valor do Erro Médio Quadrático e maximizam o Coeficiente de Determinação.

Com o objetivo de avaliar a performance de cada modelo utilizou-se o procedimento de validação cruzada. Para tal, dividiu-se o conjunto de dados em 10 conjuntos com um número aproximadamente igual de amostras. A performance de cada modelo obtido para este conjunto de dados é a média da performance dos 10 testes.

IV. RESULTADOS OBTIDOS Para cada algoritmo testado, obteve-se os seguintes

resultados (a parametrização dos valores de cada algoritmo foi a definida por omissão no RapidMiner).

Tabela 1 - Resultados Obtidos

Tendo em conta os resultados obtidos (Tabela 1), para o coeficiente de determinação do melhor modelo obtido, isto é, com o erro médio quadrático mais baixo (1,296), podemos dizer que 96,4% da variável dependente consegue ser explicada pelos atributos presentes no modelo.

Segundo o modelo obtido, para um determinado valor de saída deste modelo, temos 40 variáveis de entrada, cada uma acompanhada com o respetivo peso, isto é, a contribuição.

Tabela 2 - Modelo obtido (Peso "negativo" dos atributos)

Tendo em conta que se pretende analisar a classificação final de uma equipa num campeonato nacional de futebol, o modelo obtido faz todo o sentido. Pois, é do senso comum que a performance nos campeonatos de futebol depende sobretudo do número de vitórias, derrotas e empates.

Sendo o valor numérico 1, a melhor classificação possível num campeonato de futebol é natural que o atributo Vitórias e seus similares tenda a ter coeficiente elevado mas negativo pois, quantas mais vitórias tiver uma determinada equipa,

0-15 16-30 31-45 46-60 61-75 76-90 90

Golos Marcados 1227 1398 1536 1507 1558 1973 232

Golos Sofridos 1227 1397 1535 1505 1557 1972 232

minutos de jogo

R2 E.M.Q.

Page 4: [IEEE 2014 9th Iberian Conference on Information Systems and Technologies (CISTI) - Barcelona, Spain (2014.6.18-2014.6.21)] 2014 9th Iberian Conference on Information Systems and Technologies

melhor posicionado estará na tabela classificativa (valor menor na classificação). Pelo contrário, sendo o valor numérico 18, a pior classificação possível no mesmo campeonato, é natural que o atributo Derrotas e seus similares, tenda a ter coeficiente elevado mas positivo pois, quantas mais derrotas tiver uma determinada equipa, pior posicionada estará na tabela (valor maior na classificação).

Existem também factos bastante interessantes, por exemplo, número de golos do melhor marcador, número de autogolos a favor da equipa, número de amarelos e a última série de resultados não tem grande influência na classificação final, pois tem pesos muito próximos de zero.

Sendo o Futebol, um desporto coletivo, este modelo também vem comprovar que características individuais ligadas aos jogadores que mais se destacam numa época, não são fatores decisivos para boas classificações finais, por exemplo, os atributos Melhor Marcador ou Prémios Individuais UEFA / FIFA têm baixo peso na determinação da posição final, apesar de contribuírem para os lugares mais elevados na classificação final, isto é, com valores “negativos” para aproximar a equipa do primeiro lugar.

No mundo do Futebol português, tradicionalmente diz-se que a região do País onde se insere uma determinada equipa é muitas vezes decisiva, como podemos ver o atributo Distrito tem um contributo pequeno na determinação da classificação final. De igual forma, o número de goleadas (3 ou mais golos) é também pouco contributivo.

Tabela 3 - Modelo obtido (peso "positivo” dos atributos)

V. CONCLUSÕES E TRABALHO FUTURO Este trabalho teve como principal objetivo a análise da

performance das equipas no campeonato nacional de futebol. Na primeira fase deste trabalho foi realizada uma análise exaustiva (da qualidade) dos dados, procedendo-se ao levantamento de todos os valores discrepantes, errados ou em falta. De seguida, na fase de modelação foi analisado o relacionamento entre diversas variáveis contributivas para o sucesso da classificação final das equipas portuguesas de futebol no presente século XXI.

Foram testados diferentes algoritmos e parâmetros. Tendo em conta, os resultados obtidos, estes indiciam as variáveis independentes consideradas são bastantes explicativas da variável dependente. O melhor modelo obtido permite assim perceber e responder ao objetivo do trabalho, que era a determinação dos principais fatores decisivos para uma equipa ser campeã.

Apesar de ser uma técnica com quase vinte anos (Burges and Vapnik, 1995), a técnica Support Vector Machines ANOVA kernels (SVM) veio mais uma vez chamar à atenção para os bons resultados que apresenta na obtenção de altos índices de assertividade permitindo mesmo assim gerar modelos de simples interpretação. A simplicidade de interpretação pode ser observada nas Tabela 2 e Tabela 3, onde facilmente é possível perceber qual o contributo de cada atributo para a classificação final de uma equipa no campeonato nacional de futebol.

A nível de trabalho futuro, os resultados do presente trabalho podem ser o ponto de partida para futuros estudos, nomeadamente a aplicação dos modelos obtidos a outros campeonatos de futebol. Deste modo, algumas sugestões de futuros desenvolvimentos englobariam: a integração de mais informação relativa a outras épocas, englobando outras variáveis independentes tais como, variáveis próprias de um jogo de futebol (lesões, remates, bolas ao poste, etc…) e outras variáveis não ligadas propriamente a um jogo de futebol (orçamento das equipas, número de sócios, jogadores internacionais na equipa, etc…).

AGRADECIMENTOS Este trabalho é financiado por Fundos FEDER através do

Programa Operacional Fatores de Competitividade – COMPETE e por Fundos Nacionais através da FCT – Fundação para a Ciência e a Tecnologia no âmbito do projeto « FCOMP - 01-0124-FEDER-022701»

REFERÊNCIAS [1] D. Hand, H. Mannila e P. Smyth, Principles of Data Mining,

MIT Press, 2001. [2] D. Larose, Discovering Knowledge in Data: An Introduction to

Data Mining., 2005: John Wiley and Sons, Inc. [3] R. P. S. O. K. C. H. Schumaker, Sports Data Mining, Integrated

Series in Information Systems, Vol. 26, 2010. [4] S. Nunes and M. Sousa, "Applying data mining techniques to

football data from European championships,"Actas da 1ª Conferência de Metodologias de Investigação Científica (CoMIC'06), 2006.

[5] J. Han, Data mining: concepts and techniques, 2001. [6] “Porque todos os jogos começam assim,” ZeroZero, [Online].

Disponível em: www.zerozero.pt. [Acedido em 5 Janeiro 2014]. [7] "Liga Portuguesa" 20 Fevereiro 2014. [Online]. Disponível em:

www.lpfp.pt. [8] “RapidMiner - Predictive Analytics, Data Mining, Self-service,

open source,” [Online]. Disponível em: www.rapidminer.com . [Acedido em 20 Fevereiro 2014].