programação genética econométrica aplicada a prob lemas de ... · c onsiderando que muitos...
TRANSCRIPT
Programação Genética Econométrica Aplicada a Problemas
de Regressão em Conjuntos de Dados Seccionais
André Luiz Farias Novaes1, Ricardo Tanscheit
1, Douglas Mota Dias
2
1Departamento de Engenharia Elétrica – PUC-Rio
Rua Marquês de S. Vicente, 225, 22.451-290 Rio de Janeiro, RJ
2Departamento de Eletrônica e Telecomunicações – UERJ
Rua S. Francisco Xavier, 524, 20.550-900 Rio de Janeiro, RJ
[email protected], [email protected], [email protected]
Abstract. This article proposes black-box parsimonious linear models for
regression tasks in cross-sectional datasets. Genetic Programming (GP) is
employed to perform the evolution process of models, composed of distinct
regressors. The algorithm for model generation algorithm of models, called
Econometric Genetic Programming (EGP), when compared to benchmarks for
five datasets, shows competitive results in terms of accuracy for most cases.
Besides, the use of EGP helps identifying introns and combatting bloat
through statistical significance.
Resumo. Este artigo propõe modelos lineares, parcimoniosos, do tipo caixa-
preta, para tarefas de regressão em conjuntos de dados seccionais. A
Programação Genética (PG) é a ferramenta utilizada para realizar o
processo de evolução de modelos, constituídos de distintos regressores. O
algoritmo gerador de modelos, chamado de Programação Genética
Econométrica (PGE), quando comparado com benchmarks para cinco
conjuntos de dados, apresenta resultados competitivos em acurácia na maior
parte dos casos. Além disso, oferece auxílio na identificação de introns e no
combate ao bloat por significância estatística.
1. Introdução
Considerando que muitos apontam o ano de 1663 como o marco inicial da estatística
[Willcox 1938], pode-se dizer que a tarefa de regressão é tão antiga quanto a própria
estatística. Introduzida por [Koza 1992], a Programação Genética (PG) [Poli et al. 2008]
é uma ferramenta também aplicável à tarefa de regressão. Esta pode ser realizada em
tipos distintos de conjuntos de dados [Wooldridge 2006] – entre eles, dados de corte
seccional/transversal, considerados coletados como Amostra Aleatória (AA). Em tal
tarefa, o princípio da parcimônia [Domingos 1999] é aplicado da seguinte forma:
deseja-se regredir uma variável de resposta em função do menor número possível de
variáveis independentes, preferencialmente a partir de um modelo que tenha a estrutura
mais simples possível.
Em regressão, não é raro que se utilizem modelos caixa-preta, caracterizados por
não ter informação a priori disponível [Giustolisi and Savic 2006] e orientados ao
conjunto de dados aos quais são submetidos, buscando descobrir a forma funcional e os
respectivos parâmetros provenientes da forma funcional, que usualmente precisam ser
estimados.
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 469
Este artigo tem como objetivo principal propor modelos interpretáveis de
elevada acurácia, parcimoniosos, do tipo caixa-preta, para tarefas de regressão em
conjuntos de dados seccionais por meio da combinação de ferramental estatístico e de
computação evolucionária. O algoritmo gerador de modelos deste artigo é denominado
Programação Genética Econométrica (PGE).
Os principais precursores da PGE – particularmente os que combinam elementos
de regressão múltipla e PG – apresentam limitações em alguns aspectos. Em [Giustolisi
and Savic 2006], por exemplo, não é realizada a estimação no âmbito dos regressores, o
que pode gerar multicolinearidade elevada. Em [Davidson et al. 2003], significância
estatística não é utulizada como ferramenta de seleção de regressores. Os modelos
apresentados em [Arnaldo et al. 2014] carecem de interpretabilidade dos parâmetros.
Alguns destes trabalhos, embora aplicáveis a problemas práticos, também carecem de
fundamentação teórica necessária ao pleno uso de tais ferramentas – não é o foco deste
artigo explorar tais particularidades. A PGE se utiliza de boa parte dos elementos
utilizados por seus precursores, ao mesmo tempo que busca preencher as lacunas
deixadas pelos mesmos, quando da união de modelos de regressão com PG.
Este artigo é organizado da seguinte forma: as seções 2 e 3 descrevem a PG e
econometria – bases da PGE; a seção 4 apresenta a PGE em si; a seção 5 trata dos
Experimentos e Resultados, seguida da Conclusão.
2. Econometria
O modelo tradicional da econometria [Mardia et al. 1980] é um modelo estatístico que
pode ser escrito sob a forma 𝒀 = 𝑿𝜷 + 𝑼.
Se 𝒀 = 𝒚, 𝑼 = 𝒖 (vetores coluna), e 𝜷 for uma matriz 𝑘 x 1, tem-se o modelo
de regressão linear múltipla:
𝒚 = 𝑿𝜷 + 𝒖, (1)
onde 𝒚 = [𝑦1 𝑦2 ⋯ 𝑦𝑛]T e 𝑿 ≡ [𝒙1 … 𝒙𝑖 … 𝒙𝑘], representam as observações das
variáveis dependente e independente e 𝜷𝑘 x 1 faz o ajuste de 𝑿 a 𝒚. Como este pode não
ser perfeito, inclui-se o termo de erro 𝒖𝑛 x 1 = [𝑢1 𝑢2 ⋯ 𝑢𝑛]T. Como 𝜷 é desconhecido,
utiliza-se a amostra de 𝑛 observações para que se possa produzir, através de seu
estimador , alguma informação a ele relacionada.
2.1. Estimação por Mínimos Quadrados Ordinários (MQO)
A estimação por MQO é expressa matematicamente por [Ashlagi et al. 2010]:
min𝜷
‖𝒚 − 𝑿𝜷‖2 = min𝜷
(𝒚 − 𝑿𝜷)T(𝒚 − 𝑿𝜷) (2)
O estimador é o valor que soluciona (2). Este é uma função estritamente convexa de
𝜷 e, consequentemente, tem um ótimo único , determinado pelas equações em
𝑿T(𝒚 − 𝑿) = 𝟎, que é o vetor de derivadas de (2) em relação aos elementos de 𝜷. A
solução de (2) é dada por:
= (𝑿T𝑿)−1𝑿T𝒚. (3)
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 470
2.2. Testes de Hipóteses
Hipótese é uma conjectura sobre a relação entre a variável dependente e um ou mais
regressores, expressa através de valores numéricos para 𝜷. A maneira clássica de se
realizar um Teste de Hipótese (TH) é inicialmente formular a hipótese que se deseja
testar (𝑯0), definir uma estatística de teste adequada e, em seguida, propor um critério
de decisão para rejeitar ou não rejeitar a hipótese.
Verificando-se, na prática, as hipóteses para aleatoriedade de 𝒖 [Davidson and
Mackinnon 1993] – o que de fato ocorre para os modelos nos conjuntos de dados deste
artigo –, é um vetor de variáveis aleatórias tal que |𝑿 ~ N(𝜷, 𝜎2(𝑿T𝑿)−1).
Usualmente, estima-se 𝜎2 por 2 = T 𝑛 − 𝑘 − 1⁄ , fazendo com que:
𝑇 =𝑖−𝛽𝑖
𝑆𝐸(𝑖) √𝑛⁄ ~ 𝑡 (𝑛 − 𝑘 − 1), (5)
onde 𝑇 representa a estatística de teste utilizada neste artigo, que é uma variável
aleatória com distribuição conhecida sob 𝑯0. O critério de decisão baseia-se em: se 𝑇𝑜𝑏𝑠
– a realização de 𝑇 quando os valores de 𝑖, 𝛽𝑖, 𝑆𝐸(𝑖) e √𝑛 são substituídos em (5) – é
um valor entre −𝑡α 2⁄ (𝑛 − 𝑘 − 1) e 𝑡𝛼 2⁄ (𝑛 − 𝑘 − 1), é muito provável, sob o nível de
confiança de 1 − 𝛼, que 𝑇𝑜𝑏𝑠 seja de fato um valor oriundo da distribuição de 𝑇 sob 𝑯0
– nesse caso, deve-se não rejeitar 𝑯0. Caso contrário, rejeitar-se-á 𝑯0.
3. Programação Genética (PG)
A PG evolui uma população de programas de computador, geração a geração,
transformando estocasticamente uma população em uma nova a partir dos operadores
genéticos de mutação e cruzamento. Espera-se que os novos programas sejam melhores
– em função de uma métrica de aptidão/acurácia [Poli et al. 2008]. Os programas são
usualmente representados por árvores, que podem ser um programa ou parte de um
programa (gene, ramo ou sub-árvore). Um programa pode ser composto por um
conjunto de genes (estrutura multigênica).
Como em outros algoritmos evolucionários, os indivíduos da população inicial
da PG são tipicamente gerados de maneira aleatória – há alguns métodos que
desempenham essa tarefa, tais como full, grow e ramped half-and-half – [Poli et al.
2008]. Construída a população inicial, a PG propõe a evolução de seus indivíduos
através de uma estrutura de repetição. A população inicial é exposta a rotinas que
buscam fazer com que, em média, os indivíduos das populações/gerações subsequentes
sejam melhores do que os indivíduos das populações/gerações anteriores. Este processo
finda quando uma solução com acurácia aceitável é encontrada ou uma condição de
parada é atingida. A determinação e o cálculo da acurácia são realizados somente após a
definição do conjunto de terminais, Ω, e do conjunto de funções. A definição de Ω e do
conjunto de funções depende do tipo de problema em estudo. O conjunto de terminais Ω
pode ser composto de variáveis e constantes efêmeras, além de funções sem
argumentos. O conjunto de funções pode ser composto por funções aritméticas,
matemáticas, booleanas, condicionais ou de repetição.
A (métrica de) acurácia ou função objetivo é a grandeza responsável por
identificar quais regiões do espaço de busca podem ser determinadas como as mais
prováveis de fornecer programas que solucionem, plena ou aproximadamente, a tarefa
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 471
de interesse. O espaço de busca a ser explorado pela PG, definido como todas as
possíveis soluções para a tarefa em questão, também é função do conjunto de terminais
(Ω) e do conjunto de terminais e funções (𝜗).
4. Programação Genética Econométrica
O algoritmo gerador de modelos (PGE) disponibiliza uma família de modelos de
regressão – na forma de (1), com cada um dos indivíduos tendo um conjunto de
regressores 𝑋 – em função do conjunto de dados ao qual é aplicado. O modelo de
melhor acurácia é aquele superior aos outros de sua família em função de uma métrica
de comparação.
4.1. Métrica de Comparação
Solucionar (2) é também minimizar a Raiz do Erro Quadrático Médio (REQM). Embora
a REQM seja uma possível medida de ajuste [Wang and Bovik 2009], é comum que se
utilize o R2, construído a partir do R2, não somente para avaliar modelos como também
para compará-los.
4.2. Inclusão de Variáveis Estatisticamente Significantes
O ponto mais interessante do R2 é a penalização à inclusão de variáveis independentes
ao modelo caso elas não forneçam melhoria no grau de explicação dos componentes de
𝑿 a 𝒚 [Wooldridge 2006]. Sendo 𝒙𝑘+1 um vetor de dimensões 𝑛 x 1, o que se realiza na
prática quando se adiciona uma variável independente genérica 𝑥𝑘+1 ao conjunto de
regressores 𝑋 do modelo é a concatenação de 𝒙𝑘+1 à matriz de regressores 𝑿 ≡[𝒙1 … 𝒙𝑘], tornando 𝑿 ≡ [𝒙1 … 𝒙𝑘 𝒙𝑘+1] e 𝑋 = 𝑥1, 𝑥2, … , 𝑥𝑘, 𝑥𝑘+1.
A assertiva anterior pode ser formulada pelo seguinte modelo de decisão: sendo
𝑘+1 estimado por MQO após concatenação de 𝒙𝑘+1 a 𝑿 no modelo 𝒚 = 𝑿𝜷 + 𝒖, o
regressor 𝑥𝑘+1 aumentará o coeficiente R2 se e somente se a realização da estatística 𝑇,
referenciada em (5) ao coeficiente 𝑘+1, for maior do que 1 em valor absoluto. Neste
caso (|𝑇𝑜𝑏𝑠| > 1), 𝑥𝑘+1 promove um incremento na acurácia (R2) e sua inclusão é
justificável. Se |𝑇𝑜𝑏𝑠| < 1, R2 decresce com a inclusão de 𝑥𝑘+1. Se |𝑇𝑜𝑏𝑠| = 1, R2 não
se modifica com a inclusão de 𝑥𝑘+1.
Diz-se que 𝑥𝑖 é estatisticamente significante se há rejeição de 𝑯0 para os
modelos de TH de (4). A significância estatística é fundamental para que se possa
atribuir relações de causa e efeito entre variáveis, evitando que se tomem efeitos
puramente aleatórios como causas de eventos de interesse.
Construir modelos de regressão de acurácia elevada é o objetivo primário. Para
que seja cumprido, é proposto um algoritmo gerador de modelos de regressão linear que
se utiliza da REQM como métrica de comparação entre modelos. Embora o R2 não seja
explicitamente utilizado como métrica de comparação entre os modelos ao longo da
evolução, por razões avaliadas por [Novaes et al. 2015], ele pode ser utilizado ao
término da evolução como métrica de comparação com o benchmark proposto.
Para que se cumpra o objetivo, é fundamental adicionar regressores
estatisticamente significantes a 𝑋 de cada um dos modelos propostos, ao nível de
significância de 5%, nos moldes de (4) para TH. Ao se considerar o limiar 𝑡𝛼 2⁄ (𝑛 −
𝑘 − 1), em substituição ao valor unitário, tanto para realizar TH em 𝛽𝑘+1 quanto para
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 472
decidir se é correto ou não acrescentar 𝑥𝑘+1 (do ponto de vista da maximização de R2),
preza-se por modelos que possuam regressores altamente colaborativos com o grau de
explicação de 𝑦, além de serem estaticamente significantes. Tal decisão revela uma
característica conservadora do método, ao somente permitir em 𝑋 os regressores que
sejam de fato agregadores à acurácia do modelo, aumentando o limiar de decisão para
adição de 𝑥𝑘+1 do valor 1,00 para o valor 1,96.
O algoritmo de geração de modelos de regressão linear se utiliza da prova
matemática relacionada ao acréscimo de 𝑥𝑘+1 a 𝑋 e da condição necessária para que
𝑥𝑘+1 seja estatisticamente significante e, por consequência, gerador de aumento a R2.
Ou seja, a 𝑋 deve ser acrescentado o maior número de regressores que sejam
estatisticamente significantes.
4.3. Modelo de PGE
A PGE é o algoritmo de PG que evolui modelos econométricos. Portanto, o roteiro
descrito anteriormente para a PG se aplica à PGE. Na PGE, os programas têm
representação em árvore, do tipo multigênica.
Qualquer constante em um indivíduo da PGE é proveniente da estimativa de ,
oriundo da estimação por MQO. Portanto, Ω é composto somente por variáveis.
A PGE se utiliza de uma versão probabilística do método ramped half-and-half
para geração da população inicial [Searson et al. 2010].
A condição de parada do algoritmo para todos os conjuntos de dados é o número
máximo de gerações proposto.
Os formatos de modelos citados somente necessitam das operações de soma e
multiplicação para que possam ser construídos. Logo, o conjunto de funções da PGE é
composto somente pelas funções de soma e multiplicação.
A multicolinearidade não se constitui em uma preocupação no que se refere ao
desempenho do algoritmo gerador de modelos, devido à utilização da decomposição QR
para estimação de por MQO [Novaes et al. 2015].
Com relação ao cálculo da acurácia, ressalta-se que, estimado , avalia-se quais
regressores em 𝑋 são estatisticamente significantes. Os que não o são, de acordo com o
TH proposto em (4), serão retirados de 𝑋. Realiza-se uma nova estimação somente com
os regressores estatisticamente significantes em 𝑋, chegando-se à 𝟐. O cálculo de
REQM é realizado em função de 𝟐.
Na PGE, utiliza-se a seleção por torneio (𝑛𝑡𝑜𝑟𝑛𝑒𝑖𝑜 = 7) com uma variante de
pressão lexicográfica [Luke and Panait 2006].
A Tabela 1 descreve o sumário da PGE para os experimentos realizados no
software GPTIPS – toolbox do Matlab no qual os algoritmos deste artigo foram
construídos [Searson et al. 2010]. O intervalo de cada parâmetro foi especificado
tomando por base [Poli et al. 2008].
Acrescente-se que a PGE permite, indiretamente, a identificação de introns
através da significância estatística. Introns são partes do código que não contribuem
para a acurácia do indivíduo [Miller and Smith 2006]. Ao se realizar TH em 𝜷, retiram-
se do cômputo da acurácia os regressores estatisticamente insignificantes – introns.
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 473
Tabela 1. PGE: sumário
Objetivo Obter modelos de regressão com maior
acurácia possível.
Parâmetros
Tamanho da População De 50 a 150.
Número de Gerações De 15 a 100.
Altura Máxima do Indivíduo De 2 a 5.
Altura Máxima para sub-árvore criada De 2 a 5.
Número Máximo de Genes por Indivíduo De 2 a 5.
Probabilidades de Ocorrência de Mutação e Cruzamento
Variantes ao longo da evolução, de acordo com [Silva 2007]
Probabilidade de Ocorrência de Mutação tradicional [Koza 1992], dado que ocorrerá
Mutação. De 50% a 95%.
Probabilidade de Ocorrência de Cruzamento intragênico, dado que ocorrerá Cruzamento.
50%.
Taxa de Elitismo 5% sobre a população (fixo).
Condição de Parada Número de gerações atingido.
O combate ao bloat através da significância estatística é outra carcterística
importante da PGE. O bloat é o crescimento ilimitado e sem controle de indivíduos em
uma população, geralmente não ocasionando melhorias na acurácia [Luke and Panait
2006]. Embora se permita que introns permaneçam na estrutura de um indivíduo,
potencializando o bloat, a PGE o combate quando define que somente o regressor
estatisticamente significante contribui para a acurácia. Para a PGE, o crescimento
generalizado de indivíduos pode até não ser visto como um problema, pois ela se
beneficia de potenciais regressores estatisticamente significantes que venham a surgir a
partir deste crescimento.
5. Experimentos e Resultados
5.1. Métricas de Desempenho
Utiliza-se a PGE, com os parâmetros descritos na Tabela 1, para gerar modelos de
regressão linear para alguns conjuntos de dados: Concreto, Casas, Ruídos, Proteínas e
Iates – todos oriundos de [UCI Machine Learning Repository 2014].
Para treinar e avaliar a PGE, divide-se o conjunto de dados em dois grupos:
treinamento, com 70% do total de exemplos, e teste, com o restante. Em seguida,
realiza-se a validação cruzada 10-fold [Khai 1995] no conjunto de treinamento. O
conjunto de teste é utilizado exclusivamente para avaliar a qualidade das soluções.
Sob a ótica dos modelos de regressão, são de interesse, ao longo da evolução, as
métricas de REQM e R2. Como a PGE tem natureza parcimoniosa, é coerente que se
observe o comportamento do número de regressões, estatisticamente significantes ou
não, ao longo da evolução.
Os gráficos das Figuras 1a à 5b, que mostram a evolução das métricas de
interesse para os distintos conjuntos de dados, apresentam as seguintes siglas: “R2
Ajustado” para R2; “REQM” para “Raiz do Erro Quadrático Médio”, “#reg” para
número de regressores; “#reg-es” para número de regressores estatisticamente
significantes.
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 474
Figura 1 a. Concreto: 𝟐 e REQM Figura 1b. Concreto: #reg e #reg-ES
Figura 2a. Casas: 𝟐 e REQM Figura 2b. Casas: #reg e #reg-ES
Figura 3a. Ruídos: 𝟐 e REQM Figura 3b. Casas: #reg e #reg-ES
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 475
Figura 4a. Proteínas: 𝟐 e REQM Figura 4b. Proteínas: #reg e #reg-ES
Figura 5a. Iates: 𝟐 e REQM Figura 5b. Iates: #reg e #reg-ES
5.2. Benchmark
Como determinado anteriormente, o algoritmo de geração de modelos de regressão
linear se utiliza da prova matemática relacionada ao acréscimo de 𝑥𝑘+1 a 𝑋 e da
condição necessária para que 𝑥𝑘+1 seja estatisticamente significante e, por
consequência, gere um aumento em R2.
Propõe-se um benchmark para os algoritmos de regressão da PGE a partir do
resultado teórico acima e da análise dos gráficos de evolução do número de regressores.
Caso a PG não fosse utilizada como mecanismo de geração de modelos, o simples
acréscimo de regressores a 𝑋, segundo uma regra que não explora o espaço de busca,
seria suficiente. A rotina 𝑥2𝑓𝑥 do Matlab realiza essa tarefa. Eis um exemplo: supondo
𝑥1, 𝑥2, 𝑥3 as variáveis de Ω, 𝑥2𝑓𝑥 gerará o conjunto 𝑋 = 𝑥1, 𝑥2, 𝑥3, 𝑥1𝑥2, 𝑥1𝑥3,𝑥2𝑥3, 𝑥1
2, 𝑥22, 𝑥3
2 de regressores, composto pelas variáveis independentes originais de
Ω, seus termos cruzados e termos quadráticos. É possível utilizar 𝑥2𝑓𝑥 novamente,
agora sobre 𝑥1, 𝑥2, 𝑥3, 𝑥1𝑥2, 𝑥1𝑥3, 𝑥2𝑥3, 𝑥12, 𝑥2
2 e 𝑥32, para gerar um novo conjunto
𝑋 com ainda mais regressores. Neste caso, há a formação de dois modelos para
comparação com a PGE: o primeiro deles após aplicação única da rotina 𝑥2𝑓𝑥 e o
segundo após a aplicação dupla da rotina 𝑥2𝑓𝑥 (a segunda aplicação é realizada sobre o
conjunto de variáveis originadas da primeira aplicação de 𝑥2𝑓𝑥).
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 476
5.3. Resultados
As Figuras de 6 a 10 apresentam resultados para cada conjunto de dados. Em cada uma
delas, os quadros denominados Treino, Validação e Teste dizem respeito a R2 nos
conjunto de treino, validação e teste para os três algoritmos testados, em cada um dos k
experimentos. O quadro “#reg-ES” representa o número de regressores estatisticamente
significantes. Ao final de cada quadro, apresentam-se a média e o desvio padrão (DP)
para todos os experimentos. Médias em azul indicam o algoritmo de melhor
desempenho: quanto maior o R2, melhor o resultado. Quanto menor o número de
regressores, mais parcimonioso é o modelo e melhor é o resultado (supondo que
apresente uma boa métrica de R2).
Figura 6. Resultados: Concreto
Figura 7. Resultados: Casas
Figura 8. Resultados: Ruídos Figura 9. Resultados: Proteínas
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 477
Figura 10. Resultados: Iates
No conjunto de dados Concreto, a PGE apresentou o R2 médio mais elevado
dentre todos os algoritmos aplicados, nos conjuntos de treino, validação e teste, além de
ser o modelo com 𝑋 de menor cardinalidade (“#reg-ES” médio é o menor dentre todos
os algoritmos). O DP para todas as métricas da PGE foi o menor entre os algoritmos. O
desempenho no conjunto de teste é o de maior importância, pois representa a capacidade
do algoritmo de inferir o comportamento de 𝑦 em um conjunto de dados não utilizado
no treinamento.
No conjunto Casas, a PGE apresentou o R2 médio mais elevado dentre todos,
nos conjuntos de treino e teste. Os modelos com 𝑋 de menor cardinalidade são a PGE e
o Benchmark 1, com média de regressores estatisticamente significantes atingindo o
valor de 17,80. Tal fato evidencia a superioridade na qualidade de regressores gerados
pela PGE em relação ao Benchmark 1, visto que, embora apresentem a mesma
cardinalidade de 𝑋, a PGE apresentou melhor desempenho no conjunto de teste. O
termo “NaN” indica que o R2 dos modelos gerados pelo Benchmark 2 foram expostos à
situação em que 𝑘 ≅ 𝑛, com 𝑘 elevado (média de 318,60) e 𝑛 ligeiramente superior a 𝑘,
fazendo com que R2 atinja valores negativamente muito elevados, excedendo à precisão
computacional do software, como confirmam as tabelas de validação e teste.
No conjunto Ruídos, o Benchmark 2 explorou de maneira mais eficiente o
espaço de busca de regressores – por consequência, de modelos – do que a PGE e
Benchmark 1. Isto é observado pela cardinalidade média de 𝑋 em Benchmark 2, quando
comparada com as dos outros dois algoritmos. Por ser um conjunto de dados com
poucas variáveis de entrada – somente cinco – é possível que seja necessário aumentar a
capacidade de exploração do espaço de busca pela PGE, através da modificação de
parâmetros do experimento, como aumento do número máximo de gerações, do número
de genes máximo permitido e do tamanho de árvore máxima para os indivíduos.
A análise para o conjunto de dados Proteínas é semelhante àquela para Ruídos.
No conjunto de dados Iates, a PGE apresentou o R2 médio mais elevado nos
conjuntos de validação e teste.
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 478
6. Conclusão
A utilização da PGE em tarefas de regressão cumpriu satisfatoriamente com seu
objetivo principal, ao propor modelos parcimoniosos de elevada acurácia para os
conjuntos de dados propostos e promover modelos competitivos frente a outros
algoritmos de regressão. Há benefícios e limitações relativas ao seu uso como processo
gerador de modelos para regressão.
A PGE traz como benefício a geração de modelos lineares que permitem análise
simples da estrutura do modelo e regressores que o compõem. O uso de em
substituição às constantes efêmeras em um modelo potencializa, por meio da acurácia, a
contribuição deste modelo à tarefa em questão, pois a estimação de é um processo de
otimização, que permite ao modelo estar em suas melhores condições (em função do
critério que se utiliza para otimização de ) de ser aplicado à tarefa.
Limitações da PGE seriam (i) a dupla estimação de para cada indivíduo,
necessária à identificação de regressores estatisticamente significantes e do cômputo da
acurácia, e (ii) a restrição aos modelos 𝒚 = 𝑿𝜷 + 𝒖, que pode inibir a geração de
outros modelos, menos restritivos em sua forma, mas que poderiam apresentar melhor
acurácia. A forma 𝒚 = 𝑿𝜷 + 𝒖 também implica, em primeira instância, em se
utilizarem somente as funções soma e multiplicação no conjunto de funções.
Referências
Arnaldo, I., Krawiec, K., & O’Reilly, U-M. (2014). Multiple Regression Genetic
Programming. In Proceedings of the 2014 Annual Conference on Genetic and
Evolutionary Computation, 2014, p. 879-886.
Ashlagi, I., Braverman, M., Hassidim, A. and Monderer, D. (2010). Monotonicity and
Implementability. In Econometrica, v. 78, n. 5, p. 1749-1772. Wiley.
Davidson, J. W., Savic, D. and Walters, G. A. (1999). Method for the Identification of
Explicit Polynomial Formulae for the Friction in Turbulent Pipe Flow. In Journal of
Hydroinformatics, v. 1, n. 2, p. 115-126. IWA Publishing Press.
Davidson, J. W., Savic, D. A., & Walters, G. A. (2003). Symbolic and numerical
regression: experiments and applications. In Information Sciences, v. 150, p. 95-117.
Davidson, R. and Mackinnon, J. G. (1993), Estimation and Inference in Econometrics,
Oxford University Press, 1st edition.
Domingos, P. (1999). The Role of Occam’s Razor in Knowledge Discovery. In Data
Mining and Knowledge Discovery, v. 3, issue 4, p. 409-425. Springer Publishing.
Kohavi, R. (1995). “A study of cross-validation and bootstrap for accuracy estimation
and model selection”. In: Proceedings of the 14th
International Joint Conference on
Artificial Intelligence - Volume 2, IJCAI’95, p. 1137–1143, San Francisco, CA.
Giustolisi, O. and Savic, D. A. (2006). A symbolic data-driven technique based on
evolutionary polynomial regression. In Journal of Hydroinformatics, v. 8, n. 3, p.
207-222. IWA Publishing Press.
Greene, W. H. (2011), Econometric Analysis, Prentice Hall, 7th
edition.
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 479
Koza, J. R. (1992), Genetic Programming: On the Programming of Computers by
Means of Natural Selection (Complex Adaptive Systems), MIT Press, 1st edition.
Luke, S. and Panait, L. (2006). A comparison of bloat control methods for genetic
programming. In Evolutionary Computation, v. 14, n. 3, p. 309-344. MIT Press.
Maindonald, J. H. (1984), Statistical Computation, Wiley Press, 1st edition.
Mardia, K. V., Kent, J.T. and Bibby, J.M. (1980), Multivariate Analysis, Academic
Press, 1st edition.
Miller, J. F. and Smith, S. L. (2006). Redundancy and Computational Efficiency in
Cartesian Genetic Programming. In IEEE Transactions On Evolutionary
Computation, v. 10, n. 2, p. 167-174. IEEE Computational Intelligence Society.
Novaes, A. L. F. (2015). “Programação Genética Econométrica: uma Nova Abordagem
para Problemas de Regressão e Classificação em Conjuntos de Dados Seccionais”,
PUC-Rio.
Poli, R., Langdom, W. B. and McPhee, N. F. (2008), A Field Guide to Genetic
Programming, Lulu Enterprises, 1st edition.
Searson, D. P., Leahy, D. E. and Willis, M. J. (2010). “GPTIPS: an open source genetic
programming toolbox for multigene symbolic regression”. In Ao, S. I., Castillo, O.,
Douglas, C., Feng, D. D., and Lee, J.-A., editors, Proceedings of the International
Multiconference of Engineers and Computer Scientists, volume 1, p. 77-80,
International Association of Engineers.
Silva, S. (2007), GPLAB: A Genetic Programming Toolbox for MATLAB, 3rd
edition.
UCI Machine Learning Repository (2014). Datasets “Concrete Compressive Strength
Data Set”, “Housing Data Set”, “Airfoil Self-Noise Data Set”, “Physicochemical
Properties of Protein Tertiary Structure Data Set”, “Yacht Hydrodynamics Data Set”.
http://archive.ics.uci.edu/ml/, July/2014.
Wang, Z. and Bovik, A. C. (2009). Mean squared error: Love it or leave it? – A new
look at signal fidelity measures. In IEEE Signal Processing Magazine, v. 26, n. 1, p.
98-117. IEEE Signal Processing Society.
Willcox, W. F. (1938). The Founder of Statistics. In Review of the International
Statistical Institute, v. 5, n. 4, p. 321-328. International Statistical Institute (ISI).
Wooldridge, J. M. (2006). Introdução à Econometria: uma Abordagem Moderna,
Thomson Heinle, 1st edition.
XIII Encontro Nacional de Inteligencia Artificial e Computacional
SBC ENIAC-2016 Recife - PE 480