Realidade... Você possui um problema para resolver.
Por um exemplo de classificação, predição, detecção de anomalias.
O que você precisa para resolver um problema desses?
1- Saber algumas características do problema.
2- Saber que tipo de método pode ser apropriado para resolvê-lo.
3- Testar os métodos e escolher o de melhor desempenho.
Realidade... Qual é o grande problema com os passos
descritos anteriormente? Teorema No Free Lunch! 1- Para um problema X, qual o melhor
método? 2- Supondo que exista um método ótimo.
Quais os conjuntos de seus parâmetros que permitem gerar um modelo ótimo?
3- O problema X tem solução satisfatória com os métodos existentes?
Realidade... Agora imagine que você seja uma
especialista em análise e mineração de dados.
Toda semana surge um problema desses para você resolver.
O que você faz? Você faz aqueles três passos
anteriores?
Supondo um problema qualquer
Base de dados X. Objetivo: conseguir um classificador ótimo ou próximo disso.
Para gerar um modelo você divide sua base. Em geral: Treinamento, Validação e Teste. Treinamento e Teste.
Qual seria o classificador ótimo? Você pode até conseguir um
classificador ótimo para sua base X, mas ele será realmente ótimo?
Espaço de Classificadores
CClassificador
Supondo Base X
Espaço de Classificadores
CClassificador
Supondo Base X Classificador ótimo
Espaço de Classificadores
CClassificador
Supondo Base XClassificadores quando juntos formam um modelo ótimo
Combinando Classificadores Objetivo: busca pela mistura de
classificadores que dá o melhor desempenho possível.
Como: explorando o espaço de busca de classificadores. Algoritmos de busca.
Problema: como misturar os classificadores.
Combinando Classificadores Informações únicas presentes em cada
classificador Quando em conjunto produzem um melhor
desempenho. Por exemplo, dados 10 classificadores e
a base X. Para uma amostra de validação, apenas o
classificador 1 acerta. Os demais erram. O classificador 1 também possui péssimo
desempenho. Tendência: dar pouca importância a ele. Problema: perda de informações relevantes.
Objetivo e Solução Candidata Objetivo: encontrar um conjunto de
classificadores que acertem todas as amostras de uma base de validação.
Representação da solução: s = {MLP12,Tree2,Naive1,MLP2,MLP10}; s = {c1, c2, c3, c4, c5};
Weka e resultados...