rejane sobrino pinheiro tania guillén de torres. seleção do melhor modelo de regressão...

22
Rejane Sobrino Pinheiro Tania Guillén de Torres

Upload: internet

Post on 17-Apr-2015

102 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

• Rejane Sobrino Pinheiro

• Tania Guillén de Torres

Page 2: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

Seleção do melhor modelo de regressãoSeleção do melhor modelo de regressão

IntroduçãoIntrodução

Temos 1 variável resposta Y e um conjunto de k variáveis preditoras X1, X2, .., Xk.

O problema - Queremos determinar:

O melhor (mais importante ou mais válido) subconjunto dos k preditores

O modelo de regressão melhor ajustado

Page 3: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

Passos na seleção da melhor equação do modeloPassos na seleção da melhor equação do modelo

Abaixo, são apresentados passos que tornam a tarefa

menos nebulosa, em ações concretas.

Especificar o modelo máximo a ser considerado

Especificar o critério de seleção do modelo

Especificar a estratégia de seleção das variáveis

Estabelecer o modelo máximo, força o pesquisador a

estabelecer os objetivos da análise claramente, reconhecer

as limitações e o intervalo dos dados que possui.

O pesquisador pode usar todo o conhecimento científico

disponível para definir o modelo máximo.

Page 4: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

Passo 1: Especificação do modelo máximoPasso 1: Especificação do modelo máximo

É definido como o maior modelo, o que contém a maioria das variáveis preditoras

Qualquer outro modelo pode ser criado a partir da eliminação de variáveis preditoras.

Assume-se que o modelo máximo com k variáveis, ou alguma restrição destas com p k, é o modelo correto para a população.

Page 5: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

Passo 1: Especificação do modelo máximo Passo 1: Especificação do modelo máximo (cont...)(cont...)

Incluir todos os preditores básicos concebíveis

Incluir termos de maior ordem (IDADE2)

Incluir outras transformações dos preditores (log IDADE, 1/ HGT)

Incluir interações entre preditores (de 2a. ordem e maiores)

Incluir todas as variáveis de controle possíveis.

Page 6: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

Passo 1: Especificação do modelo máximoPasso 1: Especificação do modelo máximo (cont...) (cont...)

O super-ajuste de um modelo (incluindo variáveis no modelo que tenham coeficientes da regressão verdadeiros nulos (população) não introduzirá viés na estimativa dos coeficientes da população.

Tem-se que se preocupar, entretanto, se o super-ajuste não irá incluir colinearidade.

Sub-ajustar, desconsiderando importantes preditores, introduzirá viés nos coeficientes de regressão.

Parcimônia inclusão de coeficientes não importantes e não estatisticamente significantes pode prejudicar a interpretação e complicá-la

Page 7: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

Passo 1: Especificação do modelo máximo (cont...)Passo 1: Especificação do modelo máximo (cont...)

O tamanho da amostra traz restrições ao modelo máximo. Quanto menor o tamanho da amostra, menor o tamanho (número de variáveis) que o modelo máximo pode ter.

A maior limitação está em que o número de graus de liberdade do erro deve ser positivo

graus de liberdade = n - k -1 > 0

O que é equivalente à limitação: n > k + 1

n nº de observaçõesk nº de preditores. (k + 1 inclui intercepto)

Page 8: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

Passo 1: Especificação do modelo máximo Passo 1: Especificação do modelo máximo (cont...)(cont...)

Existem algumas regras básicas para o no. de preditores:

n - k - 1 10

n 5k

n 10k

Outra limitação é introduzir variáveis com variância zero.

Ex: supondo a inclusão da variável GÊNERO = 1 para todos os valores da amostra.

A variância da variável na amostra é nula.

Há perfeita colinearidade com o intercepto.

Page 9: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

Passo 2: Especificar um critério para a seleção do modeloPasso 2: Especificar um critério para a seleção do modelo

Diferenças numéricas podem ou não estar relacionadas com diferenças significantes ou importantes:

Estatisticamente significantes em amostras grandes, as diferenças podem ser significantes, porém podem ser ou não importantes

Cientificamente importantes diferenças importantes podem não ser estatísticamente significantes em amostras pequenas, por exemplo.

Page 10: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

Passo 2: Especificar um critério para a seleção do modelo cont.

R2 desvantagem: adicionando preditores, R2 não decresce.

F bastante usada.

Diversos critérios têm sido propostos. Alguns são:

R2p, Fp,

MSE(p) = SSE(p) / (n-p-1) variância do erro

Cp Mallow's Cp)]1(2[

)(

)( pnkMSE

pSSECp

Page 11: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

Passo 2: Especificar um critério para a seleção do modeloPasso 2: Especificar um critério para a seleção do modelo cont.cont.

Supondo o modelo máximo com k preditores:

Y = 0 + 1 X1 + 2 X2 + ... + p Xp + p+1 Xp+1 + ... + k Xk +

E o modelo reduzido com p preditores:

Y = 0 + 1 X1 + 2 X2 + ... + p Xp +

A estatística Fp pode ser comparada a uma distribuição F com

k - p (numerador) e n - k -1 (denominador) graus de liberdade

)()(

)]()([

)1()(

)()]()([

kMSEpk

kSSEpSSE

knkSSE

pkkSSEpSSE

Fp

)1(

)1()(

)(

2

22

knR

pkRR

Fk

pk

p

Page 12: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

Fp testa se a diferença (SSE(p) - SSE(k)) entre a soma dos quadrados dos resíduos do modelo máximo (com k variáveis) e a soma dos quadrados dos resíduos do modelo reduzido (com p variáveis) difere significativamente de zero?

Se Fp não é significante, podemos escolher o modelo menor - com p variáveis

Caso especial p = k-1 Fp testa Ho: k = 0 no modelo completo (máximo)

Page 13: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

Passo 3: Especificar uma estratégia de seleção de Passo 3: Especificar uma estratégia de seleção de variáveisvariáveis

A.A. Todas as regressões possíveisTodas as regressões possíveis

Embora não prática, esta estratégia deve ser preferida às outras. É o único método que garante encontrar-se o modelo com maior R2.

Torna-se quase impraticável quando o nº k de variáveis é grande

Ajuste de todos os modelos que contenha a combinação das k variáveis

Page 14: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

A estatística F parcial entre o modelo 4 (F(X2|X1) = 4.785 contribuição de X2

Modelo 7: F(X2|X1,X3) = 0.140

Page 15: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

Usando o teste F parcial múltiplo, compara-se um modelo reduzido com o modelo completo (máximo).

O valor pequeno de Fp aponta que o modelo 4 não difere significativamente do modelo máximo (modelo 7).

O algoritmo de usar todas as regressões possíveis demanda que sejam analisados 2k - 1 modelos(se k = 10 => 210-1 = 1023).

Outros métodos podem mostrar-se factíveis

007.0

)1312()7802.1(

)23()7800.7802(.

)1()1(

)()(

2

22

knR

pkRR

Fk

pk

p

Page 16: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

B. Procedimento de eliminação BackwardB. Procedimento de eliminação Backward

1. Ajusta-se o modelo contendo todas as variáveis (estimativa do modelo máximo)

2. Calcula-se o teste F parcial para cada variável do modelo como se fosse a última variável introduzida no modelo.

3. Observar o menor valor da estatística parcial F.

4. Comparar o valor p com um nível de significância pre-selecionado (exemplo 10%). Caso seja maior, decidir sobre a exclusão da variável do modelo.

5. Caso a variável saia do modelo, ajuste novamente para as variáveis remanescentes. Caso não saia, o processo termina.

Page 17: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

B. Procedimento de eliminação BackwardB. Procedimento de eliminação Backward

Page 18: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

C. Procedimento de seleção FowardC. Procedimento de seleção Foward

1. Selecionar a primeira variável a entrar no modelo como a variável mais correlacionada com a variável dependente. Ajustar o modelo.

2. Se o teste F global for não significante, parar e concluir que nenhuma variável independente é importante preditora.

3. Se o teste F global for significante, incluir a variável no modelo e seguir para o passo 4

4. Determinar o teste F parcial e os valores p associados a cada variável remanescente, baseado no modelo contendo a variável inicial e a variável em questão.

5. Observar qual modelo (de qual variável incluída) possui o maior teste F parcial.

Page 19: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

C. Procedimento de seleção FowardC. Procedimento de seleção Foward

6. Testar a significância do teste F parcial. Caso seja significante,

incluir esta variável no modelo. Caso não seja, usar no modelo

somente a variável incluída no item 1 (usar p < 0,10, por

exemplo).

7. Para cada passo seguinte, determinar o teste F parcial para as

variáveis não incluídas no modelo. Incluir a variável que tiver

o maior teste F parcial. Caso os testes F parciais não sejam

significantes, nenhuma variável mais deve ser incluída no

modelo.

Page 20: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

inserir a saída da pg. 397 kleinbaum

•A variável com maior correlação é HGT (0,6630)

•Ajustar regressão para esta variável

Page 21: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

•Calcular o teste F parcial pela inclusão separadamente de cada uma das variáveis remanescentes (um p/ AGE e outro p/ AGE2)

•Qual o maior F parcial (menor p valor)? Como p < 0,10, incluir idade

Page 22: Rejane Sobrino Pinheiro Tania Guillén de Torres. Seleção do melhor modelo de regressão Introdução Temos 1 variável resposta Y e um conjunto de k variáveis

D. Procedimento de regressão StepwiseD. Procedimento de regressão Stepwise

É uma versão modificada do procedimento Foward.

Permite o re-exame das variáveis já incluídas no modelo

Uma variável já incluída no modelo pode tornar-se supérflua.

A cada passo, um teste F parcial para cada variável é executado, como se fosse a última variável incluída no modelo.

A variável com o menor teste F parcial não significante é removida (caso haja).

O modelo é reajustado com as variável remanescentes.

O procedimento é repetido até que nenhuma variável saia ou entre mais no modelo.

Desvantagens: Não é controlada pelo usuário A ordem da inclusão pode afetar os resultados