sumarização estatística 2d
DESCRIPTION
Aula sobre sumarização estatística de duas variáveisTRANSCRIPT
SUMARIZAÇÃO ESTATÍSTICA (2D)Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
AGENDA
• Scatter Plot
• Regressão Linear
• Correlação e Coeficientes de Determinação
• Correlação e Regressão: Estudos de Caso
SCATTERPLOT
SCATTERPLOT
REGRESSÃO LINEAR• Francis Galton
(1822-1911), obcecado pela idéia de que o talento era uma característica herdada, acaba descobrindo que a altura de um milhões remete (regressa) à média da altura dos pais (1855).
PÉTALAS DA IRIS
Como expressar de forma linear a largura de uma pétala em relação ao seu comprimento? PeWi = a*PeLe + b
PÉTALAS DA IRISPeWi = a*PeLe + b !• O que significam a e b ?
!• a = O quanto PeWi muda
quando PeLe aumenta ou diminui em 1. (inclinação) !
• b = Valor esperado para PeWi quando PeLe é igual a 0. (interseção) • Requer um pouco de
imaginação! :-) !
REGRESSÃO LINEAR
Como expressão y = ax + b com erro mínimo? !Seja i = 1, 2, …, N uma entidade. Temos a equação yi = axi + b + ei onde ei é o erro residual. !Problema: encontrar a e b com erro residual ei mínimo.
REGRESSÃO LINEAR
• Problema: Encontrar a e b que minimizem o quadrado do erro residual (critério dos mínimos quadrados)
• 𝑳(𝒂,𝒃) =∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)
𝟐
• L(a,b) é uma parábola em a,b:
• Portanto, a condição de otimalidade de primeira ordem do cálculo deve valer
• 𝝏𝑳/𝝏𝒂 =𝟐∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)(−𝒙𝒊) = 𝟎 (*)
• 𝝏𝑳/𝝏b =𝟐∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)(-1) = 𝟎 (**)
∂L∂a
= 2 (yi − axi − b)(−xi ) = 0i=1
N
∑ (*)
∂L∂b
= 2 (yi − axi − b)(−1) = 0i=1
N
∑ (**)
L(a,b) = (yi − axi − b)i=1
N
∑2
REGRESSÃO LINEAR• 𝟐∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)(−𝒙𝒊) = 𝟎 (*)
• 𝟐∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)(-1) = 𝟎 (**)
• Dividindo (**) por -2 e transferindo b para a direita
• ∑𝑵𝒊=𝟏𝒚𝒊 − 𝒂∑𝑵𝒊=𝟏𝒙𝒊 = 𝑵𝒃,
• Portanto
• b = ym - axm,
∂L∂a
= 2 (yi − axi − b)(−xi ) = 0i=1
N
∑ (*)
∂L∂b
= 2 (yi − axi − b)(−1) = 0i=1
N
∑ (**)
yi − a xii=1
N
∑i=1
N
∑ = Nb
b = y − ax
REGRESSÃO LINEAR• Agora temos
• 𝟐∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)(−𝒙𝒊) = 𝟎 (*)
• b = ym - axm (**)
• Precisamos agora encontrar a em (*)
• Dividindo por -2 e substituindo o b, temos
• ∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒚m+𝒂𝒙m)(𝒙𝒊)=𝟎
∂L∂a
= 2 (yi − axi − b)(−xi ) = 0i=1
N
∑ (*)
b = y − ax (**)
(yi − axi − y + ax )(xi ) = 0i=1
N
∑
REGRESSÃO LINEAR• ∑𝑵
𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒚m+𝒂𝒙m)(𝒙𝒊)=𝟎
• Separando a na esquerda e o resto na direita, temos:
• a∑𝑵𝒊=𝟏(xi - xm)xi = ∑𝑵
𝒊=𝟏(yi - ym)xi
• Portanto
• a = (∑𝑵𝒊=𝟏(yi - ym)xi) / (∑𝑵
𝒊=𝟏(xi - xm)xi)
(yi − axi − y + ax )(xi ) = 0i=1
N
∑
a (xi − x )xi = (yi − y )xii=1
N
∑i=1
N
∑
a =(yi − y )xi
i=1
N
∑
(xi − x )xii=1
N
∑
REGRESSÃO LINEAR!
• a = (∑𝑵𝒊=𝟏(yi - ym)xi) / (∑𝑵
𝒊=𝟏(xi - xm)xi) (*)
• b = ym - axm (**)
• Note que ∑𝑵𝒊=𝟏(xi - xm) = ∑𝑵𝒊=𝟏(yi - ym) = 0
• Portanto
• a = (∑𝑵𝒊=𝟏(yi - ym)(xi-xm)/N) / (∑𝑵
𝒊=𝟏(xi - xm)(xi-xm)/N)
a =(yi − y )xi
i=1
N
∑
(xi − x )xii=1
N
∑(*)
b = y − ax (**)
(xii=1
N
∑ − x ) = (yi − y ) = 0i=1
N
∑
a =(yi − y )(xi − x )
i=1
N
∑ / N
(xi − x )(xi − x ) / Ni=1
N
∑
REGRESSÃO LINEAR• a = (∑𝑵
𝒊=𝟏(yi - ym)(xi-xm)/N) / (∑𝑵𝒊=𝟏(xi - xm)(xi-xm)/N) (*)
• b = ym - axm (**)
!
• Note que o denominador de (*) é a variança de x, σ2(x)
• Vamos introduzir agora uma nova expressão denominada Coeficiente de Correlação,
• ρ= (∑ 𝑵𝒊 = 𝟏 ( 𝒚 𝒊 − 𝒚m) ( 𝒙 𝒊 − 𝒙m) / 𝑵) / σ(x)σ(y)
a =(yi − y )(xi − x )
i=1
N
∑ / N
(xi − x )(xi − x ) / Ni=1
N
∑(*)
b = y − ax (**)
ρ =(yi − y )(xi − x )
i=1
N
∑ / N
σ (x)σ (y)
REGRESSÃO LINEAR
!
!
• Usando o Coeficiente de Correlação,
!
!
• Podemos re-escrever (*) como
a =(yi − y )(xi − x )
i=1
N
∑ / N
(xi − x )(xi − x ) / Ni=1
N
∑(*)
b = y − ax (**)
ρ =(yi − y )(xi − x )
i=1
N
∑ / N
σ (x)σ (y)a = ρ σ (y)
σ (x)
REGRESSÃO LINEAR
• Onde
a = ρ σ (y)σ (x)
(*)
b = y − ax (**)
ρ =(yi − y )(xi − x )
i=1
N
∑ / N
σ (x)σ (y)
REGRESSÃO LINEAR
• Falta agora encontrar o valor mínimo para L(a,b)
• Para isso devemos substituir a e b por (*) e (**) na expressão
• Com isso, chegaremos a
L(a,b) = (yi − axi − b)i=1
N
∑2
L(a,b) = Nσ 2 (y)(1− ρ2 )
REGRESSÃO LINEAR: FINALMENTE
• Com valor mínimo em
a = ρ σ (y)σ (x)
(*)
b = y − ax (**)
L(a,b) = Nσ 2 (y)(1− ρ2 ) (***)
E daí?
CORRELAÇÃO E COEFICIENTES DE DETERMINAÇÃO
• A equação (***) nos diz que ρ2, o coeficiente de determinação, é a proporção da variança σ2(y) que é considerada na regressão linear de y em x.
• O coeficiente de determinação é uma medida de ajustamento a um modelo linear e indica o quão bem a variável dependente pode ser explicada pelos regressores presentes no modelo.
L(a,b) = Nσ 2 (y)(1− ρ2 ) (***)
CORRELAÇÃO E COEFICIENTES DE DETERMINAÇÃO
• O coeficiente de determinação, ρ2, varia no intervalo [0,1]
• O coeficiente de correlação, ρ, varia no intervalo [-1,1]
• O coeficiente ρ é 1 ou -1 apenas quando a equação de regressão y = ax + b é válida para todo i = 1,2,…, N, sem erros
• O coeficiente ρ é 0 se e somente se a inclinação a = 0
• O sinal de ρ indica a direção da inclinação, portanto, x e y são positivamente relacionados se ρ > 0 e negativamente relacionados se ρ < 0
CORRELAÇÃO E COEFICIENTES DE DETERMINAÇÃO
• O coeficiente ρ é 0 se e somente se a inclinação a = 0, o que pode ocorrer por diferentes razões
Isto indica que o coeficiente de correlação ρ é uma medida do grau de uma relação linear entre x e y
CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS
CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS
• Relação entre a largura de uma pétala de iris e o seu comprimento
a = ρ σ (y)σ (x)
(*)
b = y − ax (**)
CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS
• ρ = 0.9629
• Mesmo tendo pontos que não estão exatamente sobre a reta, o coeficiente de determinação, ρ2, vale 0.9271
• Inclinação: 0.4158
• Interseção = -0.3631
a = ρ σ (y)σ (x)
(*)
b = y − ax (**)
CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS
• Comprimento da Pétala = 0.4158 * Largura da Pétala - 0.3631
• ρ2 vale 0.9271. Extremamente alto!
• Mas a previsão do comprimento da pétala no nosso modelo ainda apresenta imprecisão!
CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS
• Testar por erros na previsãon x y y previsto erro %
23 1.4 0.1 0.22 119.0
51 4.5 1.5 1.51 0.5
86 4.3 1.3 1.42 9.6
138 5.0 1.9 1.72 9.7
142 5.7 2.5 2.01 19.7
Erro médio: 20.6%
CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS
CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS
• Coeficiente de correlação = -0.1176!
• Isto não parece estar certo!
• A largura da pétala deveria crescer quando o comprimento da pétala cresce e não diminuir!
CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS
CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS
• Correlação positiva entre indivíduos de uma mesma espécie!
• 0.74
• 0.53
• 0.46
CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS
• Correlação negativa falsa devido a combinação de de dados pertencentes a diferentes agrupamentos!
• Um tipo de manipulação de dados que, as vezes de forma não-intencional, pode dar suporte a afirmações do tipo:
• Existem mentiras, mentiras cabeludas e Estatística!
CORRELAÇÃO != CAUSALIDADE