sumarização estatística 2d

SUMARIZAÇÃO ESTATÍSTICA (2D)Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad

http://alexandre.ci.ufpb.br/ensino/iad

AGENDA

• Scatter Plot

• Regressão Linear

• Correlação e Coeficientes de Determinação

• Correlação e Regressão: Estudos de Caso

SCATTERPLOT

REGRESSÃO LINEAR• Francis Galton

(1822-1911), obcecado pela idéia de que o talento era uma característica herdada, acaba descobrindo que a altura de um milhões remete (regressa) à média da altura dos pais (1855).

PÉTALAS DA IRIS

Como expressar de forma linear a largura de uma pétala em relação ao seu comprimento? PeWi = a*PeLe + b

PÉTALAS DA IRISPeWi = a*PeLe + b !• O que significam a e b ?

!• a = O quanto PeWi muda

quando PeLe aumenta ou diminui em 1. (inclinação) !

• b = Valor esperado para PeWi quando PeLe é igual a 0. (interseção) • Requer um pouco de

imaginação! :-) !

REGRESSÃO LINEAR

Como expressão y = ax + b com erro mínimo? !Seja i = 1, 2, …, N uma entidade. Temos a equação yi = axi + b + ei onde ei é o erro residual. !Problema: encontrar a e b com erro residual ei mínimo.

REGRESSÃO LINEAR

• Problema: Encontrar a e b que minimizem o quadrado do erro residual (critério dos mínimos quadrados)

• 𝑳(𝒂,𝒃) =∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)

𝟐

• L(a,b) é uma parábola em a,b:

• Portanto, a condição de otimalidade de primeira ordem do cálculo deve valer

• 𝝏𝑳/𝝏𝒂 =𝟐∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)(−𝒙𝒊) = 𝟎 (*)

• 𝝏𝑳/𝝏b =𝟐∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)(-1) = 𝟎 (**)

∂L∂a

= 2 (yi − axi − b)(−xi ) = 0i=1

N

∑ (*)

∂L∂b

= 2 (yi − axi − b)(−1) = 0i=1

N

∑ (**)

L(a,b) = (yi − axi − b)i=1

N

∑2

REGRESSÃO LINEAR• 𝟐∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)(−𝒙𝒊) = 𝟎 (*)

• 𝟐∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)(-1) = 𝟎 (**)

• Dividindo (**) por -2 e transferindo b para a direita

• ∑𝑵𝒊=𝟏𝒚𝒊 − 𝒂∑𝑵𝒊=𝟏𝒙𝒊 = 𝑵𝒃,

• Portanto

• b = ym - axm,

∂L∂a

= 2 (yi − axi − b)(−xi ) = 0i=1

N

∑ (*)

∂L∂b

= 2 (yi − axi − b)(−1) = 0i=1

N

∑ (**)

yi − a xii=1

N

∑i=1

N

∑ = Nb

b = y − ax

REGRESSÃO LINEAR• Agora temos

• 𝟐∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒃)(−𝒙𝒊) = 𝟎 (*)

• b = ym - axm (**)

• Precisamos agora encontrar a em (*)

• Dividindo por -2 e substituindo o b, temos

• ∑𝑵𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒚m+𝒂𝒙m)(𝒙𝒊)=𝟎

∂L∂a

= 2 (yi − axi − b)(−xi ) = 0i=1

N

∑ (*)

b = y − ax (**)

(yi − axi − y + ax )(xi ) = 0i=1

N

∑

REGRESSÃO LINEAR• ∑𝑵

𝒊=𝟏(𝒚𝒊−𝒂𝒙𝒊−𝒚m+𝒂𝒙m)(𝒙𝒊)=𝟎

• Separando a na esquerda e o resto na direita, temos:

• a∑𝑵𝒊=𝟏(xi - xm)xi = ∑𝑵

𝒊=𝟏(yi - ym)xi

• Portanto

• a = (∑𝑵𝒊=𝟏(yi - ym)xi) / (∑𝑵

𝒊=𝟏(xi - xm)xi)

(yi − axi − y + ax )(xi ) = 0i=1

N

∑

a (xi − x )xi = (yi − y )xii=1

N

∑i=1

N

∑

a =(yi − y )xi

i=1

N

∑

(xi − x )xii=1

N

∑

REGRESSÃO LINEAR!

• a = (∑𝑵𝒊=𝟏(yi - ym)xi) / (∑𝑵

𝒊=𝟏(xi - xm)xi) (*)

• b = ym - axm (**)

• Note que ∑𝑵𝒊=𝟏(xi - xm) = ∑𝑵𝒊=𝟏(yi - ym) = 0

• Portanto

• a = (∑𝑵𝒊=𝟏(yi - ym)(xi-xm)/N) / (∑𝑵

𝒊=𝟏(xi - xm)(xi-xm)/N)

a =(yi − y )xi

i=1

N

∑

(xi − x )xii=1

N

∑(*)

b = y − ax (**)

(xii=1

N

∑ − x ) = (yi − y ) = 0i=1

N

∑

a =(yi − y )(xi − x )

i=1

N

∑ / N

(xi − x )(xi − x ) / Ni=1

N

∑

REGRESSÃO LINEAR• a = (∑𝑵

𝒊=𝟏(yi - ym)(xi-xm)/N) / (∑𝑵𝒊=𝟏(xi - xm)(xi-xm)/N) (*)

• b = ym - axm (**)

!

• Note que o denominador de (*) é a variança de x, σ2(x)

• Vamos introduzir agora uma nova expressão denominada Coeficiente de Correlação,

• ρ= (∑ 𝑵𝒊 = 𝟏 ( 𝒚 𝒊 − 𝒚m) ( 𝒙 𝒊 − 𝒙m) / 𝑵) / σ(x)σ(y)

a =(yi − y )(xi − x )

i=1

N

∑ / N

(xi − x )(xi − x ) / Ni=1

N

∑(*)

b = y − ax (**)

ρ =(yi − y )(xi − x )

i=1

N

∑ / N

σ (x)σ (y)

REGRESSÃO LINEAR

!

!

• Usando o Coeficiente de Correlação,

!

!

• Podemos re-escrever (*) como

a =(yi − y )(xi − x )

i=1

N

∑ / N

(xi − x )(xi − x ) / Ni=1

N

∑(*)

b = y − ax (**)

ρ =(yi − y )(xi − x )

i=1

N

∑ / N

σ (x)σ (y)a = ρ σ (y)

σ (x)

REGRESSÃO LINEAR

• Onde

a = ρ σ (y)σ (x)

(*)

b = y − ax (**)

ρ =(yi − y )(xi − x )

i=1

N

∑ / N

σ (x)σ (y)

REGRESSÃO LINEAR

• Falta agora encontrar o valor mínimo para L(a,b)

• Para isso devemos substituir a e b por (*) e (**) na expressão

• Com isso, chegaremos a

L(a,b) = (yi − axi − b)i=1

N

∑2

L(a,b) = Nσ 2 (y)(1− ρ2 )

REGRESSÃO LINEAR: FINALMENTE

• Com valor mínimo em

a = ρ σ (y)σ (x)

(*)

b = y − ax (**)

L(a,b) = Nσ 2 (y)(1− ρ2 ) (***)

E daí?

CORRELAÇÃO E COEFICIENTES DE DETERMINAÇÃO

• A equação (***) nos diz que ρ2, o coeficiente de determinação, é a proporção da variança σ2(y) que é considerada na regressão linear de y em x.

• O coeficiente de determinação é uma medida de ajustamento a um modelo linear e indica o quão bem a variável dependente pode ser explicada pelos regressores presentes no modelo.

L(a,b) = Nσ 2 (y)(1− ρ2 ) (***)


• O coeficiente de determinação, ρ2, varia no intervalo [0,1]

• O coeficiente de correlação, ρ, varia no intervalo [-1,1]

• O coeficiente ρ é 1 ou -1 apenas quando a equação de regressão y = ax + b é válida para todo i = 1,2,…, N, sem erros

• O coeficiente ρ é 0 se e somente se a inclinação a = 0

• O sinal de ρ indica a direção da inclinação, portanto, x e y são positivamente relacionados se ρ > 0 e negativamente relacionados se ρ < 0


• O coeficiente ρ é 0 se e somente se a inclinação a = 0, o que pode ocorrer por diferentes razões

Isto indica que o coeficiente de correlação ρ é uma medida do grau de uma relação linear entre x e y

CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS


• Relação entre a largura de uma pétala de iris e o seu comprimento

a = ρ σ (y)σ (x)

(*)

b = y − ax (**)


• ρ = 0.9629

• Mesmo tendo pontos que não estão exatamente sobre a reta, o coeficiente de determinação, ρ2, vale 0.9271

• Inclinação: 0.4158

• Interseção = -0.3631

a = ρ σ (y)σ (x)

(*)

b = y − ax (**)


• Comprimento da Pétala = 0.4158 * Largura da Pétala - 0.3631

• ρ2 vale 0.9271. Extremamente alto!

• Mas a previsão do comprimento da pétala no nosso modelo ainda apresenta imprecisão!


• Testar por erros na previsãon x y y previsto erro %

23 1.4 0.1 0.22 119.0

51 4.5 1.5 1.51 0.5

86 4.3 1.3 1.42 9.6

138 5.0 1.9 1.72 9.7

142 5.7 2.5 2.01 19.7

Erro médio: 20.6%

CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS


• Coeficiente de correlação = -0.1176!

• Isto não parece estar certo!

• A largura da pétala deveria crescer quando o comprimento da pétala cresce e não diminuir!


• Correlação positiva entre indivíduos de uma mesma espécie!

• 0.74

• 0.53

• 0.46


• Correlação negativa falsa devido a combinação de de dados pertencentes a diferentes agrupamentos!

• Um tipo de manipulação de dados que, as vezes de forma não-intencional, pode dar suporte a afirmações do tipo:

• Existem mentiras, mentiras cabeludas e Estatística!

CORRELAÇÃO != CAUSALIDADE

sumarização estatística 2d

Data & Analytics