regressão linear - usplabtrop.ib.usp.br/lib/exe/fetch.php?media=cursos:planeco:material:a… ·...
Post on 17-May-2020
7 Views
Preview:
TRANSCRIPT
PrincípiosemPlanejamentoeAnálisedeDadosEcológicos(PLANECO)
2020
Regressãolinear
CamiladeToledoCastanho
Conteúdodaaula
1. Regressãolinearsimples:quandousar
2. Aretaderegressãolinear
3. Testedesignificânciadaregressão
4. Coeficientededeterminação(r2)
5. Pressupostosdoteste
6. Procedimentosdiagnósticos
7. Roteiro
1.Quandousar?• Suposiçãoderelaçãodecausa-efeitoentreduasvariáveiscontínuas
EixoX=variávelpreditora;explicativaouindependente
EixoY=variávelrespostaoudependente
ü Paracadavalordexobserva-seovalorcorrespondentedeyü Osvaloresdexsãoemgeralselecionadosnosentidodeobteramplavariaçãodestavariável
Objetivos:avaliarpossíveldependênciadeyemrelaçãoàxeexpressarmatematicamenteessarelação
2.Aretaderegressãolinear
• Primeiropasso:visualizaçãodosdadosè gráficodedispersãodospontos
Forneceumaboaidéiadaexistênciadedependência
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 7
Dano
ecológico(índ
ice)
Quantidadedepoluente(g/L)
EXEMPLO
Relaçãoentrecertopoluentedespejadoporumafábricaemumriachoeodanoecológiconaágua,medidoporumíndice.
Aparentementeháumadependênciapositivadeyem
relaçãoàx
2.Aretaderegressãolinear
0
5
10
15
0 2 4 6 8Dano
ecológico(índ
ice)
Quantidadedepoluente(g/L)
Dependênciapositiva
-1
4
9
14
0 2 4 6 8Dano
ecológico(índ
ice)
Quantidadedepoluente(g/L)
Dependêncianegativa
-1
4
9
14
0 2 4 6 8Dano
ecológico(índ
ice)
Quantidadedepoluente(g/L)
Ausênciadedependência
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 7
Dano
ecológico(índ
ice)
Quantidadedepoluente(g/L)
EXEMPLO
Relaçãoentrecertopoluentedespejadoporumafábricaemumriachoeodanoecológiconaágua,medidoporumíndice.
Taldependênciapoderiasergenericamenterepresentadaporumalinhareta
2.Aretaderegressãolinear
Análisederegressãolinear
simples
• procedimentoqueforneceequaçãodelinharetaè linear
• uma variávelpreditoraè simples
EQUAÇÃODARETA
y =A+Bxy=variáveldependente
A=intercepto(valordeyqdox=0)
B=coeficienteangular(inclinaçãodareta:acréscimooudecréscimoemyparacadaacréscimodeunidadeemx)
x=variávelindependente
0
2
4
6
8
10
12
0 1 2 3 4 5 6
y
x
1
B=-2 y=10- 2x
2.Aretaderegressãolinear
2.Aretaderegressãolinear
EQUAÇÃODARETA
y =A+Bx
yéumvalorquedependedex,masumavezquexassumeumvaloryéfixo
Dadosbiológicos
Variação
Desalinhamentosè interpretadoscomodesvios,aoacaso,docomportamentogeral
0
2
4
6
8
10
12
0 1 2 3 4 5 6
y
x
0
2
4
6
8
10
12
0 2 4 6
y
x
y =A+Bx+ε
2.Aretaderegressãolinear
Desalinhamentosèinterpretadoscomodesvios,aoacaso,docomportamentogeral
0
2
4
6
8
10
12
0 2 4 6
y
x
y =A+Bx+ε
• Alinharetarepresentaocomportamentodevaloresdeymédiosesperadosparadistintosvaloresdex
ε =erroouresíduo
• Exemplo:parax=2existeumconjuntodevaloresdeypossíveis,sendoqueamédiadestesvaloresestásobrearetaderegressão
• Pressuposto:avariaçãoésempreamesma
2.Aretaderegressãolinear
024681012
0 2 4 6
y
x
OBTENÇÃODARETADEREGRESSÃO
• Aretaderegressãoverdadeira seriaobtidasefossemconhecidososvaloresde
xeyparatodososindivíduosdapopulação
• Noentanto,emgeraltemosapenasumaamostra dapopulação
EstimativadosparâmetrosAeBè a eb
•Métododosmínimosquadrados:métodousadoparadefiniraretaeobteraeb
2.Aretaderegressãolinear•Métododosmínimosquadrados:métodousadoparadefiniraretaeobteraeb
Garantequearetaobtidaéaquelanaqualsetemasmenoresdistâncias(aoquadrado)entreosvaloresobservados(y)eaprópriareta(somadosquadradosdosresíduos– SQR)
ŷ=a+bx ŷ=valoresperadodeyparacadavalordex
3.Testedesignificânciadaregressão
Coeficienteangular(b)
Representaadependênciadeyemrelaçãoax
Noentanto,trata-sedeumaestimativadoBverdadeirojáquebaseia-seemumaamostra
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 7
Dano
ecológico(índ
ice)
Quantidadedepoluente(g/L)
ŷ=2,02+1,71x b=1,71representaumadependênciarealdeyemrelaçãoàx?
TESTEDEHIPÓTESEsobreaexistênciadedependênciana
população
RACIOCÍNIODOTESTE
• TestarahipótesedequeBédiferentede0 B=0è ynãodependedex
b0
ERROPADRÃOb
• ParatestarahipótesedequeBnãoézero,determina-seonúmerocríticodeerrospadrãopermitidoparaumafastamentonão-significativoentrebeB,emunidadesdeerropadrão(tcalc).
• Seovalorcalculadoexcederovalorcrítico,rejeita-seahipótesedequebrepresentaumdesvioaoacasodeB=0è ydependedex
3.Testedesignificânciadaregressão
3.TestedesignificânciadaregressãoETAPASDOTESTE
1)Hipótesesestatísticas
H0:B=0 H1:B≠0
2)Níveldesignificância
3)Determinaçãodovalorcríticodoteste
α=0,01
gl=n-2 n=númerodepontosgl=6-2=4
Exemplo:poluentenoriachoedanoecológico
tα;gl=t0,01;4=4,604
Atenção:bicaudal
3.Testedesignificânciadaregressão
4)Determinaçãodovalorcalculadodoteste
B=0poissuponhe-sequeH0 éverdadeira
tcalc=1,71/0,187= 9,144
5)Decisão
Como|tcalc|=9,144>t0,01;4=4,604 REJEITA-SEH0
6)Conclusão
3.Testedesignificânciadaregressão
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 7
Dano
ecológico(índ
ice)
Quantidadedepoluente(g/L)
ŷ=2,02+1,71xP<0,01
Dadoqueocoeficienteangularpopulacional(B)nãodeveserzero;logoadmitimosqueexisteregressãodeysobrex(α=0,05)
Odanoecológicodependedaconcentraçãodopoluente,deformaqueparacadaacréscimodeumg/Ldepoluentenaágua,espera-sequeoíndicededanoecológicoaumente1,71unidades.
4.Coeficientededeterminação– r2
SQY=somadosquadrados davariável Y(variação total)
Componentes davariação
SQreg=componente davariação atribuído ao modelo deregressão (sistemática)
SQR=somadosquadrados dosresíduos (erro aleatório)
SQY=SQreg +SQR
•https://en.wikipedia.org/wiki/Coefficient_of_determination
SQY SQR
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 7
Dano
ecológico(índ
ice)
Quantidadedepoluente(g/L)
SQY=SQreg SQY=SQR
Entreestes dois extremos estão amaior partedosdadosecológicos(variação aleatória +variação sistemática)
4.Coeficientededeterminação– r2
SQY=SQreg +SQR0
SQY=SQreg +SQR0
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 7
Dano
ecológico(índ
ice)
Quantidadedepoluente(g/L)
4.Coeficientededeterminação– r2
Coeficiente dedeterminação (r2)
SQreg
SQY
=Descreve aproporção davariaçãoem Yexplicada pelaregressão comX
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 7
Dano
ecológico(índ
ice)
Quantidadedepoluente(g/L)
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 7
Dano
ecológico(índ
ice)
Quantidadedepoluente(g/L)
r2=1 r2=0
Importância relativa davariaçãosistemática versusaaleatória
5.Pressupostosdoteste
3.ParacadavalordeX,osvaloresdeYsãoindependentesecomerroscomdistribuiçãonormal->resíduos
4.Avariaçãoéconstanteaolongodalinhaderegressão(homogeneidadedasvariâncias)
1.Pontosnográficodevemapresentartendêncialinear,casocontrário,aequaçãoquemelhordescreveráofenômenonãoseráumareta
2.AvariávelXémedidasemerros(alternativa:RegressãoModeloII) PRESSUPOSTOFREQUENTEMENTEIGNORADORisco:subestimar oB
6.AnálisedosresíduosGráficodiagnósticoparachecarospressupostosda
regressão
Resíduosnoeixoverticaleos
valoresesperadodey(ŷ)noeixo
horizontal
Resíduo=ε=y- ŷ
resídu
os
ŷ
resídu
os
ŷ
resídu
os
ŷ
APROVADO! Variânciasnãohomogêneas
Nãolinearidade
POSSÍVELSOLUÇÃO:transformaçãodedados
6.Outrosdiagnósticos
• sensibilidade ou função deinfluênciaFormadeavaliar aestabilidade evalidade geraldasconclusões
Distância deCook
Medeainfluência decada dadoconsiderando
seu resíduo esua“alavancagem”
Altaalavancagem=valorextremo deX
Quarteto deAnscombe
•Fonte:https://onlinecourses.science.psu.edu/stat501/node/337
6.Outrosdiagnósticos
ü Sem outliers
ü Sem observações comaltaalavancagem
•Fonte:https://onlinecourses.science.psu.edu/stat501/node/337
6.Outrosdiagnósticos
ü Umoutlier
ü Sem observações comaltaalavancagem
Resultados compouca alteraçãonos coeficientes er2
Não há dadosinfluentes!
ValordePparaH0:B=0é <0,001nodois casos
•Fonte:https://onlinecourses.science.psu.edu/stat501/node/337
6.Outrosdiagnósticos
ü Não há outliers
ü Umdadocomalta alavancagem
Resultados compouca alteração
Não há dadosinfluentes!
top related