diagramas de dispersão
DESCRIPTION
Diagramas de dispersão. forma gráfica de visualizar uma possível relação entre duas variáveis. Diagramas de dispersão. Correlação. - PowerPoint PPT PresentationTRANSCRIPT
Diagramas de dispersãoDiagramas de dispersão
forma gráfica de visualizar uma forma gráfica de visualizar uma possível relação entre duas possível relação entre duas variáveisvariáveis
Diagramas de dispersãoDiagramas de dispersão
CorrelaçãoCorrelação
O O coeficiente de correlação de Pearsoncoeficiente de correlação de Pearson é é uma medida da 'qualidade' da aproximação uma medida da 'qualidade' da aproximação
da relação entre duas variáveis por uma da relação entre duas variáveis por uma recta, ou seja, a correlação mede a 'força' da recta, ou seja, a correlação mede a 'força' da
associação linear entre duas variáveis.associação linear entre duas variáveis.
r – coeficiente de correlação de Pearson na amostra - coeficiente de correlação de Pearson na população
CorrelaçãoCorrelação
O coeficiente de correlação de Pearson
varia entre -1 e 1.
Quanto mais próximo estiver de 1 ou -1, mais forte é a associação linear entre as
duas variáveis
CorrelaçãoCorrelaçãoNo estudo da relação entre o
consumo de vegetais e taxa de mortalidade no sexo
masculino, obtém-se uma correlação de r = -0.814
r2 é interpretado como a percentagem de variação explicada por uma das variáveis em relação à outra. No caso estudado, pode-se dizer que o consumo
de vegetais explica 66% (0.814)2 da mortalidade no sexo masculino.
CorrelaçãoCorrelação
Não usar o r quando:
-há uma relação não linear entre as variáveis
-os dados incluem mais de uma observação por indivíduo
-há valores extremos
-os dados dividem-se em dois subgrupos
Regressão linear simplesRegressão linear simplesA regressão linear é um modelo matemático usado para
estudar a relação entre duas variáveis - uma contínua e outra contínua ou ordinal - e a partir do qual se tenta prever os
valores de uma das variáveis em função da outra.
No estudo sobre o consumo de vegetais e taxa de mortalidade por cancro do estômago, a situação mais
natural é tentar prever qual a taxa de mortalidade (variável dependente) para um determinado consumo de vegetais
(variável independente) e não o contrário.
Regressão linear simplesRegressão linear simplestx mortalidade = b0 + b1 * consumo de vegetais
b0 e b1 são calculados de tal maneira que a soma das distâncias à recta seja a menor possível, ou seja, b0 e b1 são calculados de forma a minimizar a soma das
distâncias à recta.
Regressão linear simplesRegressão linear simplestx mortalidade = b0 + b1 * consumo de vegetais
b0 e b1 são calculados de tal maneira que a soma das distâncias à recta seja a menor possível, ou seja, b0 e b1 são calculados de forma a minimizar a soma das
distâncias à recta.
tx mortalidade = 54.503 - 0.102 * consumo de vegetais
Coefficientsa
54,503 3,986 13,672 ,000
-,102 ,018 -,814 -5,599 ,000
(Constant)
Consumo médio deVegetais(gr/pessoa/dia)
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Média das taxas de mortalidade padronizadas por cancro do estômagopara o sexo masculino de 1994, 95 e 96 por 100000 habitantes
a.
Regressão linear simplesRegressão linear simples
tx mortalidade = b0 + b1 * consumo de vegetais
tx mortalidade = 54.503 - 0.102 * consumo de vegetais
B0= 54.503 = taxa de mortalidade prevista com um consumo nulo de vegetais.
B1= 0.102 = a diminuição (porque o valor de b1 é negativo) prevista da taxa de mortalidade para o aumento de 1 unidade no consumo de vegetais.
Regressão linear simplesRegressão linear simplesTabela ANOVA: indicação da quantidade de variação explicada pelo
modelo.
No caso da taxa de mortalidade do sexo masculino a variação total é de 1036,118 .
Quando se considera o consumo de vegetais, a variação da mortalidade explicada é de 685,986; que aparece na tabela com a designação de "Regression"
(quantidade de variação explicada pelo modelo). O resíduo (350,132) é simplesmente a variação que fica por explicar, ou seja a
diferença da variação total e variação explicada. ANOVAb
685,986 1 685,986 31,348 ,000a
350,132 16 21,883
1036,118 17
Regression
Residual
Total
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), Consumo médio de Vegetais(gr/pessoa/dia)a.
Dependent Variable: Média das taxas de mortalidade padronizadas por cancro doestômago para o sexo masculino de 1994, 95 e 96 por 100000 habitantes
b.
Regressão linear simplesRegressão linear simplesO quociente da variação explicada pela variação total
685,986/1036,118=0.66é a percentagem de variação explicada
Como seria de esperar este valor é igual quadrado do coeficiente de correlação (r2 = 0,81422 = 0,66) que também indica a percentagem
de variação explicada.
ANOVAb
685,986 1 685,986 31,348 ,000a
350,132 16 21,883
1036,118 17
Regression
Residual
Total
Model1
Sum ofSquares df Mean Square F Sig.
Predictors: (Constant), Consumo médio de Vegetais(gr/pessoa/dia)a.
Dependent Variable: Média das taxas de mortalidade padronizadas por cancro doestômago para o sexo masculino de 1994, 95 e 96 por 100000 habitantes
b.
Regressão linear simplesRegressão linear simplesAssunções:
A variável dependente tem que ser contínua Para cada valor fixo da variável independente, a variável dependente segue uma distribuição normal, e todas estas distribuições normais têm um desvio padrão igual
Como verificar?
Para cada observação x, chama-se resido ao valor observado de y menos o valor de y calculado com a equação da recta. Podemos usar os resíduos para testar as assumpções
LeiturasLeituras
Livro: Livro: Medical Statistics at a Glance. Medical Statistics at a Glance.
Aviva Petrie, Caroline Sabin. Blackwell Science. Aviva Petrie, Caroline Sabin. Blackwell Science. 20002000
Capítulos: 26, 27 e 28Capítulos: 26, 27 e 28
MedStatWeb:MedStatWeb:http://stat2.med.up.pthttp://stat2.med.up.pt
Capítulo: Correlação e regressão linear simples Capítulo: Correlação e regressão linear simples