diagramas de dispersão

Diagramas de dispersãoDiagramas de dispersão

forma gráfica de visualizar uma forma gráfica de visualizar uma possível relação entre duas possível relação entre duas variáveisvariáveis

Diagramas de dispersãoDiagramas de dispersão

CorrelaçãoCorrelação

O O coeficiente de correlação de Pearsoncoeficiente de correlação de Pearson é é uma medida da 'qualidade' da aproximação uma medida da 'qualidade' da aproximação

da relação entre duas variáveis por uma da relação entre duas variáveis por uma recta, ou seja, a correlação mede a 'força' da recta, ou seja, a correlação mede a 'força' da

associação linear entre duas variáveis.associação linear entre duas variáveis.

r – coeficiente de correlação de Pearson na amostra - coeficiente de correlação de Pearson na população


O coeficiente de correlação de Pearson

varia entre -1 e 1.

Quanto mais próximo estiver de 1 ou -1, mais forte é a associação linear entre as

duas variáveis

CorrelaçãoCorrelaçãoNo estudo da relação entre o

consumo de vegetais e taxa de mortalidade no sexo

masculino, obtém-se uma correlação de r = -0.814

r2 é interpretado como a percentagem de variação explicada por uma das variáveis em relação à outra. No caso estudado, pode-se dizer que o consumo

de vegetais explica 66% (0.814)2 da mortalidade no sexo masculino.


Não usar o r quando:

-há uma relação não linear entre as variáveis

-os dados incluem mais de uma observação por indivíduo

-há valores extremos

-os dados dividem-se em dois subgrupos

Regressão linear simplesRegressão linear simplesA regressão linear é um modelo matemático usado para

estudar a relação entre duas variáveis - uma contínua e outra contínua ou ordinal - e a partir do qual se tenta prever os

valores de uma das variáveis em função da outra.

No estudo sobre o consumo de vegetais e taxa de mortalidade por cancro do estômago, a situação mais

natural é tentar prever qual a taxa de mortalidade (variável dependente) para um determinado consumo de vegetais

(variável independente) e não o contrário.

Regressão linear simplesRegressão linear simplestx mortalidade = b0 + b1 * consumo de vegetais

b0 e b1 são calculados de tal maneira que a soma das distâncias à recta seja a menor possível, ou seja, b0 e b1 são calculados de forma a minimizar a soma das

distâncias à recta.

Regressão linear simplesRegressão linear simplestx mortalidade = b0 + b1 * consumo de vegetais

b0 e b1 são calculados de tal maneira que a soma das distâncias à recta seja a menor possível, ou seja, b0 e b1 são calculados de forma a minimizar a soma das

distâncias à recta.

tx mortalidade = 54.503 - 0.102 * consumo de vegetais

Coefficientsa

54,503 3,986 13,672 ,000

-,102 ,018 -,814 -5,599 ,000

(Constant)

Consumo médio deVegetais(gr/pessoa/dia)

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Média das taxas de mortalidade padronizadas por cancro do estômagopara o sexo masculino de 1994, 95 e 96 por 100000 habitantes

a.

Regressão linear simplesRegressão linear simples

tx mortalidade = b0 + b1 * consumo de vegetais

tx mortalidade = 54.503 - 0.102 * consumo de vegetais

B0= 54.503 = taxa de mortalidade prevista com um consumo nulo de vegetais.

B1= 0.102 = a diminuição (porque o valor de b1 é negativo) prevista da taxa de mortalidade para o aumento de 1 unidade no consumo de vegetais.

Regressão linear simplesRegressão linear simplesTabela ANOVA: indicação da quantidade de variação explicada pelo

modelo.

No caso da taxa de mortalidade do sexo masculino a variação total é de 1036,118 .

Quando se considera o consumo de vegetais, a variação da mortalidade explicada é de 685,986; que aparece na tabela com a designação de "Regression"

(quantidade de variação explicada pelo modelo). O resíduo (350,132) é simplesmente a variação que fica por explicar, ou seja a

diferença da variação total e variação explicada. ANOVAb

685,986 1 685,986 31,348 ,000a

350,132 16 21,883

1036,118 17

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), Consumo médio de Vegetais(gr/pessoa/dia)a.

Dependent Variable: Média das taxas de mortalidade padronizadas por cancro doestômago para o sexo masculino de 1994, 95 e 96 por 100000 habitantes

b.

Regressão linear simplesRegressão linear simplesO quociente da variação explicada pela variação total

685,986/1036,118=0.66é a percentagem de variação explicada

Como seria de esperar este valor é igual quadrado do coeficiente de correlação (r2 = 0,81422 = 0,66) que também indica a percentagem

de variação explicada.

ANOVAb

685,986 1 685,986 31,348 ,000a

350,132 16 21,883

1036,118 17

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), Consumo médio de Vegetais(gr/pessoa/dia)a.

Dependent Variable: Média das taxas de mortalidade padronizadas por cancro doestômago para o sexo masculino de 1994, 95 e 96 por 100000 habitantes

b.

Regressão linear simplesRegressão linear simplesAssunções:

A variável dependente tem que ser contínua Para cada valor fixo da variável independente, a variável dependente segue uma distribuição normal, e todas estas distribuições normais têm um desvio padrão igual

Como verificar?

Para cada observação x, chama-se resido ao valor observado de y menos o valor de y calculado com a equação da recta. Podemos usar os resíduos para testar as assumpções

LeiturasLeituras

Livro: Livro: Medical Statistics at a Glance. Medical Statistics at a Glance.

Aviva Petrie, Caroline Sabin. Blackwell Science. Aviva Petrie, Caroline Sabin. Blackwell Science. 20002000

Capítulos: 26, 27 e 28Capítulos: 26, 27 e 28

MedStatWeb:MedStatWeb:http://stat2.med.up.pthttp://stat2.med.up.pt

Capítulo: Correlação e regressão linear simples Capítulo: Correlação e regressão linear simples

diagramas de dispersão

Documents