1 estatística 4.1 dirceu da silva jomar barros filho

29
1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

Upload: internet

Post on 22-Apr-2015

113 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

1

Estatística 4.1

Dirceu da Silva

Jomar Barros Filho

Page 2: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

2

DETERMINAÇÃO DA FORÇA DA RELAÇÃO ENTRE DUAS VARIÁVEIS

Idéia básica em análise de dados estatísticos nas Ciências Humanas, Sociais e da Saúde é a busca de relações entre duas variáveis de uma mesma população.

O procedimento mais usado é a correlação expressa por um coeficiente. Este, é zero quando duas variáveis são absolutamente independentes entre si, ou seja, não existe nenhuma relação entre elas.

Pode assumir um valor máximo de + 1,00, quando a associação for positiva e o mais “forte” possível.Pode, também assumir um valor máximo de -1,00, quando a associação for negativa e o menos forte possível.

Page 3: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

3

Como exemplo, podemos citar a correlação fortemente positiva da relação entre idade e estatura de uma criança; quanto maior a idade maior a estatura.

Um exemplo de forte correlação negativa é a relação entre a temperatura e o consumo de cobertores; quando maior a temperatura, menor o consumo de cobertores.

Um exemplo da inexistência de correlação é a relação entre o número do calçado de um adulto e o seu nível intelectual.

Ou ainda, a paixão pelo Timão em função do número de vitórias ou derrotas!

Page 4: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

4

EXEMPLO: Taxas de analfabetismo (X) e de crescimento demográfico (Y) em 20 países (dados UNESCO/1991).

Países Taxa de analfabetismo (%)

(X)

Taxa de cresc. demográfico (%) (Y)

A 15,0 1,5 B 10,0 1,7 C 25,0 3,2 D 30,0 2,8 E 32,0 2,6 F 16,0 1,7 G 15,0 1,9 H 6,5 1,1 I 5,0 1,0 J 20,0 1,2 L 22,0 1,6 M 30,0 2,3 N 35,0 2,1 O 16,0 1,3 P 5,0 0,7 Q 15,0 1,2 R 25,0 2,2 S 21,0 2,0 T 23,0 2,0 U 16,0 1,9

Page 5: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

5

Gráfico 21: Comparação entre as taxas de analfabetismo e crescimento populacional em 20

países

0

0,5

1

1,5

2

2,5

3

3,5

0 10 20 30 40

TAXA DE ANALFABETISMO (%)

TA

XA

DE

CR

ESC

IMEN

TO

D

EMO

GR

ÁFI

CO

(%

)

Page 6: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

6

Análise estatística mais usada, para obtenção da correlação entre variáveis é o coeficiente de (Karl) PEARSON (r), para dados paramétricos.

No Microsoft Excel: =PEARSON($A$2:$A$21;$B$2:$B$21)

])y(yN][)x(xN[

)x)(y(xyNr

2222

Page 7: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

7

No SPSS:

Page 8: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

8

Page 9: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

9

Correlations

1,000 ,786**

, ,000

147293,750 8345,000

7752,303 439,211

20 20

,786** 1,000

,000 ,

8345,000 766,000

439,211 40,316

20 20

Pearson Correlation

Sig. (2-tailed)

Sum of Squares andCross-products

Covariance

N

Pearson Correlation

Sig. (2-tailed)

Sum of Squares andCross-products

Covariance

N

VAR00001

VAR00002

VAR00001 VAR00002

Correlation is significant at the 0.01 level (2-tailed).**.

Page 10: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

10

valores dos coeficientes calculados (Q)

descrição

+ 1,00 Correlação positiva perfeita + 0,70 a 0,99 Correlação positiva muito forte + 0,50 a 0,69 Correlação positiva substancial + 0,30 a 0,49 Correlação positiva moderada + 0,10 a 0,29 Correlação positiva baixa + 0,01 a 0,09 Correlação positiva ínfima 0,00 Nenhuma Correlação - 0,01 a 0,09 Correlação negativa ínfima - 0,10 a 0,29 Correlação negativa baixa - 0,30 a 0,49 Correlação negativa moderada - 0,50 a 0,69 Correlação negativa substancial - 0,70 a 0,99 Correlação negativa muito forte - 1,00 Correlação negativa perfeita

Page 11: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

11

Para dados não-paramétricos (ordinais)

recomenda-se usar o coeficiente de correlação de Spearman ().

NN

)yx(61

3

N

1i

2

Idem para o de Kendall

NN21S

3

Page 12: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

12

Para dados não-paramétricos (nominais)recomenda-se usar o coeficiente de correlação de Contingência(C).

Ou, V de Cramér

2

2

N

C

1

2

kNV

Page 13: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

13

Correlations

1,000 ,681**

, ,000

20 20

,681** 1,000

,000 ,

20 20

1,000 ,850**

, ,000

20 20

,850** 1,000

,000 ,

20 20

Correlation Coefficient

Sig. (2-tailed)

N

Correlation Coefficient

Sig. (2-tailed)

N

Correlation Coefficient

Sig. (2-tailed)

N

Correlation Coefficient

Sig. (2-tailed)

N

VAR00001

VAR00002

VAR00001

VAR00002

Kendall's tau_b

Spearman's rho

VAR00001 VAR00002

Correlation is significant at the .01 level (2-tailed).**.

Page 14: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

14

O nível de significância (ou p-value) é a probabilidade de obter-se resultados fora da região de possibilidades de conclusão.

Se o p-value é pequeno (<0,50) a correlação é significativa e as duas variáveis são linearmente dependentes ou relacionadas e vice-versa.

Como detalhe pode-se usar os coeficientes de correlação de Spearman e Kendall para dados intervalares ou métricos, sabendo-se que as suas eficiências são de aproximadamente 91% do coeficiente de Pearson.

Page 15: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

15

Pelos três testes obteve-se:

r = 0,786

= 0,850

= 0,681

Nota-se que a correlação é positiva muito forte.

Como interpretar os resultados?

Page 16: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

16

REGRESSÃO LINEAR: Muitas pesquisas necessitam fazer previsões específicas. O procedimento mais usado é a análise de regressão estimar valores não conhecidos de uma variável, a partir de uma série de valores conhecidos. dada uma série de pontos (x,y), procura-se descobrir a equação.

bmxy

b

y

x

tgm

Page 17: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

17

Exemplo:

Um pesquisador está querendo analisar a relação que existe entre o investimento em equipamentos informatizados e o desempenho escolar de alunos. Tomado um período de 10 meses

O objetivo é ter uma equação matemática que permita fazer projeções e estimativas de qualidade do ensino a partir do investimento novos equipamentos .

Variável dependente = quantidade de alunos aprovados(y)

Variável independente = investimento em equipamentos (x)

Page 18: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

18

Y X (em mil

reais) 430 30 335 21 520 35 490 42 470 37 210 20 195 8 270 17 400 35 480 25

Page 19: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

19

Analisando os dados da tabela 1, deve-se manter os investimento em novos equipamentos?

Page 20: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

20

Grafico 1: Investimento equipamentos X alunos aprovados

0

5

10

15

20

25

30

35

40

45

0 100 200 300 400 500 600

n° alunos aprovados

Inve

stim

ento

em

nov

os

equi

pam

ento

s (x

100

0 re

ais)

Page 21: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

21

Teste de Pearson = 0,859Correlação positiva muito forte Vê-se através do gráfico que há uma dependência entre o crescimento do número de alunos aprovados e o investimento em novos equipamentos.

Para obtermos a RETA DE REGRESSÃO:

  

USANDO O EXCEL: Há três funções (de biblioteca) no excel para o cálculo da regressão linear: 

Page 22: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

22

Interceptação: calcula o coeficiente b 

=INTERCEPÇÃO(A2:A11;B2:B11)

 

inclinação: calcula o coeficiente m 

=INCLINAÇÃO(A2:A11;B2:B11)

  

previsão: calculo de um valor de X que você queira: 

=PREVISÃO(20;A2:A11;B2:B11)

Page 23: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

23

INTERCEPTAÇÃO b = 117,0702INCLINAÇÃO m = 9,7381

PREVISÃO X = 20 y = 311,8330PREVISÃO X = 30 y = 406,6744PREVISÃO X = 45 y = 551,5763

ERRO PADRÃO DE ESTIMATIVA: 65,1734TESTE DE PEARSON r = 0,8594 COEFICIENTE DE DETERMINAÇÃO r2 = 0,7385

Pode-se usar também a ferramenta [ferramentas] [análise de dados] [regressão] do excel para a obtenção da ANOVA

Page 24: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

24

Grafico 1: Investimento em novos equipamentos X Alunos aprovados

y = 0,0758x - 1,818

R2 = 0,7385

0

5

10

15

20

25

30

35

40

45

0 100 200 300 400 500 600

n° Alunos aprovados

Inve

stim

ento

em

nov

os

equi

pam

ento

s (x

100

0 re

ais)

Page 25: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

25

há dois parâmetros que podem ajudar a analisar os dados obtidos: 

 

ERRO PADRÃO DA ESTIMATIVA: calcula o maior erro padrão da estimativa, para a faixa de 95% da amostra (dois graus de liberdade) Mede a variabilidade em torno da linha ajustada de regressão (em unidades da variável dependente Y)

 

COEFICIENTE DE DETERMINAÇÃO r2 (mede o modo de associação de duas variáveis) parcela de y que é explicada por x!

Page 26: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

26

NO EXEMPLO O VALOR de r2 é 0,7385.

Isto significa que 73,85% das variações dos de alunos aprovados (y) são “explicadas” pelo investimento em Novos equipamentos, ficando 26,15% sem explicação.

Page 27: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

27

Ainda resta saber se a correlação positiva forte é devida aos dois parâmetros X e Y ou se a diminuição de problemas estão relacionadas com outros parâmetros (não considerados aqui).

Aplicando o Teste completo de Fisher (F) ou teste de hipótese F

testa a hipótese de que nenhum dos coeficientes de regressão tenha significado.

Page 28: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

28

F

r

kr

n k

2

21

1

onde:

k = graus de liberdade (gl) (95% 2 graus de liberdade)

n = Nº. de elementos da amostra

r2 coeficiente de determinação

F

0 7385

2 11 0 7385

10 2

22 59

,

,,Então:

Page 29: 1 Estatística 4.1 Dirceu da Silva Jomar Barros Filho

29

Valor crítico de F (caudas inferior e superior da distribuição):

significância de 0,01,

para k=2 k-1= 2-1 = 1 no numerador e

n-K = 10-2 = 8 no denominador

 

Usando o Excel:

=INVF (0,01;1;8) Fcrit. = 11,258 (< 22,59)

Portanto: é menor que o valor de F A regressão deve ser aceita!