aula 10 relacionamentos entre duas variÁveis 10 analise de dados... · a estatística do teste é...

35
UNIVERSIDADE FEDERAL DA BAHIA ESCOLA POLITÉCNICA MEAU- MESTRADO EM ENGENHARIA AMBIENTAL URBANA ENG C 18 Métodos de Pesquisa Quantitativos e Qualitativos AULA 10 RELACIONAMENTOS ENTRE DUAS VARIÁVEIS ANÁLISE DE DADOS CATEGORIZADOS DOCENTE: CIRA SOUZA PITOMBO

Upload: buikhanh

Post on 02-Dec-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

UNIVERSIDADE FEDERAL DA BAHIA

ESCOLA POLITÉCNICA

MEAU- MESTRADO EM ENGENHARIA AMBIENTAL URBANA

ENG C 18 Métodos de Pesquisa Quantitativos e Qualitativos

AULA 10 RELACIONAMENTOS ENTRE DUAS

VARIÁVEIS

ANÁLISE DE DADOS CATEGORIZADOS

DOCENTE: CIRA SOUZA PITOMBO

Free Template from

www.brainybetty.com 2

O que vimos até aqui? • Pesquisas e dados – Cap 2

• Técnicas de amostragem – Cap 3

• Explorando dados categorizados – Cap 4

• Explorando dados quantitativos – Cap 5

• Medidas descritivas – Cap 6

• Modelos probabilísticos – Cap 7

• Distribuições contínuas e o modelo normal – Cap 8

• Estimação de parâmetros – Cap 9

• Testes estatísticos de hipótese – Cap 10

Free Template from

www.brainybetty.com 3

Relacionamento entre duas

variáveis

• Como medir e testar a siginificância da

associação entre duas variáveis qualitativas?

• Como estudar a correlação entre duas

variáveis quantitativas?

• Como construir modelos para relacionamento

entre duas variáveis?

RELEMBRANDO – AULA 1 - DESMITIFICANDO

A ESTATÍSTICA

Trabalho 2: Analisar relações entre aumento da frota

veicular e número de acidentes de trânsito

DESMITIFICANDO A ESTATÍSTICA

Trabalho 2: Analisar relações entre aumento da frota

veicular e número de acidentes de trânsito

Etapa 2: Exploração dos dados

0

200

400

600

800

1000

1200

0 500 1000 1500 2000 2500

0,982436

DESMITIFICANDO A ESTATÍSTICA Trabalho 2: Analisar relações entre aumento da frota

veicular e número de acidentes de trânsito

Etapa 2: Exploração dos dados – Medidas descritivas

Statistics

31 31

0 0

1324,65 484,94

384,596 273,393

800 100

2220 1100

Valid

Missing

N

Mean

Std. Dev iation

Minimum

Maximum

VMD Acidentes

DESMITIFICANDO A ESTATÍSTICA Trabalho 2: Analisar relações entre aumento da frota

veicular e número de acidentes de trânsito

Etapa 3: Inferência estatística

y = 0,6984x - 440,16

R2 = 0,9652

0

200

400

600

800

1000

1200

0 500 1000 1500 2000 2500

Free Template from

www.brainybetty.com 8

Dados categorizados

• Duas ou mais variáveis associadas

• Se o conhecimento de uma altera a

probabilidade de algum resultado da outra

• Propensão da pessoa ir à praia x clima

Free Template from

www.brainybetty.com 9

Na aula de hoje

• Testar se existe associação entre duas

variáveis qualitativas

• Com base numa amostra de observações

• Veremos também uma maneira de medir o

grau de associação descrito pela amostra

Free Template from

www.brainybetty.com 10

O teste de associação Qui-

Quadrado

• É um método que permite

testar a significância da

associação entre duas

variáveis qualitativas

Free Template from

www.brainybetty.com 11

O teste de associação Qui-

Quadrado • Para estudar a associação entre sexo (masculino e feminino) e

tabagismo (fumante ou não fumante), numa certa população,

observou-se uma amostra aleatória de 300 pessoas adultas

• Deseja-se verificar se os dados da amostra mostram evidência suficiente

para afirmar que, na população em estudo, existe associação entre sexo

e tabagismo

mh mh

Free Template from

www.brainybetty.com 12

O teste de associação Qui-

Quadrado

mh mh

Ho : Sexo e tabagismo são variáveis independentes na população

em estudo

H1: Existe associação entre as variáveis sexo e tabagismo na

população em estudo

Relembrando a aula 1:DESMITIFICANDO A

ESTATÍSTICA

Trabalho 1: Investigar o grau de instrução do chefe da

casa nas famílias residente na cidade de Cirópolis.

Região A Região B

Trabalho 1: Investigar o

grau de instrução do

chefe da casa nas

famílias residente na

cidade de Cirópolis.

ID Família Grau de instrução Região

1 1 A

2 1 A

3 1 A

4 1 A

5 1 A

6 1 A

7 1 A

8 2 A

9 3 A

10 3 A

11 3 B

12 3 B

13 3 B

14 3 C

15 3 A

16 3 A

17 2 A

18 2 A

19 2 A

20 2 A

Relembrando a aula 1:DESMITIFICANDO A

ESTATÍSTICA

Free Template from

www.brainybetty.com 15

O teste de associação Qui-

Quadrado

Ho : As duas variáveis são independentes

H1: Existe associação entre as duas variáveis

Trabalho 1: Investigar o grau de instrução do chefe da

casa nas famílias residente na cidade de Cirópolis.

Free Template from

www.brainybetty.com 16

A estatística t A estatística do teste é uma espécie de medida de

distância entre as frequencias observadas, O, e as frequencias que

esperaríamos encontrar, E, na suposição das variáveis serem

independentes

2

43,3% de 200 homens fumantes (0,433) x (200) = 86,6

56,7% de 200 homens não fumantes (0,567) x (200) = 113,4

De forma análoga, poderemos obter as freqüências esperadas

nos estratos das mulheres

Free Template from

www.brainybetty.com 17

A estatística t Freqüências esperadas

eraltota

unatotaldacolxhatotaldalinE

lg

)()(

E

EO 22 )(

Cálculo das Freqüências esperadas

Cálculo das Parcelas da estatística qui-quadrado

Free Template from

www.brainybetty.com 18

A estatística t Cálculo das Parcelas da estatística qui-quadrado

74,1501,0251,0656,0328,02

Quando as variáveis são independentes (Ho) verdadeira, as frequencias

observadas tendem a ficar perto das frequencias esperadas. Neste caso o

valor de qui-quadrado deve ser pequeno. Um valor grande da estatística

qui-quadrado sinaliza que as diferenças entre as frequencias observadas e

esperadas não devem ser meramente causais.

Free Template from

www.brainybetty.com 19

Distribuição de referência Precisamos de uma distribuição de referência que permita julgar se

determinado valor da estatística qui-quadrado pode ser considerado

grande o suficiente para rejeitar Ho, em favor e H1. Suposições básicas:

Os dados estejam dispostos numa tabela de contingência propriamente

dita, isto é, cada elemento observado é alocado numa e apenas numa

célula.

As amostras sejam grandes

Supondo Ho verdadeira e as condições acima, os possíveis valores da

estatística seguem a chamada distribuição qui-quadrado com gl=(l-

1).(c-1) graus de liberdade, onde l é o número de linhas e c é o número

de colunas da tabela

2

2

Free Template from

www.brainybetty.com 20

Distribuição de referência No exemplo, ambas as variáveis têm duas categorias, então l=2 e c=2,

portante gl= (2-1).(2-1) = 1

Se Ho for verdadeira, os possíveis valores da estatística devem

seguir uma distribuição qui-quadrado com gl=1. A forma da distribuição

qui-quadrado torna-se menos assimétrica à medida que cresce o número

de graus de liberdade 2

2

Free Template from

www.brainybetty.com 21

Distribuição de referência

2

0 5 10 15 20 252

1 gl

4 gl

10 gl

20 gl

Free Template from

www.brainybetty.com 22

Probabilidade de significância Supondo que as duas variáveis sejam independentes (Ho verdadeira), o

valor p é a probabilidade de a estatística qui-quadrado acusar um valor

maior ou igual do que o valor , calculado com base na amostra.

2

2

2

F(x)

Valor p

Quando os dados levam a um grande (e, em consequencia, um valor

p pequeno), o teste rejeita Ho, em favor de H1. Por outro lado, quando os

dados observados levam um pequeno (e, em consequencia, um

valor p grande), o teste não rejeita Ho.

2

2

p>α – Aceita Ho

p<α – Rejeita Ho em

favor de H1

Tabela de distribuição qui-quadrado

Tabela 6 – anexo livro texto

Free Template from

www.brainybetty.com

Exemplo: 2(16, 0.05) = ?

0

)05.0,16(2 2

05.0

Na Tabela qui-quadrado

Área à direita

gl 0.05

16 26.3

2(16, 0.05) = 26.3

Free Template from

www.brainybetty.com

Exemplo: 2(10, 0.99) = ?.

0 )99.0,10(2 2

Área à direita

gl 0.99

10 2.56

Na Tabela

2(10, 0.99) = 2.56

Coeficiente de contingência Um coeficiente muito usado para medir o grau de associação em uma

tabela de contingência (n=número de elementos da amostra)

2

2

nC

Chamando de k o menor valor entre l (número de linhas da tabela) e c

(número de colunas da tabela). O coeficiente de contingência modificado

é dado por:

)()1(

.2

2

nk

kC

O valor de C sempre estará no intervalo entre 0 e 1.

Valores próximos de 1 descrevem uma forte

associação

Coeficiente de Cramer

)1(

2

knV

Relembrando a aula 1:DESMITIFICANDO A

ESTATÍSTICA

Trabalho 1: Investigar o grau de instrução do chefe da

casa nas famílias residente na cidade de Cirópolis.

Região A Região B

Trabalho 1: Investigar o

grau de instrução do

chefe da casa nas

famílias residente na

cidade de Cirópolis.

ID Família Grau de instrução Região

1 1 A

2 1 A

3 1 A

4 1 A

5 1 A

6 1 A

7 1 A

8 2 A

9 3 A

10 3 A

11 3 B

12 3 B

13 3 B

14 3 C

15 3 A

16 3 A

17 2 A

18 2 A

19 2 A

20 2 A

Relembrando a aula 1:DESMITIFICANDO A

ESTATÍSTICA

Grau de instrução * Região Crosstabulation

Count

7 10 23 40

25 5 6 36

9 25 10 44

41 40 39 120

1

2

3

Grau de

instrução

Total

A B C

Região

Total

Chi-Square Tests

42.746a 4 .000

40.097 4 .000

120

Pearson Chi-Square

Likelihood Ratio

N of Valid Cases

Value df

Asy mp. Sig.

(2-sided)

0 cells (.0%) have expected count less than 5. The

minimum expected count is 11.70.

a.

Symmetric Measures

.597 .000

.422 .000

.512 .000

120

Phi

Cramer's V

Contingency Coef f icient

Nominal by

Nominal

N of Valid Cases

Value Approx. Sig.

Not assuming the null hy pothesis.a.

Using the asymptotic s tandard error assuming the null

hy pothesis.

b.

Exercícios em sala