associaÇao entre duas variaveis

Upload: ezion-de-moura

Post on 14-Jul-2015

442 views

Category:

Documents


0 download

TRANSCRIPT

ASSOCIAO ENTRE UAlg VARIVEIS ESGHT - DUAS

Estatstica IASSOCIAO ENTRE DUAS VARIVEIS

Vitor Teixeira [email protected]

Estatstica I

1

ASSOCIAO ENTRE DUAS VARIVEIS1. IntroduoNos captulos anteriores, no essencial, as anlises envolveram apenas uma varivel (anlises univariadas). No presente captulo vo considerar-se fundamentalmente anlises que envolvem duas variveis (anlises bivariadas). As duas variveis podem ser de natureza quantitativa ou qualitativa. O objectivo da anlise o estudo da existncia de alguma associao ou relao entre as duas variveis .Estatstica I2

ASSOCIAO ENTRE DUAS VARIVEIS1. IntroduoUm dos objectivos fundamentais da cincia investigar a relao estatstica entre fenmenos

de forma a melhorar o conhecimento da realidade e a prever a evoluo dos fenmenos envolvidos nessa relao.

As relaes so exactas ou determinsticas, quando existeuma forma precisa e invarivel de relacionamento entre os fenmenos.Estatstica I3

ASSOCIAO ENTRE DUAS VARIVEIS1. Introduo Pode tambm no haver qualquer ligao entre osfenmenos e neste caso diz-se que no h relao, ou que os fenmenos so independentes.

As relaes exactas e a independncia so os dois casosextremos das relaes estatsticas.

Como proceder para descobrir e medir as relaes estatsticas queocupam uma posio intermdia entre as relaes exactas e a independncia?Estatstica I4

ASSOCIAO ENTRE DUAS VARIVEIS1. IntroduoQuando a relao envolve fenmenos de natureza quantitativa, Anlise de Correlao Anlise de Regresso so dois instrumentos estatsticos adequados para estudar e medir essa relao. As duas anlises nada indicam sobre a relao causal que possa existir entre os fenmenos; mas pretendem apenas medir, com base na variao que os fenmenos apresentam, a relao estatstica que entre eles se estabelece.Estatstica I5

ASSOCIAO ENTRE DUAS VARIVEIS2. Correlao LinearCorrelao Linear: o mtodo estatstico mais utilizado para medir o grau de associao entre variveis e para retirar concluses sobre a orientao tendencial da relao entre fenmenos.

Diagrama de Disperso: (1) uma representao grfica frequentemente utilizada para analisar a correlao entre duas variveis.

Estatstica I

6

ASSOCIAO ENTRE DUAS VARIVEIS2. Correlao LinearDiagrama de Disperso: (2) Para construir o diagrama de disperso, desenha-se um ponto no plano XY, por cada par de observaes (xi,yi) das variveis cujo grau de associao se pretende analisar. O diagrama de disperso tem uma dupla funo:

Ajuda a determinar se existe alguma relao entre asvariveis; Permite identificar qual a equao mais apropriada para descrever essa relao.Estatstica I7

ASSOCIAO ENTRE DUAS VARIVEIS2. Correlao LinearDiagrama de Disperso: (3) Exemplo de um diagrama de disperso entre duas variveis 20 X e Y:18 16 14 12 10 10 15 20 25 30 35 40

Estatstica I

8

ASSOCIAO ENTRE DUAS VARIVEIS2. Correlao LinearTipos de Correlao Existem dois tipos de correlao:

Correlao Simples: quando se analisa o grau deassociao entre duas variveis

Correlao Mltipla: quando a relao envolve pelomenos trs variveis

Estatstica I

9

ASSOCIAO ENTRE DUAS VARIVEIS2. Correlao Linear

Temos uma Correlao Linear quando todos os pontos do diagrama de disperso parecem estar na proximidade de uma recta.

Nestes casos, uma equao linear apropriada aos fins de regresso e de estimao.

Estatstica I

10

ASSOCIAO ENTRE DUAS VARIVEIS2. Correlao LinearCorrelao linear positiva ou directaY Y

Correlao linear negativa ou inversa

X

X

Quanto intensidade, a correlao tanto mais forte quanto menor for a disperso dos pontos em torno da linha recta. A correlao perfeita se todos os pontos coincidirem com a linhaEstatstica I11

ASSOCIAO ENTRE DUAS VARIVEIS2. Correlao LinearTemos uma Correlao no Linear quando todos os pontos do diagrama de disperso parecem estar na proximidade de uma curva. Nestes casos, uma equao no linear apropriada aos fins de regresso e de estimao.

Y

Correlao no linear

XEstatstica I12

ASSOCIAO ENTRE DUAS VARIVEIS2. Correlao LinearSe no h relao definida entre as variveis, diz-se que as variveis no esto correlacionadas. As variaes das variveis no se fazem nem no mesmo sentido, nem em sentido contrrio.

Y

Ausncia de Correlao

XEstatstica I13

ASSOCIAO ENTRE DUAS VARIVEIS2. Correlao Linear

Apesar do diagrama de disperso ser um indicador da intensidade da correlao, no fornece uma medida exacta do grau de associao linear que existe entre as variveis. A medida que normalmente se utiliza para quantificar essa relao o Coeficiente de Correlao Linear de Pearson.

Estatstica I

14

ASSOCIAO ENTRE DUAS VARIVEIS2. Correlao LinearCoeficiente de Correlao Linear de Pearson: (1) uma medida do grau de associao linear entre as variveis uma medida de associao relativa e desta forma deixa de ser influenciada pelas unidades de medida das variveis. uma medida simtrica (rXY = rYX) e no afectada por transformaes lineares dos dados: se adicionar, subtrair, multiplicar ou dividir por uma constante todos os valores de uma das variveis envolvidas na relao, o valor do coeficiente permanece inalterado.Estatstica I15

ASSOCIAO ENTRE DUAS VARIVEIS2. Correlao LinearCoeficiente de Correlao Linear de Pearson: (2)

representa-se por quando se consideram todos osvalores (populaes) que as variveis X e Y podem assumir;

representa-se por r quando a correlao medida a partirde uma amostra para cada uma das variveis.

Estatstica I

16

ASSOCIAO ENTRE DUAS VARIVEIS2. Correlao LinearCoeficiente de Correlao Linear de Pearson: (3)

Dadas 2 variveis X e Y, quantitativas, o Coeficiente deCorrelao Linear entre X e Y calculado da seguinte forma:

r= R =2

( X )(Y ) X Y i i i i 2 2 ( Xi ) . Y 2 (Yi ) 2 Xi i n n

n

Estatstica I

17

ASSOCIAO ENTRE DUAS VARIVEIS2. Correlao LinearCoeficiente de Correlao Linear de Pearson: (4)

r = +1 r = -1 r=0

correlao linear perfeita e positiva correlao linear perfeita e negativa ausncia de correlao correlao linear pobre

r prximo de zero

Estatstica I

18

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearAnlise de Regresso: Tem por objectivo determinar a equao da recta que passa por entre a nuvem de pontos do diagrama de disperso e que descreve a relao linear entre Y e X. Modelo de Regresso Linear Simples: (1) A relao de tipo linear entre duas variveis pode ser descrita matematicamente atravs da seguinte equao:

Estatstica I

19

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearModelo de Regresso Linear Simples: (2)Yi = + Xi + i , i = 1, 2, ..., nY varivel explicada, dependente ou endgena (a varivel Y representa o fenmeno que a relao pretende explicar); X varivel explicativa, independente ou exgena (a varivel X representa o factor explicativo includo na relao); uma varivel de tipo residual que inclui outros factores explicativos de Y no includos em X e ainda erros de medio; uma constante: intercepo da recta com o eixo vertical; uma constante: declive da recta.Estatstica I20

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearModelo de Regresso Linear Simples: (2)O conjunto de n igualdades que constituem o modelo podem apresentar-se utilizando a notao matricial:Y1 Y 2 M Y= Yi M Yn 1 X 1 1 X 2 M M X= 1 Xi M M 1 X n 1 2 M = i M n

= [

]

o modelo de regresso linear simples pode ser escrito da seguinte forma: Y = X + Estatstica I21

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearModelo de Regresso Linear Simples: (3) Para cada valor de X, a recta + Xi fornece um valor aproximado para Yi.

O modelo de regresso linear simples, tal como foiapresentado, descreve a relao entre X e Y nas respectivas populaes.

Estatstica I

22

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearRecta da populao e recta da amostra: (1) Uma vez que nos estamos a referir a todos os valores das populaes Y e X, e designam-se por parmetros do modelo e so: - ordenada na origem - declive da recta da populao

Como normalmente no possvel conhecer todos osvalores das populaes Y e X, estimam-se os parmetros a partir de amostras das duas populaes.Estatstica I23

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearRecta da populao e recta da amostra: (2) A recta que assim se obtm, descreve a relao linear entre Y e X nas amostras recolhidas, e pode ser considerada uma estimativa para a recta da populao. Esta recta tambm se costuma designar por recta de regresso ou recta ajustada da amostra.

Estatstica I

24

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearRecta da populao e recta da amostra: (3) Mas, como ajustar a recta? Existem vrios mtodos para se ajustar uma recta.

Mtodo mais simples:desenhar uma recta com a ajuda de uma rgua, uma recta que nos parea o melhor ajustamento possvel.

Estatstica I

25

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearRecta da populao e recta da amostra: (4)

Y

X

Mtodo subjectivo: diferentes pessoas ajustaro diferentesrectas, sendo todas elas possveis bons ajustamentos.Estatstica I26

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearRecta da populao e recta da amostra: (5)

mtodos mais objectivos para ajustar uma recta deveroconsiderar as distncias entre os pontos observados e a rectaY

XEstatstica I27

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearMtodo dos Mnimos Quadrados: (1) Seja Yai = a + bXi a equao de uma recta da amostra que passa por entre os pontos do diagrama de disperso (a a ordenada na origem e b o declive). Considere os desvios verticais de cada ponto em relao recta (diferena entre os valores realmente observados de Y e os valores estimados a partir da recta de regresso) e designe-os por resduos (i).Estatstica I28

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearMtodo dos Mnimos Quadrados: (2)Y Yai Ya Yj Yaj

j

i

Yai

Yi Xj

Yi Xi X

para um determinado valor Xi da varivel independente teremos dois valores para Y: um valor observado Yi e um outro que nos dado pela recta ajustada Yai. A diferena entre os dois corresponde exactamente ao efeito do resduo aleatrio i: Yi - Yai = iEstatstica I29

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearMtodo dos Mnimos Quadrados: (3) Com a aplicao do mtodo de mnimos quadrados pretende-se ajustar uma recta que permita minimizar o somatrio do quadrado dos resduos i, isto , encontrar valores para as constantes a e b que tornem aquele somatrio mnimo:Min i2 a, b ou Min (Yi - Yai)2 a, b

Estatstica I

30

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearMtodo dos Mnimos Quadrados: (4) Clculo dos coeficientes a e b da recta de regresso

a = Y bXb = n X iYi n X2 i

Intercepo da recta de regresso

X Y ( X )i 2 i

i

Declive da recta de regresso

Yai = a + bXi

Recta de regresso

Estatstica I

31

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearMtodo dos Mnimos Quadrados: (5)Mtodos alternativos de clculo do b:

b=

X Y Y X X X Xi i 2 ii i

i i

b =

(X X )(Y Y ) (X X )2 i

b =Estatstica I

XY X

i i 2 i

nXY nX 232

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearInterpretao dos coeficientes a e b:

a corresponde ao valor da varivel dependente Y quando o efeito da varivel independente X nulo. b representa a variao esperada da varivel dependente Y por cada unidade de variao da varivel independente X.

Estatstica I

33

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearPreviso com a recta de regresso: (1)A utilizao mais importante e mais comum da recta de regresso feita com o objectivo de prever o comportamento da varivel explicada com base em valores conhecidos da varivel explicativa. Quando se tem apenas mais uma observao adicional, xn+1, o previsor :

Y0 = a + x n+1b

Estatstica I

34

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearDesvio padro corrigido da estimativa: Uma medida da disperso em relao recta de regresso de Y para X dada pela seguinte frmula:SY =X

Yi 2 a Yi b X iYi n2

representando Ya os valores de Y correspondentes a valores de X, estimados pela recta de regresso.Estatstica I

35

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearCoeficiente de Determinao: (1)

Se a relao linear entre Y e X for suficientemente forte e se se mantiver no futuro, a recta de regresso pode ser utilizada na previso dos valores de Y; Mas, como saber se a relao linear entre Y e X suficientemente forte para que a recta estimada possa ser utilizada na previso dos valores de Y?

Estatstica I

36

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearCoeficiente de Determinao: (2)

O coeficiente de determinao uma das medidasfrequentemente mais utilizadas para responder a tal questo. Para determinada observao Yi: a diferena relativamente ao valor mdio Y, chamada de desvio total e pode ser decomposta numa soma de duas parcelas:

Estatstica I

37

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearCoeficiente de Determinao: (3) 1. o desvio explicado pela recta de regresso (diferena entre o valor ajustado para essa mesma observao e o ponto mdio); 2. o desvio no explicado (diferena entre o valor observado e o valor estimado pela recta).

Estatstica I

38

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearCoeficiente de Determinao: (4)

Y Yi Desvio total (Yi -Y )

Desvio no explicado (Yi - Yai) Ya = a + bX

Y

Desvio explicado (Yai- Y )

X

Estatstica I

39

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearCoeficiente de Determinao: (5)

Se calcularmos os quadrados dos desvios de todas asobservaes, obtemos a variao total :

(Yi - Y )2 = (Yai - Y )2 + (Yi - Yai)2

Decomposio da variao total

Variao total = Variao explicada + Variao no explicada

Estatstica I

40

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearCoeficiente de Determinao: (6)

indica a proporo da variao total de Y explicada pelapresena da varivel X (ou pela recta de regresso)

Variao explicada R = = Variao total2

( Y ) a Y + b X Y i i i i

2

( Y ) Y n2 i i

n

2

Estatstica I

41

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearCoeficiente de Determinao: (7)

Como a percentagem de variao de Y explicada pelavarivel independente ser no mximo 100% e no mnimo 0%, o coeficiente de determinao varia sempre entre 0 e 1.

Se R2 = 1, a variao total pode ser explicada totalmentepelas variaes de X; Se R2 = 0, as variaes de X no contribuem em nada para explicar as variaes de Y.Estatstica I42

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearCoeficiente de Determinao: (8)

este coeficiente pode ser utilizado como uma medida da qualidade da recta de regresso e do ajustamento feito; sobretudo quando o objectivo principal da recta de regresso fazer previses, torna-se indispensvel que o coeficiente de determinao apresente valores elevados.

Estatstica I

43

ASSOCIAO ENTRE DUAS VARIVEIS3. Regresso LinearCoeficiente de Determinao Ajustado:

R

2 ajustado

n 1 2 = 1 1 R . n 2

(

)

Estatstica I

44

ASSOCIAO ENTRE DUAS VARIVEIS4. Linearizao do ModeloModelo Exponencial (taxas de crescimento): yi = A.Bxi , i = 1, 2, ..., nLog yi = Log A + xi .Log B Ou seja, Yi = a + b Xi Em que: Yi = Log yi a = Log A b = Log B Xi = x45

Estatstica I

ASSOCIAO ENTRE DUAS VARIVEIS4. Linearizao do ModeloModelo Potncia: yi = A.xiB , i = 1, 2, ..., nLog yi = Log A + B . Log xi Ou seja, Yi = a + b Xi Em que: Yi = Log yi a = Log A b=B Xi = Log xi46

Estatstica I

ASSOCIAO ENTRE DUAS VARIVEIS5. Covarincia A covarincia tambm uma medida do grau de relaolinear entre duas variveis. definida como o valor esperado do produto das diferenas entre os valores de cada varivel e a respectiva mdia e pode ser assim calculada:

Cov ( X , Y ) =

(X

i

X

)(Y i

Y

)

n

Estatstica I

47

ASSOCIAO ENTRE DUAS VARIVEIS6. Tabelas de Contingncia e AssociaoQuando a relao envolve 2 fenmenos de natureza qualitativa, os dados organizam-se em tabelas de contingncia, que so quadros de dupla entrada que representam a informao referente a dois atributos.

Atributo A A1 A2 Al TotaisEstatstica I

B1 n11 n21 nl1 n.1

Atributo B B2 n12 n22 nl2 n.2

Bc n1c n2c nlc n.c

Totais n1. n2. nl. n48

ASSOCIAO ENTRE DUAS VARIVEIS6. Tabelas de Contingncia e AssociaoNo quadro, njk reperesenta a frequncia (absoluta) de observaes que apresentam conjuntamente as modalidades Aj e Bk, ou seja, o nmero de observaes da clula (j,k). Na ltima coluna e na ltima linha esto representados os totais marginais que representam, respectivamente, as distribuies de frequncias marginais das variveis qualitativas A e B. Entre as frequncias do quadro tm-se as seguintes relaes:

(1) nj=1 k =1

l

c

jk

= n j. = n.k = nj=1 k =1

l

c

(2) (3)Estatstica I

n j. = n jkk =1 l

c

n.k = n jkj=1

49

ASSOCIAO ENTRE DUAS VARIVEIS6. Tabelas de Contingncia e AssociaoNeste tipo de tabelas podem-se considerar as frequncias relativas (tendo por referncia o total) e as frequncias condicionadas (so propores, no do total de observaes, mas sim do total da linha ou da coluna) . O objectivo fundamental da anlise das tabelas de contingncia o estudo da associao entre os dois atributos. Os dois atributos podem estar associados de forma pefeita, ou serem independentes ou estarem reelacionados no de forma perfeita (tal como se verificou para as variveis quantitativas).Estatstica I50

ASSOCIAO ENTRE DUAS VARIVEIS6. Tabelas de Contingncia e AssociaoOs atributos A e B dizem-se independentes se existe proporcionalidade entre as frequncias de cada clula e o total da coluna (ou da linha), ou seja, e considerando a linha j:

n j1 n j 2 n jc , j = 1, 2,L , l = =L= n.1 n.2 n.c Recorrendo s propriedades das propores, as igualdades anteriores podem escrever-se de forma equivalente:n jk n.k =

nk =1 c k =1

c

jk

n.k

=

n j. n

,

j = 1, 2,L, l ;

k = 1, 2,L, c

n j.n.k n jk = , nEstatstica I

j = 1, 2,L , l ;

k = 1, 2,L , c51

ASSOCIAO ENTRE DUAS VARIVEIS6. Tabelas de Contingncia e AssociaoPara que os atributos A e B sejam independentes devem ter-se as frequncias a verificar a relao anterior. Para se distinguirem as frequncias observadas das frequncias esperadas ou tericas, supondo a independncia, representam-se estas por: n j.n.k * n jk = , j = 1, 2, L , l ; k = 1, 2, L , c n Para avaliar se a independncia dos atributos aceitvel, calcula-se o Qui-Quadrado de Pearson: 2

= 2 j=1 k =1Estatstica I

l

c

(n

jk

n n*jk

* jk

)

52

ASSOCIAO ENTRE DUAS VARIVEIS6. Tabelas de Contingncia e AssociaoExemplo: A distribuio por Sexo e por Curso dos alunos entrados num determinado ano na ESGHT consta no quadro seguinte. Pretende-se saber se os rapazes e as raparigas tm preferncias diferentes em relao ao Curso escolhido.Sexo Feminino Masculino Total Turismo 24 16 40 Curso Gesto Hoteleira 132 88 220 Gesto 144 96 240 Total 300 200 500

Clculo das frequncias esperadas (no caso de independncia), com base na expresso:

n =* jkEstatstica I

n j .n.k n

,

j = 1, 2,L , l ; k = 1, 2,L , c53

ASSOCIAO ENTRE DUAS VARIVEIS6. Tabelas de Contingncia e Associao300 40 n11 = 24 n = = 24 500* 11 * n13 = 144 n13 =

300 220 n12 = 132 n = = 132 500* 12 * n 21 = 16 n 21 =

300 240 = 144 500

200 40 = 16 500

* n 22 = 88 n 22 =

200 220 = 88 500

* n 23 = 96 n 23 =

200 240 = 96 500

Concluso: Existe independncia entre o Sexo e o Curso escolhido pelos estudantes uma vez que se verifica, para qualquer clula, ou seja para qualquer j = 1, 2, ..., l e para qualquer k =1, 2, ..., c, igualdade entre as frequncias observadas e as frequncias esperadas ou tericas.Estatstica I54

ASSOCIAO ENTRE DUAS VARIVEIS6. Tabelas de Contingncia e AssociaoNo caso de as variveis no serem independentes, ento existe associao entre as mesmas. A avaliao da intensidade da associao pode fazer-se atravs das seguintes medidas: 1 . Quadrado da Contingncia: 2 . Coeficiente de Contingncia:

= n2

2

C=3 . Coeficiente V de Cramer:

= 2 +n2

2 + 12

Estatstica I

55

ASSOCIAO ENTRE DUAS VARIVEIS6. Tabelas de Contingncia e AssociaoExemplo: Num inqurito a 1000 telespectadores (homens e mulheres) sobre as suas preferncias sobre programas de Informao, de Desporto e Telenovelas, obtiveram-se os resultados que constam no quadro seguinte. Haver alguma relao entre o tipo de espectadores (sexo) e o tipo de programas (informao, desporto e telenovelas)? Em caso afirmativo, ser forte ou fraca a associao?Sexo Feminino Masculino TotalEstatstica I

Informao 120 150 270

Programa Desporto 300 20 320

Telenovelas 30 380 410

Total 450 550 100056

ASSOCIAO ENTRE DUAS VARIVEIS6. Tabelas de Contingncia e AssociaoResoluo: O estudo da associao/independncia passa pelo clculo do Qui-Quadrado de Pearson. Para o efeito h que calcular previamente as frequncias esperadas.Sexo Feminino Masculino Total Informao 121,5 148,5 270 Programa Desporto 144 176 320 Telenovelas 184,5 225,5 410 Total 450 550 1000

Com base nas frequncias observadas e nas frequncias esperadas, calcule-se o Qui-Quadrado de Pearson:2

(120 121,5 ) =121,5

2

(300 144 ) +144

2

(380 225,5 ) +L+225,5

2

= 542,53957

Estatstica I

ASSOCIAO ENTRE DUAS VARIVEIS6. Tabelas de Contingncia e AssociaoA partir do Qui-Quadrado podem calcular-se as diferentes medidas de associao: 1 . Quadrado da Contingncia: 2 542,539 2 = = = 0,543 n 1000

2 . Coeficiente de Contingncia:C= 0,543 2 = = 0,593 2 0,543 + 1 +1

3 . Coeficiente V de Cramer:0,543 2 V= = = 0,737 min(l 1, c 1) 1Estatstica I

Concluso: O valor de qualquer das medidas confirma a existncia de uma associao relativamente forte entre o tipo de espectador (sexo) e o tipo de programa (informao, desporto e telenovelas).58

ASSOCIAO ENTRE DUAS VARIVEIS6. Tabelas de Contingncia e AssociaoQuando os atributos so dicotmicos, geralmente com as modalidades a representarem a presena (+) ou ausncia (-) do atributo, o nmero de linhas e o nmero de colunas igual a 2 e, neste caso tm-se as tabelas 2x2.B A + Total + a c a+c b d b+d Total a+b c+d n

Nesta tabela, os sinais (+) e (-) representam, respectivamente, presena ou ausncia do atributo, concordncia no caso ++ ou - - e discordncia nos casos + -, - +.Estatstica I59

ASSOCIAO ENTRE DUAS VARIVEIS6. Tabelas de Contingncia e AssociaoO valor do Qui-Quadrado para tabelas 2x2 :n(ad bc ) 2 = (a + b )(a + c )(b + d)(c + d)2

As medidas de associao j estudadas que, em geral assumem valores entre 0 e 1 no so muito adequados para as tabelas 2x2 porque nestas, ao contrrio do que acontece em tabelas lxc (l ou c maio que 2) faz sentido, muitas vezes, distinguir entre associao positiva e negativa. A medida de associao mais utilizada para tabelas 2x2 o Coeficiente de Pearson: ad bc = (a + b )(a + c )(b + d)(c + d)Estatstica I60

ASSOCIAO ENTRE DUAS VARIVEIS6. Medidas de AssociaoOs coeficientes calculados anteriormente contingncia, V de Cramer e phi tm por base variveis de nvel nominal. Quando as variveis sob estudo so medidas numa escala ordinal, o grau de associao pode ser medido, entre outros, atravs do n coeficiente de correlao de Spearman. 6 di2 i Onde, di a diferena entre os nmeros de s = 1 3=1 n n ordem de cada par de observaes xi e yi. Este coeficiente, toma o valor 1 quando existe uma relao directa perfeita e toma o valor -1 no caso de associao inversa perfeita. Quando no existir associao entre as variveis o seu valor situase prximo de 0.Estatstica I61

ASSOCIAO ENTRE DUAS VARIVEIS6. Medidas de AssociaoExemplo: Suponha que se pretende determinar a associao entre a classificao atribuda ao Algarve enquanto destino turstico (escala: 1-Mau a 5-Excelente) e a importncia atribuda ao atributo "sol e praia" (escala: 1-Nada importante a 5-Extremamente importante):Indivduos 1 2 3 4 5 Algarve 3 5 2 3 4 Sol e Praia 2 4 1 1 5

Ser que se pode afirmar que estes dois atributos se encontram relacionados?Estatstica I62

ASSOCIAO ENTRE DUAS VARIVEIS6. Medidas de AssociaoResoluo: No quadro abaixo apresentam-se, para cada indivduo a ordem associada s respostas para cada questo, e o clculo da diferena de ordem.Indivduos 1 2 3 4 5 Algarve 3 5 2 3 4 Sol e Praia Diferena d 2 1 4 1 1 1 1 2 5 -1 d2 1 1 1 4 1 d2=8

s = 1

6 di2 n ni =1 3

n

s = 1

68 = 1 0,4 = 0,6 53 5

Pode considerar-se que entre as duas variveis existe uma associao razovel e positiva, o que significa que a apreciao sobre o Algarve est moderadamente relacionada com o atributo sol e praia.Estatstica I63

ASSOCIAO ENTRE DUAS VARIVEISCoeficientes de AssociaoNveis de Medida Medidas de Associao Caractersticasnormalmente utilizado para duas variveis nominais dicotmicas varia entre 1 e 1 o sinal negativo indica que a relao inversa e o sinal positivo indica que a relao directa zero indica ausncia de relao varia entre 0 e 1 zero indica ausncia de associao um indica associao perfeita em tabelas 2 x 2 o Coef. V de Cramer igual ao Coeficiente Phi pode ser aplicado a quaisquer varveis nominais varia entre 0 e 1 apresenta uma grande desvantagem: o seu valor mximo limitado em funo do n de linhas e colunas da tabela (para uma tabela 2 x 2) o seu valor mximo 0,707 h que ter cuidado na sua interpretao: se assumir o valor zero, as variveis so independentes, mas para os restantes valores no se pode estabelecer uma correspondncia directa entre o valor do coeficiente e a fora da associao64

Coeficiente Phi () (Phi)

Coeficiente V de Cramer (c) (Cramers V) Variveis Nominais Coeficiente de Contingncia (C) (Contingency Coefficient)

Estatstica I

ASSOCIAO ENTRE DUAS VARIVEISCoeficientes de CorrelaoNveis de Medida Medidas de Associao Caractersticasvaria entre 1 e 1 assume o valor 1 quando existe uma relao perfeita directa assume o valor -1 quando existe uma relao perfeita inversa assume o valor 0 quando no existe associao varia entre 1 e 1 assume o valor 1 quando existe uma relao perfeita directa assume o valor -1 quando existe uma relao perfeita inversa assume o valor 0 quando no existe associao varia entre 1 e 1 assume valores superiores a 0 quando existe uma correlao directa ou positiva assume valores inferiores a 0 quando existe uma correlao inversa ou negativa assume o valor 1 quando existe uma correlao perfeita directa ou positiva assume o valor -1 quando existe uma correlao perfeita inversa ou negativa assume o valor 0 quando no existe correlao

Coeficiente de Spearman () (Spearmans rho) Variveis Ordinais Coeficiente tau de Kendall () (Kendalls tau b)

Variveis Quantitativas (Intervalo e Rcio)

Coeficiente de Pearson (r) (Pearson Correlation)

Estatstica I

65

ASSOCIAO ENTRE UAlg VARIVEIS ESGHT - DUAS

Estatstica IASSOCIAO ENTRE DUAS VARIVEIS FIM Vitor Teixeira [email protected] I66