unid ii- análise bidimensional

13
Notas de aula - Estatística III 32 UNIDADE II. ANÁLISE BIDIMENSIONAL 1. VARIÁVEIS BIDIMENSIONAIS Até agora vimos como organizar e resumir informações pertinentes a uma única variável, mas freqüentemente estamos interessados em analisar o comportamento conjunto de duas ou mais variáveis. Aqui também a distribuição conjunta de freqüências será um poderoso instrumento para ajudar a compreensão dos dados, é o que faremos através da análise bidimensional, isto é análise de duas variáveis conjuntamente. Quando consideramos duas variáveis (ou dois conjuntos de dados), podemos ter três situações: (a) as duas variáveis são qualitativas; (b) as duas variáveis são quantitativas; e (c) uma variável é qualitativa e a outra é quantitativa. As técnicas de análise de dados nas três situações são diferentes. Quando as variáveis são qualitativas, os dados são resumidos em tabelas de dupla entrada ( ou de contingência), onde aparecerão as freqüências absolutas ou contagens de indivíduos que pertencem simultaneamente a categorias de uma e outra variável. Quando as duas variáveis são quantitativas, as observações são provenientes de mensurações, e técnicas como gráficos de dispersão ou de quantis são apropriados. Quando temos uma variável qualitativa e outra quantitativa, em geral analisamos o que acontece com a variável quantitativa quando os dados são categorizados de acordo com diversos atributos da variável qualitativa. VARIÁVEIS QUALITATIVAS Exemplo 1: Suponhamos que queremos analisar o comportamento conjunto das variáveis grau de educação (X) e a região de procedência (Y) , contidas no quadro 1.1. A distribuição conjunta de freqüências é dada numa tabela de dupla entrada, e está apresentada na Tabela A , a seguir: TABELA 4.1 - Distribuição conjunta das freqüências das variáveis grau de instrução (X) e região de procedência (Y) Grau de Educação X Y 1 o grau 2 0 grau Superior Total () Capital 4 5 2 11 Interior 3 7 2 12 O. Região 5 6 2 13 Total () 12 18 6 36 Fonte: Quadro 1.1 (Unidade II) UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos

Upload: suzane-goncalves

Post on 29-Jul-2015

129 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: UNID II- Análise Bidimensional

Notas de aula - Estatística III 32

UNIDADE II. ANÁLISE BIDIMENSIONAL

1. VARIÁVEIS BIDIMENSIONAIS Até agora vimos como organizar e resumir informações pertinentes a uma única variável, mas

freqüentemente estamos interessados em analisar o comportamento conjunto de duas ou mais variáveis. Aqui também a distribuição conjunta de freqüências será um poderoso instrumento para ajudar a compreensão dos dados, é o que faremos através da análise bidimensional, isto é análise de duas variáveis conjuntamente.

Quando consideramos duas variáveis (ou dois conjuntos de dados), podemos ter três situações: (a) as duas variáveis são qualitativas; (b) as duas variáveis são quantitativas; e (c) uma variável é qualitativa e a outra é quantitativa.

As técnicas de análise de dados nas três situações são diferentes. Quando as variáveis são qualitativas, os dados são resumidos em tabelas de dupla entrada ( ou de contingência), onde aparecerão as freqüências absolutas ou contagens de indivíduos que pertencem simultaneamente a categorias de uma e outra variável. Quando as duas variáveis são quantitativas, as observações são provenientes de mensurações, e técnicas como gráficos de dispersão ou de quantis são apropriados. Quando temos uma variável qualitativa e outra quantitativa, em geral analisamos o que acontece com a variável quantitativa quando os dados são categorizados de acordo com diversos atributos da variável qualitativa. VARIÁVEIS QUALITATIVAS

Exemplo 1: Suponhamos que queremos analisar o comportamento conjunto das variáveis grau de

educação (X) e a região de procedência (Y) , contidas no quadro 1.1. A distribuição conjunta de

freqüências é dada numa tabela de dupla entrada, e está apresentada na Tabela A , a seguir:

TABELA 4.1 - Distribuição conjunta das freqüências das variáveis grau de instrução (X) e região de procedência (Y)

Grau de Educação X

Y 1o grau 20 grau Superior Total (↓) Capital 4 5 2 11 Interior 3 7 2 12 O. Região 5 6 2 13 Total (→) 12 18 6 36

Fonte: Quadro 1.1 (Unidade II) UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos

Page 2: UNID II- Análise Bidimensional

Notas de aula - Estatística III 33

Cada célula no corpo da tabela fornece a freqüência absoluta observada das realizações conjuntas de X e

Y. Assim, observamos 4 empregados da capital com instrução de 10 grau, 5 da capital com o 20 grau, etc.

A Linha Total (→) fornece a distribuição da variável X (grau de instrução), enquanto que, a Coluna

Total (↓) fornece a distribuição da variável Y (região de procedência), denominadas tecnicamente de

distribuições marginais de X e de Y, ao passo que a Tabela A constitui a distribuição conjunta de X e Y. - FREQUÊNCIAS PERCENTUAIS OU PROPORÇÕES

Em vez de trabalharmos com as freqüências com as freqüências absolutas , podemos construir tabelas

com as freqüências percentuais, com foi feito no caso unidimensional. Mas aqui existem três

possibilidades de expressarmos a freqüência percentual de cada célula ou casela:

a) Em relação ao total geral (n total de observações) - Ex.: Tabela 4.2;

b) Em relação ao total de cada coluna (Total → ) ou a variável coluna - Ex.: Tabela 4.3;

c) Em relação ao total de cada linha (Total ↓ ) ou a variável linha - Ex.: Tabela 4.4;

De acordo com o objetivo do problema em estudo, uma delas será mais conveniente.

TABELA 4.2 - Distribuição conjunta das freqüências das variáveis X e Y

(Percentual em relação ao Total Geral)

Grau de Educação X

Y 1o grau 20 grau Superior Total (↓)

Capital 4 (11%) 5 (14%) 2 (6%) 11 (31%)

Interior 3 (8%) 7 (19%) 2 (6%) 12 (33%)

O. Região 5 (14%) 6 (17%) 2 (5%) 13 (36%)

Total (→) 12 (33%) 18 (50%) 6 (17%) 36 (100%)

Fonte: Quadro 1.1 Assim, podemos afirmar na Tabela 4.2 acima, que 11% dos empregados vêm da capital e têm instrução

de 10 grau. Os totais marginais fornecem as distribuições unidimensionais de cada uma das variáveis.

UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos

Page 3: UNID II- Análise Bidimensional

Notas de aula - Estatística III 34

TABELA 4..3 - Distribuição conjunta das freqüências das variáveis X e Y

(Percentual em relação à X (grau de educação) - Variável Coluna)

Grau de Educação X

Y 1o grau 20 grau Superior Total (↓)

Capital 4 (33%) 5 (28%) 2 (33%) 11 (31%)

Interior 3 (25%) 7 (39%) 2 (33%) 12 (33%)

O. Região 5 (42%) 6 (33%) 2 (34%) 13 (36%)

Total (→) 12 (100%) 18 (100%) 6 (100%) 36 (100%)

Fonte: Quadro 1.1

Podemos afirmar que, entre os empregados com instrução até 10 grau, 33% vêm da capital, enquanto que

dos empregados com instrução de 20 grau, 28% vêm da capital. De modo análogo, podemos construir a distribuição conjunta de freqüências percentuais em relação à

variável linha ou considerando o Total das Linhas (↓)

TABELA 4..4 - Distribuição conjunta das freqüências das variáveis X e Y

(Percentual em relação à Y (região de procedência) - Variável Linha)

Grau de Educação X

Y 1o grau 20 grau Superior Total (↓)

Capital 4 (36%) 5 (45%) 2 (19%) 11 (100%)

Interior 3 (25%) 7 (58%) 2 (17%) 12 (100%)

O. Região 5 (38%) 6 (46%) 2 (16%) 13 (100%)

Total (→) 12 (33%) 18 (50%) 6 (17%) 36 (100%)

Fonte: Quadro 1.1

Podemos dizer que, entre os empregados provenientes da Capital, 36% têm nível de educação de 10 grau,

enquanto que entre os empregados do Interior, 25% têm instrução de 10 grau.

UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos

Page 4: UNID II- Análise Bidimensional

Notas de aula - Estatística III 35

3. ASSOCIAÇÃO ENTRE DUAS VARIÁVEIS QUALITATIVAS

Um dos principais objetivos de se construir uma distribuição conjunta de freqüências de duas

variáveis qualitativas é descrever a associação ou relação entre elas, isto é, queremos conhecer o grau

de dependência entre elas, de modo que possamos prever melhor o resultado de uma delas quando

conhecermos a realização da outra.

Por exemplo, se quisermos estimar qual a renda média de uma família moradora da cidade de

João Pessoa, a informação adicional sobre a classe social a que ela pertence nos permite estimar com

maior precisão essa renda, pois sabemos que existe uma dependência entre as duas variáveis: renda

familiar e classe social. Ou, ainda, suponhamos que um estudante seja sorteado aleatoriamente na

UFPB e devamos adivinhar o sexo desse estudante. Se soubermos que o estudante é do curso de

enfermagem, nossa resposta mais provável será dizer que a pessoa é de sexo feminino. Ou seja, há um

grau de dependência grande entre as variáveis sexo e escolha de área de estudos.

Vejamos, agora, como identificar a dependência ou não entre duas variáveis através da

distribuição conjunta.

Exemplo 2. Queremos verificar se existe ou não associação entre o sexo (X) e a escolha de curso (Y)

por universitários. Para tal, foi tomada uma amostra aleatória de 200 universitários, e considere os

resultados apresentados nas respectivas tabelas conjuntas, Tabela 4.5 e Tabela 4.6 a seguir: Tabela 4.5 – Distribuição conjunta dos estudantes Tabela 4.6 – Distribuição conjunta dos

estudantes segundo o sexo (X) e o curso escolhido (Y) segundo o sexo (X) e o curso

escolhido (Y)

X

Y

Masculino

Feminino

Total (↓)

X

Y

Masculino

Feminino

Total (↓)

Economia 85 (61%) 35 (58%) 120 (60%) Física 100 (71%) 20 (33%) 120 (60%)

Administ. 55 (39%) 25 (42%) 80 (40%) C. Sociais 40 (29%) 40 (67%) 80 (40%)

Total (→) 140 (100%) 60 (100%) 200 (100%) Total (→) 140 (100%) 60 (100%) 200 (100%)

Observando os percentuais ou proporções em relação a coluna total (↓) na Tabela 4.5, verificamos

que, independentemente do sexo 60% dos estudantes preferem Economia e 40% Administração. Não

havendo dependência entre as variáveis, esperaríamos essas mesmas proporções para cada sexo.

Observando a Tabela 4.5, vemos que os percentuais do sexo masculino (61% e 39%) e do sexo

UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos

Page 5: UNID II- Análise Bidimensional

Notas de aula - Estatística III 36 feminino (58% e 42%) são próximas do totais(↓) marginais (60% e 40%). Esses resultados parecem

indicar não haver dependência entre as duas variáveis, para o conjunto de estudantes considerado.

Concluímos então que, neste caso, as variáveis sexo e escolha do curso parecem ser não associadas.

Vamos considerar, agora, a situação semelhante, mas envolvendo alunos de Física e Ciências Sociais, cuja distribuição conjunta está na Tabela 4.6 . Comparando agora a distribuição dos percentuais ou proporções, pelos cursos, independentemente do sexo (coluna de totais), com as distribuições diferenciadas por sexo (colunas de masculino e feminino), observamos uma disparidade bem acentuada nas proporções. Parece, pois, haver maior concentração de homens no curso de Física e de mulheres no curso de Ciências Sociais. Portanto, nesse caso, as variáveis sexo e curso escolhido parecem ser associadas.

Quando existe associação entre variáveis, sempre é interessante quantificar essa associação, o que será objeto de estudo a seguir. 4. MEDIDAS ASSOCIAÇÃO ENTRE VARIÁVEIS QUALITATIVAS

De um modo geral, a quantificação do grau de associação ou dependência entre duas variáveis é feita pelos chamados coeficientes de associação ou correlação. Essas são medidas que descrevem, por meio de um único número, a associação (ou dependência) entre duas variáveis. Para maior facilidade de compreensão, esses coeficientes usualmente variam entre 0 e 1, ou entre –1 e +1, e a proximidade de zero indica falta de associação. Existem muitas medidas que quantificam essa associação entre variáveis qualitativas, apresentaremos apenas duas delas: o chamado coeficiente de contingência, devido a K. Pearson e uma modificação desse. Exemplo 3. Desejamos investigar se há alguma relação entre as notas de um teste qualificação (X) de pessoas que passaram por um programa de treinamento e seu desempenho(Y) subsequente em um emprego. E, para tal, tomou-se uma amostra de 400 casos extraídos de um arquivo muito extenso. Tabela 4.7 – Distribuição conjunta Notas do teste de qualificação (X) e Desempenho no emprego (Y).

Desempenho no emprego (Y) Nota do teste (X) Fraco Razoável Bom

Total

abaixo da Média 67 (43,0%) 64 (41,0%) 25 (16,0%) 156 (100,0%) Média 42 (24,1%) 76 (43,7%) 56 (32,2%) 174 (100,0%) acima da Média 10 (14,3%) 23 (32,9%) 37 (52,8%) 70 (100,0%)

Total 119 (29,8%) 163 (40,7%) 118 (29,5%) 400 (100,0%)

UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos

Page 6: UNID II- Análise Bidimensional

Notas de aula - Estatística III 37 A análise da tabela 4.7 mostra a existência de certa dependência entre as variáveis. Caso não houvesse associação, esperaríamos que para qualquer que fosse a nota do teste tivéssemos 29,8% de empregados com desempenho fraco, 40,7% dos empregados com desempenho razoável e 29,5 com desempenho bom. Sob a suposição de não existir associação ou dependência entre as variáveis X e Y, a freqüência esperada de empregados com desempenho fraco e nota abaixo da média seria 156 x 0,298 = 46 e para nota igual a média seria 174 x 0,298 = 52 (ver Tabela 4.8). Tabela 4.8 – Freqüências esperadas na Tabela 4.7 assumindo a independência entre as duas variáveis

Desempenho no emprego (Y)

Nota do teste (X) Fraco Razoável Bom

Total

abaixo da Média 46 (29,8%) 64 (40,7%) 46 (29,5%) 156 (100,0%)

Média 52 (29,8%) 71 (40,7%) 51 (29,5%) 174 (100,0%)

acima da Média 21 (29,8%) 28 (40,7%) 21 (29,5%) 70 (100,0%)

Total 119 (29,8%) 163 (40,7%) 118 (29,5%) 400 (100,0%) Um procedimento para tomar as freqüências esperadas ou teóricas (fe ) em cada casela no corpo da tabela (sob a suposição de independência entre as variáveis), é dada pela expressão abaixo:

(Exp. 1) geral Total

coluna da Total linha da Total ∗=ef

Comparando as duas tabelas, podemos verificar afreqüências observadas (Tabela 4.7) e os valores ou frnão fossem associadas. Na Tabela 4.9, a seguir, resvalores esperados (fe ) e tomamos, para efeito, de convariáveis os desvios relativos para cada casela através

(e

eof

ff 2− ) , onde fo é a freqüência o

UNID II . ANÁLISE BIDIMENSIONAL

P. ex , 1a casela fe = (119 x 156)/400 ⇒ fe = 46 E, assim sucessivamente.

s discrepâncias existentes entre os valores ou eqüências esperadas (Tabela 4.8), caso as variáveis umimos os desvios : valores observados ( fo ) – strução de uma medida de associação entre as duas da seguinte medida

bservada e fe é a freqüência esperada. (Exp. 2)

Jozemar Pereira Santos

Page 7: UNID II- Análise Bidimensional

Notas de aula - Estatística III 38

Tabela 4.9 – Desvios entre os valores observados (fo ) e as freqüências esperadas (fe )

Desempenho no emprego (Y)

Nota do teste (X) Fraco Razoável Bom

abaixo da Média 21 (9,59) 0 (0,00) -21 (9,59)

Média -10 (1,92) 5 (0,35) 5 (0,49)

acima da Média -11 (5,76) -5 (0,89) 16 (12,19)

Obs.: A soma dos desvios ou resíduos é nula. Isso pode ser verificado facilmente somando-se cada linha. Uma medida do afastamento global pode ser dada pela soma de todos os desvios relativos (Exp. 2). Essa medida é denominada χ2 (qui-quadrado) de Pearson, e é dada pela expressão abaixo:

( )∑

−=

e

eof

ff 22χ (Exp. 3). E, no nosso exemplo, teremos:

χ2 = 9,59 + 0,00 + 9,59 +1,92 + 0,35 + 0,49 + 5,76 + 0,89 + 12,19 ⇒ χ2 = 40,78

Um valor grande de χ2 indica associação entre as variáveis, o que parece ser o caso do exemplo

considerado.

K. Pearson definiu uma medida de associação, baseada na Exp. 3, chamada coeficiente de contingência,

dada por

, n

C+

=2

2

χ

χExp. 4

que se interpreta de forma análoga ao coeficiente de correlação , a ser definido mais adiante. Este coeficiente assume valores entre 0 (correspondente a independência) e um valor máximo menor do que 1. O valor máximo de C depende do n0 linhas (l) e do no colunas (c ). Para evitar esse inconveniente, costuma-se definir um outro coeficiente de associação, dado por

( )( ) , 11

2

−−=

clnT χ

Exp. 5 que atinge valor máximo igual a 1(um) se no linhas (l ) = no colunas (c ).

UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos

Page 8: UNID II- Análise Bidimensional

Notas de aula - Estatística III 39

Para o exemplo 3 temos para coeficientes de associação entre as variáveis Notas do teste de qualificação

(X) e Desempenho no emprego (Y) : ( )( ) 160

131340078403040

40078407840 ,,,

,,

=⇒−−

==⇒+

= TTCC e

EXERCÍCIOS DE APLICAÇÃO: Exerc 1. Se a análise de uma tabela de contingência mostra que há associação entre as duas variáveis

qualitativas em estudo, a intensidade da relação pode ser avaliada pelo coeficiente de contingência C. O

máximo valor que o coeficiente C pode assumir numa tabela de contingência l x c , (onde l : no de

nhas e c : no de colunas), é dado por li

, t

tCmáx 1−=)( onde t = mínimo entre o no de linhas (l ) e o no de colunas (c )da tabela.

Verifique o máximo valor que C pode assumir no caso do exemplo 3, dado anteriormente. Exer2. Em um estudo para determinar se há relação ou associação entre o padrão de vestuário de

empregados de bancos e seu progresso profissional, uma amostra de tamanho n = 300 acusou os

resultados da tabela abaixo:

Velocidade do Desenvolvimento (Y)

Padrão do Vestuário (X) Lento Médio Rápido

Total ( ↓ )

Muito bem trajado 32 56 32

Bem trajado 28 69 22

Maltrajado 15 33 13

Total ( → ) 75 158 67

Verifique se existe associação ou dependência entre o padrão de traje (X) e o desenvolvimento

profissional (Y). Em caso positivo, quantifique através de uma medida de associação.

UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos

Page 9: UNID II- Análise Bidimensional

Notas de aula - Estatística III 40 4. ASSOCIAÇÃO ENTRE DUAS VARIÁVEIS QUANTITATIVAS

Podemos analisar conjuntamente duas variáveis quantitativas X e Y, como no caso do estudo de duas

variáveis qualitativas. De modo análogo, a distribuição conjunta pode ser resumida em tabelas de dupla

entrada e, por meio das distribuições marginais, é possível estudar a associação das variáveis. Algumas

vezes, para evitar um grande número de entradas, faz-se a grupamento dos dados marginais em intervalos

de classes, de maneira semelhante ao resumo feito no caso do estudo unidimensional. Entretanto, além

desse tipo de análise, as variáveis quantitativas são passíveis de procedimentos análiticos e gráficos mais

refinados.

O DIAGRAMA DE DISPERSÃO

Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas (ou

entre dois conjuntos de dados), é considerar o gráfico ou diagrama de dispersão, tomado sob os eixos cartesianos XY, para n pares de valores (Xi ,Yi) i = 1, 2, . . ., n. Para efeito de entendimentos de

associação entre as duas variáveis, consideremos a análise conjunta das seguintes variáveis abaixo:

a) Peso (X) e altura (Y) dos alunos do 1º período de Administração;

b) Acuidade visual (Y) e idade(X) de um grupo de pessoas;

c) Renda familiar (X) e porcentagem dela (Y) gasta com alimentação;

d) Número de peças montadas (X) e resultado de um teste de inglês (Y) por operário.

UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos

Page 10: UNID II- Análise Bidimensional

Notas de aula - Estatística III 41

Como vê-se, os diagramas de dispersão para as variáveis X e Y definidas nos itens de (a) a (d)

seriam apresentados como tal e, indicando que:

a) existe de uma associação linear positiva entre peso (X) e altura (Y) dos alunos;

b) existência de uma associação linear negativa idade (X) e acuidade visual (Y) das pessoas

c) existência de uma associação linear negativa entre renda (X) e % gastos (Y) com alimentação;

d) não existência de associação entre no de peças montadas (X) e resultado de teste de inglês (Y).

OBS:

i) Associação linear positiva indica que, quando a variável X cresce Y também cresce (e vice-versa).

ii) Associação linear negativa indica que, quando X cresce Y decresce (e vice-versa).

A partir dos gráficos de dispersão apresentados, verificamos que a representação gráfica das variáveis

quantitativas ajuda muito a compreender o comportamento conjunto das duas variáveis quanto à

existência ou não de associação entre elas.

Contudo, é muito útil quantificar essa associação. Existem muitos tipos de associação possíveis, mas

aqui apresentaremos o tipo de relação mais simples, que é a linear. Isto é, iremos definir uma medida

que avalia quanto uma nuvem de pontos no diagram de dispersão aproxima-se de uma reta. Esta

medida será definida de modo a assumir valores no intervalo de –1 a +1.

O COEFICIENTE DE CORRELAÇÃO LINEAR - r de Pearson

Definição: Dados n pares de valores (x1 , y1) , (x2 , y2) , . . . , (xn , yn), denominaremos de coeficiente

de correlação entre as duas variáveis X e Y, a seguinte medida

∑=

−⋅−⋅==

n

i dpyiy

dpxix

nYXcorr

YXXYr1

1)()(

),( , satisfzendo -1 ≤ r XY ≤ +1. Eq. (1)

ou seja, r XY é a média dos produtos dos valores ou escores padronizados das variáveis.

A definição acima pode ser operacionalizada de modo mais conveniente pelas seguintes fórmulas:

( ) ( )(2) Eq. ou

∑ ∑−⋅⋅∑ ∑−⋅

∑ ∑ ∑⋅−=∑∑ −

∑ −=22222222 YYnXXn

YXXYnryxnx

yxniyixr XYynii

XY.

UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos

Page 11: UNID II- Análise Bidimensional

Notas de aula - Estatística III 42 O numerador da Eq. (1) fornece o sinal ou sentido da correlação e dá origem a uma medida bastante

usada e que definimos a seguir.

Definição: Dados n pares de valores (x1 , y1) , (x2 , y2) , . . . , (xn , yn), chamaremos de covariância

entre as variáveis X e Y a medida

( ) ( )n

ni yiyxix

YX∑ = −⋅−

= 1),cov( , ou seja, a média dos produtos dos valores centrados das

variáveis.

Com essa definição, o coeficiente de correlação pode ser escrito como

)()(),cov(),(YXXY dpdp

YXYXcorrr⋅

==

PROPRIEDADES DO COEFICIENTE DE CORRELAÇÃO LINEAR

1. Este coeficiente é adimensional, logo não é afetado pelas unidades adotadas.

Além disso, apresenta duas propriedades que caracterizam a natureza da relação linear entre as

duas variáveis. Uma é o sinal (+ ou -) e a outra é a magnitude.

2. O sinal é o mesmo que o do coeficiente angular ou declividade de uma reta imaginária que se

“ajusta” aos dados se fossem traçados num diagrama de dispersão.

3. A magnitude indica quão próximo da reta imaginária estão os pontos individuais.

4. O valor de r ∈[-1 , +1]. Se r = -1, dizemos que há uma correlação linear negativa perfeita e se

r = +1, uma correlação linear positiva perfeita. É importante assinalar que um coeficiente de

correlação linear igual a zero (r = 0), não implica em ausência de relação entre as duas variáveis, e

sim há uma ausência de relação linear entre elas.

UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos

Page 12: UNID II- Análise Bidimensional

Notas de aula - Estatística III 43

Exemplo 4: Com o intuito de verificar uma associação entre as variáveis número de anos de serviço

(X) por número de clientes (Y), tomou-se uma amostra de 10 agentes de uma Cia. de seguros. Os

dados estão apresentados na tabela abaixo.

Agente Anos- serviço No de clientes X2 Y2 XYA 2 48 4 2.304 96B 3 50 9 2.500 150C 4 56 16 3.136 224D 5 52 25 2.704 260E 4 43 16 1.849 172F 6 60 36 3.600 360G 7 62 49 3.844 434H 8 58 64 3.364 464I 8 64 64 4.096 512J 10 72 100 5.184 720Soma 57 565 383 32.581 3.392

a) Construa o diagrama de dispersão correspondente.

b) Determine o coeficiente

de correlação linear r de Pearson.

a) Figura 4.3 – Gráfico de Dispersão para Anos de serviço (X)

e Número de clientes (Y)

Anos serviço

121086420

Núm

ero

clie

ntes

80

70

60

50

40

b) Coeficiente de correlação linear - r de Pearson

( ) ( )0,88 ou 0,8768 1715 ≅=

⋅=

∑ ∑−⋅∑ ∑−

∑ ∑ ∑⋅−=

XYXY r

YYnXXn

YXXYnr65855812222

,

indicando um moderado grau de linearidade positiva.

UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos

Page 13: UNID II- Análise Bidimensional

Notas de aula - Estatística III 44

Para analisar dois conjuntos de dados podemos recorrer, também, aos métodos utilizados anteriormente para analisar um conjunto de dados, exibindo as análises feitas separadamente, para efeito de comparação. Por exemplo, podemos exibir os desenhos esquemáticos (box-plots) ou ramos-e-folhas para os dois conjuntos de observações.

5. ASSOCIAÇÃO ENTRE VARIÁVEIS QUALITATIVAS E QUANTITATIVAS Como informado na seção anterior, é comum nessas situações analisar o que acontece com a

variável quantitativa dentro de cada categoria da variável qualitativa. Essa análise pode ser conduzida por meio de medidas descritivas, histogramas, box-plots. Ilustraremos com um exemplo. Exemplo 5 : Consideremos os dados do Quadro 1.1 (Unidade II), para os quais desejamos analisar o comportamento dos salários (S) dos funcionários da Cia. fictícia Milsa dentro de cada categoria de grau de instrução (Y), ou seja, investigar o comportamento conjunto das variáveis S e Y. Tabela 4.10 – Medidas resumo para a variável salário (S), segundo grau de instrução, na Cia. Milsa.

Grau de Instrução n s dp(S) S(1) Q1 Q2 Q3 S(n)

Fundamental 12 7,84 2,79 4,00 6,01 7,13 9,16 13,65

Médio 18 11,54 3,62 5,73 8,84 10,91 14,48 19,40

Superior 6 16,48 4,11 10,53 13,65 16,74 18,38 23,30

Total 36 11,12 4,52 4,00 7,55 10,17 14,06 23,30

Figura 4.4 – Box Plots de Salário segundo Grau de Instrução

61812N =

Grau de Instrução (X)

SuperiorMédioFundamental

Salá

rios

(S)

30

20

10

0

A leitura dos resultados acima sugere uma dependência dos salários em relação ao grau de instrução: o salário aumenta conforme aumenta o grau de instrução do indivíduo. O salário médio de um funcionário é 11,12 s.m, já para uma funcionário com curso superior o salário médio passa a ser 16,48 , enquanto funcionários com nível fundamental completo recebem, em média, 7,84 s.m.

UNID II . ANÁLISE BIDIMENSIONAL Jozemar Pereira Santos