análise bidimensional

13
Análise Bidimensional Análise Bidimensional Prof. Víctor Hugo Lachos Dávila Prof. Víctor Hugo Lachos Dávila AULA: 13-16 AULA: 13-16

Upload: morton

Post on 19-Jan-2016

30 views

Category:

Documents


0 download

DESCRIPTION

AULA: 13-16. Análise Bidimensional. Prof. Víctor Hugo Lachos Dávila. Introdução. Freqüentemente estamos interessados em analisar duas variáveis conjuntamente. P.E. nos dados da empresa podemos estar interessados em comparar os salários dos casados e solteiros. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Análise Bidimensional

Análise BidimensionalAnálise Bidimensional

Prof. Víctor Hugo Lachos DávilaProf. Víctor Hugo Lachos Dávila

AULA: 13-16AULA: 13-16

Page 2: Análise Bidimensional

2

Introdução

• Freqüentemente estamos interessados em analisar duas variáveis conjuntamente

• P.E. nos dados da empresa podemos estar interessados em comparar os salários dos casados e solteiros.

• Quando consideramos duas variáveis, podemos ter 3 situações e as técnicas de análise são diferentes.

a) as duas qualitativas (tabela de contingência)

b) as duas quantitativas (gráficos de dispersão)

c) uma qualitativa e outra quantitativa (tabela de contingência)

• É possível quantificar a relação entre as variáveis em estudo

Page 3: Análise Bidimensional

3

Variáveis Qualitativas

• Analisamos o comportamento conjunto de X: grau de instrução e Y: região de procedência.

Y\XEnsino Fundamental Ensino Médio Superior Total

Capital 4 5 2 11Interior 3 7 2 12Outra 5 6 2 13Total 12 18 6 36

Tabela 1:Tabela de freqüências absolutas das variáveis X e Y

• Podemos construir tabelas de freqüências relativas.

• Existe varias possibilidades de construção e depende do objetivo do problema.

Tabela de dupla

entrada

Page 4: Análise Bidimensional

4

Y\XEnsino Fundamental Ensino Médio Superior Total

Capital 11% 14% 6% 31%Interior 8% 19% 6% 33%Outra 14% 17% 6% 36%Total 33% 50% 17% 100%

Tabela 1:Tabela de freqüências relativas ao total geral das variáveis X e Y

Relativa ao total geral

• 11% dos empregados vêm da capital e tem ensino fundamental.

• 31% dos indivíduos vêm da capital, 33% do interior e 36% de outras regiões.

• 33% tem ensino fundamental.

Page 5: Análise Bidimensional

5

Tabela 1:Tabela de freqüências relativas ao total de coluna das variáveis X e Y

Relativa ao total de colunas

• Entre os empregados com instrução até o ensino fundamental, 33% vêm da capital.

• Entre os empregados com ensino médio, 28% vêm da capital.

• Comparamos a distribuição da procedência conforme o grau de instrução.

• De modo análogo, podemos construir a distribuição do grau de instrução conforme a procedência.!!!

Y\XEnsino Fundamental Ensino Médio Superior Total

Capital 33% 28% 33% 31%Interior 25% 39% 33% 33%Outra 42% 33% 33% 36%Total 100% 100% 100% 100%

Page 6: Análise Bidimensional

6

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

EnsinoFundamental

Ensino Médio Superior Total

Outra

Interior

Capital

Gráfico 1:Distribuição da região de procedência por grau de instrução

Page 7: Análise Bidimensional

7

Exemplo: Queremos verificar se existe ou não associação entre o sexo (X) e a carreira escolhida (Y) por 200 alunos de economia e administração

Y\X Masculino Feminino TotalEconomia 85 (61%) 35 (58%) 120 (60%)

Administração 55 (39%) 25 (42%) 80 (40%)Total 140 (100%) 60 (100%) 200 (100%)

Tabela 4:Tabela de freqüências absolutas (relativas) dos alunos segundo o sexo (X) e curso escolhido (Y)

• Independente do sexo 60% preferem economia e 40% preferem administração.

• No sexo masculino essas proporções são 61% e 39% e no feminino 58 e 42%, as quais são próximas d e 60 e 40 (marginais)

• Forte indicio de não haver dependência entre as variáveis sexo e curso (não associadas)

Associação entre variáveis qualitativas

Page 8: Análise Bidimensional

8

Exemplo: Queremos verificar se existe ou não associação entre o sexo (X) e a carreira escolhida (Y) por 200 alunos de Física e Ciências Sociais

Tabela 5:Tabela de freqüências absolutas (relativas) dos alunos segundo o sexo (X) e curso escolhido (Y)

• Independente do sexo 60% preferem economia e 40% preferem administração.

• No sexo masculino essas proporções são 71% e 29% e no feminino 33 e 67%. Disparidade bem acentuada nas proporções

•Forte indicio de haver dependência entre as variáveis sexo e curso (associadas)

Y\X Masculino Feminino TotalFísica 100 (71%) 20 (33%) 120 (60%)

Ciências Sociais 40 (29%) 40 (67%) 80 (40%)Total 140 (100%) 60 (100%) 200 (100%)

Page 9: Análise Bidimensional

9

Exemplo: Queremos verificar se a criação de determinado tipo de cooperativa está associada com algum fator regional

Tabela 6:Cooperativas autorizadas a funcional por tipo e estado

• Notamos que existe certa associação entre as variáveis.

• Caso não houvesse associação, esperaríamos que em cada estado tivéssemos 24% de escolas e 12% de outros tipos.

• Assim, o número esperado de cooperativas de consumidores no estado de São Paulo seria 648*0.24=156 e no Paraná 301*0.24=72....

Estado Consumidor Produtor Escola OutrasSão Paulo 214 (33%) 237(37%) 78 (12%) 119 (18%) 648(100%)

Paraná 51(17%) 102(34%) 126(42%) 22 (7%) 301(100%)Rio G. do Sul 111 (18%) 304(51%) 139(23%) 48(8%) 602(100%)

Total 376(24%) 643 (42%) 343 (22%) 189 (12%) 1551(100%)

Tipo de CooperativaTotal

Page 10: Análise Bidimensional

10

Tabela 7:Valores esperados assumindo independência entre as variáveis tipo de cooperativa e fator regional

• Notamos fortes discrepâncias entre os valores observados (O), e esperados (E) assumindo que as variáveis não fossem associadas.

• Uma medida de afastamento global pode ser dada pela soma de todas essas medidas. (Qui-quadrado de Pearson)

. Um valor grande de X2 indica associação entre as variáveis. No exemplo acima temos:

Estado Consumidor Produtor Escola OutrasSão Paulo 156 (24%) 272(42%) 142 (22%) 78 (12%) 648(100%)

Paraná 72(24%) 127(42%) 66(22%) 36 (12%) 301(100%)Rio G. do Sul 144 (24%) 254(42%) 132(22%) 72(12%) 602(100%)

Total 376(24%) 643 (42%) 343 (22%) 189 (12%) 1551(100%)

Tipo de CooperativaTotal

Filas

jijijij

Colunas

i

EEO1

2

1

2 /)(

2 2

24,17372/)7248(...156/)156214( 222

Page 11: Análise Bidimensional

11

Associação entre variáveis quantitativas

• Quando as duas variáveis são quantitativas podemos usar o mesmo tipo de análise para variáveis qualitativas. (transformando as variáveis)

• Uma ferramenta bastante útil é o gráfico de dispersão.

• Exemplo:

Anos de Serviço (X) Número de Clientes (Y)2 483 504 565 524 436 607 628 588 64

10 72

Tabela 8: Número de anos de serviço (X) por número de clientes (Y) de agentes de uma companhia de

seguros

• Notamos que à medida que aumenta o tempo de serviço, aumenta o número de clientes, logo parece haver uma associação entre essas variáveis

Page 12: Análise Bidimensional

12

0

10

20

30

40

50

60

70

80

0 2 4 6 8 10 12

Anos de Serviço

me

ro d

e C

lein

tes

Gráfico 2: Gráfico de dispersão para as variáveis X: anos de serviço e Y: número de clientes

0

5

10

15

20

25

0 2 4 6 8 10 12 -12

-10-8

-6

-4-2

02

4

68

10

0 2 4 6 8 10 12

Gráfico 3: Tipos de associações entre duas variáveis

Page 13: Análise Bidimensional

13

Coeficiente de correlação

Nun conjunto de dados com n pares de valores para as variáveis Xe Y o coeficiente de correlação (r) que mede a dependência linear entre elas é calculado como:

n

i

n

iiiii

n

iiiii

n

i

n

iiiii

n

iiiii

XY

ynyxnx

yxnyx

yyxx

yyxxr

1 1

22

1

1 1

22

1

](][[

)(

])(][)([

))((

Propriedades

• é sempre um número entre -1 e 1

• Correlação igual a zero não indica independência entre as variaveis

• |r| próximo a 1, indica alta associação entre as variáveis

• |r| próximo a 0, indica não associação entre as variáveis

•|r| próximo a 0.5, indica associação moderada