3. estatística descritiva bidimensional - webnode · 2019-04-05 · tabela 1: cooperativas...

3. Estatística descritiva

bidimensional(Tabelas , Gráficos e números)

1

• Quantas TV Philips são vendidas na região Norte?

• Quantos homens são fumantes?

Análise bivariada (ou bidimensional): avalia o comportamento

de uma variável em função da outra, por exemplo:

Estatística bidimensional

Até agora vimos como organizar informações pertinentes a uma única variável

(ou a um conjunto de dados) – Estatística univariada.

Mas frequentemente estamos interessados em analisar o comportamento

conjunto de duas (2) ou mais variáveis aleatórias.

2

A tabulação

Os dados aparecem na forma de matriz usualmente:

Indivíduo

(elemento)

Variáveis

individuo X Y

A 45 343

B 52 368

C 61 355

D 70 334

E 74 337

F 76 381

... ... ...

n 90 375

Aqui nos deteremos no

caso de apenas 2 variáveis

avaliadas em n unidades

amostrais.

Com o objetivo de encontrar as possíveis relações (ou associações) entre as

DUAS variáveis, podemos ter as seguintes situações:

a) Uma variável é qualitativa e a uma quantitativa.

b) As duas variáveis são quantitativas.

c) As duas variáveis são qualitativas.

As técnicas de

análise de dados

são diferentes.

3

4

a) Uma variável qualitativa e uma

variável quantitativa

Nesta situação analisa-se o que acontece com a variável

quantitativa dentro de cada nível da variável qualitativa.

O Salário aumenta conforme aumenta

o nível de educação do indivíduo.

Suponha que em uma companhia MB foi feito um levantamento dos funcionários

sobre o salário e grau de instrução.

Exemplo

5

obsGrau de

instrução Salário

1 Fund. 6

2 Super. 21

3 Fund. 4

4 Médio 13,5

... ... ...

n Médio 12

b) Duas variáveis qualitativas

6

Tabelas

Os dados podem ser resumidos em tabelas de dupla entrada

(contingência, dupla classificação, ou tabulação cruzada), onde

aparecerão as frequências absolutas ou contagens de indivíduos que

pertencem simultaneamente a categorias de uma e outra variável.


7

Em outras palavras: Consiste em fazer o cruzamento entre

duas variáveis qualitativas, registrando as ocorrências que

atendem aos valores de ambas.

XY

Y1 Y2 ... Yq Total

X1 n11 n12 ... n1q n1.

X2 n21 n22 ... n2q n2.

X3 n31 n32 ... n3q n3.

... ... ... ... ... ...

Xk nk1 nk2 ... nkq nk.

Total n.1 n.2 ... n.q n

Distribuição

conjunta de X e Y

A linha dos totais fornece a

distribuição marginal da

variável Y

A coluna dos totais fornece

a distribuição marginal da

variável X

Cada elemento nkq do corpo da tabela informa

a frequência observada das realizações

simultâneas da i-ésima categoria da variável

X e da j-ésima categoria de Y

Tabela de contingência

(Representação geral)

A distribuição

conjunta das

frequências será

um instrumento

poderoso para a

compreensão do

comportamento

dos dados.

8

Região (X)\Marca (Y) Gradiente Panasonic Philips Samsung Toshiba Total

Centro 25 146 52 82 60 365

Sul 42 79 65 218 52 456

Leste 48 183 91 142 72 536

Norte 24 148 34 43 53 302

Sudeste 76 218 159 269 119 841

Total 215 774 401 745 356 2500

Como os totais

marginais são

diferentes, torna-se

difícil fazer alguma

interpretação sobre a

associação.

Para facilitar, podemos utilizar as frequências relativas, em porcentagem.

9

O conhecimento de uma variável ajuda a

entender uma outra variável?

Teoricamente:

Explorar relações (similaridade) entre as colunas e

as linhas.

Exemplo:

Região\Marca Gradiente Panasonic Philips Samsung Toshiba Total

Centro 25 146 52 82 60 365

Sul 42 79 65 218 52 456

Leste 48 183 91 142 72 536

Norte 24 148 34 43 53 302

Sudeste 76 218 159 269 119 841

Total 215 774 401 745 356 2500

Trabalhando com as proporções (ou frequências relativas), aqui temos 3

possibilidade de expressarmos a porcentagem de cada casela (ou célula):

Em relação ao total geral;

Em relação ao total de cada linha;

Em relação ao total de cada coluna.

De acordo com o

objetivo do problema

em estudo, uma

delas será a mais

conveniente.

Como calcular a frequência relativa?

10

X \ Y Gradiente Panasonic Philips Samsung Toshiba Total

Centro 25 146 52 82 60 365

Sul 42 79 65 218 52 456

Leste 48 183 91 142 72 536

Norte 24 148 34 43 53 302

Sudeste 76 218 159 269 119 841

Total 215 774 401 745 356 2500

Perfil geral

X \ Y Gradiente Panasonic Philips Samsung Toshiba Total

Centro 1,00 5,84 2,08 3,28 2,40 14,60

Sul 1,68 3,16 2,60 8,72 2,08 18,24

Leste 1,92 7,32 3,64 5,68 2,88 21,44

Norte 0,96 5,92 1,36 1,72 2,12 12,08

Sudeste 3,04 8,72 6,36 10,76 4,76 33,64

Total 8,6 30,96 16,04 30,16 14,24 100

Tabela 1: Distribuição conjunta das frequências das variáveis Região (X) e Marca (Y)

Tabela 2: Distribuição conjunta das proporções (em %) em relação ao total geral das variáveis X e Y.

Note que os totais

marginais ainda

estão diferentes,

tornando-se difícil

fazer alguma

interpretação sobre a

associação.

11

Iremos entender a existência de associação como uma mudança de

opinião sobre o comportamento de uma variável na presença ou não

de informação sobre a segunda variável.

Exemplo:

• Existe a relação entre altura de pessoas e o sexo em uma dada comunidade?

Se as respostas forem iguais não há associação entre as variáveis

(Valores esperados iguais aos valores observados) altura e sexo;

Se as respostas forem diferentes provável associação.(Valores esperados diferentes aos valores observados)

12


Centro 6,85 40,00 14,25 22,46 16,44 100

Sul 9,21 17,33 14,25 47,81 11,40 100

Leste 8,96 34,14 16,98 26,49 13,43 100

Norte 7,95 49,01 11,26 14,24 17,54 100

Sudeste 9,04 25,92 18,91 31,98 14,15 100

Total 8,60 30,96 16,04 29,80 14,24 100

Perfil linha

X \ Y Gradiente Panasonic Philips Samsung Toshiba Total X

Centro 25 146 52 82 60 365

Sul 42 79 65 218 52 456

Leste 48 183 91 142 72 536

Norte 24 148 34 43 53 302

Sudeste 76 218 159 269 119 841

Total 215 774 401 745 356 2500


Tabela 3: Distribuição conjunta das proporções (em %) em relação aos totais de cada linha das variáveis X e Y.

Note que parece

haver alguma

associação, pois

as frequências

esperadas não

são iguais as

observadas!!!

Porcentagens

(ou frequência)

observadas

Porcentagens

(ou frequência)

esperadas

13

Perfil coluna


Centro 25 146 52 82 60 365

Sul 42 79 65 218 52 456

Leste 48 183 91 142 72 536

Norte 24 148 34 43 53 302

Sudeste 76 218 159 269 119 841

Total Y 215 774 401 745 356 2500


Centro 11,63 18,86 12,97 10,88 16,85 14,60

Sul 19,53 10,21 16,21 28,91 14,61 18,24

Leste 22,33 23,64 22,69 18,83 20,22 21,44

Norte 11,16 19,12 8,48 5,70 14,89 12,08

Sudeste 35,35 28,17 39,65 35,68 33,43 33,64

Total 100 100 100 100 100 100


Tabela 4: Distribuição conjunta das proporções (em %) em relação aos totais de cada coluna das variáveis X e Y.

Note que parece

haver alguma

associação, pois

as frequências

esperadas não

são iguais as

observadas!!!

Porcentagens

(ou frequência)

observadas

Porcentagens

(ou frequência)

esperadas

14

Gráficos

Os dados podem ser resumidos em gráficos indicados para variáveis

qualitativas, contudo separados por categorias de uma e de outra

variável.


15

a) Gráfico de pizzaa.1) Marcas por região

16

Gradiente 9%

Panasonic 17%

Philips 14%

Samsung 48%

Toshiba 12%

Sul Gradiente 8%

Panasonic 49%Philips

11%

Samsung 14%

Toshiba 18%

Norte Gradiente 9%

Panasonic 26%

Philips 19%

Samsung 32%

Toshiba 14%

Sudeste

...

a.2) Região por Marcas

Centro , 18.86

Sul , 10.21

Leste , 23.64

Norte , 19.12

Sudeste , 28.17

Panasonic

...

Centro , 16.85

Sul , 14.61

Leste , 20.22

Norte , 14.89

Sudeste , 33.43

Toshiba

Centro , 12.97

Sul , 16.21

Leste , 22.69

Norte , 8.48

Sudeste , 39.65

Philips

b) Gráfico de barras múltiplo

0

50

100

150

200

250

300

Gradiente Panasonic Philips Samsung Toshiba

Marcas por Região

Centro

Sul

Leste

Norte

Sudeste

Para efetuar uma análise comparativa de várias distribuições, podemos

construir um gráfico de barras múltiplo.

17

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Gradiente Panasonic Philips Samsung Toshiba

Marcas por Região

Sudeste

Norte

Leste

Sul

Centro

18

Com as facilidades de uso de programas computacionais, podemos fazer representações

tridimensionais:

Centro

Leste

Sudeste

0

50

100

150

200

250

300

Marcas por Região Centro

Sul

Leste

Norte

Sudeste


Número

19

Existem várias medidas de associação (ou correlação) e seu uso depende

do tipo e finalidade do estudo.

Coeficiente de correlação é uma medida que descreve, por meio de um

único número, a associação (ou dependência) entre duas variáveis. Estes

usualmente variam entre 0 e 1, ou entre -1 e +1, e a proximidade de zero

indica falta de associação.

Alguns coeficientes de correlação:

i) Coeficiente de contingência de Pearson

ii) Coeficiente de correlação de Spearman

iii) Coeficiente de correlação de Kendall

Coeficiente de contingência de Pearson

É uma medida de correlação entre 2 conjuntos arbitrários. É útil quando se

dispõem apenas de dados apresentados em escala nominal em um ou nos

dois conjuntos de atributos.

r

i

s

jij

ijij

e

eo

1 1

2

2)(

2 é a estatística qui-quadrado de Pearson;

r é o número de classes da variável X;

s é o número de classes da variável Y;

oij são as frequências observadas da i-ésima categoria de X e j-ésima categoria de Y,

eij são as frequências esperadas.

A interpretações é análoga ao

coeficiente de correlação.

, sendo

)1)(1(

2

sr

nT

20

0 T 1

OBS: Não importa quem seja linha e quem seja

coluna, o valor obtido será o mesmo

Exemplo

Deseja-se determinar se a criação de cooperativas está associada a algum fator regional

X \ Y Consumidor Produtor Escola Outras Total

SP 214 (33%) 237 (37%) 78 (12%) 119 (18%) 648 (100%)

PR 51 (17%) 102 (34%) 126 (42%) 22 (7%) 301 (100%)

RS 111 (18%) 304 (51%) 139 (23%) 48 (8%) 602 (100%)

Total 376 (24%) 643 (42%) 343 (22%) 189 (12%) 1551

Tabela 1: Cooperativas autorizadas a funcionar por tipo (Y) e estado (X).

Note que a tabela mostra a existência de certa

dependência entre as variáveis, pois as porcentagens

verificadas na margem da tabela para os diferentes

tipos de cooperativa, não são as mesmas observadas

na margem da tabela para os diferentes estados.

c) Duas variáveis qualitativas

21


SP 214 (33%) 237 (37%) 78 (12%) 119 (18%) 648 (100%)

PR 51 (17%) 102 (34%) 126 (42%) 22 (7%) 301 (100%)

RS 111 (18%) 304 (51%) 139 (23%) 48 (8%) 602 (100%)

Total 376 (24%) 643 (42%) 343 (22%) 189 (12%) 1551

Tabela 1:

Valores observados

de cooperativas

autorizadas a

funcionar por tipo

(Y) e estado (X).


SP 156 (24%) 272 (42%) 142 (22%) 78 (12%) 648 (100%)

PR 72 (24%) 127 (42%) 66 (22%) 36 (12%) 301 (100%)

RS 144 (24%) 254 (42%) 132 (22%) 72 (12%) 602 (100%)

Total 376 (24%) 643 (42%) 343 (22%) 189 (12%) 1551

Tabela 2:

Valores esperados

na tabela 1

assumindo a

independência entre

as 2 variáveis.

OBS: Se não tivesse dependência, esperaríamos que em cada estado

tivesse 24% , 42%, 22% e 12% dos tipos de cooperativas, respectivamente

22

24,17300,8...12,656,21

72

)7248(...

272

)272237(

156

)156214()(

2

222

1 1

2

2

r

i

s

jij

ijij

e

eo

Logo,

1364,0)14)(13(

1551

24,173

)1)(1(

2

sr

nT

Conclusão:

Parece que o estado

está pouco associado

com o tipo de

cooperativa.

23

Para facilitar a interpretação da associação, Pearson definiu-se o coeficiente de

contingência corrigido, que assume valores entre 0 e 1:

em que r é o número de classes da variável X e s é o número de classes da variável Y.

)1)(1(

2

sr

nT

Interpretação:

Quanto mais próximo de 1, maior é a associação entre as variáveis

Quanto mais próximo de 0, menor é a associação entre as variáveis

c) Duas variáveis quantitativas

24

Tabelas


De modo análogo, a distribuição conjunta pode ser resumida em

tabelas de dupla entrada e, por meio das distribuições marginais, é

possível estudar a associação das variáveis.

Contudo, para evitar um grande número de entradas, agrupamos

os dados marginais em intervalos de classes, de modo

semelhante ao resumo feito no caso unidimensional.

25


GráficosUm dispositivo bastante útil para se verificar a associação

entre duas variáveis quantitativas, ou entre dois conjuntos de

dados, é o gráfico de dispersão bivariado.

26

Existem inúmeros tipos de relações possíveis:

27...etc.

Tabela 3: Renda bruta mensal (X) e % da

renda gasta em saúde (Y) para um

conjunto de famílias.

20 30 40 50

5.5

6.0

6.5

7.0

Renda mensal bruta

% g

asta

em

sa

úd

e

Parece haver uma associação “inversa”, isto é,

aumentando a renda bruta, diminui a % sobre ela

gasta em assistência médica.

ExemploNuma pesquisa feita com 10 famílias com renda bruta mensal entre 10 e 60

salários mínimos, mediram-se a renda bruta mensal (expressa em n. de salários

mínimos) e a % da renda bruta anual gasta com assistência médica.

28

família X Y

A 48 5,6

B 12 7,2

C 28 6,6

D 16 7,4

E 50 6

F 18 7

G 40 6

H 54 5,5

I 30 6,7

J 20 6,5

b) Duas variáveis quantitativas

Numérico

29

Existem muitos tipos de associações possíveis, iremos apresentar o tipo de

relação mais simples, que é a relação linear.

Esta medida avalia o quanto a nuvem de pontos do gráfico de dispersão se

aproxima de uma reta.

Dados n pares de valores (x1, y1), …, (xn , yn), chama-se covariância

entre as duas variáveis X e Y a:

– < cov(X,Y) <

1

))((

),cov( 1

n

yyxx

YXs

n

i

ii

XY

Problema:

Se tivermos 3 variáveis, como

avaliar o que é maior ou menor?30

É uma medida que mede a associação entre duas

variáveis quantitativas.

Covariância (populacional: XY e amostral: sXY)

ou seja, é a média da soma do produto dos desvios em relação a média das variáveis.

Dados n pares de valores (x1, y1), …, (xn , yn), o Coeficiente de correlação linear

de Pearson entre as duas variáveis X e Y é dado por:

–1 ≤ r ≤ 1 ,),cov(

)1(

))((

),( 1

yxyx

n

i

ii

XYss

YX

ssn

yyxx

YXcorrrr

2

11

2

2

11

2

111

n

i

i

n

i

i

n

i

i

n

i

i

n

i

i

n

i

i

n

i

ii

XY

yynxxn

yxyxn

rr Fórmula

alternativa

31

Correlação (populacional: e amostral: r)

ou seja, a média dos produtos dos valores padronizados das variáveis.

Mede o grau de associação linear entre duas

variáveis (medidas em nível intervalar).

32

+1–1 0

Não existe correlação, se

r = cor(X, Y) ≈ 0

Correlação negativa Correlação positiva

A correlação é forte

positiva se

r = cor(X, Y) ≈ +1

A correlação é forte

negativa se

r = cor(X, Y) ≈ –1

Classificação da correlação

33

Exemplo

Os dados da tabela refere-se as variáveis produção de matéria seca e a

quantidade de radiação fotossintética avaliadas em 10 plantas.

a) Visualmente, existe associação entre as variáveis? Justifique o que deve se

esperar.

Variáveis 1 2 3 4 5 6 7 8 9 10

Matéria seca 460 55 965 18 190 570 300 815 410 770

Radiação 280 60 520 10 110 340 160 460 220 400

MS <- c(460, 55, 965, 18, 190, 570, 300, 815, 410, 770)

Rad <- c(280, 60, 520, 10, 110, 340, 160, 460, 220, 400)

cbind(MS,Rad)

# gráfico de dispersão

plot(MS,Rad, cex=1, pch=19, col="purple",

xlab=“Matéria seca", ylab="Radiação fotossintética")

No software R:

b) Calcule o coeficiente de correlação linear de Pearson e classifique o tipo de

associação existente entre as variáveis.

34

22560,2800.92510553.4399.022.310

560.2553.4880.669.110XYrr

xi yi xi2 yi

2 xiyi

4.553 2.560 3.022.399 925.800 1.669.880

Existe uma associação linear positiva muito forte entre as duas

variáveis, isto é, se aumenta (ou diminui) a produção de matéria

seca (Y) então aumentará (ou diminui) a quantidade de radiação

fotossintética (X) e vice e versa.

# Medindo a correlação de duas variáveis

r<- cor(MS, Rad); r

[1] 0.9952566

No software R:

35

Coeficiente de correlação de Pearson (r)

1) Limpar a memória:

2) Mudar para o módulo regressão (Reg) Linear (Lin):

3) Entrar com os dados

...

4) Pedir a função:

Modelo Cassio fx-82MS

SHIFT Scl =

MODE 3 1

M+coord x , coord y

M+coord x , coord y

SHIFT 1 =

SHIFT 2 =

Somatórios

Coeficiente de correlação linear

=

36

Modelo Cassio fx-83WA

1) Limpar a memória:

2) Mudar para o módulo regressão (Reg) Linear (Lin):

3) Entrar com os dados

...

4) Função:

SHIFT Scl =

MODE 3 1

M+coord x , coord y

M+coord x , coord y

SHIFT r = Coeficiente de correlação

linear de Pearson (r)

Coeficiente de correlação de Pearson (r)

3. estatística descritiva bidimensional - webnode · 2019-04-05 · tabela 1: cooperativas...

Documents