3. estatística descritiva bidimensional - webnode · 2019-04-05 · tabela 1: cooperativas...
TRANSCRIPT
3. Estatística descritiva
bidimensional(Tabelas , Gráficos e números)
1
• Quantas TV Philips são vendidas na região Norte?
• Quantos homens são fumantes?
Análise bivariada (ou bidimensional): avalia o comportamento
de uma variável em função da outra, por exemplo:
Estatística bidimensional
Até agora vimos como organizar informações pertinentes a uma única variável
(ou a um conjunto de dados) – Estatística univariada.
Mas frequentemente estamos interessados em analisar o comportamento
conjunto de duas (2) ou mais variáveis aleatórias.
2
A tabulação
Os dados aparecem na forma de matriz usualmente:
Indivíduo
(elemento)
Variáveis
individuo X Y
A 45 343
B 52 368
C 61 355
D 70 334
E 74 337
F 76 381
... ... ...
n 90 375
Aqui nos deteremos no
caso de apenas 2 variáveis
avaliadas em n unidades
amostrais.
Com o objetivo de encontrar as possíveis relações (ou associações) entre as
DUAS variáveis, podemos ter as seguintes situações:
a) Uma variável é qualitativa e a uma quantitativa.
b) As duas variáveis são quantitativas.
c) As duas variáveis são qualitativas.
As técnicas de
análise de dados
são diferentes.
3
4
a) Uma variável qualitativa e uma
variável quantitativa
Nesta situação analisa-se o que acontece com a variável
quantitativa dentro de cada nível da variável qualitativa.
O Salário aumenta conforme aumenta
o nível de educação do indivíduo.
Suponha que em uma companhia MB foi feito um levantamento dos funcionários
sobre o salário e grau de instrução.
Exemplo
5
obsGrau de
instrução Salário
1 Fund. 6
2 Super. 21
3 Fund. 4
4 Médio 13,5
... ... ...
n Médio 12
b) Duas variáveis qualitativas
6
Tabelas
Os dados podem ser resumidos em tabelas de dupla entrada
(contingência, dupla classificação, ou tabulação cruzada), onde
aparecerão as frequências absolutas ou contagens de indivíduos que
pertencem simultaneamente a categorias de uma e outra variável.
b) Duas variáveis qualitativas
7
Em outras palavras: Consiste em fazer o cruzamento entre
duas variáveis qualitativas, registrando as ocorrências que
atendem aos valores de ambas.
XY
Y1 Y2 ... Yq Total
X1 n11 n12 ... n1q n1.
X2 n21 n22 ... n2q n2.
X3 n31 n32 ... n3q n3.
... ... ... ... ... ...
Xk nk1 nk2 ... nkq nk.
Total n.1 n.2 ... n.q n
Distribuição
conjunta de X e Y
A linha dos totais fornece a
distribuição marginal da
variável Y
A coluna dos totais fornece
a distribuição marginal da
variável X
Cada elemento nkq do corpo da tabela informa
a frequência observada das realizações
simultâneas da i-ésima categoria da variável
X e da j-ésima categoria de Y
Tabela de contingência
(Representação geral)
A distribuição
conjunta das
frequências será
um instrumento
poderoso para a
compreensão do
comportamento
dos dados.
8
Região (X)\Marca (Y) Gradiente Panasonic Philips Samsung Toshiba Total
Centro 25 146 52 82 60 365
Sul 42 79 65 218 52 456
Leste 48 183 91 142 72 536
Norte 24 148 34 43 53 302
Sudeste 76 218 159 269 119 841
Total 215 774 401 745 356 2500
Como os totais
marginais são
diferentes, torna-se
difícil fazer alguma
interpretação sobre a
associação.
Para facilitar, podemos utilizar as frequências relativas, em porcentagem.
9
O conhecimento de uma variável ajuda a
entender uma outra variável?
Teoricamente:
Explorar relações (similaridade) entre as colunas e
as linhas.
Exemplo:
Região\Marca Gradiente Panasonic Philips Samsung Toshiba Total
Centro 25 146 52 82 60 365
Sul 42 79 65 218 52 456
Leste 48 183 91 142 72 536
Norte 24 148 34 43 53 302
Sudeste 76 218 159 269 119 841
Total 215 774 401 745 356 2500
Trabalhando com as proporções (ou frequências relativas), aqui temos 3
possibilidade de expressarmos a porcentagem de cada casela (ou célula):
Em relação ao total geral;
Em relação ao total de cada linha;
Em relação ao total de cada coluna.
De acordo com o
objetivo do problema
em estudo, uma
delas será a mais
conveniente.
Como calcular a frequência relativa?
10
X \ Y Gradiente Panasonic Philips Samsung Toshiba Total
Centro 25 146 52 82 60 365
Sul 42 79 65 218 52 456
Leste 48 183 91 142 72 536
Norte 24 148 34 43 53 302
Sudeste 76 218 159 269 119 841
Total 215 774 401 745 356 2500
Perfil geral
X \ Y Gradiente Panasonic Philips Samsung Toshiba Total
Centro 1,00 5,84 2,08 3,28 2,40 14,60
Sul 1,68 3,16 2,60 8,72 2,08 18,24
Leste 1,92 7,32 3,64 5,68 2,88 21,44
Norte 0,96 5,92 1,36 1,72 2,12 12,08
Sudeste 3,04 8,72 6,36 10,76 4,76 33,64
Total 8,6 30,96 16,04 30,16 14,24 100
Tabela 1: Distribuição conjunta das frequências das variáveis Região (X) e Marca (Y)
Tabela 2: Distribuição conjunta das proporções (em %) em relação ao total geral das variáveis X e Y.
Note que os totais
marginais ainda
estão diferentes,
tornando-se difícil
fazer alguma
interpretação sobre a
associação.
11
Iremos entender a existência de associação como uma mudança de
opinião sobre o comportamento de uma variável na presença ou não
de informação sobre a segunda variável.
Exemplo:
• Existe a relação entre altura de pessoas e o sexo em uma dada comunidade?
Se as respostas forem iguais não há associação entre as variáveis
(Valores esperados iguais aos valores observados) altura e sexo;
Se as respostas forem diferentes provável associação.(Valores esperados diferentes aos valores observados)
12
Região\Marca Gradiente Panasonic Philips Samsung Toshiba Total
Centro 6,85 40,00 14,25 22,46 16,44 100
Sul 9,21 17,33 14,25 47,81 11,40 100
Leste 8,96 34,14 16,98 26,49 13,43 100
Norte 7,95 49,01 11,26 14,24 17,54 100
Sudeste 9,04 25,92 18,91 31,98 14,15 100
Total 8,60 30,96 16,04 29,80 14,24 100
Perfil linha
X \ Y Gradiente Panasonic Philips Samsung Toshiba Total X
Centro 25 146 52 82 60 365
Sul 42 79 65 218 52 456
Leste 48 183 91 142 72 536
Norte 24 148 34 43 53 302
Sudeste 76 218 159 269 119 841
Total 215 774 401 745 356 2500
Tabela 1: Distribuição conjunta das frequências das variáveis Região (X) e Marca (Y)
Tabela 3: Distribuição conjunta das proporções (em %) em relação aos totais de cada linha das variáveis X e Y.
Note que parece
haver alguma
associação, pois
as frequências
esperadas não
são iguais as
observadas!!!
Porcentagens
(ou frequência)
observadas
Porcentagens
(ou frequência)
esperadas
13
Perfil coluna
Região\Marca Gradiente Panasonic Philips Samsung Toshiba Total
Centro 25 146 52 82 60 365
Sul 42 79 65 218 52 456
Leste 48 183 91 142 72 536
Norte 24 148 34 43 53 302
Sudeste 76 218 159 269 119 841
Total Y 215 774 401 745 356 2500
Região\Marca Gradiente Panasonic Philips Samsung Toshiba Total
Centro 11,63 18,86 12,97 10,88 16,85 14,60
Sul 19,53 10,21 16,21 28,91 14,61 18,24
Leste 22,33 23,64 22,69 18,83 20,22 21,44
Norte 11,16 19,12 8,48 5,70 14,89 12,08
Sudeste 35,35 28,17 39,65 35,68 33,43 33,64
Total 100 100 100 100 100 100
Tabela 1: Distribuição conjunta das frequências das variáveis Região (X) e Marca (Y)
Tabela 4: Distribuição conjunta das proporções (em %) em relação aos totais de cada coluna das variáveis X e Y.
Note que parece
haver alguma
associação, pois
as frequências
esperadas não
são iguais as
observadas!!!
Porcentagens
(ou frequência)
observadas
Porcentagens
(ou frequência)
esperadas
14
Gráficos
Os dados podem ser resumidos em gráficos indicados para variáveis
qualitativas, contudo separados por categorias de uma e de outra
variável.
b) Duas variáveis qualitativas
15
a) Gráfico de pizzaa.1) Marcas por região
16
Gradiente 9%
Panasonic 17%
Philips 14%
Samsung 48%
Toshiba 12%
Sul Gradiente 8%
Panasonic 49%Philips
11%
Samsung 14%
Toshiba 18%
Norte Gradiente 9%
Panasonic 26%
Philips 19%
Samsung 32%
Toshiba 14%
Sudeste
...
a.2) Região por Marcas
Centro , 18.86
Sul , 10.21
Leste , 23.64
Norte , 19.12
Sudeste , 28.17
Panasonic
...
Centro , 16.85
Sul , 14.61
Leste , 20.22
Norte , 14.89
Sudeste , 33.43
Toshiba
Centro , 12.97
Sul , 16.21
Leste , 22.69
Norte , 8.48
Sudeste , 39.65
Philips
b) Gráfico de barras múltiplo
0
50
100
150
200
250
300
Gradiente Panasonic Philips Samsung Toshiba
Marcas por Região
Centro
Sul
Leste
Norte
Sudeste
Para efetuar uma análise comparativa de várias distribuições, podemos
construir um gráfico de barras múltiplo.
17
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Gradiente Panasonic Philips Samsung Toshiba
Marcas por Região
Sudeste
Norte
Leste
Sul
Centro
18
Com as facilidades de uso de programas computacionais, podemos fazer representações
tridimensionais:
Centro
Leste
Sudeste
0
50
100
150
200
250
300
Marcas por Região Centro
Sul
Leste
Norte
Sudeste
b) Duas variáveis qualitativas
Número
19
Existem várias medidas de associação (ou correlação) e seu uso depende
do tipo e finalidade do estudo.
Coeficiente de correlação é uma medida que descreve, por meio de um
único número, a associação (ou dependência) entre duas variáveis. Estes
usualmente variam entre 0 e 1, ou entre -1 e +1, e a proximidade de zero
indica falta de associação.
Alguns coeficientes de correlação:
i) Coeficiente de contingência de Pearson
ii) Coeficiente de correlação de Spearman
iii) Coeficiente de correlação de Kendall
Coeficiente de contingência de Pearson
É uma medida de correlação entre 2 conjuntos arbitrários. É útil quando se
dispõem apenas de dados apresentados em escala nominal em um ou nos
dois conjuntos de atributos.
r
i
s
jij
ijij
e
eo
1 1
2
2)(
2 é a estatística qui-quadrado de Pearson;
r é o número de classes da variável X;
s é o número de classes da variável Y;
oij são as frequências observadas da i-ésima categoria de X e j-ésima categoria de Y,
eij são as frequências esperadas.
A interpretações é análoga ao
coeficiente de correlação.
, sendo
)1)(1(
2
sr
nT
20
0 T 1
OBS: Não importa quem seja linha e quem seja
coluna, o valor obtido será o mesmo
Exemplo
Deseja-se determinar se a criação de cooperativas está associada a algum fator regional
X \ Y Consumidor Produtor Escola Outras Total
SP 214 (33%) 237 (37%) 78 (12%) 119 (18%) 648 (100%)
PR 51 (17%) 102 (34%) 126 (42%) 22 (7%) 301 (100%)
RS 111 (18%) 304 (51%) 139 (23%) 48 (8%) 602 (100%)
Total 376 (24%) 643 (42%) 343 (22%) 189 (12%) 1551
Tabela 1: Cooperativas autorizadas a funcionar por tipo (Y) e estado (X).
Note que a tabela mostra a existência de certa
dependência entre as variáveis, pois as porcentagens
verificadas na margem da tabela para os diferentes
tipos de cooperativa, não são as mesmas observadas
na margem da tabela para os diferentes estados.
c) Duas variáveis qualitativas
21
X \ Y Consumidor Produtor Escola Outras Total
SP 214 (33%) 237 (37%) 78 (12%) 119 (18%) 648 (100%)
PR 51 (17%) 102 (34%) 126 (42%) 22 (7%) 301 (100%)
RS 111 (18%) 304 (51%) 139 (23%) 48 (8%) 602 (100%)
Total 376 (24%) 643 (42%) 343 (22%) 189 (12%) 1551
Tabela 1:
Valores observados
de cooperativas
autorizadas a
funcionar por tipo
(Y) e estado (X).
X \ Y Consumidor Produtor Escola Outras Total
SP 156 (24%) 272 (42%) 142 (22%) 78 (12%) 648 (100%)
PR 72 (24%) 127 (42%) 66 (22%) 36 (12%) 301 (100%)
RS 144 (24%) 254 (42%) 132 (22%) 72 (12%) 602 (100%)
Total 376 (24%) 643 (42%) 343 (22%) 189 (12%) 1551
Tabela 2:
Valores esperados
na tabela 1
assumindo a
independência entre
as 2 variáveis.
OBS: Se não tivesse dependência, esperaríamos que em cada estado
tivesse 24% , 42%, 22% e 12% dos tipos de cooperativas, respectivamente
22
24,17300,8...12,656,21
72
)7248(...
272
)272237(
156
)156214()(
2
222
1 1
2
2
r
i
s
jij
ijij
e
eo
Logo,
1364,0)14)(13(
1551
24,173
)1)(1(
2
sr
nT
Conclusão:
Parece que o estado
está pouco associado
com o tipo de
cooperativa.
23
Para facilitar a interpretação da associação, Pearson definiu-se o coeficiente de
contingência corrigido, que assume valores entre 0 e 1:
em que r é o número de classes da variável X e s é o número de classes da variável Y.
)1)(1(
2
sr
nT
Interpretação:
Quanto mais próximo de 1, maior é a associação entre as variáveis
Quanto mais próximo de 0, menor é a associação entre as variáveis
c) Duas variáveis quantitativas
24
Tabelas
c) Duas variáveis quantitativas
De modo análogo, a distribuição conjunta pode ser resumida em
tabelas de dupla entrada e, por meio das distribuições marginais, é
possível estudar a associação das variáveis.
Contudo, para evitar um grande número de entradas, agrupamos
os dados marginais em intervalos de classes, de modo
semelhante ao resumo feito no caso unidimensional.
25
c) Duas variáveis quantitativas
GráficosUm dispositivo bastante útil para se verificar a associação
entre duas variáveis quantitativas, ou entre dois conjuntos de
dados, é o gráfico de dispersão bivariado.
26
Existem inúmeros tipos de relações possíveis:
27...etc.
Tabela 3: Renda bruta mensal (X) e % da
renda gasta em saúde (Y) para um
conjunto de famílias.
20 30 40 50
5.5
6.0
6.5
7.0
Renda mensal bruta
% g
asta
em
sa
úd
e
Parece haver uma associação “inversa”, isto é,
aumentando a renda bruta, diminui a % sobre ela
gasta em assistência médica.
ExemploNuma pesquisa feita com 10 famílias com renda bruta mensal entre 10 e 60
salários mínimos, mediram-se a renda bruta mensal (expressa em n. de salários
mínimos) e a % da renda bruta anual gasta com assistência médica.
28
família X Y
A 48 5,6
B 12 7,2
C 28 6,6
D 16 7,4
E 50 6
F 18 7
G 40 6
H 54 5,5
I 30 6,7
J 20 6,5
b) Duas variáveis quantitativas
Numérico
29
Existem muitos tipos de associações possíveis, iremos apresentar o tipo de
relação mais simples, que é a relação linear.
Esta medida avalia o quanto a nuvem de pontos do gráfico de dispersão se
aproxima de uma reta.
Dados n pares de valores (x1, y1), …, (xn , yn), chama-se covariância
entre as duas variáveis X e Y a:
– < cov(X,Y) <
1
))((
),cov( 1
n
yyxx
YXs
n
i
ii
XY
Problema:
Se tivermos 3 variáveis, como
avaliar o que é maior ou menor?30
É uma medida que mede a associação entre duas
variáveis quantitativas.
Covariância (populacional: XY e amostral: sXY)
ou seja, é a média da soma do produto dos desvios em relação a média das variáveis.
Dados n pares de valores (x1, y1), …, (xn , yn), o Coeficiente de correlação linear
de Pearson entre as duas variáveis X e Y é dado por:
–1 ≤ r ≤ 1 ,),cov(
)1(
))((
),( 1
yxyx
n
i
ii
XYss
YX
ssn
yyxx
YXcorrrr
2
11
2
2
11
2
111
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
ii
XY
yynxxn
yxyxn
rr Fórmula
alternativa
31
Correlação (populacional: e amostral: r)
ou seja, a média dos produtos dos valores padronizados das variáveis.
Mede o grau de associação linear entre duas
variáveis (medidas em nível intervalar).
32
+1–1 0
Não existe correlação, se
r = cor(X, Y) ≈ 0
Correlação negativa Correlação positiva
A correlação é forte
positiva se
r = cor(X, Y) ≈ +1
A correlação é forte
negativa se
r = cor(X, Y) ≈ –1
Classificação da correlação
33
Exemplo
Os dados da tabela refere-se as variáveis produção de matéria seca e a
quantidade de radiação fotossintética avaliadas em 10 plantas.
a) Visualmente, existe associação entre as variáveis? Justifique o que deve se
esperar.
Variáveis 1 2 3 4 5 6 7 8 9 10
Matéria seca 460 55 965 18 190 570 300 815 410 770
Radiação 280 60 520 10 110 340 160 460 220 400
MS <- c(460, 55, 965, 18, 190, 570, 300, 815, 410, 770)
Rad <- c(280, 60, 520, 10, 110, 340, 160, 460, 220, 400)
cbind(MS,Rad)
# gráfico de dispersão
plot(MS,Rad, cex=1, pch=19, col="purple",
xlab=“Matéria seca", ylab="Radiação fotossintética")
No software R:
b) Calcule o coeficiente de correlação linear de Pearson e classifique o tipo de
associação existente entre as variáveis.
34
22560,2800.92510553.4399.022.310
560.2553.4880.669.110XYrr
xi yi xi2 yi
2 xiyi
4.553 2.560 3.022.399 925.800 1.669.880
Existe uma associação linear positiva muito forte entre as duas
variáveis, isto é, se aumenta (ou diminui) a produção de matéria
seca (Y) então aumentará (ou diminui) a quantidade de radiação
fotossintética (X) e vice e versa.
# Medindo a correlação de duas variáveis
r<- cor(MS, Rad); r
[1] 0.9952566
No software R:
35
Coeficiente de correlação de Pearson (r)
1) Limpar a memória:
2) Mudar para o módulo regressão (Reg) Linear (Lin):
3) Entrar com os dados
...
4) Pedir a função:
Modelo Cassio fx-82MS
SHIFT Scl =
MODE 3 1
M+coord x , coord y
M+coord x , coord y
SHIFT 1 =
SHIFT 2 =
Somatórios
Coeficiente de correlação linear
=
36
Modelo Cassio fx-83WA
1) Limpar a memória:
2) Mudar para o módulo regressão (Reg) Linear (Lin):
3) Entrar com os dados
...
4) Função:
SHIFT Scl =
MODE 3 1
M+coord x , coord y
M+coord x , coord y
SHIFT r = Coeficiente de correlação
linear de Pearson (r)
Coeficiente de correlação de Pearson (r)