introdução - wordpress.comintrodução comentário sobre a tabela de contingência. não entendi...

31
n n ij =#A i B j , A i i A B j j B

Upload: others

Post on 21-Mar-2021

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

Introdução

Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada.Para compreender melhor o que são, elaborei algumas perguntas, que espero ser

capaz de responder com o tempo.

(1) Porque o nome dupla entrada?(2) São tabelas nas quais as colunas contém as variáveis?(3) E as linhas correspondem aos indivíduos?(4) Os diferentes atributos de um indivíduo são contabilizadas nas colunas ref-

erentes às variáveis as quais tais informações dizem respeito?

Por hora é isto. Creio que quando eu ver uma tabela de contingência, serei capazde responder a estas questões.

Resposta. Após ver uma tabela de dupla entrada, consegui vislumbrar hipótesespara as questões.

(1) Porque as contagens se referem a duas variáveis, uma das quais terá seusatributos contabilizados ao longo das linhas e outra, ao longo das colunas.

(2) Não. São tabelas, mas as colunas apresentam atributos de uma das duasvariáveis, e as linhas apresentam atributos de outra.

(3) Respondido acima.(4) Os diferentes atributos de um indivíduo são contabilizados através da con-

tagem do número de elementos da intersecção dos conjuntos relativos aosatributos das duas variáveis.

Comentário sobre considerações envolvendo variáveis qualitativas e quan-

titativas. Também não entendi.Creio que faltou um exemplo.A pergunta a ser feita é: como são categorizados os dados de acordo com os

atributos da variável qualitativa?Minha hipótese é a de que cada atributo categorizável do indivíduo é contabilizado

na variável correspondente.Com um exemplo, creio que esta dúvida pode ser redimida.

Evolução das idéias. Creio que agora tenho as coisas um pouco mais claras emminha mente.Com relação ao nome dupla entrada, tenho um pouco mais de convicção que é

devido ao fato de serem consideradas duas variáveis.Com relação a resposta 2, as células da tabela contém na verdade os n elementos

nij = #Ai ∩Bj,

sendo Ai o conjunto dos elementos que possuem atributo i da variável A, e Bj é oconjunto dos elementos que possuem atributo j referente a variável B da respectivalinha.Com relação ao comentário da subseção Comentário sobre considerações envol-

vendo variáveis qualitativas e quantitativas. , os dados são categorizados da seguinteforma: cada coluna corresponde a um conjunto de elementos com um determinadoatributo de uma das variáveis, e cada linha corresponde a um conjunto de elementoscom um determinado atributo da outra variável.Vejamos se eu consigo demonstrar se a soma dos desvios se anula.

1

Page 2: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

2

A média é dada por ∑i xi∑i yi

.

Certo. Cada um dos desvios é dado por:

di = xi −myi.Logo: ∑

i

di =∑i

xi −m∑i

yi

=∑i

xi −m∑i

yi

=∑i

xi −(∑

i xi∑i yi

)∑i

yi

=∑i

xi −∑i

xi

= 0.

De fato, o referido é verdade e dou fé.

Medidas de associação entre variáveis qualitativas

Comentário sobre o item i) referente às conclusões da análise databela 4.10

Eu �quei descon�ado de que este item fosse verdade, porque sempre pensei quea soma dos desvios de um conjunto de dados fosse nula apenas se fosse consideradoa média dentre eles.E foi este o problema: pensar que o desvio só pode ser considerado usando-se

uma média!Não, não é o caso. Desta vez, o desvio teria que ser a diferença entre o valor

observado e o valor esperado, que é calculado sem o uso de uma média.Eu estive pensando sobre como demonstrar tal propriedade usando uma notação

mais simples. Só que ainda não vislumbrei como.Mas dá para demonstrar usando-se a notação que o autor apresentará mais adi-

ante:nij =#Ai ∩Bj

ni. =∑j

nij

n.j =∑i

nij

n.. =∑ij

nij = n.

Desta feita, o valor observado será nij. O valor esperado eij de cada célula nij

será:eij =

n.j

nni. =

ni.n.j

n.

O desvio de cada célula dij será

dij = nij − eij.

Page 3: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

3

Agora sim, pode-se demonstrar o seguinte

Teorema 1. A soma dos desvios de uma coluna d.j é nula.

Demonstração. Basta aplicar a de�nição:

d.j =∑i

dij

=∑i

nij − eij

=∑i

nij −ni.n.j

n

=∑i

nij −∑i

ni.n.j

n

=∑i

nij −

(∑i

ni.

)n.j

n

= n.j − nn.j

n= n.j − n.j

= 0.

É importante ressaltar que esta soma nula é uma das justi�cativas de se usar aexpressão 4.1 para o cálculo do χ2 de Pearson, uma vez que sem a potência cadaunidade de desvio positivo seria cancelada por uma unidade de desvio negativocorrespondente.

Dois comentários acerca das equações 4.2 e 4.3.

Primeiro comentário. O primeiro deles é o seguinte: ao ver as relações expressasnas equações 4.2, �quei me perguntando se não seria melhor fazer uma representaçãográ�ca do fato, para torná-lo mais compreensível.Depois pensei a respeito, e cheguei a conclusão que não consegui atingir meu

objetivo.Mas decidi registrar meus esforços, pois talvez eles motivem alguem a fazer algo

melhor.Vejamos então como eu decidi representar tais equações. A Figura 0.1 ilustra tal

representação.

Page 4: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

4

Figura 0.1. Esboço da representação esquemática das equações 4.2através de conjuntos. O conjunto U é o conjunto universo em questão,uniformemente preenchido por pontos, representando os elementos.Por simplicidade, decidi representar apenas três conjuntos de atrib-utos da variável X, a saber, X1, X2, e X3, que são os retângulos devértices arredondados cujo comprimento está na vertical; e apenastrês conjuntos de atributos da variável Y , analogamente, Y1, Y2, e Y3,cujo comprimento está na horizontal.

O objetivo desta ilustração é mostrar que se não há associação dentre as variáveis,então, nenhuma linha e nenhuma coluna pode apresentar uma distribuição maiorque as demais. Desta forma, se um conjunto, por exemplo X1 (mas poderia sertambém o conjunto Y1) tem 10% dos elementos do conjunto universo U , entãosua intersecção com cada um dos conjuntos Yj deve ter 10% dos elementos de Yj,conforme pode ser veri�cado na Figura 0.1: a intersecção dentre X1 com Y1 temapenas um elemento dos dez de Y1, ou seja, tem 10% dos elementos de Y1; do mesmomodo, cada intersecção de X1 com os demais conjuntos Yj tem dez por cento doselementos de Yj. O mesmo pode ser veri�cado comX2 eX3, e também com qualquerum dos Yj.De forma algébrica, se nij representa #Xi ∩Xj, e n.j representa #Yj, então

nij

n.j

=nik

n.j

∀i ∈ {1, . . . , r} , j 6= k ∈ {1, . . . , s} .

Segundo Comentário. O outro comentário trata de uma demonstração que estáimplícita na equação anterior a equação 4.3.É o seguinte: se a, b, c e d formam uma proporção nesta ordem, então

a

b=c

d⇒ ad = bc

⇒ad+ cd = bc+ cd

⇒d (a+ c) = (b+ d) c

⇒a+ c

b+ d=c

d=a

b.

Pelo P.I.F, tal identidade pode ser extendida para proporções com mais de duasrazões. Senão vejamos: seja por hipótese de indução que

a1

b1

=a2

b2

= . . . =anbn⇒ ai

bi=

∑i ai∑i bi

.

Page 5: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

5

Então, considerando que o paço de indução seja a1

b1= a2

b2= . . . = an

bn= an+1

bn+1,

veri�ca-se que é verdade que(∑n+1

i=1 ai∑n+1i=1 bi

)= an+1

bn+1= ai

bi:

a1

b1

=a2

b2

= . . . =anbn

=an+1

bn+1

⇒∑n

i=1 ai∑ni=1 bi

=an+1

bn+1

(n∑

i=1

ai

)(bn+1) =

(n∑

i=1

bi

)(an+1)

(n∑

i=1

ai

)(bn+1) + (an+1) (bn+1) =

(n∑

i=1

bi

)(an+1) + (an+1) (bn+1)

(n∑

i=1

ai + an+1

)(bn+1) =

(n∑

i=1

bi + bn+1

)(an+1)

(n+1∑i=1

ai

)(bn+1) =

(n+1∑i=1

bi

)(an+1)

(∑n+1i=1 ai∑n+1i=1 bi

)=an+1

bn+1

=aibi.

Logo, se nij

n.j= nik

n.j∀j 6= k, então nij

n.j= n.i

n.

Era isto.

Associação entre variáveis quantitativas

Comentário sobre o exemplo 4.7

Novamente, sinto-me envolto em di�culdades em compreender uma asserção doautor. Como o importante é descon�ar e investigar, até que as dúvidas razoáveissejam exauridas (ou o que é mais provável: minimizadas), decidi registrar comen-tário sobre a segunda linha do segundo parágrafo do exemplo 4.7. A a�rmação foibastante interessante, e sua intuição não tão imediata. Assim, vou registrar minhainterpretação.O autor registrou

�Observando estes valores, veri�camos que ainda existe um problemaquanto a escala usada. A variável Y tem variabilidade maior do queX e o produtor �caria muito mais afetado pelos resultados de Y doque pelos de X.�

Certo. Creio que há duas perguntas a serem feitas neste caso:

(1) Será que o autor não está fazendo uma confusão dentre variação e valoresabsolutos?

(2) Se não estiver, porque a maior variação de Y seria um problema?

Minha primeira pergunta se faz interessante, a meu ver, porque se o valor absoluto deuma das variáveis for muito maior que a da outra, então irá in�uenciar grandementeo resultado.De fato. Mas foi só então que me lembrei que deve ser considerada a transformação

proposta de centrar a origem do sistema de referência no ponto médio da nuvemde dados. Logo, não deve haver valores absolutos muito grandes, a menos que avariável tenha uma grande distribuição.

Page 6: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

6

E isto está diretamente relacionado a segunda pergunta. A princípio eu nãovisualizava uma relação dentre as perguntas, mas agora tenho isto um pouco maisclaro em mente.Estava pensando que a variação tinha a ver com a amplitude do intervalo, e

achava que quanto maior fosse esta amplitude, maior seria a variação. Só então melembrei que a variação é uma medida do desvio das variáveis em relação a média.E foi assim que consegui encaixar melhor as peças do quebra cabeças.Quanto maior a variação do conjunto de dados, maior será o fator correspondente

no produto e desta forma, maior será sua in�uência no resultado da contabilizaçãoda medida de associação das variáveis.Eu acho que é isto. Pelo menos por enquanto é isto.

Comentário sobre o exemplo 4.7

Novamente, sinto-me envolto em di�culdades em compreender uma asserção doautor. Como o importante é descon�ar e investigar, até que as dúvidas razoáveissejam exauridas (ou o que é mais provável: minimizadas), decidi registrar comen-tário sobre a segunda linha do segundo parágrafo do exemplo 4.7. A a�rmação foibastante interessante, e sua intuição não tão imediata. Assim, vou registrar minhainterpretação.O autor registrou

�Observando estes valores, veri�camos que ainda existe um problemaquanto a escala usada. A variável Y tem variabilidade maior do queX e o produtor �caria muito mais afetado pelos resultados de Y doque pelos de X.�

Certo. Creio que há duas perguntas a serem feitas neste caso:

(1) Será que o autor não está fazendo uma confusão dentre variação e valoresabsolutos?

(2) Se não estiver, porque a maior variação de Y seria um problema?

Minha primeira pergunta se faz interessante, a meu ver, porque se o valor absoluto deuma das variáveis for muito maior que a da outra, então irá in�uenciar grandementeo resultado.De fato. Mas foi só então que me lembrei que deve ser considerada a transformação

proposta de centrar a origem do sistema de referência no ponto médio da nuvemde dados. Logo, não deve haver valores absolutos muito grandes, a menos que avariável tenha uma grande distribuição.E isto está diretamente relacionado a segunda pergunta. A princípio eu não

visualizava uma relação dentre as perguntas, mas agora tenho isto um pouco maisclaro em mente.Estava pensando que a variação tinha a ver com a amplitude do intervalo, e

achava que quanto maior fosse esta amplitude, maior seria a variação. Só então melembrei que a variação é uma medida do desvio das variáveis em relação a média.E foi assim que consegui encaixar melhor as peças do quebra cabeças.Quanto maior a variação do conjunto de dados, maior será o fator correspondente

no produto e desta forma, maior será sua in�uência no resultado da contabilizaçãoda medida de associação das variáveis.Eu acho que é isto. Pelo menos por enquanto é isto.

Page 7: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

7

Prova de que a desigualdade 4.8 é verdadeira

Encontrei um artigo sobre a prova de que a desigualdade 4.8 é verdadeira. Bas-tante claro, gostaria de elogiar o estilo do sr. Francis J. O'Brien Jr., que em seuartigo Prova de que o coe�ciente de correlação de amostras bivariáveis tem limites(mais ou menos) 1, que pode ser encontrada no sítio http://www.docstoc.com/

docs/3530180/Proof-that-the-Sample-Bivariate-Correlation-Coefficient-has-Limits-%

28Plus-or-Minus%29-1. Foi simplesmente maravilhosa a forma como o autor ap-resentou tal prova. Uma verdadeira lição sobre como as coisas devem ser feitas.

Clareza é um atributo inestimável. Inicialmente o autor apresentou as ferra-mentas que seriam necessárias, e só então ele desenvolveu a prova.Primeiro é preciso provar algumas propriedades das variáveis padronizadas

zxi=

xi − xdp (X)

.

A notação do sr. Francis é um pouco diferente da do sr. Bussab, então, vou fazeruma adaptação do artigo.

Teorema. zx = 0.

Demonstração. Basta aplicar a de�nição

zx =n∑

i=1

xi − xdp (X)

=1

dp (X)

[(n∑

i=1

xi

)− nx

]=

1

dp (X)(nx− nx)

= 0.

Ok, agora, será necessário apresentar a demonstração de que o desvio padrão dacoordenada padronizada é unitária.

Teorema. dp (Zx) = 1.

Page 8: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

8

Demonstração. Basta aplicar a de�nição e usar o teorema anterior.

var (zx) =n∑

i=1

(zxi− zx)2

n

=n∑

i=1

(zxi− 0)2

n

=n∑

i=1

(xi−xdp(X)

)2

n

=n∑

i=1

(xi−x)2

(dp(X))2

n

=n∑

i=1

(xi−x)2

(dp(X))2

n

=n∑

i=1

(xi−x)2

var(X)

n

=1

var (X)

n∑i=1

(xi − x)2

n

=1

var (X)var (X)

= 1.

Certo. A seguir, será preciso provar que a soma das variáveis padronizadas é igualao número de elementos do domínio da variável X.

Teorema.∑

i z2xi

= n.

Demonstração. Basta aplicar a de�nição da transformação:n∑

i=1

z2xi

=n∑

i=1

[xi − xdp (X)

]2

=1

var (X)

n∑i=1

(xi − x)2

=1

var (X)

n

n

n∑i=1

(xi − x)2

=n

var (X)

∑ni=1 (xi − x)2

n

=n

var (X)var (X)

= n.

Page 9: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

9

Agora será preciso mostrar a correspondência dentre as fórmulas não padronizadae padronizada da correlação.

Teorema. corr (X, Y ) = 1n

∑ni=1

[xi−xdp(X)

] [yi−ydp(Y )

]= 1

n

∑ni=1

[zxi−zx∑n

i=1(zxi−zx)2

n

][zyi−zy∑n

i=1(zyi−zy)2

n

].

Demonstração. Basta aplicar as de�nições. Senão, vejamos:

corr (X, Y ) =1

n

n∑i=1

[xi − xdp (X)

] [yi − ydp (Y )

]

=1

n

n∑i=1

zxizyi

=1

n

n∑i=1

(zxi− 0

1

)(zyi − 0

1

)

=1

n

n∑i=1

[zxi− zx

dp (Zx)

] [zyi − zydp (Zy)

]

=1

n

n∑i=1

[zxi− zx

dp (Zx)

] [zyi − zydp (Zy)

]

=1

n

n∑i=1

zxi− zx∑n

i=1(zxi−zx)2

n

zyi − zy∑ni=1(zyi−zy)

2

n

.�

Ok, agora, pode-se demonstrar as desigualdades expressas na equação 4.8.Vejamos a primeira delas.

Teorema. corr (X, Y ) ≤ 1.

Demonstração. Basta considerar que um número real elevado ao quadrado serámaior ou igual a zero:

n∑i=1

(zxi− zyi)

2 ≥ 0.

Cabe fazer o mesmo comentário que o autor fez. A igualdade é possível matematica-mente, bastando para isto que cada um dos pares de variáveis (xi, yi) fossem iguais,mas remotamente provável estatísticamente. Entretanto, como se está buscandouma prova matemática do fato, segue-se considerando a igualdade.

Page 10: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

10

O próximo passo é desenvolver o binômio quadrado perfeito, e então concluir adesigualdade:

n∑i=1

(zxi− zyi)

2 ≥ 0

⇒n∑

i=1

z2xi− 2zxi

zyi + z2yi≥ 0

⇒n∑

i=1

z2xi

+n∑

i=1

z2yi− 2

n∑i=1

zxizyi ≥ 0

⇒n+ n− 2n∑

i=1

zxizyi ≥ 0

⇒2n− 2ncorr (X, Y ) ≥ 0

⇒2n [1− corr (X, Y )] ≥ 0

⇒1− corr (X, Y ) ≥ 0

⇒corr (X, Y ) ≤ 1.

A outra prova é bem similar. Ela leva em consideração a mesma coisa: o quadradode um número real é positivo ou igual a zero. Novamente, deve ser feita a mesmaressalva: a igualdade a zero é matematicamente consistente, basta para isto que oselementos das variáveis X e Y sejam todos iguais a suas respectivas médias.

Teorema. corr (X, Y ) ≥ −1

Demonstração. Basta desenvolver a desigualdaden∑

i=1

(zxi+ zyi)

2 ≥ 0.

Senão vejamos:n∑

i=1

(zxi+ zyi)

2 ≥ 0

⇒n∑

i=1

z2xi

+ 2zxizyi + z2

yi≥ 0

⇒n∑

i=1

z2xi

+ 2n∑

i=1

zxizyi +

n∑i=1

z2yi≥ 0

⇒n+ 2ncorr (X, Y ) + n ≥ 0

⇒2n+ 2ncorr (X, Y ) ≥ 0

⇒2n [1 + corr (X, Y )] ≥ 0

⇒1 + corr (X, Y ) ≥ 0

⇒corr (X, Y ) ≥ −1.

Conclusão: de fato, a prova é bem simples. Entretanto, envolve tantas provasanteriores, que se tornaria bem complicado que o leitor o �zesse em pouco tempo.O autor realmente deslizou nesta etapa.

Page 11: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

11

Comentários sobre o trecho final da seção 4.6

Há dois comentários bastante interessantes acerca desta seção. O primeiro delesé sobre o parágrafo �nal da página 87, e o outro acerca do segundo parágrafo dapágina 88.

Primeiro comentário. Com relação então ao primeiro comentário, o que tenho aregistrar foi uma observação interessante que me ocorreu ao ler o texto.O autor não tratou muito desta questão, mas ele deixou em aberto que o valor

médio da variável pode nem ao menos acompanhar o aumento de nível da variávelqualitativa (caso ela seja uma escala ordinal); se a variância em cada categoriafor sensívelmente reduzida, a capacidade de previsão aumenta, e poderia haverassociação mesmo assim.Não tenho experiência su�ciente para dizer que esta especulação seria puramente

matemática, ou teria de fato raízes nos dados coletados de um sistema real, maspareceu-me interessante o su�ciente para não deixar passar despercebido. Pode serimportante manter isto em mente daqui em diante.

Segundo comentário. Decidi registrar o seguinte trecho da seção 4.6:

�Pode-se mostrar que var (S) ≤ var (S), de modo que podemos de�niro grau de associação como o ganho relativo na variância, obtido pelaintrodução da variável qualitativa.�

Concordo.Apesar de não ter conseguido provar que var (S) ≤ var (S), se isto for verdade,

condiz com o que foi informado no parágrafo anterior: se a categorização minimizara variância, a variância média deverá ser menor, e a previsão da medida da variávelqualitativa é aprimorada. Quanto menor for a variância em cada categoria, menorserá a variância média, e maior será a associação.

Assim, tanto menor será a razão var(S)var(S)

, e mais próximo da unidade será R2. Ouseja, quanto mais próximo R2 for de um, maior será a associação.

Tentativa de provar que var (S) ≤ var (S)

Ainda não consegui resolver este problema, mas estou tentando com todas asforças.

Especi�cação. O algoritmo deve provar que var (S) =∑k

i=1 nivari(S)∑ki=1 ni

≤ var (S) =∑ni=1(xi−x)2

n.

Desenho. Para resolver o problema, será necessário determinar uma notação ad-equada para as variâncias de cada categoria, denotadas por vari (S), buscar re-lações dentre tais elementos com os elementos de notação genérica, expressos em∑n

i=1(xi−x)2

n, e então, e só então, deve ser feita a conclusão, através de alguma relação

de desigualdade envolvendo ambos os termos.Com a evolução da construção do algoritmo, certamente novas idéias deverão

surgir e eu provavelmente terei que fazer modi�cações.

Page 12: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

12

Primeira versão do algoritmo.

1. determinação de notação para vari (S)1.1. buscar uma notação que envolva o índice i e um índice auxiliar j a denotar

termo genérico de uma categoria de variável qualitativa1.1.1. usar a notação de Einstein - xij2. buscar relações dentre as notações2.1. expressar ambas as notações, var (S) e var (S).2.2. determinar o resultado da soma

∑ij xij e relacioná-la com a soma

∑i xi

2.3. determinar a média∑

j xij

nie relacioná-la com a média x.

3. encontrar uma relação de desigualdade dentre os termos.3.1. explorar as relações anteriormente encontradas.

Certo.Vou deixar o trecho a seguir como comentário, porque em se tratando de matemática,

não adianta planejar muito. Há de se desenvolver as idéias.Então vejamos a implementação destes itens.A notação da variância seria

vari (S) =

∑ni

j=1 (xij − xi)2

ni

.

As variâncias seriam dadas por

var (S) =

∑ki=1 nivari (S)∑k

i=1 ni

=

∑ki=1 ni

∑nij=1(xij−xi)

2

ni∑ki=1 ni

=

∑ki=1

∑ni

j=1 (xij − xi)2∑ki=1 ni

;

e

var (S) =

∑nk=1 (xk − x)2

n.

Com relação a soma∑

ij xij =∑

i xi, uma vez que se trata da soma de todos oselementos da variável. Logicamente, isto implica em

∑ij x

2ij =

∑i x

2i . Também é

verdade que ∑i

ni = n.

E com relação a soma∑

j xij?Bom esta será a soma de todos os elementos da variávelX pertencentes a categoria

indexada por i.E a média de uma categoria?Creio que a notação mais adequada seria

xi =

∑j xij

ni

,

caso ni seja o número de elementos de tal categoria.Resolvi fazer algumas alterações no algoritmo.

Segunda versão do algoritmo. Vai �car assim:1. determinação de notação para vari (S)1.1. buscar uma notação que envolva o índice i e um índice auxiliar j a denotar

termo genérico de uma categoria de variável qualitativa1.1.1. usar a notação de Einstein - xij2. buscar relações dentre as notações2.1. expressar ambas as notações, var (S) e var (S).

Page 13: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

13

2.2. desenvolver o termo quadrático em cada uma delasOk, a implementação do item 2.2.:

var (S) =

∑ki=1

∑ni

j=1 (xij − xi)2∑ki=1 ni

=

∑ki=1

∑ni

j=1

(x2ij − 2xijxi + x2

i

)n

=

∑ki=1

∑ni

j=1

(x2ij − 2xijxi + x2

i

)n

=

∑ki=1

∑ni

j=1 x2ij

n− 2

∑ki=1 nix

2i

n+

∑ki=1 nix

2i

n

=

∑ki=1

∑ni

j=1 x2ij

n−∑k

i=1 nix2i

n.

A variância será dada por:

var (S) =

∑nk=1 (xk − x)2

n

=

∑nk=1 x

2k

n− 2x

∑nk=1 (xk)

n+ x2

=

∑nk=1 x

2k

n− x2.

Ok. Da comparação dos dois resultados surge a seguinte conclusão: como∑ki=1

∑ni

j=1 x2ij

n=

∑nk=1 x

2k

n,

a diferença dentre as duas quantidades reside nos termos∑k

i=1 nix2i

ne x2.

É preciso estabelecer relação dentre estas duas quantidades.Bom, novamente, a solução parece passar por explicitar os termos:∑k

i=1 nix2i

n=

∑ki=1 nixixin

=

∑ki=1 ni

∑nij=1 xij

∑nik=1 xik

n2i

n

=

∑ki=1

∑nij=1 xij

∑nik=1 xik

ni

n.

Ok. Agora, vejamos o outro termo:

x2 =

∑nl=1 xl

∑nm=1 xm

n2

=

∑nl=1

∑nm=1 xlxmn2

.

Tudo bem. As coisas parecem estar bem complicadas, a ponto de di�cultar umacomparação. É preciso entender o que cada um dos somatórios está realizando.

Page 14: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

14

Mas há algumas similaridades dentre as duas expressões. A divisão dentre elasresulta em:

∑ki=1 nix

2i

n

x2=

∑ki=1

∑nij=1 xj

∑nik=1 xk

ni∑nl=1

∑nm=1 xlxm

n

=

∑ki=1

∑nij=1

∑nik=1 xijxik

ni∑nl=1

∑nm=1 xlxm

n

Acho que a partir desta etapa não tem mais jeito. É tudo interpretação. Então,vejamos o que pode ser feito.É, realmente está bem difícil fazer esta prova.Mas vejamos. O numerador pode ser transformado? Se sim, o resultado seria

simples? Seria possível comparar com o denominador?Ok, calma. Vejamos se dá para transformar o numerador:

k∑i=1

∑ni

j=1

∑ni

k=1 xijxik

ni

=

∑ki=1

∏l 6=i nl

∑ni

j=1

∑ni

k=1 xijxik∏km=1 nm

=

∑ki=1

∏l 6=i nl

(∑ni

j=1 x2ij +

∑ni

j=1

∑ni

k=1k 6=j

xijxik

)∏k

i ni

.

Ok.De posse desta informação, creio que posso avançar.Vejamos a razão novamente:

var (S)

var (S)=

∑nk=1 x2

k

n− x2∑k

i=1

∑nij=1 x2

ij

n−∑k

i=1 nix2i

n

=

∑nk=1 x2

k

n− x2∑k

i=1

∑nij=1 x2

ij

n−∑k

i=1 nix2i

n

.

E é aqui que eu queria chegar. O primeiro termo do numerador é igual ao primeirotermo do denominador.Logo, tal razão resultará maior ou menor que 1 dependendo do segundo termo

do numerador ser maior ou menor que o segundo termo do denominador.Então, vejamos a razão dentre eles:

x2∑ki=1 nix2

i

n

=

∑nl=1

∑nm=1 xlxm∑i ni∑k

i=1

∏l 6=i nl

(∑nij=1 x2

ij+∑ni

j=1

∑nik=1k 6=j

xijxik

)∏k

i ni

=

∑nl=1

∑nm=1 xlxm∑k

i=1

∏l 6=i nl

(∑ni

j=1 x2ij +

∑ni

j=1

∑ni

k=1k 6=j

xijxik

)∏ki ni∑i ni

.

Fica evidente desta razão que se o denominador da primeira fração for muito maiorque o numerador da primeira, como de fato ocorre, caso o número de categorias sejamuito grande, então tal fator irá preponderar sobre o segundo, e irá determinar oresultado da razão, que deverá ser menor que um.Se assim for, o autor está errado.

Page 15: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

15

Exercício 24

Especi�cação. Provar que

1

n

∑i

(xi − xdp (x)

)(yi − ydp (y)

)=

∑i xiyi − nxy√

(∑

i x2i − nx2) (

∑i y

2i − ny2)

Desenho. Primeira versão do algoritmo.3. Distribuir o produto4. explicitar os desvios padrões5. Rearranjar na forma �nal.

Implementação. Vejamos:

1

n

∑i

(xi − xdp (x)

)(yi − ydp (y)

)=

1

n

∑i

xiyi − xiy − xyi + xy

dp (x) dp (y)

=1n

∑i xiyi

dp (x) dp (y)−

1n

∑i xiy

dp (x) dp (y)−

1n

∑i xyi

dp (x) dp (y)+

1n

∑i xy

dp (x) dp (y)

=1n

∑i xiyi

dp (x) dp (y)− xy

dp (x) dp (y)− xy

dp (x) dp (y)+

xy

dp (x) dp (y)

=1n

∑i xiyi

dp (x) dp (y)− xy

dp (x) dp (y)

=1n

∑i xiyi − xy

dp (x) dp (y)

=n(

1n

∑i xiyi − xy

)n [dp (x) dp (y)]

=

∑i xiyi − nxy

n

√∑j x

2j

n− x2

√∑j y

2j

n− y2

=

∑i xiyi − nxy

√n

√∑j x

2j

n− x2√n

√∑j y

2j

n− y2

=

∑i xiyi − nxy√

n(∑

j x2j

n− x2

)√n(∑

j y2j

n− y2

)=

∑i xiyi − nxy√∑

j x2j − nx2

√∑j y

2j − ny2

.

Exercício 27

item a

Certo.Vejamos então o que eu pensei para resolver este problema.

Especi�cação. O algoritmo deverá determinar uma tabela de distribuição con-junta para as variáveis salário e idade, divididas em intervalos de classe.

Page 16: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

16

Desenho. Pensei o seguinte: criar uma coluna correspondente as variáveis idadee salário com os intervalos de classe correspondentes, e então fazer a tabela dedistribuição conjunta de ambas.Então, a primeira versão do algoritmo seria:

6. criar coluna correspondente as duas variáveis, com os intervalos de classerelativos a cada um dos dados.

7. criar a tabela de distribuição conjunta de ambas.

Implementação. Ok, funcionou.Registrei na Tabela 1.

21 |- 25.67 25.67 |- 30.33 30.33 |- 35 35 |- 39.6712.27 |- 15.03 0 2 1 115.03 |- 17.79 0 0 1 217.79 |- 20.54 0 0 1 023.3 |- 26.06 0 0 0 04 |- 6.76 1 2 1 16.76 |- 9.51 1 2 2 29.51 |- 12.27 0 1 3 1divisao_classe_idade 2 7 9 7

39.67 |- 44.33 44.33 |- 49 49 |- 53.67 divisao_classe_sal12.27 |- 15.03 1 1 0 615.03 |- 17.79 1 0 0 417.79 |- 20.54 0 0 1 223.3 |- 26.06 1 0 0 14 |- 6.76 1 0 0 66.76 |- 9.51 3 0 0 109.51 |- 12.27 2 0 0 7divisao_classe_idade 9 1 1 36

Tabela 1. Registro da distribuição conjunta.

item b

Especi�cação. O algoritmo deverá determinar como poderia ser calculado o coe-�ciente de correlação com base na tabela de distribuição conjunta do item anterior.

Desenho. Devo admitir que falhei ao resolver este problema porque estava con-siderando a análise da associação entre variáveis qualitativas na cabeça.Foi somente após buscar por uma solução na internet que consegui resolver este

item.Basta usar o ponto médio de cada classe e usar como frequência os valores da

diagonal principal da tabela de distribuição conjunta na fórmula da correlação.

Page 17: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

17

Creio que seja apenas isto. Mas não posso deixar de registrar meu estranhamentoquanto a esta abordagem. Digo, qual a moral da história? É este procedimento omais vantajoso? Eu não posso deixar de registrar achei muito estranho partir deuma tabela de dados para montar uma distribuição de frequência e só então dis-cutir correlação de dados agrupados. Parece-me que os autores estão poupando otempo deles na produção do material bibliográ�co e perdendo o tempo dos estu-dantes leitores de seu livro. Porque não apresentar logo de pronto uma tabela dedistribuição conjunta e tratar da determinação da correlação? Seria mais práticoaos estudantes. E será que não há uma outra medida mais adequada ao estudode tabelas de distribuição conjunta? Não seria mais natural tratá-las com coe�-cientes de contingência? Porque estudá-las usando-se o coe�ciente de correlação dePearson?Não vale a pena gastar tempo elaborando o algoritmo para tratar deste problema.

item c

Especi�cação. O algoritmo deve especi�car como determinar a fórmula da corre-lação para dados agrupados.

Desenho. Não compensa �car perdendo tempo com isto. Há muito o que serestudado. Os autores não foram razoáveis ao elaborar esta questão. A princípio,não muda nada da fórmula original. As alterações seriam os valores xi e yi, dadospelos pontos médios de cada classe, e x e y seriam as médias dos pontos médios.Nada de mais.Há muito o que estudar!

Exercício 28

item a

Bastou inserir no R a tabela com os valores de cara e coroa para a moeda de real ede quarto de dolar, e invocar a função chisq.test() para determinar χ2 = 0.0285,para o teste do chi quadrado. O resultado do autor foi diferente, mas creio que istose deve ao método usado para calcular o chi quadrado no R, que inclui a correçãode continuidade de Yates.

item b

Este foi um tanto mais complicado, mas também consegui resolver. O segredo foicriar dois vetores, X1 e X2, de forma que seus elementos reproduzissem os dados databela do exercício 28.Eu �z assim: X1 <- c(rep(0,times= 52), rep(1, times= 48) para gerar X1

e

X2 <- c(rep(0, times= 24), rep(1, times= 28), rep(0, times= 22), rep(1,

times= 26))

para gerar X2. Daí, o comando cor(X1, X2) gerou o resultado 0.003 para a co-variância dentre tais variáveis. O autor encontrou valores um tanto diferente deste,mas creio que se deve a diferentes métodos implementados no R para o cálculo davariância.É isto.

Page 18: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

18

Exercício 30

item d

Inicialmente, pensei que a resposta a esta pergunta fosse muito fácil.Para auxiliar na resolução, �z o histograma relativo a tal variável (ver a Figura

0.2)

Histogram of V

V

Fre

quen

cy

20 30 40 50

01

23

4

Figura 0.2. Histograma de vendas.

A pergunta é: �Há alguma zona de venda privilegiada?�De outra forma, a pergunta pode ser entendida como: �Há alguma vantagem

concedida a alguma classe, decorrente do critério de seleção adotado?�Vejamos.Do que eu precisaria para responder a esta questão? Qual seria o privilégio?Seria uma zona de venda que não seria descartada, mas que ofereceria desa�os

menores que outras, também não descartadas?Acho que é isto mesmo.Veja: os vendedores que se encaixassem nas classes superiores a primeira seriam

todos mantidos em sua região. Entretanto, eles teriam fechado uma quantidade denegócios muito menor que os da penúltima e última classes.Neste sentidos, a 2ª, 3ª, 4ª, e 5ª classes seriam privilegiadas! Porque com muito

menos esforço, receberiam os mesmos benefícios que os pertencentes a 8ª e 9ª classes,muito mais e�cientes.Creio que a resposta seria esta.

Page 19: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

19

item e

Para mim, a resposta estaria relacionada a menor das variancias, e desta feita, oconceito do gerente teria a menor delas.

item f

Como o resultado de T para o par dado foi de apenas 0,035, creio que não háassociação dentre o conceito do gerente e a zona de venda. Isto quer dizer que osvendedores foram distribuídos espacialmente sem a interferência do gerente.

item g

O resultado de T para o par conceito do gerente e resultado do teste foi de 0.04,não há associação também entre o conceito do gerente e resultado do teste. Istopoderia ser interpretado como um indício que o gerente não elaborou o teste. Nocaso da zona e vendas, o resultado foi de apenas 0,08, o que indica baixa associaçãodentre tais variáveis, porem maior que as anteriores.

Exercício 30

item d

Apresentação. Ok, o autor pediu para comparar os resultados dos itens (a) e (d).Então, vou registrar neste arquivo os dois grá�cos das distribuições de frequências,e a comparação dentre eles.

Desenvolvimento. Vejamos então, os dois grá�cos.Na Figura 0.8, está registrada a distribuição de frequência da variável X. Na

Figura 0.9, da variável calculada no item d.Veri�ca-se da comparação dos dois grá�cos que o pico recuou um pouco quando da

combinação do tempo de serviço de cada par de funcionários, a variância aumentouum pouco e a assimetria diminuiu, muito embora, continue sendo a esquerda.Creio que seria esta a comparação que o autor pretendia que �zessemos.

item e

Apresentação. No enunciado, consta que se deve calcular a média, variância emediana de X, e comparar o resultado com os obtidos no item b, e ao �nal, registrara conclusão. Creio que é um item que não é muito difícil de ser cumprido, a menosda conclusão, que deve ser feita com bastante cautela, dada eventuais complicações.

Desenvolvimento. Nada de mais. O valor médio de X é 4.2, assim como o de X.Já a variância de X é 2.16, contra 5.2 de X. Já a mediana de X é 4, contra 5 damediana de X.Conclusão: ao se considerar o trabalho de dois indivíduos conjuntamente, há uma

menor variação em torno da média, os resultados tendem a ser mais concentrados;e o valor central tende a diminuir. Ou seja, quando são considerados pares emempresas distintas, e independentemente, pode se considerar que a média é maisrepresentativa, mais con�ável. Além disto, há um deslocamento da mediana a es-querda, e isto indica que há uma diminuição do tempo médio de serviço, ou emoutros termos, o serviço tende a �car mais rápido, ou cada par atende as empresasVerde e Azul em um intervalo de tempo que é menor que o tempo que passamtrabalhando na companhia MB (o que, por sinal, é bastante razoável, senão óbvio).

Page 20: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

20

Histogram of X

X

Fre

quen

cy

0 2 4 6 8

0.0

0.5

1.0

1.5

2.0

Figura 0.3. Representação grá�ca da distribuição de frequência davariável X do item (a). Veri�ca-se assimetria a esquerda.

Eu acho que é isto.

item f

Apenas para registrar a representação grá�ca da distribuição da variância de cadapar de X.Ver a Figura 0.10.

item h

Apresentação. Este item foi realmente complicado.Eu realmente não entendi o que o autor pretendeu com ele.Por isto decidi esmiuçar a solução em forma de algoritmo.E comentar bastante.

Desenvolvimento. Vejamos então como vou resolver este problema. Eu vou usara técnica de perguntas e respostas. Creio que seja a melhor forma de se lidar coma dúvida. O próprio Sócrates foi quem nos ensinou.

Especi�cação. O autor propôs que se indicasse por X1 a variável que expresa otempo de serviço do funcionário que irá atender à �rma Verde e X2 o que iráatender a �rma Azul. A seguir, solicitou que fosse feita a distribuição conjunta davariável bidimensional (X1, X2).

Page 21: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

21

Histogram of item_d

item_d

Fre

quen

cy

1 2 3 4 5 6 7

01

23

45

6

Figura 0.4. Representação grá�ca da distribuição de frequência davariável obtida a partir das médias da soma das frequências da var-iável X, resultante da combinação do tempo de serviço de dois dosfuncionários da companhia Milsa. Há leve assimetria a esquerda.

Desenho. Deixem-me tentar lidar com este problema.Ok. Qual a primeira pergunta?

(1) Quais são os elementos de cada célula da distribuição conjunta?Eu estive pensando que eram os elementos determinados no item (d) deste

exercício. Mas depois me perguntei: será que são estes mesmos? Porqueseriam? Tais números representam o tempo médio dentre os tempos quecada funcionário da empresa MB passa trabalhando nesta empresa. Ouseja, o par (X1, X2) trabalha na empresa MB, em média, o tempo dado pelamédia do tempo de trabalho de cada um. A minha pergunta seria então:isto realmente representa o tempo que X1 atende a empresa Verde e X2

atende a Azul? Uma resposta a�rmativa a esta questão implicaria em aceitarimplicitamente que o tempo que X1 passou trabalhando na Companhia MBteria sido gasto em qualquer uma das �rmas. Um raciocínio por demaishipotético, não haveria provas disto. Para amenizar o estranhamento destalinha de raciocínio, poder-se-ia considerar algo como aceitar que cada umadas �rmas teria a disposição um funcionário com o tempo de experiênciade cada funcionário. Isto até poderia ser aceitável, mas não posso descartaroutras hipóteses. Digamos que não seja isto o que o autor pretendia. Oque poderia ser? Vejamos: foram fornecidos somente o tempo em que cadafuncionário trabalhou na empresa MB. Qualquer outra informação a serextraída desta será mera suposição. O que poderia ser feito então? A meuver, uma outra hipótese a ser feita seria estipular um outro valor que não a

Page 22: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

22

Histogram of item_f

item_f

Fre

quen

cy

0 5 10 15 20

05

1015

Figura 0.5. Representação grá�ca da distribuição da variância paracada par de elementos de X.

média dos tempos de cada funcionário para o par (X1, X2). Aí, fatalmentesurgiria a pergunta: que outro valor? Certo, e tive uma idéia, que considereiboa, a�nal. Parece-me mais razoável considerar que os empregados A, B, C,D e E trabalharam metade de seu tempo em cada uma das duas companhias.Eu achei isto mais razoável. Assim, bastaria considerar metade dos valoresdo item d do exercício para resolver a questão!

Eu achei que esta seria a solução mais adequada. A partir daí, bastaria registrar osresultados no R.E é isto. Creio que não preciso me prolongar mais nesta questão.

item i

Especi�cação. Deve-se determinar se as variáveis X1 e X2 são independentes.

Desenho. Certo.Creio que bastaria fazer um teste similar ao ilustrado na Tabela 4.7 da página 75.Vejamos o resultado ilustrado na Tabela 4.

item j

Especi�cação. O autor solicitou que se comentasse as distribuições marginais deX1 e X2.

Page 23: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

23

X1/X2 A B C D EA 7.7 11.1 13.0 13.0 14.3 12.4B 15.4 16.6 17.4 17.4 17.9 17.1C 23.1 22.2 21.7 21.7 21.4 22.0D 23.1 22.2 21.7 21.7 21.4 22.0E 30.8 27.7 26.1 26.1 25 26.6

100 100 100 100 100 100Tabela 2. Tabela de dupla entrada das variáveis X1 e X2. Veri�ca-se que as variáveis não estão relacionadas, pois as porcentagens decada coluna estão muito próximas das porcentagens totais.

X1/X2 A B C D EA 0.5 1 1.5 1.5 2 6.5B 1 1.5 2 2 2.5 9C 1.5 2 2.5 2.5 3 11.5D 1.5 2 2.5 2.5 3 11.5E 2 2.5 3 3 3.5 14

6.5 9 11.5 11.5 14 52.5Tabela 3. Registro das distribuições marginais de X1 e X2.

Desenho. Basta registrar o que se pode veri�car na Tabela 5.Veri�ca-se que as distribuições são simétricas, e que quanto maior o tempo de

serviço do funcionário maior o tempo de serviço do par. O tempo de serviço do paré diretamente proporcional ao maior tempo de serviço.Não vejo maiores contribuições.Creio que foi um exercício muito mal formulado. Eu ainda não entendi qual a

moral.

item l

Especi�cação. Considerando a hipótese de que três �rmas solicitem os serviços dacompanhia MB, determinar o número de triplas a serem formadas.

Desenho. Para resolver a questão, basta considerar o Princípio Fundamental daContagem (PFC), no caso em que pode haver repetição de elementos em um mesmoarranjo.

Implementação. Considerando o PFC, bastaria multiplicar o número de elemen-tos de cada posição do arranjo pelas demais.

N = 5× 5× 5 = 125.

item m

Especi�cação. Registrar hipótese acerca da forma de uma representação grá�cada distribuição de frequências da variável X.

Page 24: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

24

Desenho. Bem, resolver este problema é bastante complicado, pois a especi�caçãofoi muito genérica. Seria preciso determinar melhor o que se pretende com o exer-cício.Eu só posso registrar minha interpretação do enunciado.A meu ver, o autor solicitou que se registrasse qual a hipótese mais provável

acerca da descrição da forma do histograma de X, no caso em que há uma variávelbidimensional.A parte boa da resposta é que poderei testar minha hipótese com o R.Mas vejamos: eu considero que, como não há qualquer relação dentre os fun-

cionários que atendam às três companhias, as variáveis serão independentes.Sendo independentes, o que se pode a�rmar? Como há dois funcionários com

cinco anos de serviço, isto deve afetar a região do grá�co em torno de 5, que seriaa média de serviço das triplas que envolvam apenas os funcionários C e D (como(C,C,C), (D,D,D) e (C,D,D) por exemplo).Como há mais variáveis com mais que três anos de serviço, creio que deve haver

leve assimetria a esquerda.Eu acho que é isto.Vejamos o que vou conseguir com o R. A representação grá�ca está na Figura

0.11.

Histogram of item_m

item_m

Fre

quen

cy

1 2 3 4 5 6 7

010

2030

4050

Figura 0.6. Representação grá�ca da distribuição de frequência davariável X no caso em que ela é uma variável 3D.

Ao �nal, fui surpreendido pelo ombro da assimetria a esquerda, que ocorre em2.5. Não sei explicá-lo. No restante, não acertei o pico, mas foi justamente porquenão considerei que haverá muito mais triplas ordenadas com 1 e 3 que com apenaso valor 7.

Page 25: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

25

Com relação a média de X, deve �car entre 4 e 5, e com relação a variância,a tendência observada nos itens anteriores deve-se repetir e ela deve diminuir, porcausa da presença de maior número de elementos.Vejamos o que o R irá informar: me

(X)

= 4.2; var(X)

= 1.4.De fato, minhas hipóteses estavam corretas.

item n

Especi�cação. Registrar hipótese acerca da forma da distribuição de S2.

Desenho. Como há mais dados disponíveis, creio que o valor médio da variâncianeste caso deve diminuir assim como a sua própria variância.Vejamos o que o R pode nos dizer a respeito.

Histogram of item_n

item_n

Fre

quen

cy

0 2 4 6 8 10 12

010

2030

4050

Figura 0.7. Representação grá�ca da distribuição de frequências deS2. Veri�ca-se que a variância diminui de fato, pois dentre as triplas,as que tem mais frequência são as que tem menos variância.

O valor médio de S2: me (S2) = 4.16, e var (S2) = 11.4.

item o

Especi�cação. Registrar hipótese acerca das distribuições marginais de X.

Desenho. Creio que as distribuições marginais devem continuar simétricas e pro-porcionais ao maior tempo de serviço.

Page 26: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

26

Exercício 32

item d

Apresentação. Ok, o autor pediu para comparar os resultados dos itens (a) e (d).Então, vou registrar neste arquivo os dois grá�cos das distribuições de frequências,e a comparação dentre eles.

Desenvolvimento. Vejamos então, os dois grá�cos.Na Figura 0.8, está registrada a distribuição de frequência da variável X. Na

Figura 0.9, da variável calculada no item d.

Histogram of X

X

Fre

quen

cy

0 2 4 6 8

0.0

0.5

1.0

1.5

2.0

Figura 0.8. Representação grá�ca da distribuição de frequência davariável X do item (a). Veri�ca-se assimetria a esquerda.

Veri�ca-se da comparação dos dois grá�cos que o pico recuou um pouco quando dacombinação do tempo de serviço de cada par de funcionários, a variância aumentouum pouco e a assimetria passou a ser a esquerda.

item e

Apresentação. No enunciado, consta que se deve calcular a média, variância emediana de X, e comparar o resultado com os obtidos no item b, e ao �nal, registrara conclusão. Creio que é um item que não é muito difícil de ser cumprido, a menosda conclusão, que deve ser feita com bastante cautela, dada eventuais complicações.

Desenvolvimento. Nada de mais. O valor médio de X é 4.2, assim como o de X.Já a variância de X é 1.64, contra 5.2 de X. Já a mediana de X é 4, contra 5 damediana de X.

Page 27: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

27

Histogram of X_bar

X_bar

Fre

quen

cy

2 3 4 5 6

01

23

45

6

Figura 0.9. Representação grá�ca da distribuição de frequência davariável obtida a partir das médias da soma das frequências da var-iável X, resultante da combinação do tempo de serviço de dois dosfuncionários da companhia Milsa. Há assimetria a direita.

Conclusão: ao se considerar o trabalho de dois indivíduos conjuntamente, massem que possam atender a mesma �rma, há uma menor variação em torno da mé-dia, os resultados tendem a ser ainda mais concentrados; e o valor central tende adiminuir. Ou seja, quando são considerados pares em empresas distintas, e indepen-dentemente, pode se considerar que a média é mais representativa, mais con�ável.Além disto, há um deslocamento da mediana a esquerda, e isto indica que há umadiminuição do tempo médio de serviço, ou em outros termos, o serviço tende a �carmais rápido, ou cada par atende as empresas Verde e Azul em um intervalo de tempoque é menor que o tempo que passam trabalhando na companhia MB (o que, porsinal, é bastante razoável, senão óbvio).Eu acho que é isto.

item f

Apenas para registrar a representação grá�ca da distribuição da variância de cadapar de X.Ver a Figura 0.10.

item h

Apenas a reedição do exercício anterior. Nada de mais.

Especi�cação. O autor propôs que se indicasse por X1 a variável que expresa otempo de serviço do funcionário que irá atender à �rma Verde e X2 o que irá

Page 28: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

28

Histogram of item_f

item_f

Fre

quen

cy

0 5 10 15 20

02

46

810

12

Figura 0.10. Representação grá�ca da distribuição da variânciapara cada par de elementos de X.

atender a �rma Azul. A seguir, solicitou que fosse feita a distribuição conjunta davariável bidimensional (X1, X2). Lembrando que desta vez o mesmo funcionário �caimpedido de atender simultaneamente ambas as companhias.Registrei no R.

item i

Especi�cação. Deve-se determinar se as variáveis X1 e X2 são independentes.

Desenho. Certo.Creio que bastaria fazer um teste similar ao ilustrado na Tabela 4.7 da página 75.Vejamos o resultado ilustrado na Tabela 4.

item j

Especi�cação. O autor solicitou que se comentasse as distribuições marginais deX1 e X2.

Desenho. Basta registrar o que se pode veri�car na Tabela 5.Veri�ca-se que as distribuições são simétricas, e que quanto maior o tempo de

serviço do funcionário maior o tempo de serviço do par. O tempo de serviço do paré diretamente proporcional ao maior tempo de serviço.Não vejo maiores contribuições.

Page 29: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

29

X1/X2 A B C D EA 0.14 0.20 0.22 0.22 0.20B 0.21 0.20 0.26 0.15 0.20C 0.21 0.25 0.13 0.19 0.19D 0.29 0.15 0.17 0.22 0.20E 0.14 0.20 0.22 0.22 0.20

1.00 1.00 1.00 1.00 1.00Tabela 4. Tabela de dupla entrada das variáveisX1 eX2. Veri�ca-seque as variáveis não estão relacionadas, pois as porcentagens de cadacoluna está muito próxima das porcentagens totais. Mas percebe-seque a variância deve ter aumentado um pouco em relação ao casoem que os funcionários podiam atender a mesma empresa em doispedidos simultaneos, muito embora, isto seja bastante intuitivo.

X1/X2 A B C D EA 0.5 1.0 1.5 1.5 2.0 6.5B 1.0 1.5 2.0 2.0 2.5 9.0C 1.5 2.0 2.5 2.5 3.0 11.5D 1.5 2.0 2.5 2.5 3 11.5E 2.0 2.5 3.0 3.0 3.5 14.0

6.5 9.0 11.5 11.5 14 52.5Tabela 5. Registro das distribuições marginais de X1 e X2.

item l

Especi�cação. Considerando a hipótese de que três �rmas solicitem os serviços dacompanhia MB, determinar o número de triplas a serem formadas.

Desenho. Para resolver a questão, basta considerar o Princípio Fundamental daContagem (PFC), no caso em que não pode haver repetição de elementos em ummesmo arranjo.

Implementação. Como a ordem em que os elementos estão dispostos n.

N = 5× 4× 3 = 60.

item m

Especi�cação. Registrar hipótese acerca da forma de uma representação grá�cada distribuição de frequências da variável X.

Desenho. Bem, resolver este problema é bastante complicado, pois a especi�caçãofoi muito genérica. Seria preciso determinar melhor o que se pretende com o exer-cício.Eu só posso registrar minha interpretação do enunciado.A meu ver, o autor solicitou que se registrasse qual a hipótese mais provável

acerca da descrição da forma do histograma de X, no caso em que há uma variáveltridimensional.A parte boa da resposta é que poderei testar minha hipótese com o R.Mas vejamos: eu considero que, como não há qualquer relação dentre os fun-

cionários que atendam às três companhias, as variáveis serão independentes.

Page 30: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

30

Sendo independentes, o que se pode a�rmar? Como há dois funcionários comcinco anos de serviço, isto deve afetar a região do grá�co em torno de 5, que seriaa média de serviço das triplas que envolvam apenas os funcionários C e D (como(C,C,C), (D,D,D) e (C,D,D) por exemplo).Como há mais variáveis com mais que três anos de serviço, creio que deve haver

leve assimetria a esquerda.Eu acho que é isto.Vejamos o que vou conseguir com o R. A representação grá�ca está na Figura

0.11.

Histogram of item_m

item_m

Fre

quen

cy

0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0

05

1015

Figura 0.11. Representação grá�ca da distribuição de frequência davariável X no caso em que ela é uma variável 3D.

A assimetria parece ter se deslocado a direita e o pico a 1.3. Entendi que estedeslocamento se deve ao aumento drástico de triplas ordenadas envolvendo valoresmenores ou iguais a 5. Como existem muitos deles, o pico deve se deslocar parabaixo mesmo.Com relação a média de X, ela deve diminuir, pelo aumento drástico de triplas

com valores menores ou iguais a 5, e com relação a variância, a tendência observadanos itens anteriores deve-se repetir e ela deve diminuir, por causa da presença demaior número de elementos.Vejamos o que o R irá informar: me

(X)

= 1.4; var(X)

= 0.17.De fato, minhas hipóteses estavam corretas.

item n

Especi�cação. Registrar hipótese acerca da forma da distribuição de S2.

Page 31: Introdução - WordPress.comIntrodução Comentário sobre a tabela de contingência. Não entendi muito bem a apre-sentação que o autor fez acerca das tabelas de dupla entrada

31

Desenho. Como há mais dados disponíveis, creio que o valor médio da variâncianeste caso deve diminuir assim como a sua própria variância.Vejamos o que o R pode nos dizer a respeito.

Histogram of item_n

item_n

Fre

quen

cy

0.2 0.4 0.6 0.8 1.0

05

1015

2025

30

Figura 0.12. Representação grá�ca da distribuição de frequênciasde S2. Estranhamente, há pouca variância na faixa até .4, o pico sedá além de 1.0, o que implica no aumento da variância se comparadocom o caso em que dois funcionários podem atender a duas solicitaçõessimultaneas da mesma �rma. É razoável esperar isto porque no casoanterior, aos pares do tipo (A,A) corresponde uma variância nula.

O valor médio de S2: me (S2) = 4.16, e var (S2) = 11.4.

item o

Especi�cação. Registrar hipótese acerca das distribuições marginais de X.

Desenho. Creio que as distribuições marginais devem continuar simétricas e pro-porcionais ao maior tempo de serviço.Eu acho que é isto. Não gostei do exercício, pareceu-me sem propósito, ou su-

til demais para perceber qual a intenção do autor; �Claritas inestimabilis qualitasest�.