hestat stica cla ssicaidraft version hestat stica cla ssicai no rstudio filipe j. zabala pucrs...

165
DRAFT VERSION HEstat ´ ıstica Cl´ assicaI no RStudio Filipe J. Zabala PUCRS [email protected] 2020-08-10 “ Meninos, eu vou ditar as regras do bem viver ao basta somente ler, ´ e preciso ponderar que a li¸ ao n˜ao faz saber, quem faz s´ abios ´ e o pensar.” B´arbara Heliodora, 1862 Sum´ ario 1 Introdu¸ ao e Nota¸ ao 4 1.1 Algarismos e N´ umeros ...................................... 4 1.2 Porcentagens, Decimais e Milhares ............................... 5 1.3 O Senhor X ............................................ 5 1.4 Somat´ orio ............................................. 5 1.5 Arredondamento e Truncagem ................................. 7 1.6 Outros s´ ımbolos e express˜ oes .................................. 8 1.7 Momentinho Cultural ...................................... 9 2 Estat´ ıstica Descritiva 10 2.1 Vari´ aveis .............................................. 10 2.1.1 Vari´ avel qualitativa nominal ............................... 10 2.1.2 Vari´ avel qualitativa ordinal ............................... 11 2.1.3 Vari´ avel quantitativa discreta .............................. 11 2.1.4 Vari´ avel quantitativa cont´ ınua ............................. 12 2.2 Distribui¸ ao de Frequˆ encia .................................... 13 2.2.1 Dados brutos, Rol e Estat´ ısticas de Ordem ...................... 13 2.2.2 Tabela de frequˆ encia univariada discreta ........................ 14 2.2.3 Tabela de frequˆ encia univariada cont´ ınua ....................... 17 2.2.4 Tabela (de frequˆ encia) bivariada ............................ 23 2.3 Medidas de Posi¸ ao (ou Localiza¸c˜ ao) .............................. 25 2.3.1 ınimo e M´ aximo .................................... 25 2.3.2 edia (Aritm´ etica Simples) ............................... 26 2.3.3 Total ............................................ 26 2.3.4 edia (Aritm´ etica) Ponderada ............................. 27 2.3.5 edia Geom´ etrica .................................... 28 2.3.6 edia Harmˆ onica .................................... 28 2.3.7 edia Quadr´ atica .................................... 29 2.3.8 Moda ........................................... 29 1

Upload: others

Post on 18-Nov-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

HEstatıstica ClassicaIno RStudio

Filipe J. ZabalaPUCRS

[email protected]

2020-08-10

“ Meninos, eu vou ditar as regras do bem vivernao basta somente ler, e preciso ponderar

que a licao nao faz saber, quem faz sabios e o pensar.”

∼ Barbara Heliodora, 1862

Sumario

1 Introducao e Notacao 41.1 Algarismos e Numeros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2 Porcentagens, Decimais e Milhares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3 O Senhor X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4 Somatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.5 Arredondamento e Truncagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.6 Outros sımbolos e expressoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.7 Momentinho Cultural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Estatıstica Descritiva 102.1 Variaveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1.1 Variavel qualitativa nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.1.2 Variavel qualitativa ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.1.3 Variavel quantitativa discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.1.4 Variavel quantitativa contınua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2 Distribuicao de Frequencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2.1 Dados brutos, Rol e Estatısticas de Ordem . . . . . . . . . . . . . . . . . . . . . . 132.2.2 Tabela de frequencia univariada discreta . . . . . . . . . . . . . . . . . . . . . . . . 142.2.3 Tabela de frequencia univariada contınua . . . . . . . . . . . . . . . . . . . . . . . 172.2.4 Tabela (de frequencia) bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.3 Medidas de Posicao (ou Localizacao) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.3.1 Mınimo e Maximo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.3.2 Media (Aritmetica Simples) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.3.3 Total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262.3.4 Media (Aritmetica) Ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.3.5 Media Geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.3.6 Media Harmonica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.3.7 Media Quadratica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.3.8 Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

1

Page 2: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION2.3.9 Separatrizes (ou Quantis) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.4 Medidas de Dispersao (ou Variabilidade) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.4.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322.4.2 Variancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.4.3 Desvio Padrao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342.4.4 Coeficiente de Variacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.5 Outras medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362.5.1 Assimetria (ou Obliquidade) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362.5.2 Curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.6 Visualizacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.6.1 Grafico de Setores (Pizza) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.6.2 Grafico de Barras e Colunas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.6.3 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402.6.4 Box plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412.6.5 Grafico de Dispersao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422.6.6 Mais opcoes de visualizacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3 Probabilidade 473.1 Teoria dos Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.1.1 Relacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.1.2 Conjunto Vazio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.1.3 Cardinal e Conjunto das Partes/Potencia . . . . . . . . . . . . . . . . . . . . . . . 483.1.4 Operacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.1.5 Conjuntos Disjuntos e Particao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.2 Definicoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.2.1 Experimento Aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.2.2 Espaco Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.2.3 Evento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.2.4 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.2.5 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533.2.6 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.2.7 Teorema da Probabilidade Total e o Teorema de Bayes . . . . . . . . . . . . . . . . 55

3.3 Variaveis Aleatorias Discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 553.3.1 Esperanca e Variancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 563.3.2 Distribuicoes de probabilidade especiais . . . . . . . . . . . . . . . . . . . . . . . . 573.3.3 Distribuicao Binomial · B(n, p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 583.3.4 Distribuicao Binomial Negativa · BN (k, p) . . . . . . . . . . . . . . . . . . . . . . . 593.3.5 Distribuicao Poisson · P(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603.3.6 Distribuicao Hipergeometrica · H(N,R, n) . . . . . . . . . . . . . . . . . . . . . . . 61

3.4 Variaveis Aleatorias Contınuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 623.4.1 Esperanca e Variancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 633.4.2 Distribuicao Uniforme · U(a, b) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643.4.3 Distribuicao Normal · N (µ, σ2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643.4.4 Teorema Central do Limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673.4.5 Distribuicao Qui-quadrado · χ2(ν) . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.4.6 Distribuicao t (de Student) · t(ν) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 703.4.7 Distribuicao F (de Fisher-Snedecor) · F(ν1, ν2) . . . . . . . . . . . . . . . . . . . . 713.4.8 Distribuicao Exponencial · E(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4 Inferencia Estatıstica Classica 774.1 Universo e Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.1.1 N e n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 784.2 Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

4.2.1 Conceitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 794.2.2 Calculo do tamanho da amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . 804.2.3 Amostragem Aleatoria Simples (AAS) . . . . . . . . . . . . . . . . . . . . . . . . . 814.2.4 Amostragem Estratificada (AE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

Page 2

Page 3: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION4.2.5 Amostragem por Conglomerados (AC) . . . . . . . . . . . . . . . . . . . . . . . . . 824.2.6 Amostragem Sistematica (AS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 824.2.7 Amostragem por Cotas (ACot) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4.3 Estimacao Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 834.3.1 Proporcao ou Percentual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 834.3.2 Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 844.3.3 Variancia e Desvio Padrao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.4 (Estimacao por) Intervalo de Confianca . . . . . . . . . . . . . . . . . . . . . . . . . . . . 844.4.1 Proporcao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 854.4.2 Media com σ conhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 864.4.3 Media com σ desconhecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 874.4.4 Variancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 874.4.5 Desvio Padrao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

4.5 (Estimacao por) Teste de Hipoteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 884.5.1 Equivalencia entre Testes de Hipoteses e Intervalos de Confianca . . . . . . . . . . 884.5.2 Hipoteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 894.5.3 Estatıstica do Teste - Univariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914.5.4 Valor-p (p-value) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 934.5.5 Valor Crıtico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.5.6 Estatıstica do Teste - Bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

5 Modelos Lineares 1015.1 Correlacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

5.1.1 ρ, a correlacao universal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1015.1.2 r, (coeficiente de) correlacao (amostral) (de Pearson) . . . . . . . . . . . . . . . . . 1035.1.3 Teste para ρ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1045.1.4 ρRPO e rRPO, a correlacao na Regressao Pela Origem . . . . . . . . . . . . . . . . 105

5.2 Modelo Linear Univariado ou Regressao Linear Simples . . . . . . . . . . . . . . . . . . . 1055.2.1 Equacao da reta via Mınimos Quadrados Ordinarios . . . . . . . . . . . . . . . . . 1065.2.2 Analise de diagnostico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

6 Modelos Nao Lineares 119

7 Numeros Indice 1267.1 Indices Relativos ou Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

7.1.1 de Preco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1277.1.2 de Quantidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1277.1.3 de Valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

7.2 Indices Agregativos Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1287.2.1 Indice Agregativo Simples (de Bradstreet) . . . . . . . . . . . . . . . . . . . . . . . 128

7.2.2 Indice Medio Aritmetico (de Sauerbeck) . . . . . . . . . . . . . . . . . . . . . . . . 128

7.3 Indices Agregativos Ponderados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1297.3.1 Indice (Ponderado) de Laspeyres ou da epoca base . . . . . . . . . . . . . . . . . . 129

7.3.2 Indice (Ponderado) de Paasche ou da epoca atual . . . . . . . . . . . . . . . . . . . 129

7.3.3 Indice (Ponderado) de (Irving) Fisher . . . . . . . . . . . . . . . . . . . . . . . . . 130

A Tabelas 132

B Respostas dos exercıcios 140

C Uma breve introducao ao R e RStudio 159

D Equacao da Reta 162

Page 3

Page 4: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

“ O pensamento estatıstico sera um dia tao necessario para a cidadania

quanto a habilidade de ler e escrever.”∼ James W. Tankard Jr., 19791

1 Introducao e Notacao

Ha dois motivos para ler este texto: (i) voce deseja se tornar um profissional qualificado e entendeque o ferramental estatıstico pode auxiliar em suas decisoes futuras ou (ii) voce foi obrigado. De

toda forma sugere-se a leitura deste e de outros materiais de apoio ao longo do curso2, praticando atravesde exercıcios de fixacao3. Leia este livro / E uma pesquisa paciente / Cada linha desse texto / No papel ouvirtualmente / Fara voce ficar / Ao menos inteligente4. Este texto consiste em declaracoes tao verıdicasquanto o possıvel para a linguagem humana usual.

O Metodo Estatıstico ou simplesmente Estatıstica reune ferramentas teoricas e praticas para analisarinformacoes quantitativas, medir incertezas e auxiliar na tomada de decisao. E um componente doMetodo Cientıfico, e pode ser dividido conforme o esquema da Figura 1.1.

ESTATISTICA

INFERENCIALDESCRITIVA PREDITIVA

CLASSICA BAYESIANAMODELAGEM

ALGORITMICA

Figura 1.1: Uma possıvel divisao da Estatıstica

Neste curso serao abordados topicos de Estatıstica Descritiva, Probabilidade, Inferencia Estatısticasob o prisma da Estatıstica Classica (ou Frequentista), Modelos Lineares e Numeros Indice.

1.1 Algarismos e Numeros

Um algarismo e um sımbolo, enquanto um numero expressa uma ideia de quantidade. Numeros saorepresentados por algarismos, sendo fundamental distinguir estes elementos.

Se ha 20 alunos na sala A outros 30 na sala B, pode-se dizer que, em media, ha 20+302 = 25 alunos nas

duas salas. Esta e uma informacao numerica. Se rotularmos o sexo masculino como 0 e o feminino como1, fica claro que 0 e 1 estao sendo tratados como algarismos, uma vez que nao expressam quantidades.

1http://www.sciencedirect.com/science/article/pii/03150860799010102Este material foi desenvolvido no R 4.0.2 e RStudio 1.3.1056, disponıvel em filipezabala.com.3pt.khanacademy.org/4“Compre este disco / E uma pesquisa paciente / Cada volta da agulha / Pelo sulco docemente / Fara voce ficar / Mais

feliz e inteligente”. ‘Jingle do Disco’ de Tom Ze, do album 1992 The Hips of Tradition.

Page 4

Page 5: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

1.2 Porcentagens, Decimais e Milhares

Neste texto sera adotado o padrao americano, que utiliza o sımbolo de ponto (.) como separador dedecimais e vırgula (,) como separador de milhares. Assim,

1

40= 0.025 = 0.0250 = .025 = 2.5% =

2.5

100.

Dızimas periodicas serao escritas na forma 13 = 0.333... = 0.3 ≈ 0.333 ≈ 0.3. O numero 32, 960 =

30, 000 + 2, 000 + 960 deve ser lido como ‘trinta e dois mil novecentos e sessenta’.Esta opcao evita muitos problemas, ja que muitos softwares estatısticos nao sao compatıveis com o

padrao brasileiro, que utiliza vırgula como separador de decimais e ponto para separar os milhares. Nasanotacoes pessoais e listas de exercıcios podera ser adotada a notacao de preferencia do aluno.

1.3 O Senhor X

Quando avalia-se algo de interesse pratico, em geral observam-se nomes longos. Considere a variavel

X: ‘numero de filhos de mulheres atendidas em um hospital publico de Porto Alegre em2019’.

Esta longa descricao tornara macante qualquer texto que utilize-o muitas vezes, tornando impraticavela realizacao de calculos envolvendo tal caracterıstica de interesse. E razoavel, portanto, associar descricoeslongas a sımbolos. A letra X e famosa por simbolizar algo generico, tanto na Ciencia quanto na vidacotidiana. Note que o sımbolo utilizado para separar X de sua descricao e ‘ : ’, e nao ‘ = ’, comoerroneamente se utiliza em certos casos.

Neste texto sera utilizado X (maiusculo) para representar a caracterıstica de interesse, e xk (minus-culo) para representar o k-esimo valor observado desta caracterıstica. Assim, enquanto X representagenericamente o numero de filhos de mulheres atendidas em um hospital publico de Porto Alegre em2012, x4 = 2 indica que a quarta mulher avaliada no estudo tem dois filhos.

1.4 Somatorio

A soma de n numeros x1, x2, ..., xn e representada por∑ni=1 xi = x1 +x2 + · · ·+xn, e le-se ‘somatorio

de xis i de um ate ene’.

Exemplo 1.1. (Numero de passos) Suponha que foi anotado o ‘numero de passos ate a lixeira maisproxima’ na cidade de Porto Alegre em n = 6 ocasioes, conforme Tabela 1.1.

x1 x2 x3 x4 x5 x6

186 402 191 20 7 124

Tabela 1.1: Numero de passos ate a lixeira mais proxima na capital gaucha

Esta tabela indica que na primeira ocasiao foram caminhados 186 passos ate localizar uma lixeira(representado por x1 = 186), na segunda foram 402 passos (representado por x2 = 402), e assim suces-sivamente. Para calcular o total de passos caminhados, pode-se fazer

6∑i=1

xi = x1 + x2 + · · ·+ x6 = 186 + 402 + 191 + 20 + 7 + 124 = 930 (1)

Page 5

Page 6: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> 186+402+191+20+7+124 # R e RStudio s~ao calculadoras (Apendice C)

[1] 930

> x <- c(186,402,191,20,7,124) # Pode-se criar um vetor e atribuir a x> sum(x) # Usando a func~ao 'sum', apresentada na Equac~ao (1)

[1] 930

> sum(x^2) # Soma dos quadrados, representada pela Equac~ao (2)

[1] 248506

,A letra grega

∑e o sigma maiusculo, conforme Tabela 1.3. Em muitos casos a simbologia de somatorio

e simplificada, utilizando-se∑

,∑x ou

∑i. A seguir estao alguns exemplos mais avancados5.

n∑i=1

x2i = x2

1 + x22 + . . .+ x2

n (2)

n∑i=1

(xi − x)2 = (x1 − x)2 + (x2 − x)2 + . . .+ (xn − x)2 =n∑i=1

(xi − µ)2 + (x− µ)2

(3)

EXERCICIOS

1. Considere o banco de dados disponıvel no pacote coronavirus6 conforme codigo abaixo.

> # install.packages('coronavirus', dep=T) # rodar uma vez> library(coronavirus) # chamando a biblioteca 'coronavirus'> data(coronavirus) # deixando o banco de dados disponıvel> dim(coronavirus) # dimens~oes do banco de dados (linhas x colunas)

[1] 150720 7

> head(coronavirus) # mostrando o inıcio do banco de dados

date province country lat long type cases1 2020-01-22 Afghanistan 33.93911 67.70995 confirmed 02 2020-01-23 Afghanistan 33.93911 67.70995 confirmed 03 2020-01-24 Afghanistan 33.93911 67.70995 confirmed 04 2020-01-25 Afghanistan 33.93911 67.70995 confirmed 05 2020-01-26 Afghanistan 33.93911 67.70995 confirmed 06 2020-01-27 Afghanistan 33.93911 67.70995 confirmed 0

a) Obtenha a soma de casos (cases) registrados ao longo de todo o perıodo.

b) Obtenha a soma ao quadrado de casos registrados ao longo de todo o perıodo.

c) Obtenha a soma de casos registrados ao longo de todo o perıodo dividido por tipo (type).

d) Considerando a variavel X: ‘numero de casos registrados’ em n = 150720 linhas do banco de dados, represente

os itens a) e b) utilizando a notacao de somatorio.

5Notacao utilizada no calculo de variancias, detalhado na Secao 2.4.2.6Johns Hopkins University Center for Systems Science and Engineering (JHU CCSE). https://systems.jhu.edu/

research/public-health/ncov

Page 6

Page 7: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

1.5 Arredondamento e Truncagem

Arredondamento7 e truncagem sao metodos para escrever numeros com precisao delimitada.Para arredondar um numero para a k-esima casa decimal, basta observar a k+1-esima casa. Se a k+1-

esima casa decimal for 0, 1, 2, 3 ou 4, mantem-se a k-esima casa decimal; se a k+1-esima casa decimalfor 5, 6, 7, 8 ou 9, soma-se 1 a k-esima casa decimal. Como exercıcio, releia a frase anterior substituindo‘k-esima’ por ‘primeira’ e ‘k+1-esima’ por ‘segunda’, aplicando esta regra para o numero 153.654321.Note que deve-se sempre avaliar o numero original para realizar o arredondamento. Arredondamentossao comuns, por exemplo, ao calcularmos um ındice de preco ou um montante de pagamento sobre oqual incidiu certa taxa de juros.

Para truncar um numero para a k-esima casa decimal, basta eliminar a k+1-esima casa decimal e suassubsequentes. Como exercıcio, releia a frase anterior substituindo ‘k-esima’ por ‘primeira’ e ‘k+1-esima’por ‘segunda’, aplicando esta regra novamente para o numero 153.654321. Compare com os valoresarredondados e note que pode-se utilizar numeros ja truncados para continuar a reduzir a precisao sem anecessidade de conhecer o valor original. Truncagens sao comuns, por exemplo, para representar idadese ao calcular os graus G1 e G2 da PUCRS. Assim, se o calculo do seu G1 resultar em 6.99999999, osistema ira truncar para 6.9, e nao arredondar para 7.0.

Exemplo 1.2. (Arredondamento e truncagem)

Decimais Arredondamento Truncagem

6 153.654321 153.6543215 153.65432 153.654324 153.6543 153.65433 153.654 153.6542 153.65 153.651 153.7 153.60 154 153−1 150 150−2 200 100

Tabela 1.2: Arredondamento e truncagem do numero 153.654321

> options(digits = 10) # Ajustando para apresentac~ao de 10 dıgitos (padr~ao: 7)

> for(i in 6:-2) print(round(153.654321, dig = i)) # 'digits' casas decimais

[1] 153.654321

[1] 153.65432

[1] 153.6543

[1] 153.654

[1] 153.65

[1] 153.7

[1] 154

[1] 150

[1] 200

> trunc <- function(x, ..., dig = 0) base::trunc(x*10^dig, ...)/10^dig # Aprimorando

> for(i in 6:-2) print(trunc(153.654321, dig = i)) # Precis~ao de i decimais

[1] 153.654321

[1] 153.65432

[1] 153.6543

[1] 153.654

[1] 153.65

[1] 153.6

[1] 153

[1] 150

[1] 100

7Esta e a regra do arredondamento para o numero mais proximo.

Page 7

Page 8: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> # install.packages('plyr', dep = T) # Utilizando round_any do pacote plyr

> plyr::round_any(153.654321, .01, round) # dig = 2 em round

[1] 153.65

> plyr::round_any(153.654321, .0001, floor) # dig = 4 em trunc

[1] 153.6543

> plyr::round_any(153.654321, 1, round) # dig = 0 em round

[1] 154

> plyr::round_any(153.654321, 100, round) # dig = -2 em round

[1] 200

,

1.6 Outros sımbolos e expressoes

· ∼: tem distribuicao.

· ≈: aproximadamente.

· #: numero de.

· ⊥⊥: e independente de.

· ±/∓: mais ou menos/menos ou mais.

· ,: fim do Exemplo.

·a

: fim do Teorema.

· ˇ “( : fim do Momentinho Cultural.

· i.e.: id est, expressao em Latim que significa ‘isto e’.

· e.g.: exempli gratia, expressao em Latim que significa ‘por exemplo’.

Maiuscula Minuscula Nome Maiuscula Minuscula NomeA α Alfa N ν NuB β Beta Ξ ξ Csi

Γ γ Gama O o Omicron∆ δ Delta Π π, $ Pi

E ε, ε Epsilon P ρ, % RoZ ζ Zeta Σ σ, ς SigmaH η Eta T τ Tau

Θ θ, ϑ Teta Υ υ UpsilonI ι Iota Φ φ, ϕ FiK κ, κ Capa X χ QuiΛ λ Lambda Ψ ψ Psi

M µ Mu Ω ω Omega

Tabela 1.3: Sim, estamos falando grego.

Page 8

Page 9: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

1.7 Momentinho Cultural

Sabe-se que a atencao do ser humano e limitada. O limiar de atencao – tempo que uma pessoaconsegue ficar focada em determinada tarefa – gira em torno de 40 minutos para tarefas do cotidiano8

e nao mais do que 10 ou 15 minutos em sala de aula, pela experiencia do autor. Assim, em um esforcopara dar um maior dinamismo as aulas, foi criado o Momentinho Cultural. E uma pausa com tempodeterminado arbitrariamente pelo professor, com a funcao principal de descontrair o ambiente. Talarbitrariedade fornece ao professor autonomia para nao realizar o MC, se assim julgar necessario.

‘Momentinho’ sugere uma pausa breve, enquanto ‘Cultural’ tem como objetivo nortear a discussaolivre para assuntos mais elevados. Os temas abordados com maior frequencia sao Musica, Teatro, Cinemae Atualidades. Note as intervencoes intituladas ‘Momentinho Cultural’ ao longo deste material, que sevalem dos benefıcios da aplicacao do metodo9:

· relaxa;

· e divertido;

· estimula a comunicacao entre os alunos e o professor;

· cria um ambiente para discussao de questoes fundamentais que nao encontram espaco no currıculoformal.

Mas justica seja feita aos mestres que ja se utilizavam desta tecnica, que foi transmitida ao autorpelo grande Joao Beal Vargas durante suas magneticas aulas. O professor, maratonista, poeta e gaiteroChico Silveira costumava aplicar seu MC, o ‘Momento do Chico’. Curiosamente outro sabio professor –o sempre alegre Jose Baratojo – nos ensina sobre esta arte, intitulada ‘zunzun’ em seu conto ‘Psicologiadas cores’10, transcrito abaixo.

Psicologia das cores

Alguns anos atras recebi uma turma de alunos (47 alunas e 3 alunos) do Curso de Psi-cologia. Como podem imaginar, a parte da aula mais difıcil nao era referente aos assuntosda Matematica que eu devia ministrar-lhes, mas sim, fazer com que as alunas conseguissemparar de conversar.

Em primeiro lugar, entrei num acordo com aquele simpatico e educado grupo, acordo esseque consistia em fazer de tempos em tempos, apos a explicacao de algum assunto, um mo-mento que intitulamos de “zunzun”. Desse modo, fomos ate o fim do semestre bem entrosados.

Como a turma era numerosa, resolvi, no primeiro trabalho de verificacao da aprendizagem,organizar quatro provas diferentes e, para que pudesse identifica-las de longe, eu as fiz empapel com cores diferentes: amarelo, verde, rosa e branco.

Os alunos verificaram logo que havia quatro provas diferentes e trataram cada um deresolver a sua, pois nao dava para conferir com a dos seus vizinhos.

No segundo trabalho, eu resolvi fazer somente duas provas diferentes, mas distribuı aquelasprovas tambem em papel com quatro cores diferentes.

Quando eles viram as cores, baixaram a cabeca e comecaram a trabalhar, tranquilamente.No terceiro e ultimo trabalho, eu fiz uma unica prova e continuei usando as quatro cores

e o trabalho tambem foi realizado numa grande tranquilidade.Ao termino do ultimo trabalho, eles perceberam comparando as questoes que haviam resol-

vido, que todos tinham a mesma prova e, entao, vieram me perguntar: “Professor! So existiauma unica prova?” Eu lhes respondi afirmativamente.

“Entao por que o senhor usou as quatro cores diferentes?”Aı eu lhes disse: Eu usei as quatro cores por tres grandes motivos: 1 º) para que voces

pensassem que eram quatro provas diferentes, o que voces realmente pensaram; 2 º) para quevoces, pensando dessa forma, realizassem a prova tranquilamente, sem se preocuparem comos vizinhos, o que aconteceu tambem; 3 º) para que os alunos da psicologia vissem a influenciadas cores no comportamento humano!

∼ Jose Baratojo, 2000

8Dukette and Cornish (2009)9Dica: busque por ‘momentinho cultural’ no Google.

10Baratojo (2000).

Page 9

Page 10: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

“ Fazendo umas medias se faz uma media.”∼ Filipe J. Zabala, 2015

2 Estatıstica Descritiva

AEstatıstica Descritiva esta diretamente ligada a organizacao e descricao dos dados. E utili-zada para avaliar como as observacoes se distribuem, onde estao posicionadas e como se apre-

sentam em termos de dispersao e associacao. Neste capıtulo serao introduzidos conceitos e metodosdescritivos, ponto de partida da analise exploratoria de dados, passo fundamental para analises estatıs-ticas mais avancadas.

2.1 Variaveis

Variavel e uma caracterıstica medida nos universos ou amostras. As variaveis qualitativas ou atributosavaliam caracterısticas nao numericas no conjunto de interesse, como genereo, time de futebol e nıvelde escolaridade. As variaveis quantitativas medem caracterısticas numericas, como numero de alunosprestando atencao ou tempo de uma musica em segundos. Podem ser classificadas conforme a Figura2.1.

Variavel

Qualitativa Quantitativa

Nominal Ordinal Discreta Contınuacharacter factor integer numeric

Figura 2.1: Uma possıvel classificacao das variaveis

2.1.1 Variavel qualitativa nominal

Variaveis qualitativas nominais possuem o menor grau de informacao dentre os quatro tipos propostos,permitindo apenas a avaliacao de frequencias e ordenacoes arbitrarias. Aplicam-se em avaliacoes degrupos nao ordenados, tais como ‘genero’, ‘religiao’, ‘raca’, ‘cor preferida’, ‘bairro onde reside’, ‘time defutebol do coracao’, etc.

Exemplo 2.1. (Time de futebol do coracao) Suponha um lugar onde tudo seja tratado de maneira dicoto-mica11. Como exercıcio, no primeiro dia de aula de Estatıstica as pessoas sao questionadas quanto ao‘time de futebol do coracao’ atraves do voto secreto em uma cedula, onde estao listados os dois timeslocais. Nao existe informacao previa que obrigue a dispor na listagem qualquer time antes ou depois deoutro. Por este motivo optou-se pela ordenacao alfabetica – apesar do princıpio de tumulto –, resultandona lista

Maragato F.C.

Ximango F.C.

Os mais tradicionalistas gritavam palavras de ordem, preferindo a grafia

Chimango F.C.

Maragato F.C.

,11Dicotomia e o ato de segmentar um conjunto em dois subconjuntos mutuamente excludentes, i.e., um elemento pode

pertencer somente a um dos subconjuntos.

Page 10

Page 11: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION2.1.2 Variavel qualitativa ordinal

Variaveis qualitativas ordinais possuem grau de informacao maior em relacao as nominais pois saodotadas de uma ordenacao previa, permitindo comparacoes entre as observacoes. As variaveis de naturezaordinal sao utilizadas quando avaliam-se medidas tais como ‘colocacao em um torneio esportivo’, ‘graude escolaridade’, ‘classificacao de um restaurante quanto a qualidade da comida’, etc.

Exemplo 2.2. (Colocacao no vestibular) A variavel ‘colocacao geral no vestibular’ e classificada comoqualitativa ordinal pois indica a ordenacao do vestibulando em comparacao aos demais, mesmo que naose conheca a nota final de cada candidato.,

Exemplo 2.3. (Escala de Likert) Quando deseja-se medir o grau de satisfacao em relacao a algum bemou servico, pode-se utilizar a Escala de Likert de k nıveis. Se um empresario utilizar k = 4, pode fazer1: Ruim, 2: Regular, 3: Bom, 4: Otimo. Se k = 5, pode-se considerar 1: Pessimo, 2: Ruim, 3: Regular,4: Bom, 5: Otimo.

A vantagem de utilizar k par e que obriga-se o respondente a se posicionar a favor/contra, acima/abaixo.,

Exemplo 2.4. (Corrida maluca) Suponha uma corrida disputada em Imaginationland12, na qual RubinhoBarrichello tenha chegado na primeira colocacao e Ayrton Senna na decima nona. As unicas informa-coes de que dispomos apontam que i) Barrichello chegou antes de Senna, ii) ninguem chegou antes deBarrichello, iii) ha 17 intermediarios e iv) de fato, tudo aconteceu em Imaginationland.,

2.1.3 Variavel quantitativa discreta

Uma variavel quantitativa discreta assume apenas valores inteiros, i.e., discretos. Tecnicamente asvariaveis discretas sao caracterizadas por conjuntos enumeraveis13 finitos ou infinitos.

Exemplo 2.5. (Numero de filhos) Suponha que deseja-se observar o numero de filhos de mulheres aten-didas em um hospital. Para cada mulher entrevistada, o conjunto de possıveis respostas para a pergunta‘quantos filhos a senhora tem?’ e F = 0, 1, 2, . . . , k, onde k e o numero maximo de filhos que uma mu-lher possa ter ao longo de sua vida. O recorde mundial e k = 69, atribuıdo a russa Valentina Vassilyeva.Este e um conjunto enumeravel finito.,

Exemplo 2.6. (Pontos em um dado lancado k vezes) Suponha k lancamentos de um dado. Em cadalancamento e anotada a face resultante, somada aos valores obtidos nos k − 1 lancamentos anteriores.O conjunto de possıveis resultados deste experimento e S = k, k + 1, . . . , 6k. Este e um conjuntoenumeravel finito. Como exercıcio, faca k = 4 e releia a sentenca anterior substituindo os valores.,

Exemplo 2.7. (Consumo de uma engrenagem moto-contınua) Suponha uma engrenagem eterna, comconsumo medido em PAB14. O conjunto do numero possıvel de passos e S = 1, 2, . . .. Este e umconjunto enumeravel infinito./

Exemplo 2.8. (Pilcher’s Squad) Norman Pilcher foi o criador da Drug Squad, e ganhou notoriedade nosanos 60 por prender artistas como Mick Jagger e John Lennon. O conjunto de artistas que o SargentoPilcher poderia prender e A = a1, a2, . . . , ak, onde k representa o numero de artistas disponıveis paraserem presos. Este e um conjunto enumeravel finito.,

12http://www.imdb.com/title/tt099557713Um conjunto enumeravel e aquele em que se pode listar e contar os elementos.14Passos Ate a Bufunfa.

Page 11

Page 12: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION2.1.4 Variavel quantitativa contınua

A classe de variaveis quantitativas contınuas e caracterizada por permitir a observacao de qualquersubconjunto dos numeros reais como resultado, i.e., permite resultados nao inteiros. E utilizada para ava-liar tempo, distancias, areas, volumes ou qualquer outra grandeza numerica de carater nao enumeravel15.Tal como nas variaveis discretas, e possıvel avaliar relacoes matematicas entre os valores observados.

Exemplo 2.9. (Percentual de bulımicas) Suponha que um grupo de pesquisadores esta interessado emavaliar o ‘percentual de mulheres bulımicas no Rio Grande do Sul’. Este valor esta obrigatoriamente entre0 e 1 (ou 0% e 100%), podendo ser representado pelo conjunto nao enumeravel Ω = b ∈ R : 0 ≤ b ≤ 1.,

Exemplo 2.10. (Idade) A variavel ‘idade’ e classificada como quantitativa contınua por representar umanocao temporal. Caso haja interesse, pode-se dizer que em certo instante do tempo Joao apresentou31.990192013071629871269817323644 anos de idade. Na pratica, porem, geralmente as idades sao trun-cadas16, sendo que Joao provavelmente afirmaria ter 31 anos de idade mesmo um dia antes do seu32ºaniversario. Na melhor das situacoes as idades sao observadas com precisao de dias, calculando-se aidade do indivıduo pela diferenca entre o dia de hoje e o seu dia de nascimento, convertendo o valor paraanos. O conjunto dos possıveis tempos de vida de um ser humano e dado por Ω = t ∈ R : 0 < t ≤ T,onde T e a idade maxima em anos que um ser humano pode atingir. Segundo o Guiness World Records,T = 122.44931506849315, alcancado pela francesa Jeanne Louise Calment. Ω e dito nao enumeravelvisto nao ser possıvel contabilizar o seu numero de elementos.,

Exemplo 2.11. (Descendo o nıvel) Suponha que um grupo de pessoas foi avaliado em relacao a variavel

‘idade’ medida em anos, considerando-se a hora e minuto do nascimento. E possıvel transforma-lana variavel ‘idade discreta’ simplesmente truncando os valores observados. Da mesma forma, pode-setranforma-la na variavel ‘idade ordinal’, classificando-a de acordo com a tabela a seguir.

i Faixa etaria Classificacao1 Ate 10 anos Crianca2 10 ` 13 Pre-adolescente3 13 ` 18 Adolescente4 18 ` 35 Adulto jovem5 35 ` 45 Adulto6 45 ` 65 Adulto maduro7 65 ` 75 Idoso jovem8 75 + Idoso

Note que se uma pessoa tem 31.990192013071629871269817323644 anos de idade (contınua), pode-se considerar a idade truncada de 31 anos (discreta) e classifica-la como um ‘adulto jovem’ (ordinal).Porem, dado que uma pessoa e classificada como adulto jovem, e possıvel apenas afirmar que ela temidade entre 18 anos (completos) e 35 anos (incompletos) segundo a classificacao proposta.,

Cada tipo de variavel apresenta um nıvel de informacao que deve ser respeitado. E possıvel ir de umnıvel maior de classificacao para um nıvel menor, mas jamais ao contrario. E valido lembrar que perde-seinformacao ao descer o nıvel de classificacao da variavel. E bastante comum, porem, encontrar trabalhosutilizando nıveis de classificacao inapropriados, conduzindo a tecnicas nao adequadas que implicam emconclusoes equivocadas.

EXERCICIOS

1. Classifique as variaveis abaixo (qualitativa nominal/ordinal, quantitativa discreta/contınua).

a) Numero de geladeiras em casa

b) Temperaturas da agua da piscina em um dia de verao

c) Numero de suicıdios em uma cidade no decorrer do ano passado

15Um conjunto nao enumeravel possui infinitos elementos, sendo impossıvel lista-los segundo alguma regra.16Secao 1.5.

Page 12

Page 13: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONd) Concentracao de chumbo em uma amostra de aguae) Lista de editoras de livrosf) Grau de satisfacao dos clientes que frequentam uma rinha de galog) Marcas de amaciantes para roupash) Tempo que um paciente sobrevive apos determinado diagnosticoi) Participacao de mercado (ou market share, para falar bonito)j) Classificacao em uma corrida de banheirask) Tempo final de cada corredorl) Lista dos nomes das banheiras participantes, tal como “Dick Vigarista” e “Trollface”

m) Distancia de Estambul ao Rio de Janeiro

2.2 Distribuicao de Frequencia

2.2.1 Dados brutos, Rol e Estatısticas de Ordem

Quando observa-se alguma variavel de interesse, em geral anotam-se os resultados na ordem em queaparecem. Esta lista de dados nao ordenada e conhecida como lista de dados brutos. Quando ordenam-se estes dados – em ordem crescente ou decrescente – obtem-se um rol, dando origem as estatısticas deordem. Em uma distribuicao de n elementos x1, x2, . . ., xn observados sequencialmente, denotam-se osdados ordenados de forma crescente por x(1), x(2), . . ., x(n) e, analogamente, x(n), x(n−1), . . ., x(1) paraa ordenacao decrescente.

Exemplo 2.12. (Rol) Se ordenarmos os dados da Tabela 1.1 da pagina 5, obtemos o seguinte rol:

x(1) x(2) x(3) x(4) x(5) x(6)

7 20 124 186 191 402

Tabela 2.1: Rol do numero de passos ate a lixeira mais proxima na capital gaucha

O menor numero de passos caminhados foi sete, representado por x(1) = 7, e o maior foi quatrocentose dois, representado por x(6) = 402.

> (x <- c(186,402,191,20,7,124)) # Criando e apresentando o vetor original de dados brutos

[1] 186 402 191 20 7 124

> sort(x) # Apresentando o rol, ou vetor ordenado. Teste ?order

[1] 7 20 124 186 191 402

> sort(x, decreasing = T) # Ordem decrescente, onde T indica TRUE (padr~ao: FALSE)

[1] 402 191 186 124 20 7

,Em um primeiro momento estas definicoes podem parecer ultrapassadas, mas sao de grande impor-

tancia na construcao de metodos avancados de analise de dados. Como atualmente trabalham-se combases de dados em formato eletronico, em geral e facil realizar a ordenacao de grandes volumes de dados.E importante ressaltar, porem, que em certos casos e necessario muito poder de processamento paraexecutar tais ordenacoes, podendo se tornarem impraticaveis pelo alto custo computacional.

EXERCICIOS

1. Considere o conjunto de dados 10,−4, 5, 7, 1, 3, 9.

a) Obtenha o rol.b) Indique e interprete x(4).

2. Utilizando a funcao sort, encontre o rol das Tabelas 2.3 e 2.5.

Page 13

Page 14: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION2.2.2 Tabela de frequencia univariada discreta

Listas muito longas, ainda que ordenadas, nao costumam ser de facil compreensao. Assim, a tabela defrequencia univariada discreta e uma boa maneira de consolidar os dados de uma variavel que assuma,como regra-de-bolso, ate 10 diferentes valores. Esta tabela deve apresentar pelo menos uma coluna des-crevendo a variavel de interesse e uma coluna com a frequencia (da classe), i.e., o numero de observacoescontempladas em cada categoria. Sugere-se tambem a apresentacao de uma coluna indicando a classe,denotada por i conforme Tabela 2.2.

i xi fi fri Fi Fri `i `ri1 x1 f1 f1/n F1 = f1 F1/n `1 = `2 + f1 = n `1/n = 12 x2 f2 f2/n F2 = F1 + f2 F2/n `2 = `3 + f2 `2/n3 x3 f3 f3/n F3 = F2 + f3 F3/n `3 = `4 + f3 `3/n...

......

......

......

...k − 2 xk−2 fk−2 fk−2/n Fk−2 = Fk−3 + fk−2 Fk−2/n `k−2 = `k−1 + fk−2 `k−2/nk − 1 xk−1 fk−1 fk−1/n Fk−1 = Fk−2 + fk−1 Fk−1/n `k−1 = `k + fk−1 `k−1/nk xk fk fk/n Fk = Fk−1 + fk = n Fk/n = 1 `k = fk `k/n

Total - n 1 - - - -

Tabela 2.2: Tabela de frequencia generica. Faca os exercıcios propostos que melhora.

Para a classe generica i sao calculadas as seguintes frequencias:

· fi: Frequencia (simples/absoluta)

· fri : Frequencia relativa

· Fi: Frequencia acumulada

· Fri : Frequencia acumulada relativa

· `i: Frequencia acumulada inversa

· `ri : Frequencia acumulada inversa relativa.

Exemplo 2.13. (Numero de filhos revisitado) Do Exemplo 2.5 observou-se a variavel

X: ‘numero de filhos de mulheres atendidas em um hospital de Porto Alegre em 2019’.

A Tabela 2.3 apresenta os dados na ordem em que foram observados. Este tipo de apresentacao ebastante completo, mas dificulta a extracao de informacoes relevantes. Como exercıcio, indique o numeromaximo de filhos observados na amostra.

i xi i xi i xi i xi i xi i xi i xi i xi i xi i xi1 2 11 3 21 2 31 1 41 1 51 2 61 3 71 1 81 0 91 12 0 12 2 22 3 32 1 42 1 52 4 62 0 72 3 82 1 92 33 1 13 3 23 1 33 1 43 4 53 1 63 2 73 1 83 2 93 34 2 14 2 24 2 34 1 44 1 54 3 64 0 74 3 84 2 94 45 4 15 1 25 2 35 0 45 1 55 1 65 2 75 3 85 2 95 56 2 16 4 26 1 36 2 46 3 56 2 66 2 76 4 86 2 96 17 1 17 2 27 4 37 3 47 1 57 0 67 2 77 2 87 2 97 08 4 18 0 28 0 38 3 48 1 58 2 68 1 78 1 88 4 98 09 2 19 1 29 1 39 1 49 4 59 3 69 2 79 2 89 0 99 310 3 20 4 30 6 40 2 50 2 60 3 70 3 80 3 90 2 100 2

Tabela 2.3: Dados brutos de X

A Tabela 2.4 apresenta o numero de filhos ordenados, fornecendo ainda algumas frequencias queauxiliam o entendimento da distribuicao. Com a apresentacao no formato da Tabela 2.4, facilmente seobserva um maximo de 6 filhos na amostra, ao contrario da tabela de dados brutos. Perde-se apenas aordem na qual os dados foram observados, o que em geral nao e do interesse do pesquisador.

Page 14

Page 15: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONi xi fi fri Fi Fri `i `ri1 0 11 11/100 = 0.11 11 11/100 = 0.11 89 + 11 = 100 100/100 = 12 1 27 27/100 = 0.27 11 + 27 = 38 38/100 = 0.38 62 + 27 = 89 89/100 = 0.893 2 30 30/100 = 0.30 38 + 30 = 68 68/100 = 0.68 32 + 30 = 62 62/100 = 0.624 3 19 19/100 = 0.19 68 + 19 = 87 87/100 = 0.87 13 + 19 = 32 32/100 = 0.325 4 11 11/100 = 0.11 87 + 11 = 98 98/100 = 0.98 2 + 11 = 13 13/100 = 0.136 5 1 1/100 = 0.01 98 + 1 = 99 99/100 = 0.99 1 + 1 = 2 2/100 = 0.027 6 1 1/100 = 0.01 99 + 1 = 100 100/100 = 1 1 1/100 = 0.01

Total - 100 1 - - - -

Tabela 2.4: Tabela de frequencia de X

Note que a coluna i da Tabela 2.3 indica a ordem da mulher entrevistada, enquanto na Tabela 2.4 iindica a classe. Por exemplo, i = 4 indica a quarta mulher entrevistada, que no caso informou ter x4 = 2filhos. Na Tabela 2.4, i = 4 indica a quarta classe onde x4 = 3, i.e., a classe das mulheres que possuem3 filhos.

As unicas colunas que exigem a leitura dos dados brutos sao a da variavel xi e a da frequencia fi;as demais sao calculadas a partir de fi. A seguir estao alguns exemplos de interpretacao das frequenciasapresentadas na Tabela 2.4.

· f5 = 11, i.e., 11 mulheres possuem 4 filhos;

· fr5 = 0.11 = 11%, i.e., 11% das mulheres possuem 4 filhos;

· F4 = 87, i.e., 87 mulheres possuem ate 3 filhos (ou ‘de zero a 3 filhos’, mas esta alternativa emenos elegante);

· Fr3 = 0.68 = 68%, i.e., 68% das mulheres possuem ate 2 filhos;

· `3 = 62, i.e., 62 mulheres tem pelo menos 2 filhos;

· `r2 = 0.89 = 89%, i.e., 89% das mulheres tem pelo menos 1 filho.

,

Exemplo 2.14. (Numero de filhos R-visitado) Exemplo 2.13 utilizando R/RStudio.

> # Lendo o arquivo 'hospital.txt' direto do link

> hosp <- read.table('http://www.filipezabala.com/data/hospital.txt', head = T)

> dim(hosp) # Dimens~ao: 100 linhas por 2 colunas

[1] 100 2

> head(hosp) # Apresenta as 6 primeiras linhas do objeto 'hosp'; teste tail(hosp, 10)

filhos altura

1 2 1.59

2 0 1.58

3 1 1.70

4 2 1.62

5 4 1.67

6 2 1.62

> attach(hosp) # Para deixar as colunas de 'hosp' disponıveis

> (tab <- table(filhos)) # Frequencia (simples/absoluta)

filhos

0 1 2 3 4 5 6

11 27 30 19 11 1 1

Page 15

Page 16: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> prop.table(tab) # Frequencia relativa

filhos

0 1 2 3 4 5 6

0.11 0.27 0.30 0.19 0.11 0.01 0.01

> cumsum(tab) # Frequencia acumulada

0 1 2 3 4 5 6

11 38 68 87 98 99 100

> round(cumsum(tab)/length(filhos),2) # Frequencia acumulada relativa

0 1 2 3 4 5 6

0.11 0.38 0.68 0.87 0.98 0.99 1.00

> cumsum(rev(tab)) # Frequencia acumulada inversa

6 5 4 3 2 1 0

1 2 13 32 62 89 100

> round(cumsum(rev(tab))/length(filhos),2) # Frequencia acumulada inversa relativa

6 5 4 3 2 1 0

0.01 0.02 0.13 0.32 0.62 0.89 1.00

,

EXERCICIOS

3. Em uma fabrica retirou-se uma amostra de 50 pecas de um lote de certo material e contou-se o numero de defeitos

em cada peca, apresentados na tabela a seguir.

i # defeitos fi fri Fi Fri1 0 17

2 1 10

3 24 3 8

5 4 5

6 5 1

Total - 50

a) Classifique a variavel ‘numero de defeitos’.b) Qual a frequencia absoluta da classe 3? Interprete.c) Qual a frequencia relativa da classe 3? Interprete.d) Qual a frequencia acumulada da classe 4? Interprete.e) Qual a frequencia acumulada relativa da classe 5? Interprete.f) Represente os dados utilizando o grafico que voce considerar mais adequado.

4. Em 13 de marco de 1883, estavam Emile Durkheim e Max Weber no leito de morte de Karl Marx discutindo a

respeito de propriedade intelectual. Weber, o mais jovem e disposto da turma, com apenas 19 anos, coletou algumas

informacoes a respeito da Convencao de Paris de 1883, que aconteceria em uma semana. Em suas anotacoes, estavao numero de unidades monetarias que deveria ser paga anualmente por cada paıs membro do tratado, dependendo

da classe a qual o paıs pertencesse17. O valor da unidade iria variar de acordo com a inflacao e outros fatores

economicos da epoca corrente. A tabela abaixo apresenta o resultado dos estudos de Weber.

a) Qual a frequencia simples da classe VI? Interprete.b) Qual a frequencia relativa da classe I? Interprete.c) Qual a frequencia acumulada da classe II? Interprete.d) Qual a frequencia acumulada relativa da classe III? Interprete.

17Paris Convention for the Protection of Industrial Property (1883), WIPO Database of Intellectual Property. www.wipo.

int/treaties/en/text.jsp?file_id=288514

Page 16

Page 17: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONClasse Unidades fi fri Fi FriI 25 21

II 20 26

III 15 10IV 10 9

V 5 32

VI 3 38VII 1 37

Total - 173

2.2.3 Tabela de frequencia univariada contınua

Quando uma variavel assume mais de 10 diferentes valores, recomenda-se utilizar a tabela de frequenciaunivariada contınua. A diferenca para a tabela discreta da Secao 2.2.2 e que na contınua distribuem-seos valores em intervalos de classe, i.e., faixas de valores com certa amplitude. A principal vantagemdesta abordagem e a capacidade de apresentar os dados de maneira enxuta. O contraponto, como emqualquer resumo de dados, e a perda da informacao original.

Amplitude (h) e quantidade (k) de classes

Quando deseja-se apresentar a variavel em intervalos de classe, e necessario determinar a amplitudedo intervalo de classe (h) e a quantidade de classes (k) em que serao dispostos os dados. Apresentam-sea seguir tres das principais regras para determinar h e k.

1. Sturges (1926) sugere que a amplitude do intervalo de classe seja calculada por

hSt =A

kSt=

maxX −minX

1 + 3.322 log10 n, (4)

onde A e a amplitude (dos dados) descrita na Secao 2.4.1, nao devendo ser confundida com h. Odenominador e obtido a partir da expansao binomial, na forma

n =

k−1∑i=0

(k − 1

i

)= (1 + 1)k−1 = 2k−1 (5)

∴ kSt = d1 + log2 ne ≈ d1 + 3.322 log10 ne , (6)

onde d e indica a funcao teto, o menor inteiro consecutivo denotado por dxe = minn ∈ N|n ≥ x.Alguns pacotes computacionais atribuem o numero de classes aplicando regras que encontrem um valor‘bonito’ para a divisao. Tais valores sao obtidos computando numeros que sejam 0, 1, 2 ou 5 vezes umapotencia de 10, i.e., a× 10b, a ∈ 0, 1, 2, 5 e b ∈ N ∪ −1.

Exemplo 2.15. (Sturges) Se forem observados n = 100 valores com amplitude (dos dados) A = 0.23, aamplitude da classe sugerida por Sturges e

hSt =0.23

1 + log2 100= 0.02875,

e a quantidade de classeskSt = d1 + log2 100e = d7.644e = 8.

Page 17

Page 18: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> n <- length(altura) # n=100, numero de dados a serem tabulados

> A <- diff(range(altura)) # Amplitude (dos dados, n~ao da classe!)

> ceiling(1 + log2(n)) # Pela Equac~ao (6), usando log2

[1] 8

> ceiling(1 + 3.322*log10(n)) # Pela Equac~ao (6), usando log10

[1] 8

> (kSt <- nclass.Sturges(altura)) # Pela func~ao 'nclass.Sturges'

[1] 8

> (hSt <- A/kSt) # Pela Equac~ao (4)

[1] 0.02875

> pretty(kSt) # Valores 'bonitos', (a=5, b=0) e (a=1, b=1)

[1] 5 10

,2. Scott (1979) incorpora s, o desvio padrao amostral18 ao calculo da amplitude do intervalo, na

forma

hSc =3.5s

n1/3. (7)

O numero de classes de Scott pode ser obtido por

kSc =

⌈A

hSc

⌉=

⌈maxX −minX

3.5sn−1/3

⌉. (8)

Exemplo 2.16. (Scott) Se forem observados n = 100 valores com desvio padrao amostral s = 0.045268559,a amplitude da classe sugerida por Scott e

hSc =3.5× 0.045268559

1001/3= 0.034134854.

Se A = 0.23, a quantidade de classes e

kSc =

⌈0.23

0.034134854

⌉= d6.7379811e = 7.

> n <- length(altura) # n=100, numero de observac~oes a serem tabuladas

> s <- sd(altura) # s=0.045268559, desvio padr~ao amostral

> A <- diff(range(altura)) # Amplitude (dos dados, n~ao da classe!)

> (hSc <- 3.5*s/n^(1/3)) # Pela Equac~ao (7)

[1] 0.03413485378

> ceiling(A/hSc) # k sugerido por Scott, Equac~ao (8)

[1] 7

> (kSc <- nclass.scott(altura)) # k obtido pela func~ao 'nclass.scott'

[1] 7

> pretty(kSc) # Valores 'bonitos', (a=5, b=0) e (a=1, b=1)

[1] 5 10

18Secao 2.4.3.

Page 18

Page 19: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION,3. Freedman-Diaconis (1981) inserem a amplitude interquartılica no calculo da amplitude do intervalo,

na forma

hFD = 2AI

n1/3, (9)

onde AI = Q3 − Q1 e a amplitude interquartılica, apresentada na Secao 2.6.4. O numero de classesobtido como consequencia da aplicacao da relacao de Freedman-Diaconis e

kFD =

⌈A

hFD

⌉=

⌈maxX −minX

2AI n−1/3

⌉. (10)

Exemplo 2.17. (Freedman-Diaconis) Se forem observados n = 100 valores com amplitude interquartılicade AI = 0.0525, a amplitude da classe sugerida por Freedman-Diaconis e

hFD =2× 0.0525

1001/3= 0.022621564.

Se A = 0.23, e a quantidade de classes

kFD =

⌈0.23

0.022621564

⌉= d10.16729e = 11.

> n <- length(altura) # n=100, numero de observac~oes a serem tabuladas

> (Q <- quantile(altura, c(1/4,3/4))) # Primeiro e terceiro quartis

25% 75%

1.5975 1.6500

> (AI <- diff(as.numeric(Q))) # Amplitude Interquatılica

[1] 0.0525

> (hFD <- 2*AI/n^(1/3)) # Pela Equac~ao (9)

[1] 0.02262156425

> A <- diff(range(altura)) # Amplitude (dos dados, n~ao da classe ou interquartılica!)

> ceiling(A/hFD) # k sugerido por Freedman-Diaconis, Equac~ao (10)

[1] 11

> (kFD <- nclass.FD(altura)) # Pela func~ao 'nclass.FD'

[1] 11

> pretty(kFD) # Valores 'bonitos', (a=1, b=1) e (a=2, b=1)

[1] 10 20

,

Page 19

Page 20: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONHyndman (1995)19 argumenta que as regras de Scott e Freedman-Diaconis sao tao simples quanto

a regra de Sturges, mas melhor fundamentadas na teoria estatıstica. Alem disso, a regra de Sturgesfunciona bem para tamanhos de amostra moderados (n < 200), mas nao para valores grandes de n.

Exemplo 2.18. (Comparando os tres metodos) Foi realizada uma simulacao com tamanhos de amostran = 10i, i ∈ 1, 2, . . . , 6, indicando o numero de classes sugerido por cada metodo.

> NC <- function(x) c(i = i, n = 10^i, # Quantidades simuladas

Sturges = nclass.Sturges(x), # Sturges (1926)

Scott = nclass.scott(x), # Scott (1979)

FD = nclass.FD(x)) # Freedman-Diaconis (1981)

> for(i in 1:6)set.seed(i); print(NC(rnorm(10^i))) # Pode ser demorado para i>6

i n Sturges Scott FD

1 10 5 2 3

2 100 8 6 7

3 1000 11 19 25

4 10000 15 44 56

5 100000 18 112 145

6 1000000 21 278 360

,

Exemplo 2.19. (Alturas de mulheres) Seja a variavel

Y : ‘altura de mulheres atendidas em um hospital de Porto Alegre em 2019’.

A Tabela 2.5 apresenta os dados brutos. Este tipo de apresentacao e bastante completo, mas dificultaa extracao de informacoes relevantes. Como exercıcio, indique quantas mulheres tem altura entre 1.70me 1.75m a partir desta tabela.

i yi i yi i yi i yi i yi1 1.59 21 1.63 41 1.58 61 1.70 81 1.642 1.58 22 1.64 42 1.66 62 1.65 82 1.603 1.70 23 1.64 43 1.59 63 1.51 83 1.684 1.62 24 1.62 44 1.67 64 1.66 84 1.655 1.67 25 1.66 45 1.62 65 1.52 85 1.656 1.62 26 1.61 46 1.55 66 1.60 86 1.647 1.69 27 1.61 47 1.64 67 1.62 87 1.558 1.60 28 1.60 48 1.62 68 1.68 88 1.669 1.61 29 1.61 49 1.65 69 1.65 89 1.5910 1.58 30 1.64 50 1.66 70 1.61 90 1.6611 1.64 31 1.59 51 1.64 71 1.56 91 1.6912 1.72 32 1.60 52 1.57 72 1.65 92 1.6113 1.74 33 1.62 53 1.65 73 1.62 93 1.5814 1.63 34 1.53 54 1.69 74 1.63 94 1.7315 1.64 35 1.58 55 1.65 75 1.57 95 1.5616 1.63 36 1.60 56 1.62 76 1.62 96 1.5917 1.59 37 1.61 57 1.68 77 1.54 97 1.6518 1.64 38 1.67 58 1.60 78 1.64 98 1.6319 1.59 39 1.68 59 1.68 79 1.66 99 1.7020 1.65 40 1.56 60 1.59 80 1.56 100 1.60

Tabela 2.5: Dados brutos de Y

Para colocar estes valores em uma tabela de frequencia, obteve-se kSt = 8 pela regra de Sturges20, epelo resultado de pretty(8) decidiu-se por 5 classes21. Como exercıcio, obtenha kSc e kFD.

19http://robjhyndman.com/papers/sturges.pdf20Exemplo 2.15.21A funcao pretty escolhe valores que sejam 1, 2 ou 5 vezes uma potencia de 10.

Page 20

Page 21: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONA Tabela 2.6 apresenta as alturas agrupadas em cinco classes de amplitude 5cm, fornecendo ainda

algumas frequencias que auxiliam o entendimento da distribuicao. Facilmente observam-se 6 mulherescom altura entre 1.70m e 1.75m,22 ao contrario da tabela de dados brutos. Note, porem, que nao epossıvel saber exatamente a altura de cada uma destas 6 mulheres. Isso acontece pois resumo implica emperda de informacao, cabendo ao pesquisador decidir quando e como resumir os dados.

i yi fi fri Fi Fri `i `ri1 1.50 ` 1.55 4 0.04 4 0.04 96 + 4 = 100 100/100 = 12 1.55 ` 1.60 21 0.21 4 + 21 = 25 0.25 75 + 21 = 96 96/100 = 0.963 1.60 ` 1.65 41 0.41 25 + 41 = 66 0.66 34 + 41 = 75 75/100 = 0.754 1.65 ` 1.70 28 0.28 66 + 28 = 94 0.94 6 + 28 = 34 34/100 = 0.345 1.70 ` 1.75 6 0.06 94 + 6 = 100 1 6 6/100 = 0.06

Total - 100 1 - - - -

Tabela 2.6: Tabela de frequencia de Y

A seguir estao alguns exemplos de interpretacao das frequencias apresentadas na Tabela 2.6.

· f5 = 6, i.e., 6 mulheres tem entre 1.70m e 1.75m de altura;

· fr5 = 0.06 = 6%, i.e., 6% das mulheres tem entre 1.70m e 1.75m de altura;

· F4 = 94, i.e., 94 mulheres tem ate 1.70m de altura, ou de 1.50m a 1.70m;

· Fr2 = 0.25 = 25%, i.e., 25% das mulheres tem ate 1.60m de altura, ou de 1.50m a 1.60m;

· `3 = 75, i.e., 75 mulheres tem pelo menos 1.60m de altura;

· `r4 = 0.34 = 34%, i.e., 34% das mulheres tem pelo menos 1.65m de altura.

,

Exemplo 2.20. (Alturas de mulheres R-visitado) Exemplo 2.19 utilizando R/RStudio.

> # Lendo o arquivo 'hospital.txt' direto do link

> hosp <- read.table('http://www.filipezabala.com/data/hospital.txt', head = T)

> dim(hosp) # Dimens~ao: 100 linhas por 2 colunas

[1] 100 2

> head(hosp) # Apresenta as 6 primeiras linhas do objeto 'hosp'; teste tail(hosp, 10)

filhos altura

1 2 1.59

2 0 1.58

3 1 1.70

4 2 1.62

5 4 1.67

6 2 1.62

> attach(hosp) # Para deixar as colunas de 'hosp' disponıveis

> pretty(nclass.Sturges(altura)) # Valores 'bonitos' para o numero de classes

[1] 5 10

> hist(altura)$breaks # Quebras de valores gerados com a func~ao 'hist'

[1] 1.50 1.55 1.60 1.65 1.70 1.75

22Note que a simbologia 1.70 ` 1.75 indica a inclusao de 1.70 e a exclusao de 1.75, i.e., este e um intervalo fechado aesquerda e aberto a direita. Equivale as notacoes [1.70, 1.75[ (mais moderna) ou [1.70, 1.75) (mais antiga).

Page 21

Page 22: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> (f <- hist(altura)$counts) # Frequencias das classes

[1] 6 27 43 21 3

> cumsum(f) # Frequencia acumulada

[1] 6 33 76 97 100

> round(cumsum(f)/length(altura),2) # Frequencia acumulada relativa

[1] 0.06 0.33 0.76 0.97 1.00

> cumsum(rev(f)) # Frequencia acumulada inversa

[1] 3 24 67 94 100

> round(cumsum(rev(f))/length(altura),2) # Frequencia acumulada inversa relativa

[1] 0.03 0.24 0.67 0.94 1.00

,

EXERCICIOS

5. Foram medidas as alturas de 100 alunos de certa disciplina, apresentadas na tabela a seguir.

i Altura (cm) fi fri Fi Fri i ri

1 140 ` 150 22 150 ` 160 13

3 160 ` 170

4 170 ` 180 475 180 a 190 8

Total - 100

a) Classifique a variavel ‘altura’.b) Qual a frequencia relativa da classe 3? Interprete.

c) Qual a frequencia acumulada da classe 4? Interprete.d) Qual a frequencia acumulada relativa da classe 2? Interprete.

e) Quantos alunos tem pelo menos 1.60m?

f) Represente os dados utilizando o grafico que voce considerar mais adequado.

6. Obtenha os intervalos de classes dos dados da Tabela 2.5:

a) Pela regra de Scott.b) Pela regra de Freedman-Diaconis.

Page 22

Page 23: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION2.2.4 Tabela (de frequencia) bivariada

Em muitas situacoes praticas ha interesse em avaliar a associacao de atributos. A tabela (de frequen-cia) bivariada, tabela de dupla entrada ou tabela de contingencia 2 × 2 tem essa finalidade. Generica-mente utilizam-se as letras X e Y para se referir as variaveis. As simbologias 1 e 0 indicam respectiva-mente a presenca e ausencia das caracterısticas X e Y .

XY

1 0 Total1 n11 n12 n1·0 n21 n22 n2·

Total n·1 n·2 n

Tabela 2.7: Tabela bivariada generica

Razao de Chances (Odds Ratio - OR)

A razao de chances ou razao de possibilidades e uma medida utilizada para avaliar o quanto umatributo pode influenciar em outro. Pode ser escrita em funcao de nij conforme Equacao (11) ou πijcomo indicado na Equacao (12).

OR =n11/n12

n21/n22=n11n22

n12n21(11)

OR =π11/π12

π21/π22=π11π22

π12π21, (12)

onde πij =nijn

.

Exemplo 2.21. (Odds Ratio) Suponha um estudo da relacao entre os atributos X: ‘fumante’ e Y : ‘temcancer’, conforme Tabela 4.4.

XY

1 0 Total1 90 10 1000 70 30 100

Total 160 40 200

Tabela 2.8: X = 1: paciente fumante. Y = 1: paciente desenvolveu cancer.

Pela Equacao (11),

OR =90/10

70/30=

90× 30

10× 70≈ 3.86.

Com este valor estima-se que pacientes que fumam possuem 3.86 vezes a chance (ou 3.86− 1 = 2.86vezes mais chance) de desenvolver cancer em relacao aos pacientes que nao fumam. Refaca o exemploinvertendo os rotulos 0 e 1.

> tab.bi <- matrix(c(90,10,70,30), nrow=2, byrow=T) # Tabela 2.8

> (OR <- (tab.bi[1,1]/tab.bi[1,2])/(tab.bi[2,1]/tab.bi[2,2]) ) # Equac~ao (11)

[1] 3.857142857

,

Page 23

Page 24: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONRisco Relativo (Relative Risk - RR)

Risco Relativo e uma medida baseada em taxas de incidencia entre os grupos exposto (X = 1) e nao

exposto (X = 0) ao fator de risco em estudo. E obtido pelo quociente entre as estimativas da taxa deincidencia do grupo exposto (γ1) e da taxa de incidencia do grupo nao exposto (γ0) conforme Equacao(13).

RR =γ1

γ0=n11/n1·

n21/n2·(13)

Exemplo 2.22. (Risco Relativo) Suponha novamente os dados do Exemplo 2.21. O risco relativo pode sercalculado pela Equacao (13):

RR =90/100

70/100≈ 1.29

Com este valor estima-se que o grupo que nao usa celular e aprovado em 29% mais casos em compa-racao ao grupo do Whats e Face.

> tab.bi <- matrix(c(90,10,70,30), nrow=2, byrow=T) # Tabela 2.8

> (RR <- (tab.bi[1,1]/sum(tab.bi[1,]))/(tab.bi[2,1]/sum(tab.bi[2,])) ) # Equac~ao (13)

[1] 1.285714286

,

Independencia

A tabela (de frequencia) bivariada permite avaliar a independencia entre dois atributos, indicando aausencia de relacao, simbolizada por X ⊥⊥ Y . Se nao existe tal relacao, e esperado encontrar a mesmaproporcao de portadores da caracterıstica X entre os portadores e nao portadores de Y . Assim, se X eY sao independentes, a proporcao de sujeitos que apresentam simultaneamente as caracterısticas X e Ye igual a proporcao dos X multiplicada pela proporcao dos Y , sob qualquer uma das formas:

n11

n·1=n1·

n

n11

n1·=n·1n

n11 =n1·n·1n

n11

n=(n1·

n

)(n·1n

)Exemplo 2.23. (Independencia 1) Se ha 578 sujeitos portadores do atributo X e 216 portadores de Y em1156 observacoes, espera-se que existam

n1·n·1n

=578× 216

1156= 108

sujeitos portadores de X e Y se X ⊥⊥ Y .,

Exemplo 2.24. (Independencia 2) Se existem 15% de sujeitos X e 80% de Y , espera-se que existam(n1·

n

)(n·1n

)=

(15

100

)(80

100

)= 12%

de sujeitos X e Y se X ⊥⊥ Y .,

Exemplo 2.25. (Independencia 3) Se OR = 1, entao X ⊥⊥ Y .,

Page 24

Page 25: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

2.3 Medidas de Posicao (ou Localizacao)

2.3.1 Mınimo e Maximo

O mınimo de uma distribuicao e o menor valor observado desta distribuicao; de forma analoga, omaximo e o maior valor. Sao estatısticas de ordem, mais especificamente os extremos de um conjuntode dados ordenado (rol23). Para uma distribuicao de n elementos sao denotadas por minX = x(1) emaxX = x(n).

Apesar da simplicidade destas medidas, existem consideracoes teoricas sofisticadas a seu respeito.Para maiores detalhes, vide Kotz and Nadarajah (2000).

Exemplo 2.26. (Mınimo e maximo) Suponha novamente as n = 100 observacoes da variavel Y: ‘altura demulheres atendidas em um certo hospital publico de Porto Alegre em 2019’, apresentadas na Tabela 2.5.O mınimo e o maximo sao denotados, respectivamente, por minY = y(1) = 1.51 e maxY = y(100) = 1.74.

> attach(read.table('http://www.filipezabala.com/data/hospital.txt', head = T))

> min(altura) # Mınimo

[1] 1.51

> max(altura) # Maximo

[1] 1.74

> range(altura) # A func~ao 'range' fornece o mınimo e o maximo

[1] 1.51 1.74

,

Exemplo 2.27. (Velocidade maxima) Segundo o Codigo de Transito Brasileiro24, a placa da Figura 2.2indica que a velocidade maxima da via e de 40 km/h. Isto significa que os condutores nao devem ultra-passar 40 quilometros horarios. Apesar da obviedade, boa parte dos motoristas a leem como ‘velocidademınima’./

Figura 2.2: Placa de velocidade maxima, usualmente lida como ‘mınima’.

23Secao 2.2.1.24Lei 9.503, de 23 de setembro 1997.

Page 25

Page 26: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION2.3.2 Media (Aritmetica Simples)

A media (aritmetica simples) ou valor esperado e uma das medidas mais importantes da Estatısticadevido as suas propriedades e relativa facilidade de calculo. A media da variavel X e simbolizadagenericamente por µ25 quando refere-se a media universal, e por xn quando refere-se a media amostral.Pode-se utilizar a notacao xn para indicar o tamanho da amostra. Suas expressoes no universo a naamostra sao dadas respectivamente pelas equacoes (14) e (15).

µ =

∑Ni=1 xiN

(14)

xn =

∑ni=1 xin

(15)

Por distribuir a soma dos valores da distribuicao pelo numero de observacoes, a media e uma medidaque indica centro de massa, conforme Figura 2.3.

Figura 2.3: Media aritmetica simples como centro de massa

Exemplo 2.28. (Media aritmetica simples) Suponha novamente os dados do Exemplo 1.1 da pagina 5. Onumero medio de passos ate a lixeira mais proxima foi de

x6 =

∑6i=1 xi6

=186 + 402 + 191 + 20 + 7 + 124

6=

930

6= 155.

> x <- c(186,402,191,20,7,124) # Vetor de dados brutos

> mean(x) # Aplica as Equac~oes (14) e (15). Veja ?mean

[1] 155

,

EXERCICIOS

1. Calcule o numero medio de filhos considerando o conjunto de dados da Tabela 2.3 (pg. 14).

2.3.3 Total

Total e a soma de todos os valores de uma variavel. E expresso pelas equacoes (16) e (17).

τ =

N∑i=1

xi (16)

τ =N

n

n∑i=1

xi = Nxn, (17)

25Tambem pode ser representada por µX ou E(X).

Page 26

Page 27: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONonde xn e a media amostral, apresentada na Equacao (15).

Exemplo 2.29. (Total) Suponha novamente os dados do Exemplo 2.28. Se alguem precisar de uma lixeira20 vezes na capital gaucha, estima-se que o numero total de passos a serem caminhados e de

τ =20

6× 930 = 20× 155 = 3100.

> N <- 20 # Tamanho do universo

> x <- c(186,402,191,20,7,124) # Vetor de dados brutos

> N*mean(x) # Equac~ao (17)

[1] 3100

,

EXERCICIOS

2. Considerando novamente o conjunto de dados da Tabela 2.3 (pg. 14), qual a estimativa do total de filhos em um

grupo de 1500 mulheres?

2.3.4 Media (Aritmetica) Ponderada

A media (aritmetica) ponderada e uma media na qual se atribui peso wi para o i-esimo valor dadistribuicao. Nao sera feita distincao entre as medias ponderada universal e amostral, anotando-segenericamente

W =

∑ni=1 wixi∑ni=1 wi

. (18)

Exemplo 2.30. (Agua do chimarrao) Media ponderada e como colocar agua quente e fria para regular atemperatura do mate. Suponha 1 litro de agua em uma garrafa termica, onde coloque-se w1 = 850mL(85%) de agua a x1 = 96 C e w2 = 150mL (15%) de agua a x2 = 30 C. Desconsiderando variacoesexternas, essa mistura deve ficar em

W =850mL× 96 C + 150mL× 30 C

850mL+ 150mL= 0.85× 96 C + 0.15× 30 C = 81.6 C + 4.5 C = 86.1 C.

> weighted.mean(c(96,30), c(850,150)) # Facilita uma barbaridade

[1] 86.1

,

Exemplo 2.31. (Calculo do G1) Suponha que o senhor Z, professor de certa instituicao de ensino superior,avalie os alunos no Grau 1 atribuindo peso 8 para a media das tres provas – P1, P2 e P3 –, peso 2 paraa media dos dois trabalhos de maior nota – denotados por T(3) e T(2) – e peso zero para o trabalho demenor nota, denotado por T(1). Assim, o calculo do Grau 126 e dado por

G1 =8×

(P1+P2+P3

3

)+ 2×

(T(3)+T(2)

2

)+ 0× T(1)

8 + 2 + 0= 0.8

(P1 + P2 + P3

3

)+ 0.2

(T(3) + T(2)

2

). (19)

Se as notas de Joaozinho foram P1 = 6, P2 = 5, P3 = 10, T(3) = 8, T(2) = 7 e T(1) = 5,

G1 = 0.8

(6 + 5 + 10

3

)+ 0.2

(8 + 7

2

)= 7.1.

26Lembre-se que o sistema da PUCRS trunca os valores. Vide Secao 1.5.

Page 27

Page 28: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> weighted.mean(c(mean(c(6,5,10)),mean(c(7,8))), c(0.8,0.2)) # Simule com as suas notas

[1] 7.1

> g1 <- function(p1,p2,p3, t1,t2,t3) # Func~oes podem ser personalizadas

mp <- mean(c(p1,p2,p3)) # Media das 3 provas

mt <- (sum(t1,t2,t3) - min(t1,t2,t3))/2 # Media dos 2 trabalhos de maior nota

return(trunc(0.8*mp + 0.2*mt, dig = 1)) # Aplicando a ponderac~ao e truncando

> g1(6,5,10, 5,7,8) # Aplicando a func~ao 'g1'

[1] 7.1

,

EXERCICIOS

3. Suponha os dados do Exemplo 2.31.

a) Refaca os calculos considerando duas provas e dois trabalhos, P1, P2, T1 e T2 (sem desconsiderar qualquer das

notas).b) Reesceva a funcao g1 utilizando duas provas e dois trabalhos.c) Isolar P3 na Equacao 19.

2.3.5 Media Geometrica

A media geometrica e utilizada para calcular medias de ındices, bem como em casos em que asmedidas possuam magnitudes numericas distintas. E definida por

G = n√

Πni=1xi. (20)

Exemplo 2.32. (Media geometrica) Sejam os ındices LP2004,2008 = 139.58% e PP2004,2008 = 97.22%. Suamedia geometrica e dada por

G =√

1.3958× 0.9722 ≈ 116.49%.

Este valor e conhecido como Indice de Preco de Fisher27.

> sqrt(1.3958*.9722) # 'sqrt': square root

[1] 1.164902039

,

2.3.6 Media Harmonica

A media harmonica e utilizada para calcular medias de taxas. E definida por

H =n

1x1

+ 1x2

+ · · ·+ 1xn

=n∑ni=1

1xi

. (21)

Exemplo 2.33. (Media harmonica) Suponha que um veıculo viajou uma certa distancia a 60 km/h e amesma distancia novamente a 90 km/h. Sua velocidade media pode ser calculada pela media harmonica

H =2

160 + 1

90

= 72km/h,

i.e., se o veıculo percorresse toda a distancia a 72 km/h, faria o trajeto no mesmo tempo.

27Secao 7.3.3.

Page 28

Page 29: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> 2/((1/60)+(1/90)) # Pela Equac~ao (21)

[1] 72

> 1/mean(1/c(60,90)) # Alternativa

[1] 72

,

2.3.7 Media Quadratica

A media quadratica e a media dos valores ao quadrado, utilizada no calculo das variancias28. Eexpressa por

Q2 =

∑ni=1 x

2i

n. (22)

O valor quadratico medio e a raiz quadrada da media quadratica, denotado por

Q =√Q2. (23)

Exemplo 2.34. (Media quadratica e valor quadratico medio) A media quadratica dos valores 186, 402,191, 20, 7 e 124 e

Q2 =

∑6i=1 x

2i

6=

1862 + 4022 + 1912 + 202 + 72 + 1242

6=

248506

6= 41417.6.

O valor quadratico medio destes valores e

Q =√

41417.6 ≈ 203.5133.

> x <- c(186,402,191,20,7,124) # Vetor de dados brutos

> (mq <- mean(x^2)) # Eq. (22), compare com mean(x)^2

[1] 41417.66667

> sqrt(mq) # Eq. (23), valor quadratico medio

[1] 203.5133083

,

EXERCICIOS

4. Considere novamente os dados das Tabelas 2.3 e 2.5.

a) Calcule a media quadratica do numero de filhos e das alturas.b) Calcule os respectivos valores quadraticos medios.

2.3.8 Moda

A(s) moda(s) e (sao) o(s) valor(es) mais frequente(s) de uma distribuicao. Quando existe apenas umamoda, a distribuicao e conhecida como unimodal. Se existirem duas modas, a distribuicao e bimodal.Tres modas configuram uma distribuicao trimodal, e quatro ou mais modas indicam uma distribuicaomultimodal. Distribuicoes com frequencias equivalentes para todos os valores sao ditas amodais. Quandoos dados estao agrupados deve-se indicar a classe modal, i.e., a classe de maior frequencia. O esforcocomputacional para calcular a moda e realizar uma contagem.

28Secao 2.4.2.

Page 29

Page 30: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 2.35. (Unimodal) A moda do conjunto de dados 4, 7, 1, 3, 3, 9 e Mo = 3, pois ele apresentafrequencia 2 enquanto os demais valores tem frequencia 1. Esta e uma distribuicao unimodal.,

Exemplo 2.36. (Bimodal) As modas do conjunto de dados 4, 7, 1, 3, 3, 9, 7 sao Mo′ = 3 e Mo′′ = 7,pois ambos tem frequencia 2 enquanto os demais valores tem frequencia 1. A ordem de apresentacao eindiferente. Esta e uma distribuicao bimodal.,

Exemplo 2.37. (Amodal) O conjunto de dados 4, 7, 1, 3, 9 e dito amodal pois todos os valores temfrequencia 1.,

Exemplo 2.38. (Moda para dados agrupados) Na Tabela 2.6 da pagina 21 observa-se que f3 = 41 e amaior frequencia. A classe modal e portanto a terceira, compreendida entre os valores 1.60 e 1.65.,

EXERCICIOS

5. Na Tabela 2.3 foram observados valores modais? Em caso afirmativo, descreva-o(s).

2.3.9 Separatrizes (ou Quantis)

Separatrizes ou quantis29 sao medidas que dividem um conjunto de dados ordenados em k partesiguais. O metodo basico consiste em obter um rol dos dados e encontrar (ainda que de forma aproximada)os valores que repartem a distribuicao de acordo com o k desejado. O esforco computacional para calcularquaisquer separatrizes e, portanto, o de realizar a ordenacao dos dados.

Mediana (k = 2)

A mediana e a medida que divide metade dos dados ordenados (rol) a sua esquerda e a outra metadea sua direita, i.e., e a medida central em termos de ordenacao. Sua posicao e a media entre a primeira eultima posicoes, dada por

Pos =1 + n

2(24)

Exemplo 2.39. (Mediana para n ımpar) Seja o conjunto de dados 10, -4, 11, 12, 1, 5, 15, formado porn = 7 valores. Quando ordenado obtemos o rol -4, 1, 5, 10, 11, 12, 15. Considerando k = 2, obtem-se aseparatriz Md = 10, pois ela divide o conjunto em duas partes de mesmo tamanho (tres valores abaixoda mediana 10 e tres valores acima). Sua posicao e dada por Pos = 1+7

2 = 4.

> x <- c(10, -4, 11, 12, 1, 5, 15)

> sort(x)

[1] -4 1 5 10 11 12 15

> median(x)

[1] 10

,Quando o numero de observacoes e par, basta tomar a media dos dois valores centrais do rol.

Exemplo 2.40. (Mediana para n par) Seja o conjunto de dados 15, -4, 11, 12, 1, 5, formado por n = 6valores. Quando ordenado obtemos o rol -4, 1, 5, 11, 12, 15. Considerando novamente k = 2, obtem-sea separatriz Md = 5+11

2 = 8, pois ela divide o conjunto em duas partes de mesmo tamanho (tres valores

29Pronuncia-se “quantıs”.

Page 30

Page 31: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONabaixo de 8 e tres valores acima). Sua posicao e dada por Pos = 1+6

2 = 3.5, i.e., a mediana e um valorintermediario entre a terceira e quarta posicoes.

> x <- c(15, -4, 11, 12, 1, 5)

> sort(x)

[1] -4 1 5 11 12 15

> median(x)

[1] 8

,

Mediana para dados agrupados

Quando os dados estao agrupados pode-se encontrar a classe mediana utilizando a frequencia acu-mulada ou a frequencia acumulada relativa.

Exemplo 2.41. (Mediana para dados agrupados) A classe mediana pode ser obtida a partir da Tabela 2.6(pagina 21) de duas formas.

· A posicao da mediana e Pos = 1+1002 = 50.5. Observando a coluna Fi e possıvel verificar que a

informacao de posicao 50.5 esta na classe 3, que contempla da 26ª a 66ª observacao. Logo, aclasse mediana e a terceira, e a mediana esta no intervalo 1.60 ` 1.65.

· Observando a coluna Fri percebe-se que o valor central 0.50 = 50% esta contemplado na classe 3.Logo, a classe mediana e a terceira, e a mediana esta no intervalo 1.60 ` 1.65.

,

Separatrizes (k > 1)

Pode-se dividir um conjunto de dados em k setores, sendo os principais apresentados na Tabela 2.9.

k Nome Simbologia2 Mediana Md3 Tercil T1, T2

4 Quartil Q1, Q2, Q3

10 Decil D1, D2, ..., D9

100 Percentil P1, P2, ..., P99

Tabela 2.9: Principais separatrizes

Exemplo 2.42. (Separatrizes) Suponha novamente as alturas da Tabela 2.5 da pagina 20. Pela funcaoquantile30 pode-se facilmente obter os quantis desejados, bastando ajustar o parametro k. Note que afuncao retorna as separatrizes expressas em percentis, onde 0% equivale ao mınimo e 100% ao maximo.

30A funcao quantile apresenta nove metodos para obtencao de separatrizes, portanto recomenda-se a leitura da docu-mentacao para maiores detalhes.

Page 31

Page 32: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> attach(read.table('http://www.filipezabala.com/data/hospital.txt', head = T))

> options(digits = 3) # Para melhorar a apresentac~ao

> quantile(altura, probs = seq(0, 1, 1/2)) # Mediana

0% 50% 100%

1.51 1.62 1.74

> quantile(altura, probs = seq(0, 1, 1/3)) # Tercis

0% 33.3% 66.7% 100%

1.51 1.61 1.65 1.74

> quantile(altura, probs = seq(0, 1, 1/4)) # Quartis

0% 25% 50% 75% 100%

1.51 1.60 1.62 1.65 1.74

> quantile(altura, probs = seq(0, 1, 1/10)) # Decis

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

1.51 1.57 1.59 1.60 1.62 1.62 1.64 1.65 1.66 1.68 1.74

,

EXERCICIOS

6. Interprete os quantis do Exemplo 2.42.

7. Considere as separatrizes apresentadas na Tabela 2.9.

a) Verifique que as separatrizes mediana (Md), segundo quartil (Q2) sao equivalentes.b) Existem outras medidas equivalentes as do item (a)? Justifique.c) Considere algum k diferente dos apresentados e atribua um nome e uma simbologia.d) Se existem k ‘fatias’, quantas sao as separatrizes?

8. Utilizando a funcao quantile calcule as separatrizes apresentadas na Tabela 2.9 com os dados das Tabelas 2.3 e 2.5.

2.4 Medidas de Dispersao (ou Variabilidade)

2.4.1 Amplitude

A amplitude e a medida de dispersao mais simples de ser calculada, e fornece uma informacao rapidasobre a variabilidade do conjunto de dados. E calculada pela expressao

A = maxX −minX. (25)

Exemplo 2.43. (Amplitude com valores positivos) A amplitude do conjunto de dados 186, 402, 191, 20,7 e 124 e A = 402− 7 = 395.

> A <- range(c(186,402,191,20,7,124)) # A func~ao 'range' retorna o mınimo e o maximo

> diff(A) # A func~ao 'diff' calcula a diferenca

[1] 395

,

Exemplo 2.44. (Amplitude com valores negativos) Para calcular a amplitude do conjunto de dados 186,402, −191, 20, 7 e 124 e preciso lembrar que na multiplicacao “menos com menos da mais”. Assim,

A = 402− (−191) = 402 + 191 = 593.

Page 32

Page 33: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> diff(range(c(186,402,-191,20,7,124))) # Func~oes aninhadas ('nested functions')

[1] 593

,

2.4.2 Variancia

A variancia e a principal medida de dispersao da Estatıstica. E uma media quadratica em relacao amedia, i.e., avalia o quanto, em media, os dados variam ao quadrado em torno da media31. A varianciauniversal pode ser calculada pelas Equacoes (26) e (27).

σ2 =

∑Ni=1(xi − µ)2

N(26)

σ2 =

∑Ni=1 x

2i

N− µ2 (27)

Exemplo 2.45. (Variancia universal) A variancia universal do conjunto de dados 186, 402, 191, 20, 7e 124 e

Equacao (26)

σ2 =

∑6i=1(xi − 155)2

6=

(186− 155)2 + (402− 155)2 + · · ·+ (124− 155)2

6=

104356

6= 17392.6

Equacao (27)

σ2 =1862 + 4022 + 1912 + 202 + 72 + 1242

6− 1552 =

248506

6− 24025 = 17392.6

> (var.p <- var(c(186,402,191,20,7,124))*(5/6)) # Variancia amostral*(1/fator de correc~ao)

[1] 17392.67

,

A variancia amostral pode ser calculada pelas Equacoes (28) e (29).

σ2 = s2n =

∑ni=1(xi − x)2

n− 1(28)

σ2 = s2n =

(∑ni=1 x

2i

n− x2

)(n

n− 1

)(29)

Exemplo 2.46. (Variancia amostral) A variancia amostral do conjunto de dados 186, 402, 191, 20, 7 e124 e

Equacao (28)

s26 =

∑6i=1(xi − 155)2

6− 1=

(186− 155)2 + (402− 155)2 + · · ·+ (124− 155)2

6− 1=

104356

5= 20871.2

Equacao (29)

s26 =

(1862 + 4022 + 1912 + 202 + 72 + 1242

6− 1552

)(6

5

)= 17392.6× 1.2 = 20871.2

31Sugestao: leia isso pelo menos tres vezes, devagar.

Page 33

Page 34: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> (var.a <- var(c(186,402,191,20,7,124))) # 'var' calcula a variancia amostral

[1] 20871.2

Assim, se o conjunto de dados deste exemplo representar uma amostra observada em 6 vezes que secontou o numero de passos ate a lixeira mais proxima na capital do Rio Grande (do Sul), pode-se dizerque a variancia amostral e 20871.2 passos2. Dica: nao tente interpretar este valor.,

Note pela Equacao (28) que a variancia amostral e dividida por n− 1 e nao por n. Isto faz com quea variancia amostral seja maior ou igual a variancia universal. Intuitivamente pode-se pensar como umaespecie de penalidade aplicada a esta medida quando observa-se apenas parte do universo (amostra). Damesma forma pode-se pensar na variancia amostral como o produto entre a variancia universal σ2 e ofator n/(n− 1), descrito por

s2n = σ2

(n

n− 1

)(30)

2.4.3 Desvio Padrao

O desvio padrao e a raiz quadrada da variancia. O motivo de calcular o desvio padrao e que asua interpretacao e mais intuitiva se comparada a da variancia, uma vez que a unidade de medida dodesvio padrao e a mesma da variavel X. As formulas do desvio padrao universal e amostral sao dadasrespectivamente pelas equacoes32 (31) e (32).

σ =√σ2 (31)

sn =√s2n (32)

Exemplo 2.47. (Desvio padrao universal) Do Exemplo 2.45 sabe-se que a variancia universal do conjuntode dados 186, 402, 191, 20, 7 e 124 e σ2 = 17392.6. Assim, o desvio padrao universal e

σ =√

17392.6 ≈ 131.88126.

> (dp.p <- sd(c(186,402,191,20,7,124)) * sqrt(5/6)) # s_n * raiz(1/fator de correc~ao)

[1] 131.8813

> all.equal(dp.p, sqrt(var.p)) # 'dp.p' e igual a raiz quadrada de 'var.p'

[1] TRUE

> all.equal(dp.p^2, var.p) # 'dp.p' ao quadrado e igual a 'var.p'

[1] TRUE

,

Exemplo 2.48. (Desvio padrao amostral) Do Exemplo 2.46 sabe-se que a variancia amostral do conjuntode dados 186, 402, 191, 20, 7 e 124 e s2

6 = 20871.2. Assim, o desvio padrao amostral e

s6 =√

20871.2 ≈ 144.46868.

32Se voce ficou confuso com a notacao, escreva σ2 = V e σ = D (bem como s2 = v e s = d) e repense o problema. VideSecoes 3.3.1 e 3.4.1 para definicoes mais gerais.

Page 34

Page 35: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> (dp.a <- sd(c(186,402,191,20,7,124))) # 'sd' calcula o desvio padr~ao amostral

[1] 144.4687

> all.equal(dp.a, sqrt(var.a)) # 'dp.a' e igual a raiz quadrada de 'var.a'

[1] TRUE

> all.equal(dp.a^2, var.a) # 'dp.a' ao quadrado e igual a 'var.a'

[1] TRUE

Assim, se o conjunto de dados deste exemplo representar uma amostra observada em 6 vezes que secontou o numero de passos ate a lixeira mais proxima na capital do Rio Grande (do Sul), pode-se dizerque o desvio padrao (amostral, claro) e de aproximadamente 144.5 passos. Pode-se pensar neste valorcomo uma oscilacao media aproximada em torno da media aritmetica.,

2.4.4 Coeficiente de Variacao

O coeficiente de variacao e uma medida de comparacao de variabilidades, uma vez que ajusta o desviopadrao pela media. E preferıvel ao desvio padrao por ser um numero adimensional, i.e., nao possuiunidade de medida, tornando quaisquer conjuntos de dados comparaveis em termos de variabilidade.E utilizado em diversas areas da Estatıstica, mas e popularmente conhecido como medida de risco emcarteiras de ativos.

As formulas do coeficiente de variacao universal e amostral sao dadas respectivamente pelas equacoes(33) e (34).

γ =σ

µ(33)

γ = g =s

x(34)

Exemplo 2.49. (Coeficiente de variacao) Duas variaveis sao obtidas em um certo experimento quımico.A variavel X e medida em microgramas e possui media de 0.0045 µg e desvio padrao de 0.0056 µg. Avariavel Y e medida em mols e possui media de 3549 mols e desvio padrao de 419 mols. O coeficiente devariacao de X e dado por gX = 0.0056

0.0045 ≈ 1.24, e de Y por gY = 4193549 ≈ 0.12. Portanto, como 1.24 > 0.12,

conclui-se que o conjunto de dados X varia mais do que Y.

> mx <- 0.0045

> dx <- 0.0056

> round(gx <- dx/mx, 2) # Coeficiente de variac~ao de X

[1] 1.24

> my <- 3549

> dy <- 419

> round(gy <- dy/my, 2) # Coeficiente de variac~ao de Y

[1] 0.12

,

Page 35

Page 36: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

2.5 Outras medidas

2.5.1 Assimetria (ou Obliquidade)

Assimetria ou obliquidade e uma medida que avalia a assimetria de uma distribuicao de frequencia.Existem diversas definicoes na literatura, das quais apresentam-se tres alternativas.

g1 =m3

m3/22

=1n

∑ni=1(xi − xn)3[

1n

∑ni=1(xi − xn)2

]3/2 (35)

b1 = g1

(n− 1

n

)3/2

=m3

s3=

1n

∑ni=1(xi − xn)3[

1n−1

∑ni=1(xi − xn)2

]3/2 (36)

G1 = g1

√n(n− 1)

n− 2= b1

n2

(n− 1)(n− 2)(37)

> set.seed(1); x <- rnorm(100) # Gerando 100 valores N(0,1) com semente fixa

> e1071::skewness(x, type = 1) # Definic~ao classica de assimetria, Equac~ao (36)

[1] -0.0722319

> e1071::skewness(x, type = 2) # Utilizada no SAS, SPSS e Excel, Equac~ao (38)

[1] -0.07333656

> e1071::skewness(x, type = 3) # Padr~ao do R, utilizada no MINITAB e BMDP, Equac~ao (37)

[1] -0.07115113

2.5.2 Curtose

A curtose e uma medida de achatamento de uma distribuicao de frequencia. Assim como na assime-tria, das diversas definicoes de curtose apresentam-se tres alternativas.

g2 =m4

m22

− 3 =1n

∑ni=1(xi − xn)4[

1n

∑ni=1(xi − xn)2

]2 − 3 (38)

b2 = (g2 + 3)

(1− 1

n

)2

− 3 =m4

s4− 3 =

1n

∑ni=1(xi − xn)4[

1n−1

∑ni=1(xi − xn)2

]2 − 3 (39)

G2 =[(n+ 1)g2 + 6] (n− 1)

(n− 2)(n− 3)(40)

> set.seed(1); x <- rnorm(100) # Gerando 100 valores N(0,1) com semente fixa

> e1071::kurtosis(x, type = 1) # Definic~ao classica de curtose, Equac~ao (39)

[1] 0.007653206

> e1071::kurtosis(x, type = 2) # Usada no SAS, SPSS e Excel, Equac~ao (41)

[1] 0.07053697

> e1071::kurtosis(x, type = 3) # Padr~ao do R, usada tambem no MINITAB e BMDP, Eq. (40)

[1] -0.05219909

Page 36

Page 37: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

EXERCICIOS

1. Escreva σ2 em funcao de s2n.

2. Considere os valores 1,2,3,4.

a) Calcule a media, a mediana e a moda.b) Calcule a amplitude.c) Calcule a variancia universal pelas Equacoes (26) e (27).d) Calcule a variancia amostral pelas Equacoes (28) e (29).e) Quanto, em percentual, a variancia amostral e maior que a universal?f) Calcule os coeficientes de variacao universal e amostral.

3. Considere novamente as variaveis das Tabelas 2.3 e 2.5, dentro do RStudio.

a) Calcule a media, a mediana e a moda das variaveis ‘idade’ e ‘altura’.b) Calcule as amplitudes.c) Calcule as variancias amostrais pela funcao var.d) Calcule as variancias universais pela funcao obtida no Exercıcio 1.e) Quanto, em percentual, as variancias amostrais sao maiores que as respectivas variancias universais?f) Calcule os desvios padrao amostrais pela funcao sd.g) Calcule os coeficientes de variacao universais e amostrais. Qual variavei apresentou maior variacao?h) Calcule a assimetria e curtose do tipo 3 com as funcoes skewness e kurstosis do pacote e1071.

4. Quanto, em percentual, a variancia amostral e maior que a universal em uma amostra de tamanho n = 9?

5. A partir dos Exemplos 2.45 e 2.46 mostre que a varancia amostral e 20% maior que a variancia universal.

Page 37

Page 38: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

2.6 Visualizacao

Visualizacao e o processo de representar informacoes ou ideias atraves de diagramas, graficos e outrosmetodos de apresentacao visual. De um modo geral, as ferramentas de visualizacao devem ser claras parao leitor, devendo-se evitar detalhes desnecessarios. Um bom visualizador transmite a informacao desejadade forma clara, precisa e eficiente. Ao apresentar informacao de maneira visual deve-se considerar que

· o olho humano nao diferencia muitas tonalidades de cor, por isso e interessante trabalhar comescalas em degrade, diferentes texturas e espessuras de linha

· para apresentar dados categoricos e interessante ordenar as categorias de forma intuitiva paramelhor apresentacao

· deve-se evitar o agrupamento de dados contınuos em categorias

· e importante manter a notacao coerente com o texto.

2.6.1 Grafico de Setores (Pizza)

Em Ingles e conhecido como pie chart, ou grafico de torta em traducao livre. Nao sei por que mudamos alimentos de uma lıngua para outra, mas em Portugues e conhecido popularmente como grafico depizza. Para fazer um charme para o chefe, porem, recomenda-se a expressao grafico de setores. Aideia e desenhar setores (ou ‘fatias’, se nao for para o chefe) proporcionais as frequencias das categorias.Seguindo a etiqueta da apresentacao grafica, recomenda-se a utilizacao deste tipo de grafico para, nomaximo, dez categorias. Os graficos da Figura 2.4 estao apresentados em sentido anti-horario iniciandoem 0o. Este e o padrao da maioria dos pacotes computacionais, mas se necessario pode-se inverter osentido e iniciar em qualquer angulo.

90

62

3144

13

Atendimentos em um guiche

SegTerQuaQuiSex

(a) Frequencia (da classe)

37.5%

25.8%

12.9%18.3%

5.4%

Atendimentos em um guiche

SegTerQuaQuiSex

(b) Frequencia relativa

Figura 2.4: Graficos de setores

> atend <- c(90,62,31,44,13) # Numero de atendimentos

> colors <- gray(0:4/4) # Cinco tons de cinza

> atend_temp <- round(atend/sum(atend) * 100, 1) # Calculando os percentuais

> atend_rel <- paste0(atend_temp, '%') # Adicionando '%'. Teste '?paste'> par(mfrow=c(1,2)) # Criando janela grafica 1x2

> # Frequencia (da classe) e legenda

> pie(atend, main='Atendimentos em um guiche', col=colors, labels=atend, cex=1.6, cex.main=1.7)

> legend(.8, .9, c('Seg','Ter','Qua','Qui','Sex'), cex=1.3, fill=colors, box.col='white')> # Frequencia relativa e legenda

> pie(atend, main='Atendimentos em um guiche', col=colors, labels=atend_rel, cex=1.6, cex.main=1.7)

> legend(.8, .9, c('Seg','Ter','Qua','Qui','Sex'), cex=1.3, fill=colors, box.col='white')

Page 38

Page 39: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION2.6.2 Grafico de Barras e Colunas

O grafico de barras e usualmente utilizado para apresentar dados classificados em categorias naoordenadas. Barras retangulares de mesma largura sao dispostas sobre as categorias com altura propor-cional as frequencias ou outra medida associada com as categorias. Podem ser dispostas na horizontalou vertical; quando agrupadas desta ultima forma, chama-se grafico de colunas. E um grafico bastanteversatil, pois permite representar a informacao de diversas maneiras, conforme Figura 2.5.

educ

acao

alim

ent.

e. e

letr

ica

mor

adia

inte

rnet

Custos pessoais

Custo (R$)

0 200 400 600 800

(a) Barra

educacao aliment. e. eletrica moradia internet

Custos pessoais

Cus

to (

R$)

0

200

400

600

800

(b) Colunas

Placebo Tratamento

Placebo vs trat.

Fre

quen

cia

010

2030

40

Nenhuma melhoraAlguma melhoraPlena melhora

(c) Colunas empilhadas

Placebo Tratamento

Placebo vs tratamento

Fre

quen

cia

05

1015

2025

Nenhuma melhoraAlguma melhoraPlena melhora

(d) Colunas lado a lado

Figura 2.5: Graficos de barras e colunas

> custos <- c(640, 760, 75, 100, 850) # Custos pessoais

> names(custos) <- c('alimentacao','educacao','e. eletrica','internet','moradia') # Nomeando

> barplot(custos, xlab='Custo (R$)', main='Custos pessoais', col= gray(0:4/4), cex.main=1.6, horiz=T)

> barplot(custos, ylab='Custo (R$)', main='Custos pessoais', col= gray(0:4/4), las=1, cex.main=1.6)

> trat <- table(Arthritis$Improved, Arthritis$Treatment) # Utilizando base de dados 'Arthritis'> rownames(trat) <- c('Nenhuma melhora','Alguma melhora','Plena melhora') # Nome das linhas

> colnames(trat) <- c('Placebo','Tratamento') # Nome das colunas

> barplot(trat,main='Placebo vs trat.', ylab='Frequencia', col=c('black','grey','white'), cex.main=1.6)

> legend(1.5, 40, rownames(trat), cex=1, fill=colors[c(1,3,5)], box.col='white')> barplot(trat, main='Placebo vs tratamento', ylab='Frequencia', col=c('black', 'grey','white'),

cex.main = 1.6, beside = T)

> legend(5, 28, rownames(trat), cex=1, fill=colors[c(1,3,5)], box.col='white')

Page 39

Page 40: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION2.6.3 Histograma

O histograma e um grafico de barras sem espacamento utilizado para representar distribuicoes defrequencia de variaveis contınuas. Apresenta-se a variavel dividida em classes no eixo horizontal (x) e afrequencia de cada classe no eixo vertical (y). Os pacotes computacionais em geral definem o numero de

classes pela regra de Sturges33. E uma ferramenta basica de analise exploratoria de dados para avaliar adispersao e forma dos dados, detectar valores atıpicos e sugerir modelos e transformacoes para analisesmais avancadas.

Altura (m)

Fre

quen

cy

1.50 1.55 1.60 1.65 1.70 1.75

010

2030

40

(a) Amplitude de classes de Sturges (padrao do R)

Altura (m)

Fre

quen

cy

1.50 1.55 1.60 1.65 1.70

05

1015

20

(b) Amplitude de classes de Freedman-Diaconis

Altura (m)

Den

sity

1.50 1.55 1.60 1.65 1.70 1.75

02

46

8

(c) Ajustando densidade normal

0

3

6

9

1.50 1.55 1.60 1.65 1.70 1.75Altura (m)

(d) Utilizando a biblioteca ggplot2

Figura 2.6: Histogramas

> attach(read.table('http://www.filipezabala.com/data/hospital.txt', head = T))

> hist(altura, prob=F, right=F, breaks = 'sturges', main = '', xlab='Altura (m)', col='grey')> hist(altura, prob=F, right=F, breaks = 'fd', main = '', xlab='Altura (m)', col='grey')> hist(altura, prob=T, right = F, main = '', xlab='Altura (m)', col='grey', ylim = c(0,9))

> curve(dnorm(x, mean=mean(altura), sd=sd(altura)), col='blue', lwd=2, add=T) # Ajustando normal

> ggplot2::qplot(altura, geom = 'histogram', xlab = 'Altura (m)') # install.packages('ggplot2', dep=T)

33Secao 2.2.3.

Page 40

Page 41: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION2.6.4 Box plot

O box plot ou diagrama em caixa e um grafico em formato retangular limitado pelo primeiro e terceiroquartis, onde a linha central e a mediana34. A distancia entre os quartis e a amplitude interquartılica,definida por AI = Q3 − Q1 e contempla 50% dos dados centrais. Pontos que ultrapassam 1.5 vez aamplitude interquartılica acima (abaixo) de Q3 (Q1) sao chamados outliers.

0

1

2

3

4

5

6

Numero de filhos

Num

ero

de fi

lhos

Mínimo

Q1

Mediana

Q3

Máximo

(a) Boxplot

A B C

0

2

4

6

8

Variável W

x

y

(n=50) (n=300) (n=150)

(b) Proporcional ao tamanho do grupo

A B C D E F

0

5

10

15

20

25

Pontuacao em um teste

Pon

tos

Outliers

(c) Vertical

A

B

C

D

E

F

0 5 10 15 20 25

Pontuacao em um teste

Pon

tos

(d) Horizontal

Figura 2.7: Box plots

> attach(read.table('http://www.filipezabala.com/data/hospital.txt', head = T))

> boxplot(filhos, main='Numero de filhos', ylab='Numero de filhos', las=1, cex.main=1.6)

> set.seed(1); y <- c(rpois(50, lambda=1.5), rnorm(300,4), (1:150)/17)

> x <- factor(c(rep('A',50), rep('B',300), rep('C',150) ))

> bp <- boxplot(y ~ x, varwidth = TRUE, las = T, main='Variavel W', cex.main=1.6)

> mtext(paste('(n=', bp$n, ')', sep = ''), at = seq_along(bp$n), line =2, side = 1)

> boxplot(count ~ spray, data = InsectSprays, col = 'lightgray', main = 'Pontuacao em um teste',ylab = 'Pontos', xlab = 'Grupo', las = 1, cex.main = 1.6)

> boxplot(count ~ spray, data = InsectSprays, col = 'lightgray', main = 'Pontuacao em um teste',ylab = 'Pontos', xlab = 'Grupo', las = 1, cex.main = 1.6, horizontal = T)

34Secao 2.3.9.

Page 41

Page 42: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION2.6.5 Grafico de Dispersao

O grafico de dispersao apresenta a relacao entre duas variaveis contınuas. O grafico da Figura 2.8asugere que o rendimento dos carros avaliados cai conforme aumenta sua massa, o que e bastante intuitivo.Na Figura 2.8b esta um exemplo de matriz de dispersao, que consiste em um mosaico com graficos dedispersao de duas ou mais variaveis apresentadas simultaneamente. Note que o grafico da Figura 2.8aesta replicado na primeira linha, ultima coluna da matriz. Seu inverso (Massa vs Rendimento) esta na

ultima linha, primeira coluna. E uma ferramenta util no ajuste dos modelos apresentados no Capıtulo 5.

1000 1500 2000 2500

6

8

10

12

14

Rendimento (km/L) vs Massa (kg)

Massa do carro

Ren

dim

ento

(km

/L)

(a) Grafico de dispersao

Rendimento

1000

4000

7000

6 8 10 14

1000

2000

1000 4000 7000

Cilindrada

Vel.Transmissão

3.0 4.0 5.0

1000 2000

68

1014

3.0

4.0

5.0

Massa

Matriz de dispersao

(b) Matriz de dispersao

Figura 2.8: Grafico de dispersao

> attach(mtcars) # install.packages('mtcars', dep=T)

> Rendimento <- 0.42515199183708*mpg

> Massa <- 0.453592*wt*1000

> Cilindrada <- 16.387064*disp

> Vel.Transmiss~ao <- drat

> plot(Massa, Rendimento,

main="Rendimento (km/L) vs Massa (kg)",

xlab="Massa do carro",

ylab="Rendimento (km/L)", pch = 19, las = 1, cex.main = 1.6)

> pairs(~ Rendimento + Cilindrada + Vel.Transmiss~ao + Massa, data = mtcars,

main = 'Matriz de dispersao', cex.main = 1.6)

2.6.6 Mais opcoes de visualizacao

· https://plot.ly/r/

· https://www.r-graph-gallery.com/

· https://github.com/d3/d3/wiki/Gallery

· http://kateto.net/network-visualization

· https://www.shinyapps.org/apps/RGraphCompendium/index.php

· http://r-statistics.co/Top50-Ggplot2-Visualizations-MasterList-R-Code.html

EXERCICIOS

1. Leia o artigo disponıvel em http://flowingdata.com/2017/01/24/one-dataset-visualized-25-ways/.

2. Acesse o link http://archive.ics.uci.edu/ml/datasets.php e escolha um conjunto de dados.

Page 42

Page 43: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONa) Descreva brevemente o conjunto de dados selecionado.b) Crie visualizacoes para o conjunto escolhido, destacando pontos que considere relevante.c) Envie os codigos e links para o professor.

EXERCICIOS EXTRAS

1. (Adaptado de Pagano (2004)) Em uma investigacao dos fatores de risco para doencas cardiovasculares, os nıveis de

cotinina (produto metabolico da nicotina) foram registrados para um grupo de fumantes (F) e um grupo de naofumantes (NF) em nanogramas por mililitro (ng/mL)35. As distribuicoes de frequencia estao na tabela abaixo

Nıvel de cotinina (ng/mL) fF frF fNF frNF0 ` 14 78 330014 ` 50 133 72

50 ` 100 142 23100 ` 150 206 15

150 ` 200 197 7

200 ` 250 220 8250 ` 300 151 9

300 + 412 11

Total 1539 3445

Complete a tabela acima e responda:a) Qual o percentual de fumantes com nıvel de cotinina ate 14 ng/mL? E entre os nao fumantes, qual e este percen-

tual?

b) Qual percentual de fumantes que possuem 100 ng/mL ou mais de cotinina?c) Entre os nao fumantes, qual o percentual de pessoas que tem entre 100 e 250 ng/mL de cotinina?

d) Qual o intervalo modal entre os fumantes? E entre os nao fumantes? Interprete.

e) A mediana do nıvel de cotinina esta em qual intervalo para os fumantes? E para os nao fumantes? Interprete.f) Represente os dados utilizando o grafico que voce considerar mais adequado.

2. (Adaptado de Pagano (2004)) Questoes para revisar os conceitos estudados:a) O que sao estatısticas descritivas?

b) Como os dados ordinais diferem dos nominais? De tres exemplos de cada tipo.

c) Quais as vantagens e desvantagens de se transformar medidas contınuas em intervalos de classe?d) Ao se construir uma tabela, quando e vantajoso usar frequencias relativas em vez de absolutas?

e) O que sao quartis de um conjunto de dados?

f) O que sao media e mediana? Sob quais condicoes e preferıvel usar cada uma?

3. Em 2009, a Pesquisa de Informacoes Basicas Municipais do IBGE divulgou os seguintes resultados para o numero

de municıpios por faixa de populacao para a regiao Sul do Brasil.

Populacao # municıpios Prefeitos () Prefeitas ()

Ate 5 000 421 397 24

De 5 001 a 10 000 291 268 23De 10 001 a 20 000 229 222 7

De 20 001 a 50 000 144 134 10

De 50 001 a 100 000 57 54 3De 100 001 a 500 000 43 40 3

Mais de 500 000 3 3 -

Total 1188 1118 70

Com base nesta informacao, complete com V (verdadeiro) ou F (falso), corrigindo o que estiver errado:

( ) A regiao Sul possui 1188 municıpios.( ) Mais de 90% dos municıpios possuem prefeitos do sexo masculino.( ) Menos de 8% dos municıpios com ate 10 mil habitantes sao administrados por mulheres.

( ) Entre municıpios com prefeitos do sexo masculino, aproximadamente 4% deles possuem mais de 100 mil habi-tantes.

( ) A mediana da populacao dos municıpios esta entre 20001 e 50000 habitantes.

( ) Aproximadamente 34% dos municıpios administrados por mulheres possuem ate 5 mil habitantes.

35Um nanograma e um bilionesimo de grama. 1g = 109ng, 1ng = 10−9g.

Page 43

Page 44: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION4. Voce esta dirigindo em uma rodovia e observa que ultrapassa o mesmo numero de automoveis que ultrapassam

voce. Qual medida de tendencia central melhor representa a velocidade que voce esta dirigindo, media ou mediana?

Explique o seu raciocınio.

5. Foram observadas as quantidades de fotocopias feitas por dois setores de uma empresa no segundo semestre de 2018,

apresentadas na tabela abaixo.

Mes jan fev mar abr mai jun

Setor X 30 15 15 10 39 35

Setor Y 120 160 15 130 145 300

Sabendo que∑6i=1 xi = 144,

∑6i=1 x

2i = 4196,

∑6i=1 yi = 870,

∑6i=1 y

2i = 168150, calcule:

a) A media, mediana e moda do numero de copias de cada setor.

b) A amplitude, a variancia e o desvio padrao amostrais do numero de copias de cada setor.c) Em qual dos setores o numero de copias variou mais? Por que?

d) Represente os dados utilizando o grafico que voce considerar mais adequado.

6. Voce nao sabe a nota da primeira prova (P1) de tres avaliacoes realizadas no semestre passado. Sabendo que a

media das notas das tres avaliacoes foi P = 7.5 e que P2 = 5 e P3 = 9, qual a nota da avaliacao que voce perdeu?

7. Para aprimorar seu chimarrao, voce decidiu medir a temperatura da agua que estava utilizando durante as duas

ultimas semanas. As temperaturas (em graus Celsius) observadas foram as seguintes:

Semana 1: 72.4 84.9 57.5 61.0 87.9 78.1 73.0

Semana 2: 76.3 80.0 74.1 67.0 83.2 83.0 58.0

a) Calcule a media e mediana da temperatura da agua nos 14 dias.

b) Repita o item (a) para semana 1 e para semana 2 separadamente. Parece haver diferenca na temperatura de umasemana para outra?

c) Uma embalagem de erva mate aponta a temperatura 75 graus Celsius como ideal, sendo considerado bom o

chimarrao com agua entre 65 e 85 graus. Acima deste intervalo o mate esta quente demais (pelando) e abaixo econsiderado frio. Com essa informacao, monte uma tabela de frequencia para observar quantas vezes nessas duas

semanas o chimarrao ficou frio, bom ou muito quente para as semanas 1, 2 e durante os 14 dias.

d) A frequencia em que o chimarrao estava na temperatura ideal foi diferente nas duas semanas? Comente os resul-tados, explicando as diferencas de uma semana para outra.

8. (Adaptado de Anderson et al. (2007)) Milhoes de norte-americanos levantam de manha e realizam seu trabalho em

escritorios residenciais, comunicando-se com a empresa por meios eletronicos. Coletou-se uma amostra da idade de20 indivıduos que trabalham em casa. As idades foram as seguintes:

18 54 20 46 25 48 53 27 26 37

40 36 42 25 27 33 28 40 45 25

a) Calcule a media, mediana e moda.

b) Calcule e interprete o primeiro quartil.

c) Se a idade mediana do universo de todos os adultos e 35.5 anos, comente se as pessoas que trabalham em casatendem a ser mais jovens ou mais velhas que a populacao de todos os adultos.

9. (Adaptado de Anderson et al. (2007)) Em um teste automobilıstico de quilometragem e consumo de gasolina, 13

automoveis foram testados na estrada, em um percurso de 482.8 quilometros, em condicoes de dirigibilidade tanto na

cidade quanto na rodovia. Os dados apresentados a seguir foram registrados para o desempenho obtido em termosde quilometros por galao americano (US liquid gallon), equivalente a 3.78 litros.

Cidade (X): 26.07 26.81 25.58 23.17 21.24 24.62

27.03 25.74 25.91 24.62 24.46 24.62 25.74Rodovia (Y ): 30.57 32.18 28.96 29.93 30.89 27.35

27.35 28.96 30.57 33.95 31.22 28.96 28.96

Dados∑13i=1 xi = 325.61,

∑13i=1 x

2i = 8184.513,

∑13i=1 yi = 389.85,

∑13i=1 y

2i = 11732.66,

a) Calcule a media, mediana e a moda.

b) Faca uma investigacao sobre a possibilidade de diferenca de consumo de combustıvel quando de dirige na cidade

e na rodovia.

Page 44

Page 45: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION10. (Adaptado de Pagano (2004)) Um estudo foi conduzido comparando mulheres adolescentes que sofriam de bulimia

com mulheres adolescentes normais com composicao corporal e nıveis de atividade fısica similares. Abaixo estao as

medidas de consumo calorico, registrados em calorias por quilograma, para amostras de adolescentes de cada grupo.

Bulımicas: 15.9 18.9 25.1 16.0 19.6 16.5 21.5 25.6 17.0 17.6 18.1 18.9Saudaveis: 20.7 30.6 22.4 33.2 24.5 33.7 37.1 36.6 26.3 37.4 40.8 37.4

a) Obtenha e interprete o consumo calorico mediano, tanto para adolescentes bulımicas quanto para saudaveis.

b) Calcule a media de cada grupo.c) Qual grupo tem maior variabilidade nas medidas? Justifique.

11. O Mini-Exame do Estado Mental (MEEM) e provavelmente um dos instrumentos mais utilizados mundialmente,possuindo versoes em diversas lınguas e paıses, validado inclusive para a populacao brasileira. Fornece informacoes

sobre diferentes parametros cognitivos, contendo questoes agrupadas em sete categorias, cada uma delas planejada

com o objetivo de avaliar funcoes cognitivas especificas como a orientacao temporal (5 pontos), orientacao espacial(5 pontos), registro de tres palavras (3 pontos), atencao e calculo (5 pontos), recordacao das tres palavras (3 pontos),

linguagem (8 pontos) e capacidade construtiva visual (1 ponto). O escore do MEEM pode variar de um mınimo de

0 ponto, indicando o maior grau de comprometimento cognitivo dos indivıduos, ate um total maximo de 30 pontos,que corresponde a melhor capacidade cognitiva. Desta forma a pontuacao e a soma dos pontos de cada categoria,

podendo assumir os valores 0, 1, . . . , 30, de onde calculam-se medidas como media e variancia para avaliacao dos

pacientes.

Foram avaliados dois grupos de 8 pacientes cada em relacao ao MEEM, conforme a tabela abaixo.

i 1 2 3 4 5 6 7 8

MEEM G1 (xi) 12 19 12 17 18 12 10 11MEEM G2 (yi) 30 22 27 21 19 18 19 21

Se∑8i=1 xi = 111,

∑8i=1 x

2i = 1627,

∑8i=1 yi = 177,

∑8i=1 y

2i = 4041, pede-se:

a) Classifique a variavel MEEM.

b) A media, a mediana e a(s) moda(s) do MEEM de cada grupo.

c) A amplitude do MEEM de cada grupo.d) A variancia e o desvio padrao universais do MEEM de cada grupo.

e) A variancia e o desvio padrao amostrais do MEEM de cada grupo.

f) Em qual dos grupos o MEEM variou mais? Justifique.

12. (Adaptado de Magalhaes and Lima (2002)) O Conselho Regional de Odontologia recomenda visitas periodicas ao

dentista e, para orientar sua campanha de divulgacao, realizou uma pesquisa com 100 criancas. O numero mediode visitas no ultimo ano foi 0.5. A mediana e a moda do numero de visitas foram iguais a zero. Com base nestes

dados, responda V para verdadeiro, F para falso (corrigindo o que estiver errado) e NSA para sentencas que nao sepode afirmar atraves das informacoes fornecidas.

( ) Pelo menos 50 criancas nao visitaram o dentista neste ano.

( ) Alguma crianca fez mais de tres visitas no ultimo ano.( ) Metade das criancas ja foi ao dentista pelo menos uma vez.

( ) Uma crianca pode ter ido ao dentista 80 vezes no ano.

Questoes de Concursos

13. (Prova 1 TRF 2005) Assinale a alternativa correta:Considere a seguinte distribuicao das frequencias absolutas dos salarios mensais, em reais, referentes a 200 trabalha-

dores de uma industria.

i Classes de Salarios fi1 400 ` 500 50

2 500 ` 600 70

3 600 ` 700 404 700 ` 800 30

5 800 ` 900 10

Total -

Sobre essa distribuicao de salarios e correto afirmar que:

(a) O salario modal encontra-se na classe de R$ 800 ate R$ 900.

(b) O salario mediano encontra-se na classe de R$ 600 ate R$ 700.

Page 45

Page 46: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION(c) O salario modal encontra-se na classe de R$ 600 ate R$ 700.(d) O salario modal encontra-se na classe de R$ 700 ate R$ 800.

(e) O salario mediano encontra-se na classe de R$ 500 ate R$ 600.

14. (Exame Fundacao Medica do Rio Grande do Sul - 2010) Considere uma amostra de 250 pessoas que sofreram

acidentes ofıdicos36. O resumo dos dados esta nas tabelas abaixo. Para cada questao (1 e 2) existe somente uma

alternativa correta.

Idade # pessoas

6 ` 8 1

8 ` 10 2

10 ` 12 712 ` 14 14

14 ` 16 31

16 ` 18 4418 ` 20 72

20 ` 22 61

22 ` 24 18

Total 250

Moda: 19Media: 17.8

Mediana: 18

Primeiro quartil: 16Segundo quartil: 20

Desvio padrao: 3

Questao 1) A frequencia relativa de pessoas com idade maior ou igual a 12 anos e menor que 18 anos que sofreram

acidentes ofıdicos e igual a:(a) 35.6%

(b) 38.4%

(c) 39.6%(d) 58.8%

(e) 64.4%

Questao 2) Analise as alternativas abaixo:

I) Metade das pessoas da amostra apresentou idade menor ou igual a 18 anos.

II) Metade das pessoas da amostra apresentou idade entre 16 e 20 anos.III) O coeficiente de variacao foi de aproximadamente 16.8%.

Assinale a melhor opcao de resposta.

(a) I (b) II (c) III (d) I e II (e) I, II e III

15. (CESGRANRIO - 2010 - Petrobras/Administrador) Uma loja de conveniencia localizada em um posto de combustıvelrealizou um levantamento sobre o valor das compras realizadas pelos seus clientes. Para tal tomou uma amostra

aleatoria de 21 compras, que apresentou o seguinte resultado:

i Valor i Valor i Valor

1 R$ 19.40 8 R$ 22.00 15 R$ 18.002 R$ 14.00 9 R$ 34.00 16 R$ 29.003 R$ 18.30 10 R$ 15.50 17 R$ 34.004 R$ 27.20 11 R$ 28.50 18 R$ 15.505 R$ 8.70 12 R$ 34.00 19 R$ 13.406 R$ 10.30 13 R$ 10.80 20 R$ 17.00

7 R$ 7.20 14 R$ 15.50 21 R$ 19.00

A mediana dessa serie de observacoes e:(a) 15.5 (b) 18.0 (c) 18.3 (d) 28.5 (e) 34.0

36Picada de cobra.

Page 46

Page 47: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

“ La theorie des probabilites n’est au fond,

que le bon sens reduit au calcul.”37

∼ Pierre-Simon Laplace, 1814

3 Probabilidade

“S

o sei que nada sei”, reagiu Socrates ao pronunciamento do Oraculo de Delfos, que o apontaracomo o mais sabio de todos os homens38. No texto de Sheakspeare, Hamlet diz a seu colega de

Wittenberg: “There are more things in heaven and earth, Horatio, than are dreamt of in your philo-sophy.”39 Em linha com estes pensadores, o autor considera razoavel formalizar uma maneira de lidarcom as incertezas da vida, ainda que de forma idealizada.

Pense em quantas coisas voce tem certeza absoluta. Absoluta. Ab-so-lu-ta. Pense agora que vocedeve tomar uma decisao. Pode ser algo simples, como escolher entre um cafe ou uma agua no aviao. Pormais banal que isso possa parecer, uma decisao deve ser tomada, mesmo que voce resolva nao aceitarqualquer das sugestoes da aeromoca. A pior coisa que pode acontecer e o cafe estar frio ou fora do ponto,a agua estar quente ou com um gosto ruim ou, caso tenha optado por nao beber nada, voce ficar comsono ou sede. Porem, pode-se decidir por algo mais emocionante. Digamos que voce e o responsavelpor decidir entre o pedido de falencia ou da continuidade da empresa da qual voce faz parte do corpodiretivo. Bem mais emocionante do que conversar com a aeromoca, mas identico em termos de metodo:consideracoes foram feitas (seu paladar/sua estrategia de negocios), observacoes foram realizadas (ocheirinho do cafe/analise de informacoes contabeis e de mercado) e uma decisao foi tomada (cafe, aguaou no, ¡gracias senorita!/falencia ou continuidade da empresa).

Para auxiliar em decisoes maiores como o exemplo descrito acima, utiliza-se o conceito de probabi-lidade, definido neste texto como o grau de incerteza quantificado. Pode-se quantificar a incerteza dediversas formas40, e neste texto serao abordadas as probabilidades axiomatica e frequentista. A pro-babilidade axiomatica e aquela da qual partimos por consenso, enquanto a probabilidade frequentista econsiderada o limite para o qual tende a frequencia relativa da Equacao (41) (pagina 52) sob certascondicoes de regularidade.

Exemplo 3.1. (Probabilidade axiomatica) Assume-se que uma moeda seja equilibrada, com probabilidade50% de face cara ou coroa.,

Exemplo 3.2. (Probabilidade frequentista) Uma moeda e lancada 100 vezes aproximadamente sob asmesma condicoes e observa-se a frequencia de faces cara e coroa. Se ao final dos n = 100 lancamentosobservarmos 54 caras e 100 − 54 = 46 coroas, calcula-se que ha 54/100 = 54% de probabilidade de facecara e 46/100 = 46% de coroa.,

A seguir sera feita uma breve revisao da Teoria dos Conjuntos, base para a compreensao do formalismoda Teoria da Probabilidade.

3.1 Teoria dos Conjuntos

Um conjunto e uma colecao de elementos, sem repeticao e nao ordenada. Um subconjunto e umacolecao de elementos que pertencem a um determinado conjunto. Formalmente nao existe definicao paraconjunto, subconjunto, elemento e pertinencia, pois estas sao consideradas nocoes primitivas41.

37“A teoria das probabilidades e, basicamente, o senso comum reduzido ao calculo.”38Stokes (1997).39Hamlet Ato 1, cena 5, 159–167.40Para mais detalhes sobre os tipos de probabilidade, vide Feller (1968); de Finetti (1974); James (2010).41Iezzi and Murakami (1977).

Page 47

Page 48: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 3.3. (Conjunto, subconjunto e elemento) Suponha o conjunto T formado pelos alunos que par-ticipam da selecao de truco da universidade. Pode-se anotar

T = Aaron,Beatriz, Carlos,Denivaldo, Evelino, Fabiane = A, B, C, D, E, F.

Cada aluno jogador da selecao de truco e elemento de T . Pode-se dividir o conjunto T em dois subcon-juntos,

T = A, C, D, E

eT = B, F.

Os guris sao elementos de T e as gurias elementos de T.,

3.1.1 Relacoes

Seja A um conjunto e a um elemento de A. a ∈ A simboliza que a pertence ao conjunto A. Seum elemento b nao pertence ao conjunto A, anota-se b /∈ A. Diz-se que um conjunto A esta contidoem outro conjunto B se todos os elementos pertencentes ao conjunto A tambem estiverem contidos emB, simbolizado pelas relacoes A ⊂ B ou B ⊃ A. Estas relacoes tambem podem ser lidas como A esubconjunto de B.

Exemplo 3.4. (Relacoes entre elementos e conjuntos) Suponha os conjuntos T , T e T definidos noExemplo 3.3.

Conjunto-conjunto Elemento-conjunto

T ⊂ T Aaron ∈ TT ⊂ T Aaron ∈ TT ⊂ T Aaron /∈ TT 6⊂ T Fabiane ∈ TT 6⊂ T Fabiane /∈ TT 6⊂ T Fabiane ∈ T

,

3.1.2 Conjunto Vazio

Conjunto vazio42 e um conjunto sem elementos. Sua definicao pode parecer um pouco estranha emum primeiro momento, mas e de grande importancia na Teoria de Conjuntos. Intuitivamente pode-sepensar que alguns resultados sao impossıveis em certos experimentos, gerando a necessidade pratica detal definicao. E denotado por ou ∅, e nao deve ser confundido com a letra grega φ. Por definicao oconjunto vazio e subconjunto de qualquer conjunto.

Exemplo 3.5. (Conjunto vazio) O conjunto dos possıveis resultados de um lancamento de um dado eΩ = 1, 2, 3, 4, 5, 6. Como e impossıvel obter um valor negativo como resultado, o conjunto em que seobtem um valor negativo pode ser definido pelo conjunto vazio, i.e., Ω− = ∅.,

3.1.3 Cardinal e Conjunto das Partes/Potencia

O cardinal de um conjunto indica seu numero de elementos. O cardinal do conjunto A e denotado por|A|, onde |A| ∈ N. O conjunto das partes ou conjunto potencia de um conjunto A e o conjunto contendotodos os subconjuntos de A, denotado por P (A). Por definicao o conjunto vazio ∅ e subconjunto deP (A). O cardinal do conjunto das partes e dado por |P (A)| = 2|A|.

42Ha algum tempo era tambem referenciado como conjunto nulo, mas este termo atualmente designa uma definicaoformal em Teoria da Medida, onde um conjunto nulo e tal que µ(φ) = 0.

Page 48

Page 49: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 3.6. (Cardinal e conjunto das partes) Seja o conjunto A = −9, 0, 5. Sabe-se que

|A| = 3,

|P (A)| = 23 = 8

eP (A) = ∅, −9 , 0 , 5 , −9, 0 , −9, 5 , 0, 5 , −9, 0, 5 .

> A <- c(-9,0,5)

> length(A)

[1] 3

> (ps <- rje::powerSet(A))

[[1]]

numeric(0)

[[2]]

[1] -9

[[3]]

[1] 0

[[4]]

[1] -9 0

[[5]]

[1] 5

[[6]]

[1] -9 5

[[7]]

[1] 0 5

[[8]]

[1] -9 0 5

> length(ps)

[1] 8

,

3.1.4 Operacoes

As operacoes com conjuntos sao fundamentais na Teoria da Probabilidade. Deve-se diferenciar ope-racoes entre conjuntos e operacoes entre numeros. Uniao (∪), interseccao (∩) e complementar (Ac) saooperacoes entre conjuntos. Adicao (+), subtracao (−) e multiplicacao (×) sao operacoes realizadas comnumeros. As operacoes com conjuntos possuem associacao com as operacoes numericas, detalhadas aseguir.

Uniao ∪

A operacao de uniao e representada pelo sımbolo ∪. Indica que o novo conjunto gerado deve considerartodos os elementos dos conjuntos envolvidos na operacao de uniao. Caso existam elementos iguais, elesnao devem ser repetidos. O diagrama de Venn43 da Figura 3.1a representa graficamente esta operacao.Equivale em Portugues a palavra ‘ou’ e em Matematica a operacao numerica de adicao (+).

43O diagrama de Venn e uma representacao grafica de conjuntos atraves de cırculos ou outras formas.

Page 49

Page 50: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 3.7. (Uniao) Suponha os conjuntos T , T e T definidos no Exemplo 3.3.

T ∪ T = T,

T ∪ T = T,

T ∪ T = T.

,

Interseccao ∩

A operacao interseccao e representada pelo sımbolo ∩. Indica que o novo conjunto gerado deveconsiderar apenas os elementos que sejam comuns aos conjuntos envolvidos na operacao de interseccao.O diagrama de Venn da Figura 3.1b representa graficamente esta operacao. Equivale em Portugues apalavra ‘e’ e em Matematica a operacao numerica de multiplicacao (×).

Exemplo 3.8. (Interseccao de conjuntos disjuntos) Suponha os conjuntos T , T e T definidos no Exem-plo 3.3.

T ∩ T = = ∅,T ∩ T = T,

T ∩ T = T.

Pode-se visualizar estes conjuntos na Figura 3.1d, com k = 2.,

Exemplo 3.9. (Equivalencias da uniao) Retomando o Exemplo 2.1 da pagina 10, suponha que 32 torce-dores do Maragato F.C. e 25 do Ximango F.C. estejam em uma sala de aula. Seja M o conjunto dostorcedores do Maragato F.C. e X o conjunto dos torcedores do Ximango F.C., denotados por

M = m1,m2, . . . ,m32

eX = x1, x2, . . . , x25.

A uniao destes conjuntos e

M ∪X = m1,m2, . . . ,m32, x1, x2, . . . , x25.

Logo, existem |M ∪X| = |M | + |X| − |M ∩X| = 32 + 25 − 0 = 57 torcedores do Maragato F.C. ou doXimango F.C. na sala de aula.,

Exemplo 3.10. (Leitores de mais de um jornal) Suponha que existam 20 leitores de Diario Brotense (D),30 leitores de Meia Noite (M) e 6 leitores de Diario Brotense e de Meia Noite, denotados por

D = d1, d2, . . . , d20

eM = m1,m2, . . . ,m30.

A uniao D ∪M possui |D ∪M | = |D|+ |M | − |D ∩M | = 20 + 30− 6 = 44 elementos, visto que 6 delesestao simultaneamente em D e M . Visualize este exemplo na Figura 3.1a.,

Exemplo 3.11. (Interseccao de conjuntos nao disjuntos) Do Exemplo 3.10, a interseccao D ∩M possui6 elementos. Visualize este exemplo na Figura 3.1b.,

Complementar

O complementar do conjunto A indica que o novo conjunto gerado deve considerar os elementos quenao pertencem a A, tambem chamados de nao A ou ¬A. E representado pelas simbologias Ac e A. Nestetexto sera adotada a notacao Ac para nao colidir com a media amostral, tambem anotada pelo sımbolode barra A. O diagrama de Venn da Figura 3.1d representa graficamente esta operacao. Equivale emPortugues a palavra ‘nao’ e em Matematica a operacao numerica de subtracao (−).

Exemplo 3.12. (Complementar) Do Exemplo 2.1, M = Xc e X = M c.,

Page 50

Page 51: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

(a) A uniao B, ou A ∪B (b) A interseccao B, ou A ∩B

(c) Complementar de A, nao A, ¬A ou Ac (d) Particao

Figura 3.1: Operacoes com conjuntos

3.1.5 Conjuntos Disjuntos e Particao

Conjuntos disjuntos sao aqueles cuja interseccao e o conjunto vazio, ou seja, nao se sobrepoem. Umaparticao e uma quebra de um conjunto em subconjuntos disjuntos.

Exemplo 3.13. (Conjunto disjunto e particao) Do Exemplo 3.9, nao existem pessoas que torcam parao Maragato F.C. e para o Ximango F.C. simultaneamente. Os Maragatos e Ximangos formam umapossıvel particao do Rio Grande do Sul.,

3.2 Definicoes

3.2.1 Experimento Aleatorio

Um experimento aleatorio e um processo no qual nao se conhece o especıfico resultado, mas se conheceo conjunto dos possıveis resultados. Um experimento aleatorio pode ser medir alturas de mulheres, contaro dinheiro que entra por dia em um supermercado ou simplesmente lancar um dado. E consideradoaleatorio pois se desconhece o especıfico resultado em cada realizacao, ainda que sejam conhecidos todosos possıveis resultados.

3.2.2 Espaco Amostral

O espaco amostral e o conjunto de todos os possıveis resultados de um experimento aleatorio, simbo-lizado por Ω.

Exemplo 3.14. (Espaco amostral finito) No caso do experimento aleatorio ‘lancar um dado’, o espacoamostral e definido por

Ω = 1, 2, 3, 4, 5, 6 .

,

Page 51

Page 52: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 3.15. (Espaco amostral infinito) No Exemplo 2.9 da pagina 12, o espaco amostral e definidopelo conjunto nao enumeravel Ω = b ∈ R : 0 ≤ b ≤ 1.,

3.2.3 Evento

Em Probabilidade, um evento e um subconjunto do espaco amostral. Nao confundir com eventos nao-probabilısticos como o Planeta Altlantida ou o show de aniversario da Radio Farroupilha no anfiteatroPor-do-Sol.

Exemplo 3.16. (Evento finito) Do Exemplo 3.14 pode-se estar interessado apenas nos resultados pares dolancamento. Assim, o evento ‘face par’ pode ser descrito como E = 2, 4, 6 . Note que E ⊂ Ω.,

Exemplo 3.17. (Evento infinito) Do Exemplo 3.15 pode-se estar interessado apenas nos locais onde existaum percentual de bulımicas superior a 8.4%. Assim, o evento ‘percentual de bulımicas superior a 8.4%’pode ser descrito como E = b ∈ R : 0.084 < b ≤ 1. Note que E ⊂ Ω.,

3.2.4 Probabilidade

Atribui-se a probabilidade do evento A como

Pr(A) =m

n(41)

onde

· m e o numero de casos favoraveis para o evento A

· n e o numero total de casos

A probabilidade frequentista e o limite da Equacao (41) quando n→∞.

Exemplo 3.18. (Calculo de probabilidade) Suponha que um dado seja lancado 150 vezes (a pessoa temuma vida fantastica, a ponto de ter tempo livre para fazer essa experiencia), e observa-se a distribuicaodos lancamentos apresentada na Tabela 3.1.

Face 1 2 3 4 5 6 TotalFrequencia 18 24 34 26 27 21 150

Tabela 3.1: Resultado de 150 lancamentos de um dado, feitos por um desocupado.

Assim, o espaco amostral e Ω = 1, 2, 3, 4, 5, 6 e podem-se calcular algumas probabilidades tais como

Pr(Face 2) = Pr(2) =24

150= 0.16 = 16%,

P r(Face par) = Pr(Face 2 ou face 4 ou face 6) = Pr(2∪4∪6) =24 + 26 + 21

150≈ 0.4733 = 47.33%,

P r(Face ımpar) = 1− Pr(Face par) = 1− 71

150≈ 0.5267 = 52.67%,

P r(Face 2 e face 4 e face 6) = Pr(2 ∩ 4 ∩ 6) = Pr(∅) = 0.

Page 52

Page 53: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> m <- c(18,24,34,26,27,21)

> n <- sum(m)

> (p2 <- m[2]/n)

[1] 0.16

> (ppar <- sum(m[c(2,4,6)])/n)

[1] 0.4733333

> (pimpar <- 1-ppar)

[1] 0.5266667

,

3.2.5 Propriedades

Propriedades fundamentais (Axiomas de Kolmogorov)

· P10 ≤ Pr(A) ≤ 1 (42)

· P2Pr(Ω) = 1 (43)

· P3 Se A1, A2, ..., Ak sao conjuntos disjuntos44, entao

Pr(A1 ∪A2 ∪ . . . ∪Ak) = Pr(A1) + Pr(A2) + . . .+ Pr(Ak) (44)

Propriedades secundarias

Das propriedades fundamentais resultam outras, apresentadas sem demonstracao:

· P4Pr(A) = 1− Pr(Ac) (45)

· P5Pr(∅) = 0 (46)

· P6Pr(A ∪B) = Pr(A) + Pr(B)− Pr(A ∩B) (47)

· P7Pr([A ∪B]

c) = Pr(Ac ∩Bc) (48)

· P8Pr([A ∩B]

c) = Pr(Ac ∪Bc) (49)

EXERCICIOS

1. Demonstre as propriedades P4 a P8.

44Secao 3.1.5.

Page 53

Page 54: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION3.2.6 Probabilidade Condicional

Probabilidade condicional e a probabilidade do evento A apos observada a ocorrencia de um eventoB. A probabilidade de A dado B e

Pr(A|B) =Pr(A ∩B)

Pr(B), P r(B) 6= 0 (50)

Analogamente

Pr(B|A) =Pr(A ∩B)

Pr(A), P r(A) 6= 0

Exemplo 3.19. (Probabilidade condicional) Um dado equilibrado e lancado, e deseja-se observar o eventoA: ‘face 2’. A pessoa que lancou o dado tambem da uma informacao B: ‘a face e par’. Assim,

Pr(B) =1

2,

P r(A ∩B) =1

6,

P r(A|B) =1/6

1/2=

1

3,

P r(Ac|B) = 1− 1

3=

2

3.

,

As propriedades acima resultam na regra do produto, ou a probabilidade do evento interseccao:

Pr(A ∩B) = Pr(A) · Pr(B|A) = Pr(B) · Pr(A|B) (51)

De forma generalizada,

Pr(A1∩A2∩. . .∩Ak) = Pr(A1)Pr(A2|A1)Pr(A2|A1∩A2) . . . P r(Ak|A1∩A2∩. . .∩Ak−1) = Pr(B)·Pr(A|B)(52)

Quando ocorre

Pr(A|B) =Pr(A) · Pr(B)

Pr(B)= Pr(A) (53)

e dito que A e B sao independentes (A ⊥⊥ B), uma vez que a observacao de B nao altera a opiniaosobre A. Os eventos sao independentes dois a dois se A ⊥⊥ B, entao A ⊥⊥ Bc, Ac ⊥⊥ B e Ac ⊥⊥ Bc. Aspropriedades de probabilidade continuam valendo, permitindo que facamos

Pr(A|B) = 1− Pr(Ac|B) (54)

ePr(A ∩B|C)

Pr(B|C)= Pr(A|B ∩ C) (55)

EXERCICIOS

2. Refaca o Exemplo 3.19 considerando a informacao C: ‘a face e ımpar’. Calcule:

a) Pr(C)b) Pr(A ∩ C)c) Pr(A | C)d) Pr(Ac | C)

Page 54

Page 55: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

Figura 3.2: Particao de tamanho k = 5.

3.2.7 Teorema da Probabilidade Total e o Teorema de Bayes

Considere uma particao conforme digrama de Venn da Figura 3.2.A1, . . . , A5 formam uma distribuicao de probabilidade, i.e.,

∑5i=1 Pr(Ai) = 1. Pela Figura 3.2,

B = ∪5i=1(Ai ∩B) (56)

Teorema 3.1. (Teorema da Probabilidade Total) Seja uma sequencia enumeravel de eventos aleatoriosA1, A2, . . . , Ak, formando uma particao de Ω. Como as interseccoes Ai∩B sao mutuamente excludentes,entao de (44)

Pr(B) =

k∑i=1

Pr(Ai ∩B) (57)

Aplicando (51), podemos escrever

Pr(B) =∑i

Pr(Ai) · Pr(B|Ai) (58)

a

De (50) pode-se calcular a probabilidade de Ai dada a ocorrencia de B por

Pr(Ai|B) =Pr(Ai ∩B)

Pr(B)(59)

Aplicando (57) e (51),

Pr(Ai|B) =Pr(Ai) · Pr(B|Ai)∑j Pr(Aj) · Pr(B|Aj)

(60)

Este e o Teorema de Bayes, util quando conhecemos as probabilidades condicionais de B dado Ai, masnao diretamente a probabilidade de B. Conhecida tambem como Regra de Bayes ou ainda a probabilidadeda causa dada a consequencia.

Exemplo 3.20. (Teorema de Bayes) Suponha uma caixa com tres moedas, duas honestas45 e uma comduas faces cara. A probabilidade condicional de a moeda sorteada ter sido aquela com duas caras podeser calculada. Para isso pode-se definir A1 : ‘a moeda retirada e honesta’, A2 : ‘a moeda retirada temduas caras’ e B : ‘o resultado final e cara’ e aplicar a regra de Bayes, resultando em

Pr(A2|B) =Pr(A2) · Pr(B|A2)

Pr(A1) · Pr(B|A1) + Pr(A2) · Pr(B|A2)=

13 × 1

23 ×

12 + 1

3 × 1=

1

2.

,

3.3 Variaveis Aleatorias Discretas

Uma variavel aleatoria (v.a.) e uma transformacao (funcao) de Ω em Rn. Isto significa que osresultados dos experimentos aleatorios serao transformados em numeros. Suponha uma variavel aleatoriaX. RX e o conjunto de todos os possıveis valores de X, denominado contradomınio. Ele pode serconsiderado um espaco amostral numerico obtido a partir de Ω. Uma variavel aleatoria discreta e aquelacujo conjunto RX e finito ou infinito enumeravel.

45Termo tecnico indicando que cada moeda possui uma face cara e outra face coroa, ambas com probabilidade 12

deocorrencia.

Page 55

Page 56: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 3.21. (Variavel aleatoria discreta) Suponha o lancamento de dois dados. O espaco amostraldeste experimento aleatorio e Ω = (1, 1), (1, 2), . . . , (1, 6), (2, 1), (2, 2), . . . , (6, 6), e |Ω| = 36. Suponhaque haja interesse na variavel aleatoria ‘soma dos pontos’, denotada por X. O conjunto dos possıveisvalores de X e RX = 2, 3, . . . , 12 e |RX | = 11.,

Seja X uma variavel aleatoria discreta, onde para cada ponto de RX associa-se uma (funcao de)probabilidade ou distribuicao de probabilidade p(xi) = Pr(X = xi), satisfazendo p(xi) ≥ 0 para todo i e∑|RX |i=1 p(xi) = 1.

Exemplo 3.22. (Probabilidade com v.a. discreta) Suponha dois lancamentos consecutivos de uma moedaequilibrada. O espaco amostral e Ω = HH,HT, TH, TT, onde H representa resultado ‘cara’ e T‘coroa’. Se estivermos interessados na variavel aleatoria X: ‘numero de caras’, o conjunto de interessepassa a ser RX = 0, 1, 2, onde o elemento 0 do conjunto RX equivale ao evento TT, 1 ao eventoTH,HT e 2 a HH. As probabilidades, por sua vez, sao

p(0) = Pr(X = 0) = Pr(TT) =1

2× 1

2=

1

4,

p(1) = Pr(X = 1) = Pr(TH,HT) =

(1

2× 1

2

)+

(1

2× 1

2

)=

2

4=

1

2,

p(2) = Pr(X = 2) = Pr(HH) =1

2× 1

2=

1

4.

Note que Pr(X = 0) + Pr(X = 1) + Pr(X = 2) =1

4+

2

4+

1

4= 1.

,

EXERCICIOS

1. Do Exemplo 3.21, obtenha p(x), x ∈ 2, 3, . . . , 12.

2. Refaca o Exemplo 3.22 para tres lancamentos.

3.3.1 Esperanca e Variancia

Esperanca

A esperanca46 de uma variavel aleatoria discreta X e dada por

E [X] =∑x

x · p(x). (61)

A esperanca de uma funcao g(X) e dada por

E [g(X)] =∑x

g(x) · p(x). (62)

Exemplo 3.23. (Esperanca de v.a. discretas X e X2) Do Exemplo 3.22 pode-se calcular

E(X) = 0× 1

4+ 1× 2

4+ 2× 1

4= 1.

Este resultado era esperado dada a simetria47. A esperanca de g(X) = X2 e dada por

E(X2) = 02 × 1

4+ 12 × 2

4+ 22 × 1

4=

3

2= 1.5.

,46Esta e uma nocao generica da media aritmetica simples, descrita na Secao 2.3.2.47A distribuicao e simetrica em torno de zero se Pr(X ≥ x) = Pr(X ≤ −x), x ∈ R.

Page 56

Page 57: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONVariancia

A variancia48 de uma variavel aleatoria discreta X e dada por

V (X) = E([X − E(X)]2) = E(X2)− [E(X)]

2. (63)

O desvio padrao de uma variavel aleatoria discreta X e dado por

D(X) =√V (X). (64)

Exemplo 3.24. (Variancia e desvio padrao de uma v.a. discreta) Do Exemplo 3.23 pode-se calcular

V (X) =3

2− 12 =

1

2= 0.5

e

D(X) =√

0.5 ≈ 0.7071.

,

3.3.2 Distribuicoes de probabilidade especiais

Uma distribuicao de probabilidade e uma funcao que descreve probabilidades. Considerando a abor-dagem de de Finetti (1974), pagina 222, uma (funcao) distribuicao (acumulada) F (x) e crescente de 0(quando x→ −∞) a 1 (quando x→ +∞). Uma distribuicao com massas concentradas (

∑x p(x) = 1) e

discreta. Uma distribuicao sem massas concentradas (∫xf(x)dx = 1) e contınua.

Algumas formas especiais sao generalizacoes de certos tipos de problema, levando a solucoes pa-dronizadas. Uma vez identificada a classe do problema, informacoes chamadas parametros tornam adistribuicao de probabilidade completamente definida.

Exemplo 3.25. (Parametros) Na Equacao (41) (pg. 52) esta apresentada uma distribuicao de probabili-dade bastante simples. Basta saber os parametros ‘numero de casos favoraveis para A’ e ‘numero totalde casos’ para calcular as probabilidades de interesse, conforme ilustrado no Exemplo 3.18.,

48Esta e a definicao de variancia universal, descrita na Secao 2.4.2.

Page 57

Page 58: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION3.3.3 Distribuicao Binomial · B(n, p)

Considere um unico lancamento de uma moeda que resulta em cara (H) ou coroa (T ). Seja Pr(H) =p e Pr(T) = 1 − p. Este e um experimento ou ensaio de Bernoulli. Suponha agora n lancamentosindependentes da mesma moeda. Este e um experimento binomial. Seja X o numero de faces cararesultantes nos n lancamentos independentes. X e uma variavel aleatoria (com distribuicao) (de pro-babilidades) binomial de parametros n e p, denotado por X ∼ B(n, p). A distribuicao binomial e dadapor

p(x) = Pr(X = x) =

(n

x

)px(1− p)n−x, (65)

onde n ∈ N, p ∈ [0, 1], x ∈ 0, . . . , n e(n

x

)=

(n

n− x

)= Cxn =

n!

x! (n− x)!(66)

A esperanca e variancia sao dadas por

E(X) = np (67)

V (X) = np(1− p) (68)

Exemplo 3.26. (Binomial) Suponha n = 12 lancamentos de uma moeda com p = 0.7. Assim,

X ∼ B(12, 0.7),

p(x) = Pr(X = x) =

(12

x

)0.7x0.312−x,

E(X) = 12× 0.7 = 8.4,

V (X) = 12× 0.7× 0.3 = 2.52.,

> barplot(dbinom(0:12, 12, 0.7), main = 'B(12,0.7)', names.arg = 0:12)

0 1 2 3 4 5 6 7 8 9 10 11 12

B(12,0.7)

0.00

0.05

0.10

0.15

0.20

Page 58

Page 59: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION3.3.4 Distribuicao Binomial Negativa · BN (k, p)

Considere novamente o lancamento de uma moeda que resulta em cara (H, sucesso) ou coroa (T ,fracasso) onde Pr(H) = p e Pr(T) = 1− p. Seja X o numero de lancamentos (ensaios de Bernoulli)realizados ate atingir a k-esima cara (k-esimo sucesso). X e uma variavel aleatoria (com distribuicao)(de probabilidades) binomial negativa de parametros k e p, denotada por X ∼ BN (k, p), onde

k ∈ 1, 2, . . ., 0 ≤ p ≤ 1, x ∈ k, k + 1, . . .

e definida por

p(x) = Pr(X = x) =

(x− 1

k − 1

)pk(1− p)x−k, (69)

onde (x− 1

k − 1

)= Cx−1

k−1 =(x− 1)!

(k − 1)!(x− k)!(70)

A esperanca e variancia sao dadas por

E(X) = k/p (71)

V (X) = k(1− p)/p2. (72)

Exemplo 3.27. (Binomial negativa) Uma moeda com p = 0.7 e lancada ate a obtencao de k = 4 caras.

X ∼ BN (4, 0.7),

p(x) = Pr(X = x) =

(x− 1

3

)0.740.3x−4,

E(X) = 4/0.7 = 40/7 ≈ 5.714286,

V (X) = 4× (1− 0.7)/0.72 = 20/49 ≈ 2.44898.,

> barplot(dnbinom(0:10, 4, 0.7), main = 'BN(4,0.7)', names.arg = 4:14)

4 5 6 7 8 9 10 11 12 13 14

BN(4,0.7)

0.00

0.05

0.10

0.15

0.20

0.25

Page 59

Page 60: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION3.3.5 Distribuicao Poisson · P(λ)

Poisson (1837) abordou a distribuicao que leva seu nome considerando o limite de uma sequencia dedistribuicoes binominais conforme Equacao (65), no qual n tende ao infinito e p tende a zero enquantonp permanece finito igual a λ.

Considere um pedagio onde passam em media λ veıculos por minuto. A v.a. discreta X: ‘numero deveıculos por minuto’ tem distribuicao Poisson de parametro λ, denotada por X ∼ P(λ), onde λ > 0 ex ∈ 0, 1, 2, . . .. A distribuicao de Poisson e dada por

p(x) = Pr(X = x) =e−λλx

x!(73)

onde o numero de Euler49 tem valor aproximado e ≈ 2.71828182845905. A esperanca e variancia saodadas por

E(X) = λ (74)

V (X) = λ (75)

Exemplo 3.28. (Poisson) Considere um pedagio onde passam em media λ = 2 veıculos por minuto.Assim,

X ∼ P(2),

p(x) = Pr(X = x) =e−22x

x!,

E(X) = 2,

V (X) = 2.,

> barplot(dpois(0:10, 2), main = 'P(2)', names.arg = 0:10)

0 1 2 3 4 5 6 7 8 9 10

P(2)

0.00

0.05

0.10

0.15

0.20

0.25

49Na literatura tambem pode ser conhecido como numero de Napier, constante neperiana, entre outras formas.

Page 60

Page 61: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION3.3.6 Distribuicao Hipergeometrica · H(N,R, n)

Suponha uma urna com N bolinhas das quais R sao marcadas com um ×, de onde retira-se umaamostra de n bolinhas. SejaX o numero de bolinhas marcadas com× das n sorteadas. X tem distribuicaohipergeometrica, denotada por

X ∼ H(N,R, n)

onde N ∈ 1, 2, . . ., R ∈ 1, 2, . . . , N, n ∈ 1, 2, . . . , N. Sua funcao (massa) de probabilidade edefinida por

p(x) = Pr(X = x) =

(Rx

)(N−Rn−x

)(Nn

) (76)

A esperanca e variancia sao dadas por

E(X) = nR

N(77)

V (X) = nR

N

N −RN

N − nN − 1

(78)

Exemplo 3.29. (Hipergeometrica) Suponha uma urna com N = 15 bolinhas, R = 10 marcadas com um× de onde se retira uma amostra de n = 7 bolinhas.

> barplot(dhyper(0:7, 10, 5, 7), main = 'H(15,10,7)', names.arg = 0:7)

0 1 2 3 4 5 6 7

H(15,10,7)

0.0

0.1

0.2

0.3

,

Page 61

Page 62: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

3.4 Variaveis Aleatorias Contınuas

Uma variavel aleatoria e dita contınua quando assume qualquer valor em um intervalo ou colecao deintervalos.

Exemplo 3.30. (Variavel aleatoria contınua) Do Exemplo 2.10 (pg. 12), Ω = t ∈ R : 0 < t ≤ T. Supo-nha que esteja-se interessado em avaliar T : ‘idade de adultos entre 18 e 35 anos’. Pode-se representarRT = t ∈ R : 18 ≤ t ≤ 35, sendo T uma variavel aleatoria contınua visto que |RT | = +∞.,

Seja X uma variavel aleatoria contınua. Como nao e possıvel listar todos os elementos de RX , anotacao p(xi) perde o sentido, visto que p(xi) e zero para todo i. Assim, para tratar do calculo deprobabilidades com variaveis aleatorias contınuas, sera utilizado f(x) no lugar de p(xi). Assim, paracada ponto de RX associa-se uma (funcao) densidade (de probabilidade) (fdp) f(x), satisfazendo

f(x) ≥ 0,∀ x (79)∫x

f(x) dx = 1 (80)

Pr(a ≤ X ≤ b) =

∫ b

a

f(x) dx (81)

A fda, (funcao de) distribuicao (acumulada) F de uma v.a. contınua, e definida como

F (x) = Pr(X ≤ x) =

∫ x

−∞f(t) dt (82)

Note que f(x) = F ′(x), Pr(X = x) = 0 e Pr(X ≤ x) = Pr(X < x).

Exemplo 3.31. (fda) Suponha a v.a. X: ‘altura de pessoas da PUCRS’ com fdp

f(x) = −46875

19652(x2 − 3.36x+ 2.36), x ∈ [1.00, 2.36] .

Por (82), a funcao distribuicao acumulada de X e

F (x) = Pr(X ≤ x)

= −46875

19652

∫ x

1

(t2 − 3.36t+ 2.36) dt

= −46875

19652

[t3

3− 3.36t2

2+ 2.36t

] ∣∣∣∣x1

= −46875

19652

([x3

3− 1.68x2 + 2.36x

]−[

13

3− 1.68× 12 + 2.36× 1

])F (x) = −46875

19652

[x3

3− 1.68x2 + 2.36x− 76

75

],

Exemplo 3.32. (Probabilidade com v.a. contınua) Suponha novamente a v.a. do Exemplo 3.31. Aplicando(81),

Pr(1.45 ≤ X ≤ 1.72) = −46875

19652

∫ 1.72

1.45

(x2−3.36x+2.36) dx = F (1.72)−F (1.45) ≈ 0.5441−0.2560 = 0.2881.

,

Page 62

Page 63: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

EXERCICIOS

1. Que propriedade esta sendo verificada no codigo abaixo? O que ela indica?

> f <- function(x) (-46875/19652)*(x^2-3.36*x+2.36)

> integrate(f,1,2.36)

1 with absolute error < 1.1e-14

2. Escreva uma funcao em R que represente F (x) no Exemplo 3.31.

3.4.1 Esperanca e Variancia

Esperanca

A esperanca de uma variavel aleatoria contınua X e dada por

E(X) =

∫x

x · f(x) dx (83)

A esperanca de uma funcao g(X) e dada por

E(g(X)) =

∫x

g(x) · f(x) dx (84)

Exemplo 3.33. (Esperanca de v.a. contınuas X e X2) Do Exemplo 3.32 pode-se calcular

E(X) = −46875

19652

∫ 2.36

1.00

x (x2 − 3.36x+ 2.36) dx = 1.68.

Este resultado era esperado dada a simetria da distribuicao (parabolica). Note que (1.00+2.36)/2 = 1.68.A esperanca de g(X) = X2 e dada por

E(X2) = −46875

19652

∫ 2.36

1.00

x2 (x2 − 3.36x+ 2.36) dx = 2.91488.

,

Variancia

A variancia50 de uma variavel aleatoria contınua X e dada por

V (X) = E([X − E(X)]2) = E(X2)− [E(X)]

2.

O desvio padrao de uma variavel aleatoria discreta X e dado por

D(X) =√V (X).

Exemplo 3.34. (Variancia e desvio padrao de uma v.a. contınua) Do Exemplo 3.33 pode-se calcular

V (X) = 2.91488− 1.682 = 0.09248

e

D(X) =√

0.09248 ≈ 0.30411.

,50Esta e a definicao de variancia universal, descrita na Secao 2.4.2.

Page 63

Page 64: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION3.4.2 Distribuicao Uniforme · U(a, b)

A distribuicao uniforme no intervalo [a, b] tem sua (funcao) densidade (de probabilidade) definidapor

f(x) =1

b− a(85)

Funcao distribuicao acumulada

F (x) = Pr(X < x) =x− ab− a

(86)

Esperanca

E(X) =a+ b

2(87)

Variancia

V (X) =(b− a)2

12(88)

EXERCICIOS

3. Demonstre as Equacoes (86) a (88) considerando as identidades (89) e (90).

a2 − b2 = (a− b)(a+ b) (89)

a3 − b3 = (a− b)(a2 + ab+ b2) (90)

3.4.3 Distribuicao Normal · N (µ, σ2)

A distribuicao normal ou gaussiana51 e uma distribuicao probabilıstica que modela variaveis ale-atorias contınuas e aproximacoes de variaveis aleatorias discretas52. E especificada ao definirem-se osparametros media e variancia. Nao existe padrao na literatura quanto a notacao, portanto neste materialsera adotada a simbologia X ∼ N (µ, σ2), indicando que a variavel aleatoria X possui (ou e aproximadapela) distribuicao normal com media µ e variancia σ2.53 Sua funcao densidade e dada por

f(x|µ, σ) =1√2πσ

e−12 ( x−µσ )

2

. (91)

A normal e uma curva simetrica em forma de sino centrada na media, conferindo alta probabilidadede ocorrencia de resultados em torno da media e baixa probabilidade nas caudas. A area sob a curva ecalculada a partir da Equacao (91) e indica a probabilidade associada a certo intervalo de X. As areassao medidas em funcao de unidades de desvio padrao em relacao a media, conforme Figura 3.3.

A distribuicao normal padrao e um caso especial da distribuicao normal, na qual a media e zero e avariancia e 1, indicado por Z ∼ N (0, 1). Esta distribuicao e tabelada54, e sua densidade e dada por

f(z|0, 1) = φ(z) =1√2πe−

12 z

2

(92)

Sua funcao distribuicao (acumulada) e representada por

F (z|0, 1) = Φ(z) = Pr(Z < z) =

∫ z

−∞

1√2πe−

12 t

2

dt (93)

51Em homenagem ao seu criador, o matematico e fısico alemao Carl Friedrich Gauss.52O Teorema Central do Limite e o resultado teorico que permite o uso da normal em diversos casos praticos, apresentado

na Secao 3.4.4. Para maiores detalhes sugere-se James (2010) e Feller (1968).53Note que serao indicadas sempre media e variancia, e nao media e desvio padrao. Assim, X ∼ N (14, 4) equivale a

X ∼ N (14, 22), e indica que a v.a. X tem media 14 e variancia 4 (ou desvio padrao 2).54Pagina 132.

Page 64

Page 65: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION68.3%

95.4%

99.7%

−3 −2 −1 0 1 2 3

Desvio padrao

Figura 3.3: Probabilidades em funcao do desvio padrao em relacao a media

Exemplo 3.35. (Probabilidades em uma normal padrao) Suponha Z ∼ N (0, 1). Utilizando-se a tabela denormal padrao da pagina 132, podem-se calcular algumas probabilidades relativas a Z, tais como

Pr(Z < 1) = Φ(1) = Pr(Z ≤ 1.00) ≈ 0.8413 = 84.13%,

P r(Z > 1) = Pr(Z ≥ 1.00) = 1− Pr(Z ≤ 1.00) = 1− 0.8413 ≈ 0.1587 = 15.87%,

P r(Z = 1.00) = 0,

P r(Z < 0.00) = Φ(0) = 0.5000 = 50%,

P r(−1.92 < Z < 0.33) = Pr(Z < 0.33)− Pr(Z < −1.92) = 0.6293− 0.0274 ≈ 0.6019 = 60.19%.

> pnorm(1, mean = 0, sd = 1)

[1] 0.8413447

> 1-pnorm(1)

[1] 0.1586553

> pnorm(1, lower.tail = F)

[1] 0.1586553

> pnorm(0)

[1] 0.5

> pnorm(0.33)-pnorm(-1.92)

[1] 0.6018711

,

Estas probabilidades foram calculadas utilizando a tabela de normal padrao da pagina 132. Bastaprocurar o quantil55 de interesse, por exemplo −1.92, na linha −1.9 coluna 2, onde encontra-se a proba-bilidade associada 0.0274, i.e., a probabilidade de Z ser menor que −1.92.

Exemplo 3.36. (Quantis em uma normal padrao) Sabendo que Z ∼ N (0, 1), e possıvel encontrar zsabendo-se a probabilidade associada.

Pr(Z < z) = 0.8413⇒ z ≈ 1.00,

55Nome tecnico para os valores de z apresentados nos Exemplos 3.35 e 3.36.

Page 65

Page 66: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONPr(Z < z) = 0.1587⇒ z ≈ −1.00,

P r(Z < z) = 0.5000⇒ z = 0.00,

P r(Z < z) = 0.0274⇒ z ≈ −1.92,

P r(−z < Z < z) = 0.9500⇒ z ≈ 1.96.

> qnorm(0.8413)

[1] 0.9998151

> qnorm(0.1587)

[1] -0.9998151

> qnorm(.5)

[1] 0

> qnorm(0.0274)

[1] -1.920459

> qnorm(0.025)

[1] -1.959964

> qnorm(0.975)

[1] 1.959964

,

Padronizacao / Normalizacao

Para encontrar os valores de z do Exemplo 3.36, deve-se consultar a tabela de normal padrao de dentropara fora, i.e., procurar o valor mais proximo da probabilidade fornecida (e.g. 0.0274) dentro da tabelae seguir para as bordas, onde na linha estao os valores do inteiro (−1) e da primeira decimal (9), e nacoluna o valor da segunda decimal (2), resultando no quantil z = −1.92.

Uma boa notıcia e que pode-se recorrer a tabela de normal padrao para calcular probabilidades emuma normal com qualquer media ou variancia. A unica relacao a ser utilizada e

z =x− µσ⇔ x = µ+ zσ (94)

apresentada no exemplo a seguir.

Exemplo 3.37. (Probabilidades em uma normal qualquer) Suponha que a variavel aleatoria X: ‘alturadas pessoas da PUCRS’ tenha distribuicao normal com media 1.68m e desvio padrao 0.12m. Assim,X ∼ N (1.68, 0.12). Podem-se calcular algumas probabilidades, tais como

Pr(X < 1.80) = Pr

(X − µσ

<1.80− 1.68

0.12

)= Pr(Z < 1.00) ≈ 0.8413 = 84.13%,

P r(X > 1.80) = 1− Pr(Z <

1.80− 1.68

0.12

)= 1− Pr(Z < 1.00) = 1− 0.8413 ≈ 0.1587 = 15.87%,

P r(X = 1.68) = Pr(Z = 0.00) = Pr(Y = y) = Pr(Ξ = ξ) = 0,

P r(X < 1.68) = Pr

(Z <

1.68− 1.68

0.12

)= Pr(Z < 0.00) = 0.5000 = 50%,

P r(1.45 < X < 1.72) = Pr

(1.45− 1.68

0.12< Z <

1.72− 1.68

0.12

)= Pr(Z < 0.33)−Pr(Z < −1.92) ≈ 0.6029.

Page 66

Page 67: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> mu <- 1.68

> sigma <- 0.12

> pnorm(1.8, mean = mu, sd = sigma)

[1] 0.8413447

> 1-pnorm(1.8, mu, sigma)

[1] 0.1586553

> pnorm(1.8, mu, sigma, lower.tail = F)

[1] 0.1586553

> pnorm(1.68, mu, sigma)

[1] 0.5

> pnorm(0, mu, sigma)

[1] 7.793537e-45

> pnorm(1.72)-pnorm(1.45)

[1] 0.03081304

,

3.4.4 Teorema Central do Limite

O Teorema Central do Limite (TCL) e um dos principais resultados da Probabilidade. Ele mostra que,sob certas condicoes razoavelmente alcancadas na pratica, a soma ou media de uma sequencia de variaveisaleatorias independentes e identicamente distribuıdas (iid)56 tem distribuicao aproximadamente normal.Este resultado facilita a resolucao de problemas, uma vez que a normal e tabulada em praticamente todosos textos que envolvam Estatıstica.

Teorema 3.2. (Teorema Central do Limite de Lindeberg-Levy) Seja X1, X2, . . . , Xn uma sequencia devariaveis aleatorias iid com E(Xi) = µ e V (Xi) = σ2. Considerando S = X1 +X2 + . . .+Xn, M = S/ne se n −→∞, entao

Z =S − nµσ√n

=M − µσ/√n

D−→ N (0, 1). (95)

a

A correcao de continuidade ocorre quando soma-se 0.5 no numerador de (95). James (2010) sugereo uso da expressao ‘Teorema Central do Limite’ no lugar de ‘Teorema do Limite Central’, pois centrale o teorema, nao o limite. A origem da expressao e atribuıda a Polya, ao se referir a ‘der zentraleGrenzwertsatz ’, i.e., o ‘central’ refere-se ao ‘teorema do limite’.

Exemplo 3.38. (Aproximacao da binomial pela normal) Se considerarmos n = 420 lancamentos de umamoeda com p = 0.5, temos uma B(420, 0.5). A probabilidade de obtermos ate 200 caras pode ser aproxi-mada pelo pelo TCL.

Pr(X ≤ 200) ≈ Pr(Z <

200− 420× 0.5√420× 0.5× 0.5

)= Φ(−0.9759) ≈ 0.164557

Utilizando a correcao de continuidade,

Pr(X ≤ 200) ≈ Pr(Z <

200 + 0.5− 420× 0.5√420× 0.5× 0.5

)= Φ(−0.9271) ≈ 0.176936

56Variaveis que apresentam mesma distribuicao de probabilidade, inclusive com os mesmos parametros. Por exemplo,imagine 12 lancamentos de uma moeda com p = 0.7 e 1 − p = 0.3. Cada lancamento e um ensaio de Bernoulli comprobabilidade de sucesso e fracasso iguais a 0.7 e 0.3, respectivamente.

Page 67

Page 68: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONCom um computador e possıvel calcular a probabilidade exata, perceba a proximidade dos resultados.

Pr(X ≤ 200) =

[(420

0

)+

(420

1

)+ . . .+

(420

200

)]0.5420 = 0.1769429

> n <- 420

> p <- 0.5

> S <- 200

> mS <- n*p # 210

> sS <- sqrt(n*p*(1-p)) # 10.24695

> # Aproximac~ao da binomial pela normal SEM correc~ao de continuidade

> (z <- (S-mS)/sS)

[1] -0.9759001

> pnorm(z)

[1] 0.164557

> # Aproximac~ao da binomial pela normal COM correc~ao de continuidade

> (zc <- (S+0.5-mS)/sS)

[1] -0.9271051

> pnorm(zc)

[1] 0.176936

> # Probabilidade exata

> pbinom(S,n,p)

[1] 0.1769429

,

EXERCICIOS

4. Refaca o Exemplo 3.38 com p = 0.7.

5. Escreva uma funcao que apresente os resultados do Exemplo 3.38 em funcao dos parametros n, p e S.

Page 68

Page 69: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION3.4.5 Distribuicao Qui-quadrado · χ2(ν)

A distribuicao qui-quadrado, representada por χ2 e uma distribuicao cuja obtencao foi motivada emproblemas envolvendo tabelas de frequencia. Se X1, X2, . . . , Xν , com Xi ∼ N (0, 1) ∀ i ∈ 1, 2, . . . , ν,entao

ν∑i=1

X2i ∼ χ2

ν (96)

onde ν representa o parametro dos graus de liberdade57. A distribuicao qui-quadrado e tabelada, exibindoas probabilidades mais utilizadas na pratica para diversos graus de liberdade. A Figura 3.4 apresenta osnomogramas para a distribuicao qui-quadrado sugeridos por Boyd (1965) e Smith (1972).

(a) Nomograma de Boyd (1965) (b) Nomograma de Smith (1972)

Figura 3.4: Nomogramas da distribuicao χ2

57Os graus de liberdade estao sendo tratados de forma discreta, mas podem ser utilizados de maneira contınua.

Page 69

Page 70: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION3.4.6 Distribuicao t (de Student) · t(ν)

t ou tν e a distribuicao de probabilidades da estatıstica

T =Z√χ2/ν

(97)

onde Z e uma normal padrao e χ2 e uma qui-quadrado com ν graus de liberdade. O parametro ν indicao numero de valores que podem variar no calculo de uma estatıstica.

Exemplo 3.39. (Graus de liberdade) Suponha uma disciplina em que haja tres provas valendo entre 0 e10 pontos, todas de mesmo peso. A condicao de aprovacao e que a media seja igual ou superior a 7,i.e., P1 + P2 + P3 ≥ 21. Se um aluno tem P1 = 5 e P2 = 7, ele obrigatoriamente deve obter pelo menos21− (5 + 7) = 9 pontos na P3 para conseguir a aprovacao. Este e um problema com 3− 1 = 2 graus deliberdade.,

Momentinho Cultural 3.1. (t de Luroth) A distribuicao t foi obtida por dois estatısticos em momentosdiferentes, movidos por problemas distintos. Luroth derivou a distribuicao t em um trabalho de 1876,conectando a teoria classica de erros com um resultado bayesiano58. Ja ‘Student’ (pseudonimo de WilliamGosset) encontrou uma relacao equivalente a de Luroth enquanto estudava estimativas para a mediapopulacional em 1908. Atribui-se o desconhecimento de Gosset ao fato de o primeiro trabalho ter sidopublicado em uma revista de Astronomia. Ate hoje a distribuicao e conhecida popularmente como ‘t deStudent’.

ˇ “(Tabela tA tabela t exibe as probabilidades mais utilizadas na pratica (.10 = 10%, .05 = 5%, .025 = 2.5% e

.01 = 1%) para diversos graus de liberdade. A medida que ν → ∞, verifica-se que t(ν) converge paraN (0, 1).

(a) Exemplo de tabela t (b) Grafico de t

Figura 3.5: Uma tabela t

Exemplo 3.40. (Usando a tabela t) Da Figura 3.5a, Pr(T > 2.353) = 0.05 para ν = 3. Porem, quando enecessario avaliar uma probabilidade para valores nao tabelados, pode-se encontrar intervalos tais como0.025 < Pr(T > 2.917) < 0.05 para ν = 3.,

Nomogramas sao estruturas graficas que permitem rapidamente medir intervalos de probabilidades equantis da distribuicao. Foram criados para fornecer resultados com precisao suficiente para decisoes emproblemas aplicados. O princıpio e bastante simples, bastando tracar uma linha conectando os valoresdisponıveis. Os demais valores ficam claros ao tracar a linha. Na Figura 3.6b ha uma t com ν = 7 equantil t7 = 4, resultando em 0.1% < Pr(T > 4) < 0.5% e Pr(−4 < T < 4) = 99.5%. Experimenteresolver os exercıcios deste livro atraves dos nomogramas, e encontre o que voce melhor se adapta.

58Pfanzagl and Sheynin (1996).

Page 70

Page 71: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

(a) Nomograma de James-Levy (1956) (b) Nomograma de Stammberger (1967)

Figura 3.6: Nomogramas da distribuicao t

3.4.7 Distribuicao F (de Fisher-Snedecor) · F(ν1, ν2)

A distribuicao F (de Fisher-Snedecor) e a distribuicao da estatıstica

F =χ2

1/ν1

χ22/ν2

(98)

onde χ21 e uma distribuicao qui-quadrado com ν1 graus de liberdade e χ2

2 e uma distribuicao qui-quadradocom ν2 graus de liberdade. Esta tabelada nas paginas 136 a 139.

3.4.8 Distribuicao Exponencial · E(λ)

Considere novamente o pedagio descrito na Secao 3.3.6, onde passam em media λ veıculos por minuto.Pode-se inverter a leitura, colocando o tempo entre cada carro como a nova variavel de interesse. Assim,neste pedagio passa 1 carro a cada 1

λ minutos. A variavel aleatoria contınua X: ‘tempo entre veıculos’tem distribuicao exponencial de parametro λ, denotada por

X ∼ E(λ),

onde λ > 0 e x > 0. A funcao densidade exponencial e dada por

f(x) = λe−λx (99)

onde e e o numero de Euler59 de valor aproximado e ≈ 2.71828182845905. A funcao distribuicao acumu-lada e dada por

F (x) = Pr(X ≤ x) = 1− e−λx (100)

A esperanca e variancia sao dadas por

E(X) =1

λ= λ−1 (101)

V (X) =1

λ2= λ−2 (102)

59Na literatura tambem pode ser conhecido como numero de Napier, constante neperiana, entre outras formas.

Page 71

Page 72: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 3.41. (Exponencial) Considere um pedagio onde passam em media λ = 2 veıculos por minuto.Assim,

X ∼ E(2),

f(x) = 2e−2x,

E(X) =1

2= 0.5,

V (X) =1

22= 0.25,

D(X) =√

0.25 = 0.5.

,

EXERCICIOS EXTRAS

1. Considere o experimento aleatorio “observar o genero de uma ninhada de cachorros com 3 filhotes”. Descreva oespaco amostral.

2. Uma Universidade tem 10 mil alunos, dos quais 4 mil sao considerados esportistas. Temos, ainda, que 500 alunos saodo curso de biologia diurno, 700 sao da biologia noturno, 100 sao esportistas e da biologia diurno, 200 sao esportistas

e da biologia noturno. Um aluno e escolhido ao acaso. Calcule a probabilidade de este aluno:

a) Ser esportista.b) Ser esportista e aluno da biologia noturno.c) Nao ser da biologia.d) Ser esportista ou aluno da biologia.e) Nao ser esportista nem aluno da biologia.

3. Foi feito um levantamento e constatou-se que das um milhao e quatrocentas mil pessoas de Porto Alegre, 150 mil

leem Zero Hora (ZH), 120 mil leem Correio do Povo (CP) e 20 mil leem Zero Hora e Correio do Povo.

a) Se escolhermos uma pessoa ao acaso, qual a probabilidade de ela ler Zero Hora?b) Se escolhermos uma pessoa ao acaso, qual a probabilidade de ela ler Zero Hora ou Correio do Povo?c) Qual a probabilidade de uma pessoa nao ler qualquer destes jornais?

4. Uma floricultura possui 120 arranjos de flores sempre em exposicao. Destes arranjos, 30 possuem lırios, 50 possuem

rosas, e 40 possuem gerberas. 8 arranjos de flores sao feitos com lırios e rosas, 10 tem lırios e gerberas, 15 gerberas e

rosas. 3 arranjos possuem os tres tipos de flores. Voce nao sabia o que comprar de aniversario para sua mae, entaodecidiu entrar na floricultura e escolher ao acaso qualquer um destes arranjos.

a) Qual a probabilidade de voce escolher um arranjo apenas com lırios?b) Qual a probabilidade de o arranjo escolhido ter apenas um tipo de flor?c) Qual a probabilidade deste arranjo possuir exatamente dois tipos de flores?

Dica: monte o Diagrama de Venn da maior para a menor interseccao (de dentro para fora).

5. Foi feito um levantamento sobre os usuarios de cartao de credito no Brasil, e concluiu-se que 55% utiliza a bandeira

Visa, 30% utiliza a MasterCard e 20% utiliza Visa e MasterCard.

a) Qual a probabilidade de uma pessoa utilizar Visa ou MasterCard?b) Qual a probabilidade de uma pessoa nao utilizar nenhum desses cartoes?

6. A tabela a seguir apresenta a informacoes de alunos de uma universidade quanto as variaveis perıodo, sexo, e opiniaosobre reforma agraria.

Perıodo Sexo A favor da reforma Contra a reforma Sem opiniao

Diurno Feminino 2 8 2Diurno Masculino 8 9 8

Noturno Feminino 4 8 2Noturno Masculino 12 10 1

Determine a probabilidade de escolhermos:

a) Uma pessoa do sexo masculino.b) Uma pessoa do sexo masculino e sem opiniao sobre a reforma agraria.c) Uma mulher contra a reforma agraria.d) Um estudante do perıodo noturno que seja a favor da reforma agraria.

Page 72

Page 73: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONComedia Romance Policial Total

Homens 136 2 248 386

Mulheres 102 195 62 359

Total 238 197 310 745

e) Uma mulher sem opiniao sobre a reforma agraria.

7. As preferencias de homens e mulheres por estilo de filme alugados estao apresentadas na tabela a seguir.

Calcule a probabilidade de:

a) Uma mulher alugar um filme policial.b) O filme alugado ser comedia.c) Um homem alugar um romance.d) O filme ser policial, dado que foi alugado por um homem.e) O filme ter sido alugado por um homem, dado que e policial.

8. “Please, die Ana (. . . )/And you’re my obsession/I love you to the bones” escreve Daniel Johns, vocalista da bandaaustraliana Silverchair, sobre sua batalha contra anorexia nervosa. Anorexia nervosa e uma disfuncao alimentar

caracterizada por uma dieta hipocalorica e estresse fısico. Estima-se que 1% (0.01) da populacao mundial apresenteo quadro de anorexia (A), 5% (0.05) apresente o quadro de bulimia (B) – outro tipo comum de disfuncao alimentar

– e 0.5% (0.005) de anorexia e bulimia (A ∩ B).

a) Qual a probabilidade de uma pessoa apresentar anorexia ou bulimia?b) Qual a probabilidade de uma pessoa nao apresentar nenhum destes quadros?c) Em uma populacao de 1000 pessoas, em quantas delas espera-se observar apenas o quadro de bulimia?

9. A doenca de Alzheimer e uma doenca degenerativa, e foi descrita pela primeira vez em 1906 pelo psiquiatra alemaoAlois Alzeheimer. Abaixo estao dados60 a respeito do sexo e idade de pacientes diagnosticados com esta severa

doenca no estado do Rio Grande do Sul.

Idade M F Total

Ate 69 anos 6000 9000 15000De 70 a 74 anos 16800 25200 42000

De 75 a 79 anos 25200 37800 63000

De 80 a 84 anos 27600 41400 69000De 85 a 89 anos 24000 56000 80000

Acima de 90 anos 20700 48300 69000

Total 120300 217700 338000

Se uma pessoa e diagnosticada com Alzheimer no Rio Grande do Sul,

a) Qual a probabilidade de ser do sexo feminino?b) Qual a probabilidade de ter menos de 69 anos?c) Qual a probabilidade de ter entre 75 e 84 anos e ser do sexo masculino?d) Sabendo que no Rio Grande do Sul ha em torno de 10 milhoes de pessoas, qual a probabilidade aproximada de

escolhermos uma pessoa com Alzheimer ao acaso que tenha mais de 80 anos do sexo masculino ou uma pessoaentre 75 e 89 anos do sexo feminino?

10. Investidores do sexo masculino e feminino foram entrevistados quanto ao tipo dos seus investimentos: poupanca,bolsa de valores e mercado imobiliario. Os dados desta entrevista estao na tabela abaixo.

Investimento M F

Poupanca (PO) 350 370Bolsa de valores (BV) 140 60

Mercado imobiliario (MI) 70 10

Se sortearmos uma pessoa aleatoriamente,

a) Qual a probabilidade de ser um homem?b) Qual a probabilidade de ser um investidor de poupanca?c) Qual a probabilidade de ser do sexo feminino e investir na bolsa de valores?d) Qual a probabilidade ser um investidor da bolsa de valores ou do mercado imobiliario?

11. Alunos da universidade A e B foram entrevistados a respeito de suas inclinacoes a respeito de tres correntes depensamento que influenciaram a psicologia moderna. Os dados desta entrevista estao na tabela abaixo.

60Adaptado de Bermejo-Pareja F, Benito-Leon J, Vega S, Medrano MJ, Roman GC (Janeiro de 2008).

Page 73

Page 74: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONCorrente de pensamento A B Total

Psicodinamica (P) 35 28 63

Comportamentista (C) 12 9 21

Humanista (H) 8 8 16

Total 55 45 100

Determine a probabilidade de escolhermos:

a) Uma pessoa da universidade A.b) Uma pessoa da universidade A dado ser adepta da corrente de pensamento da Psicodinamica.c) Uma pessoa com inclinacao para a teoria Psicodinamica.d) Uma pessoa da universidade B com inclinacao para a teoria Comportamentista.e) Uma pessoa com inclinacao para as teorias Comportamentista ou Humanista.

12. Uma fabrica possui tres maquinas, A B e C. A maquina A produz 1% de itens defeituosos, a maquina B 2% e C3%. Se um item defeituoso e encontrado em um processo em que a maquina A e responsavel por 50% da producao,

seguida de B com 30% e C com 20%,

a) Qual a probabilidade de que o item tenha sido produzido pela maquina A?b) Repita o item anterior para as maquinas B e C.

13. Considere o lancamento de tres moedas equilibradas.

a) Descreva o espaco amostral Ω.b) Determine o contradomınio RX da variavel aleatoria X: ‘numero de caras’.c) Obtenha p(0), p(1), p(2) e p(3).d) Encontre E(X), E(X2), V (X) e D(X).

14. Refaca o Exercıcio 13 com Pr(C) = 0.7.

15. Refaca o Exercıcio 13 com Pr(C) = p. Qual a distribuicao de X?

16. Sabe-se que uma maquina produz itens independentemente, dos quais 1% sao defeituosos. Se em um lote saofabricados 20 itens, responda:

a) Qual a distribuicao da variavel X: ‘numero de itens defeituosos’?b) Qual o valor esperado do numero de itens defeituosos neste lote?c) Qual o desvio padrao do numero de itens defeituosos neste lote?d) Qual a probabilidade de que sejam produzidos 6 itens defeituosos?e) Qual a probabilidade de haver pelo menos um item defeituoso neste lote?

17. Por uma porteira passam em media 4 carretas61 por dia.

a) Qual a distribuicao da variavel X: ‘numero de carretas por dia’?b) Obtenha E(X), V (X) e D(X).c) Qual a probabilidade de passar ao menos uma carreta neste intervalo?

18. Seja uma v.a. contınua X com fdp f(x) = c(x3 − 3.36x+ 2.36), x ∈ [1, 2] .

a) Encontre c.b) Mostre que

∫ 21 f(x)d(x) = 1.

c) Obtenha F (x) = Pr(X < x).d) Calcule Pr(1.4 < X < 1.7).e) Encontre E(X), E(X2), V (X) e D(X).

19. Seja uma v.a. contınua X com fdp f(x) = c [ln(x)− 2x+ 10], x ∈ ]0, 1] .

a) Encontre c.b) Obtenha F (x) = Pr(X < x).c) Calcule Pr(X > 0.2).d) Encontre E(X), E(X2), V (X) e D(X).

Dica 1:∫x f(x)d(x) = 1.

Dica 2:∫ln(x)d(x) = xln(x)− x.

Dica 3:∫xkln(x)d(x) =

xk+1

k + 1ln(x)−

xk+1

(k + 1)2.

20. Seja X uma v.a. contınua tal que X ∼ χ212. A partir da tabela de qui-quadrado da pagina 134, obtenha:

a) Pr(X > 4.40).b) Pr(X < 4.40).c) A melhor aproximacao ou intervalo para Pr(X > 5).

61https://www.youtube.com/watch?v=6I7jJ3IPPzo

Page 74

Page 75: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONd) A melhor aproximacao ou intervalo para Pr(X < 10).

21. Seja T uma v.a. contınua tal que T ∼ t5. A partir da Tabela t da pagina 101, obtenha:

a) Pr(T > 0.727).b) Pr(T < 4.032).c) t, se Pr(T > t) = 0.025.d) A melhor aproximacao ou intervalo para Pr(T > 5).e) O que voce percebe quando ν →∞?

22. Seja F uma v.a. contınua tal que F ∼ F(10, 6). A partir das Tabelas das paginas 136 a 139, obtenha:

a) Pr(F > 2.461).b) f , se Pr(F < f) = 0.975.

23. Considere os dados do Exercıcio 17 e a variavel Y : ‘Tempo entre as carretas que cruzam a porteira’.

a) Qual a distribuicao de Y ?b) Determine f(y) e F (y).c) Calcule E(Y ) e D(Y ). Interprete.d) Calcule Pr(Y < 1). Interprete.

24. Suponha que a idade de pessoas depressivas que cometeram suicıdio (X) siga uma distribuicao normal de media 22

anos e desvio padrao de 3 anos, anotado por X ∼ N (22, 3).

a) Qual a probabilidade de uma pessoa depressiva de mais de 30 anos cometer suicıdio?b) Qual a probabilidade de uma pessoa depressiva entre 20 e 30 anos cometer suicıdio?c) Qual a probabilidade de uma pessoa depressiva menor de idade cometer suicıdio?d) Se Pr(X < x) = 0.1038, qual o valor de x?e) Interprete o valor de x no contexto do problema.

25. A idade de pessoas que pedem financiamentos de automoveis (X) segue uma distribuicao normal com media 27 anos

e desvio padrao 4 anos, denotada por X ∼ N (27, 4).

a) Em um grupo de pessoas que pedem financiamento, qual a probabilidade de uma pessoa ter mais de 33 anos?b) Neste mesmo grupo, qual a probabilidade de uma pessoa ter idade entre 32 e 40 anos?c) Se Pr(X < x) = 0.6217, qual o valor de x?d) Interprete o valor de x no contexto do problema.

26. A duracao da carga de uma maquina de fotocopias pode ser modelada como normal de media 15 000 e desvio padrao

2 000, anotada por X ∼ N (15000, 2000). Qual a probabilidade de a carga durar:

a) Menos de 16 000 copias?b) Mais de 13 000 copias?c) Entre 12 000 e 14 000 copias?

27. As geladeiras produzidas por uma fabrica possuem um determinado tempo de vida ate o primeiro estrago. Estudos

apontam que este tempo segue distribuicao normal com media 1.45 ano e desvio padrao igual a 0.15 ano.

a) A fabrica oferece garantia de 1 ano. Qual a probabilidade de uma geladeira estragar neste perıodo?b) Qual a probabilidade de uma geladeira estragar fora da garantia?c) Qual a probabilidade de uma geladeira falhar entre o primeiro e o segundo ano de uso?d) Qual a probabilidade de uma geladeira durar mais de 2 anos sem apresentar falhas?e) Se a fabrica produziu 80 mil geladeiras, quantas pessoas devem acionar a garantia?

28. O atendimento dos caixas de um determinado banco fica sobrecarregado entre o primeiro e o decimo dia do mes.Neste perıodo, o tempo de espera do caixa convencional (X) tem distribuicao normal com media de 23 minutos e

desvio padrao de 4 minutos. Para o caixa prioritario (Y ), este tempo distribui-se com media de 15 minutos e desviopadrao igual a 3.

a) No caixa convencional, qual a probabilidade de voce esperar mais de 20 minutos para ser atendido? E no caixa

prioritario?b) Voce leva em torno de meia hora para ler o caderno de esportes do jornal. Qual a probabilidade de voce terminar

a leitura enquanto espera na fila do caixa? Faca as contas para ambos os caixas e compare.c) Uma vovo de 90 anos chegou no banco. Qual a probabilidade de ela esperar entre 20 e 25 minutos para ser

atendida?d) Ha uma grande placa indicando que o tempo de espera maximo e de 12 minutos para os clientes preferenciais e

18 minutos para os demais clientes. Com que frequencia as pessoas esperam mais do que este tempo para serem

atendidas?e) Voce foi chamado para corrigir este tempo maximo. A orientacao e que apenas 10% dos clientes sejam atendidos

em um tempo maior que o indicado. Qual deveria ser o novo tempo para o caixa preferencial? E para o caixa

convencional?

29. Em um concurso estao inscritas 1000 pessoas para 150 vagas. As notas das provas seguiram distribuicao normal

com media 6.2 e desvio padrao igual a 1, anotado por X ∼ N (6.2, 1).

Page 75

Page 76: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONa) Selecionando ao acaso um candidato, qual a probabilidade de ele ter tirado menos que 5 na prova?b) Qual a probabilidade de um candidato ter notas entre 5 e 6?c) Aproximadamente quantas pessoas tiraram notas entre 5 e 6?d) Qual a nota mınima para obter a aprovacao?

30. O lucro lıquido de uma loja (X) segue uma distribuicao normal com media 15 000 reais e desvio padrao de 5 000

reais, denotado por X ∼ N (15000, 5000).

a) Qual a probabilidade de o lucro lıquido ser maior que 20 mil reais?b) Qual a probabilidade de o lucro lıquido estar entre 13 mil e 22 mil reais?c) Qual a probabilidade de a loja dar prejuızo, i.e., o lucro lıquido ficar abaixo de zero?

Questoes de Concursos

31. (CESGRANRIO - 2010 - Petrobras/Administrador) Em um posto de combustıveis entram, por hora, cerca de 300

clientes. Destes, 210 vao colocar combustıvel, 130 vao completar o oleo lubrificante e 120 vao calibrar os pneus.Sabe-se, ainda, que 70 colocam combustıvel e completam o oleo; 80 colocam combustıvel e calibram os pneus e 50

colocam combustıvel, completam o oleo e calibram os pneus. Considerando que os 300 clientes entram no posto

de combustıveis para executar uma ou mais das atividades acima mencionadas, qual a probabilidade de um clienteentrar no posto para completar o oleo e calibrar os pneus?

a) 0.10b) 0.20c) 0.25d) 0.40e) 0.45

32. (FMP-RS 2011 - TCE-RS - Auditor Publico Externo/Administracao) Dois professores corrigem a prova de redacao

de um concurso publico. O professor A corrige o dobro de provas do que o professor B. Sabe-se que 60% das provascorrigidas pelo professor A tiveram nota superior a 7, enquanto apenas 20% das provas corrigidas pelo professor B

tiveram nota superior a 7. Se um candidato teve conceito nao superior a 7, a probabilidade de sua prova ter sido

corrigida pelo professor A e:

a) 0.85571b) 0.75000c) 0.33333d) 0.50000e) 0.25000

33. (FEPESE - 2010 - SEFAZ-SC - Auditor Fiscal da Receita Estadual) Sejam dois eventos, A e B, mutuamente

exclusivos. A probabilidade de ocorrencia de A vale 0.2. A probabilidade de ocorrencia de B vale 0.4. Quanto vale

a probabilidade de ocorrencia do evento A uniao B?

a) 0.08b) 0.40c) 0.48d) 0.52e) 0.60

Page 76

Page 77: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

“ The Statistician is the Wizardwho makes ‘scientific’ statements about invisible states and quantities.

However, contrary to the real wishes (or witches),he attaches uncertainties to his statements.”

∼ Carlos A. de Braganca Pereira, 1990

4 Inferencia Estatıstica Classica

Ciencia e uma corrente filosofica que estuda universos atraves do Metodo Cientıfico (MC2).Tal metodo norteia a criacao de hipoteses e etapas replicaveis para obter informacoes62 e ordenar

tais hipoteses. Cientista e, portanto, qualquer indivıduo que formule hipoteses e descreva seu metodo decaptura de informacao de forma mınima, possibilitando a validacao por qualquer interessado. Quantomais simples for a metodologia, maior sera o numero esperado de interessados validando a teoria por siproprios.

Inferencia Estatıstica e um ramo importante do Metodo Cientıfico, que embasa a tomada de decisao.Pelo paradigma classico, ampliam-se as conclusoes para conjuntos maiores a partir de conjuntos menores.Conjuntos maiores sao usualmente denominados universos, e conjuntos menores sao amostras. Em geralsupoe-se o interese em algum estado ou quantidade universal desconhecido, geralmente denominado θ.Para reduzir a ignorancia sobre θ, observa-se uma amostra de tamanho n ∈ N.

Exemplo 4.1. (Tornando θ visıvel) Voce pega uma moeda pela primeira vez e se pergunta: “Esta moedae equilibrada?” Isto ocorre quando a probabilidade de face cara e de 50%. Simbolicamente, θ = 0.5.

,

Exemplo 4.2. (Observando amostras) Para atualizar a opiniao sobre θ, a probabilidade de face cara doExemplo 4.1, podem-se observar amostras. Se lanco a moeda n = 25 vezes sob certas condicoes deestabilidade e observo m = 11 caras,

θ =11

25= 0.44

A partir deste resultado voce apostaria que a moeda e equilabrada (θ = 0.5) ou nao equilibrada (θ 6= 0.5)?

Qual a distancia maxima voce admite de θ para 0.5, de forma a aceitar θ = 0.5? Voce altera sua decisaopara n = 100?

,As questoes colocadas nos Exemplos 4.1 e 4.2 sao estudadas por duas grandes escolas de Inferencia

Estatıstica: Classica e Bayesiana. Ambas possuem metodologias para captura de informacao a respeitode θ, mas divergem sobre alguns princıpios. Dentre as principais divergencias esta o princıpio da veros-similhanca, violado por classicos, defendido pelos bayesianos. Tal princıpio afirma que se dois decisorespossuem o mesmo grau de conhecimento e a mesma informacao sobre θ, ambos devem decidir exatamenteda mesma forma a respeito de θ.

Exemplo 4.3. (Princıpio da Verossimilhanca 1) Considere uma sucessao de lancamentos de uma moeda,independentes e condicionados por θ, a probabilidade de sair ‘cara’. Suponha que seja obtido o resultado

x = H,T,H,H, T, T,H, T, T, T,

onde H: ‘cara’ e T : ‘coroa’ 63. Este resultado poderia ser obtido de diversos processos experimentais ouregras de parada, como

62Segundo Gosh (1988), informacao e aquilo que muda a sua opiniao sobre θ. Nas palavras do professor Basu, pagina314: “Information is what information does. It changes opinion. Only a Bayesian knows how to characterize his/herprior opinion on θ as a prior distribution q(θ). This prior opinion is changed, by the data x, to the posterior opinionq∗(θ) = q(θ)L(θ)/

∑q(θ)L(θ).”

63Do Ingles Head (cara) e Tail (coroa).

Page 77

Page 78: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION· realizar 10 lancamentos, fixados a priori

· lancar a moeda ate aparecerem 6 ‘coroas’

· lancar a moeda ate aparecerem 3 ‘coroas’ consecutivas

· lancar a moeda ate o jogador ficar saturado, tendo a saturacao ocorrido no 10º lancamento

Em qualquer caso a (funcao de) verossimilhanca e proporcional a θ4 (1− θ)6, i.e., a amostra informa

quatro sucessos (caras) e seis fracassos (coroas). Assim, adotando-se o princıpio da verossimilhanca, todaa informacao que x pode fornecer sobre θ encontra-se nesta expressao. Saber qual dos quatro processosexperimentais foi utilizado (cada um com um espaco amostral diferente) ou saber qual foi a regra deparada adotada nada tem a acrescentar. Note que a possibilidade de o experimentador parar por seuarbıtrio ao considerar o resultado x satisfatorio, em nada altera a opiniao sobre θ.,

Apesar de mais ampla e intuitiva, a Inferencia Bayesiana nao se aplica de forma tao imediata devidoa limitacoes de software e pela necessidade de operacoes matematicas mais sofisticadas como otimizacaoe integracao de funcoes. Assim, sera feito uso de metodos da HInferencia ClassicaI, largamente aplicados.Para maiores informacoes sobre metodos bayesianos, vide Paulino et al. (2018), Gelman et al. (2003) eDeGroot and Schervish (2002). Para uma visao mais teorica, sugere-se de Finetti (1974).

EXERCICIOS

1. Realize o experimento do Exemplo 4.2 e estime θ.

4.1 Universo e Amostra

Universo ou populacao e o conjunto de todas as entidades (pessoas, animais, objetos) portadoras dascaracterısticas de interesse, mas raramente observado em sua plenitude. Amostra e um subconjunto douniverso, obtido a partir de algum metodo de selecao64. As medidas avaliadas nos universos sao para-metros, simbolizados por letras gregas. As medidas avaliadas na amostra sao estatısticas, simbolizadaspor letras do nosso alfabeto ou pelo parametro correspondente com o sımbolo ˆ (chapeu).

Media Variancia Desvio Proporcao Correlacao CoeficientePadrao (Percentual) Angular

θ Parametro (Universo) µ σ2 σ =√σ2 π ρ β1

θ Estatıstica (Amostra) x = µ s2 = σ2 s = σ =√s2 p = π r = ρ β1

Tabela 4.1: Alguns parametros e estatısticas

4.1.1 N e n

N usualmente expressa o tamanho do universo em estudo, podendo ser considerado infinito. n e arepresentacao usual do tamanho da amostra. Na pratica usualmente observam-se tamanhos de amostramuito inferiores aos dos universos, simbolizado por n << N .

Exemplo 4.4. (n e N) Se for realizada uma pesquisa com o intuito de avaliar o percentual de alunosque apreciam musica classica, pode-se dizer que serao entrevistados n de um total de N alunos, onden << N . Como exercıcio, releia a frase anterior trocando n por 50 e N por 30 mil.,

64Secao 4.2.

Page 78

Page 79: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

Figura 4.1: Relacao entre universo e amostra

4.2 Amostragem

Amostragem e o processo de obtencao de uma amostra. Inicia com o plano amostral, uma avaliacaoque leva em conta as medidas a serem avaliadas e os recursos disponıveis. Da mesma forma que oslaboratorios retiram amostras de sangue para exames de saude, cozinheiros experimentam parte dacomida para provar os temperos, fabricas realizam testes destrutivos em parte da sua producao paraavaliar a qualidade do que esta sendo produzido e pessoas se informam sobre temas relevantes (ourelvantes) em suas vidas.

Os metodos de selecao podem ser classificados conforme a Tabela 4.2. Procedimentos probabilısticossao em geral mais bem aceitos academicamente, ainda que na pratica nem sempre possam ser execu-tados. Quando isso ocorre, optam-se por processos nao probabilısticos. Existem diversos metodos deamostragem, sendo os principais brevemente descritos nas Secoes 4.2.3 a 4.2.7.

CriterioProcedimento de Selecao

probabilıstico nao probabilısticoobjetivo amostras probabilısticas amostras criteriosassubjetivo amostras quase-aleatorias amostras intencionais

Tabela 4.2: Procedimentos amostrais segundo Bolfarine et al. (2005)

4.2.1 Conceitos

A seguir estao apresentados conceitos fundamentais da amostragem, seguindo a estrutura de Bolfarineet al. (2005)65. Para maiores detalhes veja filipezabala.com/ei.

Unidade Elementar

A unidade elementar, unidade populacional ou simplesmente elemento e a entidade portadora dasinformacoes que pretende-se coletar. Pode ser um objeto, animal ou pessoa. Em certos casos existe maisde uma maneira de definir a unidade elementar, onde se faz necessario o entendimento dos especialistasenvolvidos. A unidade elementar e uma das definicoes mais importantes do campo cientıfico, pois e basede toda a construcao das hipoteses de pesquisa.

Exemplo 4.5. (Pesquisa eleitoral I) Em uma pesquisa eleitoral, classifica-se o eleitor como unidade ele-mentar. Essa foi facil.,

Exemplo 4.6. (Quiz I) Em uma pesquisa com lıquidos, o que pode ser a unidade elementar?

OExemplo 4.7. (Quiz II) Defina ‘Industria do dano moral’ 66 e identifique as unidades elementares envol-vidas na definicao proposta.

OUnidade Amostral

65Premio Jabuti 2006.66Puschel (2010) e Meyerhof Salama (2011).

Page 79

Page 80: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONA unidade amostral e uma composicao de uma ou mais unidades elementares. E tambem uma

definicao bastante importante, pois e preciso diferencia-la da unidade elementar para proceder com adefinicao e teste das hipoteses de pesquisa.

Exemplo 4.8. (Pesquisa eleitoral II) Em uma pesquisa eleitoral na rua, o eleitor e tambem unidadeamostral. Caso as entrevistas sejam feitas de casa em casa, o domicılio passa a ser unidade amostral,i.e., um conjunto de unidades elementares (eleitores).,

Universo U

Universo ou populacao e o conjunto que reune toda a informacao disponıvel sobre θ. Usualmentepossui tamanho N elevado, ate mesmo infinito, mas em alguns casos pode ser relativamente pequeno.Faz parte das definicoes fundamentais do Metodo Cientıfico, pois formaliza o escopo das hipoteses depesquisa, a captura de informacoes e as conclusoes sobre θ. E denotado por

U = 1, 2, . . . , N.

Exemplo 4.9. (Pesquisa eleitoral III) EEm 2018 o universo de eleitores do municıpio de Porto Alegrecompreendia 1,100,163 eleitores67, i.e., N = 1100103. Formalmente

U = 1, 2, . . . , 1 100 163.

,

Sistema de referencias

Em relacao as informacoes de um estudo, deve-se fazer inicialmente uma avaliacao das bases de dadosja disponıveis para entao proceder com a avaliacao da viabilidade de um levantamento de dados maisespecıfico. Este levantamento envolve se montar um plano amostral, contratar, treinar e manter pessoaspara a coleta, criar os protocolos de resposta bem como gerar e analisar os bancos de dados. Caso decida-se realizar tal levantamento, serao necessarias listas relacionando as unidades populacionais e amostrais.Na falta de tais listas, utilizam-se sistemas de referencias, que sao fontes que descrevem o universo a serinvestigado. Podem ser informacoes razoavelmente atualizadas, como mapas, censos ou listas reunidas.

4.2.2 Calculo do tamanho da amostra

O calculo do tamanho de amostra e baseado em uma serie de premissas assumidas pelo pesquisador.Os valores sugeridos pelos diversos metodos de calculo de tamanho de amostra devem ser consideradosapenas como uma referencia, dada a arbitrariedade das medidas utilizadas em sua obtencao. Tempoe custo sao dois limitantes que devem ser considerados a priori, podendo se sobrepor aos calculos detamanho de amostra.

Exemplo 4.10. (Tamanho da amostra aproximado) Em uma pesquisa eleitoral deseja-se calcular o tama-nho de amostra aproximado para que a margem de erro seja de ε = 2% com confianca de 1− α = 95%.Sabe-se da Equacao (106) da pagina 85 que

ε = z

√p(1− p)

n(103)

Isolando n temos

n =z2p(1− p)

ε2(104)

Sabe-se que z = Φ(0.975) = 1.96 ≈ 2, e que p(1− p) atinge seu maximo quando p = 12 . Assim,

n ≈22 × 1

2 × (1− 12 )

ε2=

1

ε2(105)

67Fonte: http://www.tse.jus.br/eleicoes/estatisticas/estatisticas-eleitorais

Page 80

Page 81: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONLogo, um IC para a proporcao com α = 5% para uma margem de erro de ε = 2% pode ser calculado

com um tamanho de amostra de aproximadamente

n ≈ 1

0.022= 2500

> qnorm(0.975)

[1] 1.959964

> n <- function(e) 1/e^2 # Equac~ao (90)

> n(0.02)

[1] 2500

,

EXERCICIOS

2. Considerando o Exemplo 4.10, calcule:

a) O tamanho da amostra para uma margem de erro de 1%.b) O tamanho da amostra para uma margem de erro de 1% e p = 0.65.c) O tamanho da amostra para uma margem de erro de 1 % e 2%, com confianca de 1− α = 90%.d) Escreva uma funcao que generalize o problema para qualquer nıvel de confianca, qualquer margem de erro e

qualquer valor de p. Verifique nos itens anteriores.

4.2.3 Amostragem Aleatoria Simples (AAS)

Amostragem Aleatoria Simples (AAS) e o metodo mais basico de selecao de amostras, sendo referenciapara todos os demais planos amostrais. A partir de uma lista completa da populacao seleciona-se cadaunidade amostral com igual probabilidade, de tal forma que a cada sorteio os elementos tenham a mesmachance de serem escolhidos.

Caso a unidade sorteada seja retirada da populacao e seja realizado um novo sorteio, e dito queprocedeu-se com uma AAS restrita ou sem reposicao, indicado por AASs.

Exemplo 4.11. (AASs) De uma urna com x bolas brancas e y bolas pretas sorteia-se uma ao acaso, comprobabilidade 1/(x + y). A bolinha sorteada e retirada da urna e realiza-se um novo sorteio, agora comprobabilidade 1/(x + y − 1). Este e um processo de AAS sem reposicao. Faca a arvore de decisao paratres etapas de sorteio com x = 5 e y = 4.

,

Exemplo 4.12. (Mega-Sena da Caixa Economica Federal) No R pode-se sortear uma amostra sem repo-sicao para tentar a sorte no jogo da Caixa Economica Federal.

> sort(sample(1:60, size = 6, replace = F)) # Apostando na Mega-Sena da CEF

[1] 5 20 23 28 38 51

> set.seed(1); sort(sample(1:60, size = 6, replace = F)) # Semente pseudo-aleatoria fixa

[1] 1 4 23 34 39 57

,Caso a unidade sorteada tenha a chance de participar novamente da amostra, o procedimento e cha-

mado AAS irrestrita ou com reposicao, indicado por AASc. Note que sortear n bolinhas simultaneamenteequivale a fazer n retiradas com reposicao.

Page 81

Page 82: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 4.13. (AASc) De uma urna com x bolas brancas e y bolas pretas sorteia-se uma ao acaso, comprobabilidade 1/(x+y). A bolinha sorteada e recolocada na urna e realiza-se um novo sorteio, novamentecom probabilidade 1/(x + y). Este e um processo de AAS com reposicao. Se forem necessarias tresbolinhas, e equivalente realizar este procedimento tres vezes ou retirar n = 3 bolinhas de uma so vez.Faca x = 5 e y = 4. ,

Exemplo 4.14. (Urna sem reposicao) E esquisito repor a bolinha observada, mas facilita uma barbaridadepara calcular as probabilidades de sorteio das bolinhas X e Y .

> x <- 5; y <-4

> rbinom(1,1,x/(x+y)) # Pr(X=1) = 5/9, Pr(X=0) = 4/9. Pr(Y=y)?

[1] 0

,

4.2.4 Amostragem Estratificada (AE)

Um estrato e um subconjunto da populacao onde controlam-se caracterısticas relevantes no estudo,como sexo, idade e escolaridade. Possui similaridade intra grupo e distincao entre grupos. Este procedi-mento torna os estratos homogeneos em relacao as caracterısticas controladas. Na amostragem estratifi-cada a populacao e dividida em k estratos e aplica-se a AAS para selecionar uma amostra de tamanhoni, i ∈ 1, 2, . . . , k de cada estrato.

Exemplo 4.15. (Amostragem estratificada) Suponha que uma grife esteja interessada em abrir uma filial

dentro da PUCRS. E interessante para os investidores avaliarem “o vestuario dos frequentadores daPUCRS”. Assim, os predios poderiam ser considerados estratos em relacao aos estilos de vestimentautilizados na universidade.

,

4.2.5 Amostragem por Conglomerados (AC)

Conglomerados sao subconjuntos da populacao, distintos entre si em relacao as caracterısticas deinteresse. Em oposicao aos estratos, possuem similaridade entre grupos e grande heterogeneidade intragrupos. Podem ser residencias, famılias, quarteiroes, bairros ou clubinhos de futebol. Tal procedimentoamostral e adequado quando e factıvel dividir a populacao em pequenas subpopulacoes homogeneas,deniominadas conglomerados. Primeiramente definem-se k conglomerados, dos quais alguns sao selecio-nados segundo uma AAS. Todos os elementos dos conglomerados selecionados sao observados. Em geral,e um plano amostral menos eficiente68 que a AAS ou AE, porem mais economico.

Exemplo 4.16. (Amostragem por conglomerados) Suponha que uma grife continue interessada em abriruma filial dentro da PUCRS. Para avaliar ‘o vestuario dos frequentadores da PUCRS’ foram sorteados,dentre 17 conglomerados pre-definidos, os grupos ‘restaurante B’, ‘restaurante G’ e ‘ponto de onibus’,todos avalidos de segunda a sexta entre 11:30 e 12:30. Todas as pessoas dos grupos sorteados sao entre-vistadas.

,

4.2.6 Amostragem Sistematica (AS)

A sistematizacao da observacao de amostras teve seu inıcio na industria. Ao inves de fazer umplano amostral complexo, pode-se simplesmente coletar as informacoes com um metodo sistematico pre-determinado. Tal metodo e facilitado pelo proprio processo industrial, baseado em uma sequencias depecas dispostas em esteiras. Dependendo da acuracidade desejada, escolhe-se a frequencia de observacoesa serem avaliadas. Baixas frequencias de observacao reduzem os tamanhos amostrais, enquanto altasfrequencias levam a um maior volume de dados. Apos definida a frequencia “observar uma unidadeamostral a cada k”, basta sortear um numero inteiro entre 1 e k para dar inıcio ao sorteio. Para listar onumero das pecas a serem observadas e interessante calcular os termos de uma Progressao Aritmetica.

68Eficiencia e uma medida relativa a variancia dos estimadores. Para maiores detalhes, vide Bolfarine et al. (2005).

Page 82

Page 83: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 4.17. (Amostragem sistematica) Uma industria deseja avaliar a adequacao de certo componentea especificacao. Para isso decide realizar um procedimento sistematico na esteira das pecas candidatasa serem aferidas. A frequencia escolhida e de observar uma a cada k = 15 pecas, ate ser atingido umtamanho de amostra de n = 40. Foi entao sorteado um numero entre 1 e 15, resultando em 9. Assim, aprimeira peca a ser avaliada e a de numero 9, seguindo a sequencia

(9, 9 + 15, 9 + 2× 15, . . . , 9 + 11× 15) = (9, 24, 39, . . . , 174).

4.2.7 Amostragem por Cotas (ACot)

Amostragem por cotas e um tipo de amostragem nao probabilıstica largamente utilizada na praticadevido a sua simplicidade de planejamento e execucao. O procedimento basico e manter na amostra amesma proporcao de pessoas com caracterısticas controlaveis da populacao.

EXERCICIOS

3. Se desejassemos avaliar a variavel ‘maneira de se vestir’, considerando a PUCRS como a populacao de interesse, qualtecnica de amostragem voce utilizaria para retirar uma amostra? Por que?

4. Em uma pesquisa eleitoral para o governo do estado do Rio Grande do Sul decide-se entrevistar 1000 pessoas.

Preencha a tabela abaixo com a distribuicao de homens e mulheres nas respectivas faixas etarias, considerando aTabela tab1_6_23.xls disponıvel no link

ftp://ftp.ibge.gov.br/Contagem_da_Populacao/Contagem_da_Populacao_2007/populacao.zip

Sexo 15 ` 20 20 ` 25 25 ` 40 40 ` 60 60 ou maisMF

4.3 Estimacao Pontual

Estimacao e o processo de inferir69 a respeito de estados ou quantidades universais desconhecidoscom base no conhecimento sobre o universo e observacoes amostrais. A abordagem Classica possui trestipos de estimacao: Pontual (ou por ponto), Intervalo de Confianca (IC) e Teste de Hipoteses (TH).

A estimacao pontual utiliza uma estatıstica como estimativa pontual de um certo parametro, i.e., seapropria de um unico valor amostral (ponto) para estimar θ. A sımbologia generica θ – teta chapeu –indica que parametro θ esta sendo estimado. Na Tabela 4.1, estao apresentadas as principais estimativase parametros utilizados ao longo do texto.

4.3.1 Proporcao ou Percentual

Proporcao ou percentual e a frequenca relativa da caracterıstica de interesse. A estimativa pontualda proporcao universal π e a propria proporcao amostral, dada por

p = π =# casos com a caracterıstica de interesse

# casos total.

Exemplo 4.18. (Estimativa pontual da proporcao) Suponha que deseja-se calcular a estimativa pontualpara a ‘proporcao de fumantes da PUCRS’, denotada por π. Em uma amostra de n = 125 frequentadoresda universidade, observaram-se 25 fumantes. A estimativa pontual de π e dada por

p = π =25

125≈ 0.2 = 20%.

,69Estimar, opinar, palpitar, tentar adivinhar.

Page 83

Page 84: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION4.3.2 Media

A estimativa pontual da media populacional µ e a propria media amostral, dada por

x = xn = µ =

∑ni=1 xin

.

Exemplo 4.19. (Estimativa pontual da media) Suponha que haja interesse em estudar a media de alturada populacao de Porto Alegre, desconhecida e denotada pelo parametro µ. Um levantamento com 1.4milhao de porto-alegrenses e impraticavel, mas e possıvel observar uma amostra da altura de 60 alunosde certa disciplina da PUCRS. A altura media da turma foi x60 = 1.67. Pode-se dizer que uma possıvelestimativa pontual da altura media das pessoas de Porto Alegre e µ = 1.67.,

4.3.3 Variancia e Desvio Padrao

A estimativa pontual da variancia populacional σ2 e dada por

s2 = σ2 =

∑ni=1(xi − x)2

n− 1=

(∑ni=1 x

2i

n− x2

)(n

n− 1

).

A estimativa por ponto do desvio padrao e calculada por

s = σ =√s2.

Exemplo 4.20. (Estimativa pontual da variancia e do desvio padrao) Suponha novamente as informacoesdo Exemplo 4.19. A estimativa pontual da variancia amostral e s2 = σ2 = 0.0105. Para calcular aestimativa pontual do desvio padrao, basta fazer s = σ =

√0.0105 ≈ 0.1025

,

4.4 (Estimacao por) Intervalo de Confianca

Suponha que seu amigo estime que ficara pronto para ir ao sushi as 19 horas, 37 minutos e 22segundos. E difıcil de acreditar na estimativa do amigo devido a sua extrema precisao. Isso ocorre comqualquer estimativa pontual, portanto uma sugestao para aumentar a confianca e fornecer um intervalode horario, no estilo “estarei pronto entre 19h e 20h”. Neste contexto e introduzida a nocao de intervalode confianca (IC), um metodo formal para construir intervalos com confianca pre-estabelecida para osparametros de interesse. No exemplo do sushi, o parametro desconhecido θ e o horario em que o amigoficara pronto.

Estrutura basica dos Intervalos e Limites de Confianca

Intervalos de Confianca

IC [Parametro, Confianca] = [Limite Inferior, Limite Superior]

Limites Superiores de Confianca

LSC [Parametro, Confianca] = ]−∞, Limite Superior]

Limites Inferiores de Confianca

LIC [Parametro, Confianca] = [Limite Inferior,+∞[

Parametro: quantidade de interesse para a qual deseja-se calcular um intervalo ou limite de confianca,denotado genericamente por θ;Confianca: confianca desejada, denotada por 1− α.Estimativa pontual: estimativa por ponto do parametro de interesse.Margem de erro: medida de variabilidade que depende da confianca desejada.Limite inferior: valor que limita o IC e o LIC a esquerda.Limite superior: valor que limita o IC e o LSC a direita.

Page 84

Page 85: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONPara medidas de posicao usualmente o limite superior e calculado por

Estimativa Pontual + Margem de Erro,

e de forma analoga para o limite inferior. No caso das medidas de dispersao como variancia e desviopadrao universais (σ2 e σ), os limites sao obtidos atraves de quocientes envolvendo medidas da amostracom valores de referencia obtidos da distribuicao qui-quadrado na forma

Estimativa Pontual

2.87

Exemplo 4.21. (Intervalo de Confianca) IC(π, 95%) = [0.14, 0.23] e uma estimativa por intervalo deconfianca de que a proporcao (percentual) universal π esteja entre 14% e 23% com confianca 95%. Peloprisma classico, isto significa que para cada 100 levantamentos realizados com o mesmo tamanho deamostra, sao esperados 95 intervalos de confianca contendo π e 5 nao contendo.,

Exemplo 4.22. (Limite Inferior de Confianca) LIC(µ, 90%) = [3.7,+∞[ e uma estimativa por limiteinferior de confianca de que a media universal µ seja de pelo menos 3.7 com confianca 90%. Pelo prismaclassico, isto significa que para cada 100 levantamentos realizados com o mesmo tamanho de amostra,sao esperados 90 limites inferiores de confianca contendo µ e 10 nao contendo.,

EXERCICIOS

5. Interprete os seguintes intervalos e limites de confianca.

a) LSC(µ, 99%) = ]−∞,−1.2]

b) IC(π, 82%) = [1/7, 3/7]

c) IC(µ, 90%) = [1/7, 3/7]

d) LIC(σ2, 95%) = [16,+∞[

e) LSC(σ, 95%) = ]−∞, 7]

f) IC(σ, 95%) = [4, 7]

4.4.1 Proporcao

O IC para a proporcao populacional π e dado pela expressao

IC [π, 1− α] = p∓ z√p(1− p)

n=

[p− z

√p(1− p)

n, p+ z

√p(1− p)

n

](106)

onde 1− α e a confianca do intervalo, p e a proporcao amostral, n e o tamanho da amostra e z = zα2

eo quantil da distribuicao normal padrao que acumula α

2 de probabilidade.

Exemplo 4.23. (IC para π) Suponha novamente o Exemplo 4.18, onde deseja-se calcular o IC para aproporcao de fumantes da PUCRS. Sabe-se que π = p = 25/125 = 0.2, n = 125 e z = 1.96. O IC de1− α = 95% e

IC [π, 95%] =25

125∓ 1.96

√0.2 (1− 0.2)

125= 0.2∓ 0.07 = [0.13, 0.27] = [13%, 27%] .

A margem de erro e de aproximadamente 0.07 = 7%, Note a diferenca de precisao entre a tabela,consultando a probabilidade 0.0250 correspondente a z = −1.96, e o valor calculado com a funcao qnorm.

Page 85

Page 86: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> n <- 125

> p <- 25/n

> z <- abs(qnorm(0.025)) # |-1.959964|

> (e <- z*sqrt(p*(1-p)/n)) # Margem de erro

[1] 0.0701218

> (LIpi <- p - e) # Limite Inferior

[1] 0.1298782

> (LSpi <- p + e) # Limite Superior

[1] 0.2701218

,

4.4.2 Media com σ conhecido

Um leitor atento pode estar se questionando a respeito do σ conhecido, visto que para calcular odesvio padrao universal σ necessita-se da media universal µ, tambem desconhecida. Porem, como formade construcao da teoria, e didaticamente apropriado apresentar primeiramente o calculo do IC para amedia universal µ supondo o desvio padrao σ conhecido. Outros motivos para abordar este topico destamaneira sao que i) desvios padrao sao geralmente estaveis, e pode-se ter calculado estimativas de σ emestudos similares e ii) o tamanho da amostra e tao grande que e praticamente equivalente calcular o ICcom σ conhecido ou desconhecido70.

O IC para a media universal com σ conhecido e dado pela expressao

IC [µ, 1− α] = x∓ z σ√n

=

[x− z σ√

n, x+ z

σ√n

], (107)

onde 1− α e a confianca do intervalo, x e a media amostral, σ e o desvio padrao universal magicamenteconhecido, n e o tamanho da amostra e z = zα

2e o quantil da distribuicao normal padrao que acumula

α2 de probabilidade.

Exemplo 4.24. (IC para µ com σ conhecido) Utilizando as 10 primeiras observacoes da Tabela 2.5 (pg.20), suponha que X: ‘altura de mulheres atendidas em um certo hospital publico de Porto Alegre durante oinverno 2012’ tenha distribuicao normal com media µ desconhecida e desvio padrao universal conhecidoσ = 0.05, denotado por X ∼ N (µ, 0.052). A media da amostra e x10 = 1.63 e z = 1.96. O IC de1− α = 95% e

IC [µ, 95%] = 1.63∓ 1.960.05√

10≈ 1.63∓ 0.03 ≈ [1.60, 1.66] .

A margem de erro e de aproximadamente 0.03.

> n <- 10

> m <- 1.63

> sigma <- 0.05 # 'sigma' universal

> z <- abs(qnorm(0.025)) # |-1.959964|

> (e <- z*s/sqrt(n)) # Margem de erro

[1] 0.02805723

> (LImusig <- m - e) # Limite Inferior

[1] 1.601943

> (LSmusig <- m + e) # Limite Superior

[1] 1.658057

70Secao 4.4.3.

Page 86

Page 87: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION,

4.4.3 Media com σ desconhecido

Este e o caso mais realista, no qual estima-se o desvio padrao universal σ atraves do desvio padraoamostral s. O IC para a media universal com σ desconhecido e dado pela expressao

IC [µ, 1− α] = x∓ t s√n

=

[x− t s√

n, x+ t

s√n

], (108)

onde 1−α e a confianca do intervalo, x e a media amostral, s e o desvio padrao amostral, n e o tamanhoda amostra e t = tn−1,α2

e o quantil da distribuicao t com n − 1 graus de liberdade que acumula 1 − α2

de probabilidade. Note a troca de σ por s, implicando na penalidade de utilizar t no lugar de z.

Exemplo 4.25. (IC para µ com σ desconhecido) Novamente utilizando as 10 primeiras observacoes daTabela 2.5, suponha agora que X: ‘altura de mulheres atendidas em um certo hospital publico de PortoAlegre durante o inverno 2012’ tenha distribuicao normal com media µ e desvio padrao universal σdesconhecidos, denotado por X ∼ N (µ, σ). A media e o desvio padrao amostrais sao, respectivamentex10 = 1.63 e s = 0.05. t = t10−1, 5%2

= t9,2.5% = 2.262 O IC de 1− α = 95% e

IC [µ, 95%] = 1.63∓ 2.2620.05√

10= 1.63∓ 0.04 ≈ [1.59, 1.67] .

A margem de erro e de aproximadamente 0.04, maior que a margem de erro 0.03 quando assume-se σconhecido.

> n <- 10

> m <- 1.63

> s <- 0.05 # 's' amostral

> t <- abs(qt(0.025, n-1)) # |-2.2621572|

> (e <- t*s/sqrt(n)) # Margem de erro

[1] 0.03576785

> (LImus <- m - e) # Limite Inferior

[1] 1.594232

> (LSmus <- m + e) # Limite Superior

[1] 1.665768

,

4.4.4 Variancia

O IC para a variancia universal σ2 e dado por

IC[σ2, 1− α

]=

[(n− 1)s2

χ2α2

,(n− 1)s2

χ21−α2

]

onde 1 − α e a confianca do intervalo, s2 e a variancia amostral, n e o tamanho da amostra, χ2α2

e o

quantil da distribuicao χ2 com ν = n− 1 graus de liberdade que acumula α2 de probabilidade e χ2

1−α2e

o quantil da distribuicao χ2 com ν = n− 1 graus de liberdade que acumula 1− α2 de probabilidade.

Exemplo 4.26. (IC para σ2) Novamente utilizando as 10 primeiras observacoes da Tabela 2.5, sabe-se quea variancia amostral e s2 = 0.052 = 0.0025 e ν = 10− 1 = 9. Pela Tabela da pagina 134, χ2

0.025 = 19.02e χ2

0.975 = 2.70. O IC de 1− α = 95% para σ2 e

IC[σ2, 95%

]=

[(10− 1)× 0.0025

19.02,

(10− 1)× 0.0025

2.70

]≈ [0.0012, 0.0083] .

Page 87

Page 88: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> n <- 10

> s <- 0.05 # 's' amostral

> chi025 <- qchisq(0.975, n-1) # 19.022768

> chi975 <- qchisq(0.025, n-1) # 2.7003895

> (LIsig2 <- (n-1)*s^2/chi025) # Limite Inferior

[1] 0.001182793

> (LIsig2 <- (n-1)*s^2/chi975) # Limite Superior

[1] 0.008332131

,

4.4.5 Desvio Padrao

Analogo ao IC para a variancia universal, o IC para o desvio padrao universal σ e dado por

IC [σ, 1− α] =

[√(n− 1)s2

χ2α2

,

√(n− 1)s2

χ21−α2

]

onde 1 − α e a confianca do intervalo, s2 e a variancia amostral, n e o tamanho da amostra, χ2α2

e o

quantil da distribuicao χ2 com ν = n− 1 graus de liberdade que acumula α2 de probabilidade e χ2

1−α2e

o quantil da distribuicao χ2 com ν = n− 1 graus de liberdade que acumula 1− α2 de probabilidade.

Exemplo 4.27. (IC para σ) Novamente utilizando as 10 primeiras observacoes da Tabela 2.5, sabe-se quea variancia amostral e s2 = 0.052 = 0.0025 e ν = 10− 1 = 9. Pela Tabela da pagina 134, χ2

0.025 = 19.02e χ2

0.975 = 2.70. O IC de 1− α = 95% para σ e

IC [σ, 95%] =

[√(10− 1)× 0.0025

19.02,

√(10− 1)× 0.0025

2.70

]=[√

0.0012,√

0.0083]≈ [0.0344, 0.0913] .

> n <- 10

> s <- 0.05 # 's' amostral

> chi025 <- qchisq(0.975, n-1) # 19.022768

> chi975 <- qchisq(0.025, n-1) # 2.7003895

> (LIsig <- sqrt((n-1)*s^2/chi025)) # Limite Inferior

[1] 0.03439176

> (LIsig <- sqrt((n-1)*s^2/chi975)) # Limite Superior

[1] 0.09128051

,

4.5 (Estimacao por) Teste de Hipoteses

Os testes de hipoteses sao procedimentos utilizados para atribuir um grau de credibilidade as hi-poteses em estudos cientıficos. Pelo paradigma classico, a medida padrao de credibilidade e conhecidapopularmente por p-value ou valor-p. Os teste de hipoteses possuem as mesmas caracterısticas e propri-edades dos respectivos intervalos de confianca. Desta forma, apresenta-se um breve exemplo abordandoa equivalencia entre os TH e os IC para a proporcao universal π.

4.5.1 Equivalencia entre Testes de Hipoteses e Intervalos de Confianca

Exemplo 4.28. (TH ≡ IC) Suponha uma moeda com probabilidade de face cara Pr(H) = π. Em princıpionao sabemos o valor de π, e pode ser interessante considerar duas configuracoes:

Page 88

Page 89: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION· π = 0.5, i.e., a moeda e equilibrada (nao viesada/nao viciada/honesta)

· π 6= 0.5, i.e., ela e desequilibrada (viesada/viciada/desonesta)

As hipoteses podem ser escritas na formaH0 : π = 0.5H1 : π 6= 0.5

Sob H0, i.e., supondo H0 verdadeira,

IC [π, 95%] = 0.5∓ 1.96

√0.5 (1− 0.5)

n= 0.5∓ 0.98√

n.

Assim, ao realizar n = 100 lancamentos e observar uma frequencia de caras no intervalo

IC [π, 95%] = 0.5∓ 0.98√100

= [0.402, 0.598] ,

pode-se considerar a moeda equilibrada com 95% de confianca. Caso a frequencia seja inferior a 40.2%ou superior a 59.8%, ha indıcios de que a moeda e desequilibrada, tambem com 95% de confianca. Pelaterminologia dos testes de hipoteses, nao se rejeita H0 com α = 5%. Se n = 25,

IC [π, 95%] = 0.5∓ 0.98√25

= [0.304, 0.696] ,

obtem-se um intervalo maior, i.e., menos preciso para a mesma confianca de 95%. Como exercıcio, usea funcao ic para definir outros valores para n e teste em uma moeda.

> ic <- function(n)

cat('[', 0.5-.98/sqrt(n), ',', 0.5+.98/sqrt(n), ']')

> ic(100)

[ 0.402 , 0.598 ]

> ic(25)

[ 0.304 , 0.696 ]

,

Exemplo 4.29. (Esta moeda e equilibrada?) Voce pega uma moeda qualquer e decide testar se ela eequilibrada ou nao. Pode-se definir que ela e equilibrada se a proporcao de n lancamentos ficar proximade 50%. Como voce definiria “proxima”?,

4.5.2 Hipoteses

Os testes de hipoteses sao dicotomicos, i.e., estrutura-se o problema em duas hipoteses concorrentes.Isso significa que o aplicador tem o papel de dividir o problema em dois conjuntos disjuntos que englobemtodas as possibilidades de acao. As hipoteses sao chamadas de hipotese nula (H0) e hipotese alternativa(H1 ou Ha). De maneira generica sao escritas na forma

H0 :H1 :

Hipoteses descritas de maneira literal sao conhecidas como hipoteses de pesquisa, enquanto as descritasem formato matematico sao chamadas hipoteses estatısticas. Elas devem ser equivalentes, mas suadenominacao pode ser adequada conforme o momento da pesquisa. Ao definir os objetivos e apresentaros resultados e mais apropriado fazer uso de termos literais. Porem, durante a execucao da analise –passo intermediario entre a definicao dos objetivos e a divulgacao dos resultados – e mais adequadoutilizar hipoteses estatısticas, pela necessidade de detalhamento matematico nesta etapa.

Page 89

Page 90: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 4.30. (Definindo as hipoteses sobre a moeda) Retomando o Exemplo 4.29, podemos definirrespectivamente as hipoteses do pesquisador e estatıstica como

H0 : a moeda e equilibradaH1 : a moeda nao e equilibrada

≡H0 : π = 0.5H1 : π 6= 0.5

.

,

Hipotese Nula H0

A hipotese nula e a hipotese a ser testada, definda pelo parametro generico θ0. A expressao nula fazreferencia aos planejamentos de experimentos, quando nao ha diferenca entre os tratamentos. Se issoocorre, os parametros populacionais sao considerados iguais, i.e., o efeito dos tratamentos seria nulo ousem diferenca significativa. Por este motivo H0 e geralmente associada ao nao-efeito, i.e., a contraposicaoda teoria testada. Utiliza-se a expressao “sob H0” para indicar a utilizacao do valor θ0 na realizacao doscalculos. A hipotese de igualdade H0 : θ = θ0 e conhecida por hipotese precisa, ou sharp hypothesis.

A igualdade sempre esta em H0.

H0 : θ = θ0

H1 : θ 6= θ0ou

H0 : θ ≥ θ0

H1 : θ < θ0ou

H0 : θ ≤ θ0

H1 : θ > θ0

Regra da Hipotese Nula

Hipotese Alternativa H1

A hipotese alternativa e a hipotese concorrente da hipotese nula. Por nao conter a igualdade e geralmenteassociada a diferenca entre tratamentos, sendo comumente relacionada a teoria que deseja-se testar. Poreste motivo e conhecida tambem como hipotese de pesquisa. Ela pode ser bilateral (H1 : θ 6= θ0),unilateral inferior (H1 : θ < θ0) ou superior (H1 : θ > θ0). Na Figura 4.2 estao apresentadas as regioesde rejeicao e de aceitacao para hipoteses uni e bilaterais. Sua escolha deve considerar a estrutura doproblema, podendo haver mais de um modo de apresentar as hipoteses.

H1 H1H0

(a) Hipotese bilateral (H1 : θ 6= θ0)

H1 H0

(b) Hipotese unilateral inferior (H1 : θ < θ0)

H1H0

(c) Hipotese unilateral superior (H1 : θ > θ0)

Figura 4.2: Tipos de hipoteses alternativas e suas regioes de rejeicao

Page 90

Page 91: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 4.31. (Hipotese bilateral) A hipotese alternativa H1 : π 6= 0.5 e dita bilateral, conforme Figura

4.2a. E o complementar da hipotese precisa H0 : π = 0.5.,

EXERCICIOS

6. (Adaptado de Magalhaes and Lima (2002)) Para cada item abaixo, indique as hipoteses de pesquisa e estatısticasque estao sendo testadas.

a) A companhia de transporte afirma que, em media, o intervalo entre sucessivos onibus de uma determinada linha ede 15 minutos. Uma associacao de usuarios de transportes coletivos acha que a pontualidade e muito importante,

e deseja testar a afirmacao da companhia.

b) Os amortecedores de automoveis que circulam em cidades duram pelo menos 100 mil quilometros em media,segundo a informacao de algumas oficinas especializadas. O proprietario de uma locadora de veıculos deseja

testar esta afirmacao.

c) Um veterinario afirma ter obtido um ganho medio diario de pelo menos 3 litros de leite por vaca com uma novacomposicao de racao. Um pecuarista acredita que o ganho nao e tao grande assim.

d) Algumas garrafas de cerveja declaram em seus rotulos conter 600mL. Os orgaos de fiscalizacao desejam avaliar

se uma fabrica deve ou nao ser autuada por engarrafar cervejas com uma quantidade menor que o indicado norotulo.

e) O dado de um cassino parece estar viciado, saindo o valor 1 com uma frequencia muito grande.

f) Um fabricante afirma que a sua vacina previne pelo menos 80% dos casos de uma doenca. Um grupo de medicosdesconfia que a vacina nao e tao eficiente assim.

4.5.3 Estatıstica do Teste - Univariada

Para medir a distancia probabilıstica entre os valores observados na amostra e o valor teorico θ0,utiliza-se a estatıstica do teste. Ela e calculada a partir das informacoes da amostra e do proprio θ0, sendoque cada parametro testado possui sua respectiva estatıstica de teste. Quando devidamente calculado,este valor e associado a uma distribuicao de probabilidades conhecida.

Proporcao

Sob H0 : π = π0,

zteste =p− π0√

π0(1− π0)/n=√n

(p− π0√π0(1− π0)

)∼ N (0, 1). (109)

Exemplo 4.32. (Lancando a moeda) Suponha n = 100 lancamentos e 40 caras observadas. Pode-se medira distancia do teorico H0 : π = 0.5 para o observado p = 40

100 = 0.4 atraves da estatıstica do teste

zteste =√

100

(0.4− 0.5√0.5(1− 0.5)

)= −2,

ou seja, estima-se que 0.4 esta dois desvios-padrao abaixo de 0.5. Avalie este resultado observando aFigura 3.3 da pagina 65. Compare com o Exemplo 4.28. O que voce conclui?

> theta <- 0.5

> x <- 40

> n <- 100

> p <- x/n

> (zt <- sqrt(n)*(p-theta)/sqrt(theta*(1-theta)))

[1] -2

,

Page 91

Page 92: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONMedia com σ conhecido

Sob H0 : µ = µ0,

zteste =x− µ0

σ/√n

=√n

(x− µ0

σ

)∼ N (0, 1). (110)

Exemplo 4.33. (σ) Suponha σ = 0.3185. Se quisermos comparar a media teorica H0 : µ = 2.027 comuma media obtida a partir de n = 5 observacoes x5 = 2.115, pode-se utilizar a estatıstica do teste

zteste =√

5

(2.115− 2.027

0.3185

)≈ 0.618.

Avalie este resultado observando a Figura 3.3 da pagina 65. O que voce conclui?

> sigma <- 0.3185

> theta <- 2.027

> n <- 5

> x_bar <- 2.115

> (zt <- sqrt(n)*(x_bar-theta)/(sigma))

[1] 0.6178147

,

Media com σ desconhecido

Sob H0 : µ = µ0,

tteste =x− µ0

s/√n

=√n

(x− µ0

s

)∼ tn−1. (111)

Exemplo 4.34. (s) Suponha s = 0.3185. Se quisermos comparar a media teorica H0 : µ = 2.027 comuma media obtida a partir de n = 5 observacoes x5 = 2.115, pode-se utilizar a estatıstica do teste

tteste =√

5

(2.115− 2.027

0.3185

)≈ 0.618.

Avalie este resultado observando a linha de 5 − 1 = 4 graus de liberdade na tabela da distribuicao t napagina 133 ou pelo nomograma da Figura 3.6b na pagina 71. O que voce conclui?

> s <- 0.3185

> theta <- 2.027

> n <- 5

> x_bar <- 2.115

> (tt <- sqrt(n)*(x_bar-theta)/s)

[1] 0.6178147

,

Variancia

Sob H0 : σ2 = σ20 ,

χ2teste =

(n− 1)s2

σ20

∼ χ2n−1. (112)

Exemplo 4.35. (Avaliando σ) Suponha um desvio padrao s = 0.32, obtido de uma amostra de tamanhon = 16. Pode-se comparar este valor observado com o teorico H0 : σ = 0.25 atraves da estatıstica

χ2teste =

(16− 1)× 0.322

0.252= 24.576.

Page 92

Page 93: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONCompare com a linha ν = 16− 1 = 15 da tabela de qui-quadrado da pagina 134. O que voce conclui?

> s <- 0.32

> theta <- 0.25

> n <- 16

> (ct <- (n-1)*s^2/theta^2 )

[1] 24.576

,

4.5.4 Valor-p (p-value)

Note que nos Exemplos 4.32 a 4.35 mediu-se a distancia (padronizada) entre valores amostrais e osvalores teoricos. Para mensurar se estas distancias sugerem um descolamento da hipotese nula H0, pode-se utilizar uma medida que indique a evidencia em favor de H0. Esta medida e obtida comparando-se aestatıstica de teste com a distribuicao teorica apropriada.

Pela abordagem classica, a medida usual e o valor-p, popularmente conhecido por p-value. Ele indicaa probabilidade de se obter um valor mais extremo do que a estatıstica de teste (distancia padronizada)obtida. Formalmente e a probabilidade do erro do tipo I71, conforme Tabela 4.3. Este e o valor daprobabilidade de errar ao rejeitar H0, i.e., decidir por H1 quando H0 e verdadeira.

DecisaoH0

Verdadeira FalsaRejeita H0 Erro do Tipo I OK

Aceita (Nao rejeita) H0 OK Erro do Tipo II

Tabela 4.3: Possibilidades ao decidir por uma hipotese

Exemplo 4.36. (Medindo o equilıbrio da moeda) Suponha novamente o Exemplo 4.36. O valor-p pode serobtido por

valor − p = 2× Pr(Z < −2) ≈ 0.0455.

Se 0.0455 = 4.55%, ou a probabilidade de errar ao rejeitar H0, for considerada baixa pelo pesquisador,ele pode decidir pela rejeicao; caso a considere alta, deve decidir pela aceitacao (nao rejeicao) de H0,optando por H1.

> theta <- 0.5

> x <- 40

> n <- 100

> p <- x/n

> zt <- sqrt(n)*(p-theta)/sqrt(theta*(1-theta))

> (p_value <- 2*pnorm(-abs(zt))) # Multiplica-se por 2 pelo teste ser bilateral

[1] 0.04550026

,

Exemplo 4.37. (Princıpio da Verossimilhanca 2) Suponha que deseja-se testar a hipotese H0 : θ ≤ 1/2contra H0 : θ > 1/2. Sao contemplados dois processos experimentais:

· E1: lancar a moeda n = 12 vezes;

· E2: lancar a moeda ate que aparecam k = 3 ‘caras’

Admita que o resultado observado nas duas experiencias foi x = 9 ‘coroas’ (portanto 3 ‘caras’),que e uma particular realizacao da variavel aleatoria X, que designa o numero total de ‘coroas’ dos

71Tambem conhecida por nıvel descritivo amostral ou simplesmente p. Esta ultima alternativa, apesar de mais concisa,foi evitada para nao haver conflito com a simbologia utilizada para a proporcao amostral, ja denotada por p.

Page 93

Page 94: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONexperimentos E1 e E2. Para um classico o nıvel crıtico (ou valor-p, a probabilidade de obter X ≥ 9) dahipotese H0 : θ = 1/2 difere nos dois casos.

No caso E1, X tem distribuicao binomial – X ∼ B (12, θ) – cujo nıvel crıtico e

Pr

(X ≥ 9

∣∣∣∣θ =1

2

)=

(12

9

)(1

2

)12

+

(12

10

)(1

2

)12

+

(12

11

)(1

2

)12

+

(12

12

)(1

2

)12

≈ 0.0730.

No caso E2, X tem distribuicao binomial negativa – X ∼ BN (3, 1− θ) – que tem nıvel crıtico

Pr

(X ≥ 9

∣∣∣∣θ =1

2

)=

(11

9

)(1

2

)12

+

(12

10

)(1

2

)13

+

(13

11

)(1

2

)14

+ · · · ≈ 0.0327.

Logo, se for adotado um limiar de significancia de 5%, H0 e rejeitada no caso E2 e nao rejeitada emE1. Assumindo o princıpio da verossimilhanca, as conclusoes devem ser identicas nos dois casos. Emambos a (funcao de) verossimilhanca e proporcional a θ9 (1− θ)3

. De fato, as verossimilhancas em E1 eE2 sao

L1 (θ|x = 9) =

(12

9

)θ9 (1− θ)3

= 220 θ9 (1− θ)3 ∝ θ9 (1− θ)3

L2 (θ|x = 9) =

(11

9

)θ9 (1− θ)3

= 55 θ9 (1− θ)3 ∝ θ9 (1− θ)3

,

4.5.5 Valor Crıtico

O valor crıtico e o quantil da distribuicao que delimita as regioes de rejeicao e aceitacao. Nasdistribuicoes normal e t sao chamados genericamente zcrıtico e tcrıtico.

Exemplo 4.38. (Valor crıtico) Suponha α = 5% para diferentes testes de hipoteses conforme Figura 4.3.Para a distribuicao t assumiu-se gl = 4.,

Page 94

Page 95: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

5% 95%

N (0, 1)

−1.64

(a) Normal, H1 : θ < θ0, α = 5%, zcrıtico = −1.64

5% 95%

t4

−2.13

(b) t, gl = 4, H1 : θ < θ0, α = 5%, tcrıtico = −2.132

5%95%

N (0, 1)

1.64

(c) Normal, H1 : θ > θ0, α = 5%, zcrıtico = 1.64

5%95%

t4

2.13

(d) t, gl = 4, H1 : θ > θ0, α = 5%, tcrıtico = 2.132

2.5% 2.5%95%

N (0, 1)

−1.96 1.96

(e) Normal, H1 : θ 6= θ0, α = 5%, |zcrıtico| = 1.96

2.5% 2.5%95%

t4

−2.78 2.78

(f) t, gl = 4, H1 : θ > θ0, α = 5%, |tcrıtico| = 2.776

Figura 4.3: Alguns exemplos de valores crıticos

Teste Qui-quadrado (de Pearson) de aderencia

H0: No universo representado por uma amostra, ha diferenca entre as frequencias esperadas e obser-vadas?

χ2 =

k∑i=1

(Oi − Ei)2

Ei∼ χ2

k−1 (113)

Com a correcao de Yates:

χ2Y ates =

k∑i=1

(|Oi − Ei| − 0.5)2

Ei∼ χ2

k−1 (114)

Exemplo 4.39 (Adaptado de Sheskin (2004)). (Teste qui-quadrado de aderencia) Um dado e lancado 120vezes, a fim de determinar se e ou nao e equilibrado (viesado). O valor 1 aparece 20 vezes, o valor 2aparece 14 vezes, o valor 3 aparece 18 vezes, o valor 4 aparece 17 vezes, o valor de 5 aparece 22 vezes, eo valor 6 aparece 29 vezes. Os valores observados sugerem que o dado e equilibrado?

Face (i) 1 2 3 4 5 6Oi 20 14 18 17 22 29Ei 20 20 20 20 20 20

Tabela 4.4: Valores observados e esperados

Page 95

Page 96: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> o <- c(20,14,18,17,22,29) # Observados

> p <- rep(1/6,6) # Distribuic~ao uniforme (dado equilibriado)

> e <- 120*p # Valores esperados se o dado for equilibrado

> k <- length(o) # Numero de categorias

> qui <- sum((o-e)^2/e) # Equac~ao (60)

> 1-pchisq(qui,k-1) # p-value

[1] 0.2439246

> chisq.test(o) # Pela func~ao 'chisq.test'

Chi-squared test for given probabilities

data: o

X-squared = 6.7, df = 5, p-value = 0.2439

,

4.5.6 Estatıstica do Teste - Bivariada

Em muitos casos praticos e necessaria a comparacao entre valores obtidos de dois universos distintos.Para isso existem procedimentos chamados bivariados.

Proporcao

Sob H0 : π1 = π2,

zteste =p1 − p2√

p(1− p)(

1

n1+

1

n2

) ∼ N (0, 1), (115)

onde n1 e n2 sao os tamanhos das amostras retiradas de dois universos, X1 e X2 representam o

numero de observacoes pertencentes aos universos 1 e 2, p1 =X1

n1, p2 =

X2

n2e p =

X1 +X2

n1 + n2.

Exemplo 4.40. (Duas moedas) Suponha duas moedas rotuladas 1 e 2. Se observarmos 7 caras em n1 = 35lancamentos da moeda 1 e 7 caras em n2 = 100 lancamentos da moeda 2, pode-se obter p1 = 7/35 = 0.2,p2 = 7/100 = 0.07 e p = (7 + 7)/(35 + 100) = 14/135 ≈ 0.1037. Para comparar a proporcao de caras dasmoedas, representada por H0 : π1 = π2, pode-se utilizar a estatıstica

zteste =0.2− 0.07√

14

135

(1− 14

135

)(1

35+

1

100

) ≈ 2.17.

> x1 <- 7

> n1 <- 35

> x2 <- 7

> n2 <- 100

> p1 <- x1/n1

> p2 <- x2/n2

> ph <- (x1+x2)/(n1+n2)

> (zt <- (p1-p2)/sqrt(ph*(1-ph)*(1/n1+1/n2)))

[1] 2.171139

> (p_value <- 2*pnorm(-abs(zt)))

[1] 0.02992069

,

Page 96

Page 97: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONMedia com σ2

1 e σ22 conhecidas

Sob H0 : µ1 − µ2 = ∆0,

zteste =(x1 − x2)−∆0√

σ21

n1+σ2

2

n2

∼ N (0, 1), (116)

onde n1 e n2 sao os tamanhos das amostras retiradas de dois universos, x1 e x2 representam as mediasamostrais das populacoes 1 e 2, e σ2

1 e σ22 sao as respectivas variancias populacionais.

Media com σ21 e σ2

2 desconhecidas

Sob H0 : µ1 − µ2 = ∆0,

Tteste =(x1 − x2)−∆0√s2p

(1

n1+

1

n2

) ∼ tn1+n2−2, (117)

s2p =

(n1 − 1)s21 + (n2 − 1)s2

2

n1 + n2 − 2, (118)

onde n1 e n2 sao os tamanhos das amostras retiradas de dois universos e x1 e x2 representam asmedias amostrais das populacoes 1 e 2.

Exemplo 4.41. (Teste t) Faca ?t.test.

> t.test(1:10, y = c(7:20)) # P = .00001855, diferenca significativa

Welch Two Sample t-test

data: 1:10 and c(7:20)

t = -5.4349, df = 21.982, p-value = 1.855e-05

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-11.052802 -4.947198

sample estimates:

mean of x mean of y

5.5 13.5

> t.test(1:10, y = c(7:20, 200)) # P = .1245, sem diferenca significativa

Welch Two Sample t-test

data: 1:10 and c(7:20, 200)

t = -1.6329, df = 14.165, p-value = 0.1245

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-47.242900 6.376233

sample estimates:

mean of x mean of y

5.50000 25.93333

,

Variancias

Sob H0 : σ21 = σ2

2 ,

Fteste =s2

1/σ21

s22/σ

22

=s2

1

s22

∼ Fn1−1,n2−1, (119)

onde n1 e n2 sao os tamanhos das amostras retiradas de dois universos e s21 e s2

2 representam asvariancias amostrais das populacoes 1 e 2.

Page 97

Page 98: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 4.42. (Teste de variancias) Faca ?var.test.

> set.seed(2); x <- rnorm(50, mean = 0, sd = 2)

> set.seed(3); y <- rnorm(30, mean = 1, sd = 1)

> var.test(x, y) # x e y tem a mesma variancia?

F test to compare two variances

data: x and y

F = 7.7713, num df = 49, denom df = 29, p-value = 1.048e-07

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

3.904505 14.621142

sample estimates:

ratio of variances

7.771348

,

Teste Qui-quadrado (de Pearson) para tabelas r × c

H0: No universo representado por uma amostra em uma tabela de contingencia, ha diferenca entreas frequencias esperadas e observadas nas celulas?

χ2 =

r∑i=1

c∑j=1

(Oij − Eij)2

Eij∼ χ2

(r−1)(c−1) (120)

Com a correcao de Yates:

χ2 =

r∑i=1

c∑j=1

(|Oij − Eij | − 0.5)2

Eij∼ χ2

(r−1)(c−1) (121)

> tab.bi <- matrix(c(90,10,70,30), nrow=2, byrow=T) # Tabela 2.8

> chisq.test(tab.bi) # Teste qui-quadrado de Pearson

Pearson's Chi-squared test with Yates' continuity correction

data: tab.bi

X-squared = 11.281, df = 1, p-value = 0.0007829

Teste Exato de Fisher para tabelas r × c

Seguindo o padrao da Tabela 2.7, calcula-se a probabilidade exata por

P =n·1! n·2! n1·! n2·!

n! n11! n12! n21! n22!(122)

Page 98

Page 99: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> tab.bi <- matrix(c(90,10,70,30), nrow=2, byrow=T) # Tabela 2.8

> fisher.test(tab.bi) # Teste exato de Fisher

Fisher's Exact Test for Count Data

data: tab.bi

p-value = 0.0006504

alternative hypothesis: true odds ratio is not equal to 1

95 percent confidence interval:

1.684537 9.405984

sample estimates:

odds ratio

3.831525

EXERCICIOS EXTRAS

1. O instituto de pesquisa OPINAS avaliou o cenario eleitoral em certa regiao do Brasil em uma amostra de 500eleitores, constatando que o candidato A tem 45% das intencoes de votos enquanto seu concorrente, o candidato B,

tem 37%.

a) Construa o intervalo de confianca 95% para a proporcao de votos do candidato A.b) Construa o intervalo de confianca 95% para a proporcao de votos do candidato B.c) As margens de erro sao iguais?

2. Um grande conglomerado, com centenas de empresas, quer entender melhor sobre o processo de separacao do lixo

em suas unidades. Para isso, selecionou 100 empresas do conglomerado e verificou que 82 delas faziam a separacao

do lixo.

a) Qual a estimativa por ponto da proporcao de empresas do conglomerado que separam o lixo?b) Construa um intervalo de confianca de 95% para a proporcao de empresas do conglomerado que separam o lixo.

3. A pesquisa de intencao de votos do Datafolha com 3281 eleitores nos dias 14 e 15 de outubro apontou 47% de

intencao de votos para a candidata Dilma Rousseff.

a) Encontre os intervalos de 84% e 95% de confianca para a verdadeira proporcao de votos da candidata.b) Quais as margens de erro dos intervalos de confianca do item anterior?

4. Em uma amostra aleatoria de 85 rolamentos de automoveis de certa fabrica, 10 apresentaram defeitos de fabricacao.

a) Forneca a estimativa por ponto da verdadeira proporcao de rolamentos defeituosos na fabrica.b) Construa um intervalo de 91% de confianca para a verdadeira proporcao de rolamentos defeituosos na fabrica.

5. Em uma turma de Estatıstica Basica com N = 57, 23 alunos tiraram nota igual ou superior a 7 na P1, de um totaln = 41 que realizaram a prova.

a) Qual a estimativa por ponto da proporcao de pessoas que tiraram pelo menos a media na P1?b) Sabendo que ha 57 pessoas matriculadas e supondo que todas elas tivessem feito a prova, quantas pessoas

espera-se que tirassem pelo menos 7 na P1?c) Faca um intervalo de confianca de 85% para proporcao de pessoas que tiraram pelo menos a media na P1.

6. Um artigo do jornal Materials Engineering (1989, Vol. II, No. 4, pp. 275–281) descreve o resultado de testes de

tensao em 22 ligas U-700. A carga de rompimento foi medida em megapascais (MPa), e a amostra apresentou mediade 13.71 MPa e desvio padrao de 3.55 MPa.

a) Quais sao as estimativas por ponto da media e variancia populacionais?b) Construa um intervalo de 98% de confianca para a verdadeira media populacional.c) Obtenha um IC para σ2 e outro para σ com confianca 95%.

7. Em uma amostra de 5 empresas brasileiras de importacao de rolamentos, constatou-se que elas gastaram R$65,000,000.00(sessenta e cinco milhoes de reais) em compra de rolamentos da China.

a) Qual a estimativa por ponto do gasto medio das importacoes de rolamentos de empresas do ramo no Brasil?b) Sabendo que o desvio padrao amostral de R$1,500,000.00, encontre um intervalo de 90% de confianca para o

gasto medio das importacoes de rolamentos de empresas do ramo no Brasil.

8. Um artigo de 1993 do Transactions of the American Fisheries Society apresentou o resultado de um estudo na

investigacao da contaminacao por mercurio na regiao da Florida (EUA). Uma amostra de 53 peixes foi observada,

de onde se calculou uma concentracao media de mercurio no tecido muscular de 0.5250 ppm e um desvio padrao de0.3486 ppm. Encontre o intervalo de confianca de 95% para a media de mercurio no tecido muscular dos peixes da

Florida, sabendo que t52,0.025 ≈ 2.007.

Page 99

Page 100: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION9. Para uma populacao normal com variancia conhecida, responda:

a) Qual o nıvel de confianca para o intervalo x± 2.14σ√n

?

b) Quais os valores de z que levam a um intervalo de 94% de confianca?

10. (Adaptado de Anderson et al. (2007)) Uma radio do estado anunciou que 90% dos hoteis da Serra Gaucha estariam

lotados no final de semana do dia dos pais. A estacao aconselhou os ouvintes a fazerem reserva antecipada para

se hospedar na Serra nestes dias. No sabado a noite uma amostra de 58 hoteis revelou que 49 diziam “sem vagas”.Qual e a sua reacao a afirmacao da radio, depois de ver a evidencia da amostra? Use 5% de nıvel de significancia.

11. (Adaptado de Magalhaes and Lima (2002)) Uma variavel aleatoria tem distribuicao normal com desvio padrao igual

a 12. Estamos testando se a media e igual ou diferente de 20. Para isso coletamos uma amostra de tamanho 100,obtendo uma media amostral de 17.4.

a) Formule as hipoteses.b) Obtenha a regiao crıtica e de a conclusao para os seguintes nıveis de significancia: 1%, 5% e 10%.c) Construa um intervalo com 95% de confianca para a media. Interprete.

12. (Adaptado de Pagano (2004)) A distribuicao da pressao sanguınea diastolica na populacao de mulheres diabeticas

segue distribuicao Normal com media desconhecida. Os medicos desejam saber se esta media e a mesma da populacaode mulheres sem diabetes, que e 74.4 mmHg.

a) Construa as hipoteses.b) Uma amostra de 10 mulheres diabeticas foi selecionada. A amostra apresentou media x10 = 84 mmHg e desvio

padrao s10 = 9.1 mmHg. Faca o teste bilateral para testar as hipoteses do item (a), com 5% de nıvel de

significancia.c) Calcule o valor p do teste.d) A conclusao teria sido a mesma se tivessemos escolhido um nıvel de significancia de 1%?e) Construa um intervalo com 90% de confianca e outro com 95%. Compare. O que acontece quando aumentamos

a confianca do intervalo?

13. (Adaptado de Anderson et al. (2007)) Na Western University, a media historica da pontuacao nos exames paraobtencao de bolsas de estudo e 900. Uma amostra de tamanho n = 200 foi observada, de onde se calculou x = 935.

Presume-se ainda que o desvio padrao da populacao e conhecido e igual a σ = 180.

a) O vice-reitor deseja avaliar se a media historica se modificou. Estabeleca as hipoteses.b) Construa o intervalo de confianca de 95% sob H0 para testar as hipoteses estabelecidas no item (a). Qual a sua

conclusao?

14. Uma empresa que fornece servicos de digitacao (antiga datilografia) afirma que seus digitadores cometem, em media,nao mais do que 3 erros de digitacao por pagina. Uma amostra aleatoria de 25 paginas digitadas pela empresa foi

selecionada, e neste grupo foi contabilizado um total de 80 erros e um desvio padrao de 0.4 erro por pagina.

a) Quais as estimativas por ponto da media e do desvio padrao populacionais?b) Defina as hipoteses.c) Utilizando nıvel de significancia de 5%, voce aceita ou rejeita a hipotese apresentada pela empresa? Apresente o

desenvolvimento, a decisao estatıstica (DE) e a conclusao experimental (CE).d) Se um livro possui 150 paginas, qual o total de erros de digitacao estimado?

15. Uma fabrica que embala certo produto afirma que o conteudo de suas embalagens contem em media 500g. Umconsumidor com bastante tempo livre resolveu fazer o teste, comprando 25 embalagens do produto e pesando-as. A

media dos pesos (massas, para ser fisicamente mais preciso) foi de 492g, e o desvio padrao de 30g.

a) Se o objetivo do orgao fiscalizador e decidir se a fabrica deve ou nao ser multada, quais as hipoteses maisadequadas neste caso?

b) Utilizando nıvel de significancia de 5%, a fabrica deve ser multada? Apresente o desenvolvimento, a distribuicaoutilizada, a estatıstica do teste e o valor crıtico.

16. A fabrica de automoveis WMB afirma que seus carros tem um rendimento medio de 10.4 km/L. Uma locadora,

especializada em modelos da WMB observou uma amostra de 25 carros, obtendo uma media de 9.8 km/L e umdesvio padrao de 2.3 lm/L. Com α = 5% pode-se aceitar que os carros apresentam rendimento medio igual aodeclarado pela fabrica?

Page 100

Page 101: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

“ Se queres conhecer o passado, examina o presente que e o resultado;

se queres conhecer o futuro, examina o presente que e a causa.”

∼ Confucio

5 Modelos Lineares

5.1 Correlacao

Correlacao e uma medida do (grau de) alinhamento entre duas v.a. quantitativas.Intuitivamente pode-se considerar as nuvens de pontos cruzando x e y, apresentadas sem os eixos na

Figura 5.172. Note que os alinhamentos perfeitos apresentam correlacao +1 (ascendente) e −1 (descen-

dente). A medida que a nuvem de pontos fica menos linear, a correlacao vai para zero.

Figura 5.1: Alguns exemplos de relacionamento entre duas variaveis quantitativas e suas correlacoes

5.1.1 ρ, a correlacao universal

A correlacao universal de duas v.a. X e Y e definida por

ρ = cor(X,Y ) =cov(X,Y )

D(X)D(Y ), (123)

onde

cov(X,Y ) = E [(X − E(X))(Y − E(Y ))] (124)

e a covariancia entre X e Y , D(X) e D(Y ) sao respectivamente os desvios padrao73 de X e Y e

−1 ≤ ρ ≤ +1 (125)

m

0 ≤ |ρ| ≤ +1. (126)

72https://commons.wikimedia.org/wiki/File:Correlation_examples.png73Secoes 2.4.3, 3.3.1 e 3.4.1.

Page 101

Page 102: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONSe |ρ| = +1, entao existe uma relacao linear da forma Y = β0 + β1X. Se ρ = +1, β1 > 0; se ρ = −1,

β1 < 0. Se X e independente de Y , entao ρ = 0, mas o contrario nao e necessariamente verdadeiro74.No senso comum, ‘correlacao’ possui uma ampla gama de significados. Ate mesmo na Estatıstica existe

uma pequena confusao entre as diferentes terminologias. O termo tambem se refere a correlacao amostral,geralmente calculada atraves da(o) (coeficiente de) correlacao (amostral) (de Pearson), descrita(o) naSecao 5.1.2. Nesta secao aborda-se ainda a correlacao no caso da Regressao Pela Origem (RPO), denotadapor rRPO.

Exemplo 5.1. (Dados bivariados) Considere a ideia de estimar o numero de garrafas de bebida a seremgeladas dependendo da temperatura maxima do dia. Seja X: ‘temperatura maxima do dia em C’ e Y :‘numero de garrafas de bebida consumidas’, observadas conforme Tabela 5.1.

i xi yi i xi yi i xi yi1 29.5 145 11 28.5 183 21 40.9 2332 31.3 170 12 28.0 158 22 28.6 1693 34.7 167 13 36.7 181 23 36.1 1924 40.4 244 14 31.5 123 24 27.1 1065 28.4 159 15 38.1 223 25 29.5 1706 40.3 195 16 33.5 176 26 31.6 1677 41.1 225 17 37.2 196 27 25.2 1338 36.2 206 18 41.9 238 28 31.5 1389 35.7 200 19 31.5 184 29 39.8 19910 26.1 134 20 38.2 213 30 30.8 172

Tabela 5.1: Temperatura maxima do dia (X, em C) e Consumo de bebida (Y , em # garrafas)

Um grafico de dispersao75 pode ajudar a explorar o comportamento da temperatura e garrafas consu-midas. O RStudio pode ajudar.

25 30 35 40

120

140

160

180

200

220

240

temp

gar

Figura 5.2: Dispersao de X e Y

74Sob certas condicoes de regularidade – e.g. normalidade – a recıproca e verdadeira.75Secao 2.6.5.

Page 102

Page 103: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> # Lendo o arquivo 'drinks.txt' direto do link

> dr <- read.table('http://www.filipezabala.com/data/drinks.txt', head=T)

> plot(dr)

> summary(dr)

temp gar

Min. :25.20 Min. :106.0

1st Qu.:29.50 1st Qu.:161.0

Median :32.55 Median :178.5

Mean :33.66 Mean :180.0

3rd Qu.:37.88 3rd Qu.:199.8

Max. :41.90 Max. :244.0

,

5.1.2 r, (coeficiente de) correlacao (amostral) (de Pearson)

O coeficiente de correlacao (amostral) (de Pearson), denotado por r, pode ser obtido por qualqueruma das equacoes a seguir:

r =1

n

n∑i=1

(xi − xsx

)(yi − ysy

)(127)

r =

∑(xi − x)(yi − y)√∑

(xi − x)2∑

(yi − y)2(128)

r =n∑xiyi −

∑xi∑yi√

[n∑x2i − (

∑xi)2][n

∑y2i − (

∑yi)2]

, (129)

onde

x =1

n

n∑i=1

xi, s2x =

1

n

n∑i=1

(xi − x)2,

y =1

n

n∑i=1

yi, s2y =

1

n

n∑i=1

(yi − y)2.

Note pela Equacao (127) que r e uma media dos produtos dos pares ordenados (xi, yi) padronizados,com i ∈ 1, 2, . . . , n. Se os pares de produto positivo predominarem, r sera positivo. Se os pares deproduto negativo predominarem, r sera negativo. Esta estrutura e chamada de momento-produto. AEquacao (128) remete a definicao (123), enquanto a Equacao (129) e util para a realizacao dos calculos.

Exemplo 5.2. (Correlacao de Pearson) Considere novamente os dados do Exemplo 5.1.O grau de alinhamento das variaveis pode ser estimado pelo coeficiente de correlacao de Pearson,

bastando calcular ∑x = 1009.9,

∑x2 = 34729.55,∑

y = 5399,∑

y2 = 1006663,∑xy = 186087.7, n = 30

e substituir na Equacao (129), resultando em

r =30× 186087.7− 1009.9× 5399√

[30× 34729.55− (1009.9)2][30× 1006663− (5399)2]

=130180.9√

21988.49× 1050689r ≈ 0.85647063.

Page 103

Page 104: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> # Lendo o arquivo 'drinks.txt' direto do link

> attach(read.table('http://www.filipezabala.com/data/drinks.txt', head=T))

> cor(temp,gar) # Pela func~ao 'cor'

[1] 0.8564706

,

5.1.3 Teste para ρ

Da mesma forma que foram realizados testes de hipotese para a media (H0 : µ = µ0) e proporcao(H0 : π = π0), usualmente testa-se a significancia de outros parametros universais, tal como a correlacao(H0 : ρ = ρ0). O teste basico e comparar ρ com zero, que indica ausencia completa de alinhamento entreas variaveis. Assim, testa-se H0 : ρ = 0 (nao ha correlacao) vs H1 : ρ 6= 0 (ha correlacao), denotado por

H0 : ρ = 0H1 : ρ 6= 0

.

Se considerarmos o modelo completo na forma β0 na forma Y = β0 + β1X, entao sob H0

T = r

√(n− 2)

1− r2∼ tn−2. (130)

Exemplo 5.3. (Verificando o alinhamento no modelo completo) Considere novamente as informacoesapresentadas no Exemplo 5.2. Pode-se testar

H0 : ρ = 0H1 : ρ 6= 0

considerando o modelo completo Y = β0 +β1X, implicando em T ∼ t30−2 ≡ t28 e que sob H0 resulta em

T = 0.8564706

√(30− 2)

1− 0.85647062≈ 8.780.

> n <- 30

> r <- cor(temp,gar)

> (Tt <- r*sqrt((n-2)/(1-r^2)))

[1] 8.779647

> (p_value <- 2*pt(-abs(Tt),n-2))

[1] 1.568402e-09

> cor.test(temp,gar) # Func~ao que realiza o teste de hipotese

Pearson's product-moment correlation

data: temp and gar

t = 8.7796, df = 28, p-value = 1.568e-09

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.7176348 0.9298311

sample estimates:

cor

0.8564706

,

Page 104

Page 105: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION5.1.4 ρRPO e rRPO, a correlacao na Regressao Pela Origem

Existe um caso especial de calculo de correlacao chamado Regressao Pela Origem (RPO) – descritodetalhadamente na Secao 5.2.1 – que pode ser omitido em uma primeira leitura. Nestes casos pode-secalcular rRPO atraves da expressao

rRPO =

√∑y2i∑y2i

. (131)

Exemplo 5.4. (Correlacao na RPO) Considere as informacoes do Exemplo 5.2. Pode-se calcular

rRPO =

√997094.2

1006663=√

0.9904945 ≈ 0.9952359.

Para detalhes do calculo de∑y2i vide Exemplo 5.10.

,

Teste para ρRPO

No caso do modelo RPO ou ‘sem intercepto’, no qual β0 = 0, na forma Y = β1X + ε, as hipoteses saoH0 : ρRPO = 0H1 : ρRPO 6= 0

.

Sob H0, a estatıstica do teste e

TRPO = rRPO

√(n− 1)

1− r2RPO

∼ tn−1. (132)

Exemplo 5.5. (Verificando o alinhamento no modelo RPO) Considere as informacoes do Exemplo 5.4.Pode-se testar

No caso do modelo RPO na forma Y = β1X ocorre TRPO ∼ t30−1 ≡ t29, que sob H0 resulta em

TRPO = 0.9952359

√(30− 1)

1− 0.99523592≈ 54.972.

> n <- 30

> r_rpo <- 0.9952359

> (T_rpo <- r_rpo*sqrt((n-1)/(1-r_rpo^2)))

[1] 54.97149

> (p_value <- 2*pt(-abs(T_rpo),n-1))

[1] 7.072562e-31

,

5.2 Modelo Linear Univariado ou Regressao Linear Simples

Modelo linear univariado ou regressao linear simples e um conjunto de metodos utilizado para ajustaruma reta76 a uma nuvem de pontos observada. Esta nuvem de pontos e formada por pares ordenados(xi, yi). A aplicabilidade e imediata, pois consegue-se uma regra entre uma variavel independente (usu-almente denotada por X) e uma variavel dependente (usualmente Y ). A qualidade do ajuste dependedo grau de alinhamento entre X e Y . Conforme apresentado na Secao 5.1, sabe-se que se |ρ| = +1,entao existem constantes β0 e β1 tal que Y = β0 + β1X. Na pratica, porem, e bastante improvavel

76Veja o Apendice D para maiores detalhes.

Page 105

Page 106: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONencontrarmos variaveis com alinhameto perfeito. Por este motivo considera-se o caso geral |ρ| < +1,descrito na forma

Y = β0 + β1X + ε. (133)

Na linguagem usual denota-se β0 por coeficiente linear, termo independente ou intercepto. β1 e conhecidocomo coeficiente angular. O termo de erro ε aparece devido ao fato de os pontos nao se alinharemperfeitamente. Assim supoe-se que os erros se distribuam normalmente com media zero e variancia σ2

ε ,i.e.,

ε ∼ N(0, σ2ε). (134)

A Figura 5.3 ilustra os casos de alinhamento perfeito (ε = 0) e com ruıdo (ε ∼ N(0, σ2ε)), indicado pelas

linhas verticais. A distribuicao de Y condicionada em X e Y |X = x ∼ N(β0 + β1x, σ2ε).

(a) ε = 0 (b) ε ∼ N(0, σ2)

Figura 5.3: Alinhamento perfeito (Y = β0 + β1X) e alinhamento com ruıdo normal (Y = β0 + β1X + ε)

5.2.1 Equacao da reta via Mınimos Quadrados Ordinarios

A Equacao (133) refere-se ao modelo universal, i.e., construıdo com todos os N pares ordenados douniverso. Na maioria dos casos praticos, entretanto, trabalha-se com amostras, tornando-se necessarioestimar os valores de β0 e β1. O metodo dos Mınimos Quadrados (Ordinarios) e utilizado para calcularestas estimativas. O princıpio do metodo e minimizar a soma de quadrado dos erros, i.e.,

minimizar

n∑i=1

ε2i . (135)

Basicamente utiliza-se εi = yi − β0 − β1xi na Equacao (135) e deriva-se em relacao a β0 e β1, fazendocada uma das derivadas parciais igual a zero77.

As estimativas por mınimos quadrados para o modelo Y = β0 + β1X + ε sao dadas por

β1 =n∑xiyi −

∑xi∑yi

n∑x2i − (

∑xi)2

(136)

e

β0 = y − β1x. (137)

77Para maiores detalhes, veja Morettin and Bussab (2008) e DeGroot and Schervish (2002).

Page 106

Page 107: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 5.6. (Equacao da reta por MQO para Y = β0 + β1X + ε) A partir das Equacoes (136), (137)e das informacoes do Exemplo 5.2, pode-se calcular

β1 =30× 186087.7− 1009.9× 5399

30× 34729.55− (1009.9)2=

130180.9

21988.49≈ 5.9204

e

β0 =5399

30− 5.9204× 1009.9

30≈ −19.3341.

Assim, se estiver previsto 39 C para amanha, espera-se o consumo de

y = −19.3341 + 5.9204× 39 = 211.5619 ≈ 212

garrafas de bebida em volta da piscina.,

> summary(lm(gar ~ temp)) # Facilita duas barbaridades

Call:

lm(formula = gar ~ temp)

Residuals:

Min 1Q Median 3Q Max

-44.159 -8.965 3.582 10.810 33.602

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -19.3341 22.9437 -0.843 0.407

temp 5.9204 0.6743 8.780 1.57e-09 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 18.26 on 28 degrees of freedom

Multiple R-squared: 0.7335, Adjusted R-squared: 0.724

F-statistic: 77.08 on 1 and 28 DF, p-value: 1.568e-09

Regressao Pela Origem (RPO)

Existem casos em que ha razoes teoricas para supor Y = 0 quando x = 0. Nestas situacoes cabedefinir uma Regressao Pela Origem78 (RPO), i.e., assume-se a priori que β0 = 0. A estimativa pormınimos quadrados para o modelo Y = β1X + ε e dada por

β1 =

∑xiyi∑x2i

. (138)

Exemplo 5.7. (Churras) Todas as pessoas que possuem 0 ou 1 no segundo dıgito da carteira de identidadesabem que para um bom churrasco deve-se comprar meio quilo de carne por pessoa. Assim, pode-se definiro modelo

Y = 0.5x,

onde x e o numero de participantes e Y e a quantidade de carne a ser adquirida. Note que Y = 0 quandox = 0, i.e., quando nao ha pessoas para o churras, o ideal e nao comprar carne.,

Exemplo 5.8. (Equacao da reta por MQO para Y = β1X+ε) A partir da Equacao (138) e das informacoesdo Exemplo 5.2, pode-se calcular

β1 =186087.7

34729.55≈ 5.358195.

Assim, se estiver previsto 39 C para amanha, espera-se o consumo de

78Para mais detalhes sobre esta classe de modelos sugere-se a leitura de Eisenhauer (2003).

Page 107

Page 108: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONy = 5.358195× 39 = 208.9696 ≈ 209

garrafas de bebida em volta da piscina. Note que Y = 0 quando x = 0, tal como no caso do Exemplo 5.7.

> summary(lm(gar ~ temp - 1)) # -1 indica o modelo sem intercepto

Call:

lm(formula = gar ~ temp - 1)

Residuals:

Min 1Q Median 3Q Max

-45.783 -11.262 3.533 12.008 30.291

Coefficients:

Estimate Std. Error t value Pr(>|t|)

temp 5.35819 0.09747 54.97 <2e-16 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 18.16 on 29 degrees of freedom

Multiple R-squared: 0.9905, Adjusted R-squared: 0.9902

F-statistic: 3022 on 1 and 29 DF, p-value: < 2.2e-16

,

5.2.2 Analise de diagnostico

A analise de diagnostico consiste na avaliacao da qualidade dos modelos ajustados de acordo comdeterminadas metricas. A rigor nao e recomendado tirar conclusoes de um modelo sem antes avaliar suaqualidade, tal como apresentado nos Exemplos 5.6 e 5.8. A sequencia de testes e avaliacoes sugeridas aseguir nao esgotam as possibilidades de diagnostico, mas podem ser consideradas como avaliacoes basicaspara qualquer modelo linear.

Teste para β1

O teste para β1 e fundamental na analise de diagnostico. E com ele que decide-se a respeito dapresenca ou ausencia de relacao linear entre X e Y . Particularmente no caso da regressao linear simples,os testes para β1 e ρ79 sao equivalentes. As hipoteses do teste para β1 sao

H0 : β1 = β∗1H1 : β1 6= β∗1

.

No caso do modelo completo Y = β0 + β1X + ε, sob H0

T1 =β1 − β∗1ep(β1)

∼ tn−2, (139)

onde

ep(β1) =

√σ2

Sxx=

√∑ni=1(yi − yi)2/(n− 2)∑n

i=1(xi − x)2. (140)

Apesar do uso do valor generico β∗1 , e usual testar H0 : β1 = 0 (nao ha correlacao, ou X nao explicaY linearmente) vs H1 : β1 6= 0 (ha correlacao, ou X explica Y linearmente), tal como no teste para

ρ. A medida ep(β1) e o erro padrao de β1, que depende das distancias entre os valores observados yi eos valores estimados pelo modelo, denotados por yi. Os valores estimados pelo modelo sao obtidos poryi = β0 + β1xi.

79Secao 5.1.4

Page 108

Page 109: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 5.9. (Teste para β1 em Y = β0 + β1X + ε) Considere as informacoes dos Exemplos 5.2, 5.3 e

5.6. Pode-se testar H0 : β1 = 0 vs H1 : β1 6= 0 calculando-se inicialmente yi = β0 + β1xi por

y1 = −19.3341 + 5.9204× 29.5 = 155.3180

y2 = −19.3341 + 5.9204× 31.3 = 165.9748

...

y30 = −19.3341 + 5.9204× 30.8 = 163.0146.

Assim,

30∑i=1

(yi − yi)2 = (145− 155.3180)2 + (170− 165.9748)2 + . . .+ (172− 163.0146)2 = 9332.152

e30∑i=1

(xi − x)2 =

(29.5− 1009.9

30

)2

+ . . .+

(30.8− 1009.9

30

)2

= 732.9497.

Pela Equacao (140) o erro padrao de β1 e dado por

ep(β1) =

√9332.152/(30− 2)

732.9497≈ 0.6743336,

que sob H0 resulta em

T1 =5.9204− 0

0.6743336≈ 8.780.

Pela linha ν = 30 − 2 = 28 da Tabela t (pg. 133) sabe-se que Pr(T > 8.780) < 0.0005 = Pr(T >3.674), i.e., p = 2Pr(T > 8.780) < 2 × 0.0005 = 0.001. Pelo nomograma da Figura 3.6b (pg. 71)verifica-se uma consideravel significancia, onde p < 1− 0.999999 = 0.000001. O p calculado via softwareresulta em p = 7.842031× 10−10 = 0.0000000007842031.,

Note a equivalencia entre os testes para ρ (Exemplo 5.3) e β1 (Exemplo 5.9). No caso da RPOY = β1X + ε, sob H0

T1 =β1 − β∗1ep(β1)

∼ tn−1, (141)

onde

ep(β1) =

√σ2

Sxx=

√∑ni=1(yi − yi)2/(n− 1)∑n

i=1 x2i

. (142)

Exemplo 5.10. (Teste para β1 em Y = β1X + ε) Considere as informacoes dos Exemplos 5.2, 5.4 e 5.5.

Pode-se testar H0 : β1 = 0 vs H1 : β1 6= 0 calculando-se inicialmente yi = β1xi por

y1 = 5.358195× 29.5 = 158.0668

y2 = 5.358195× 31.3 = 167.7115

...

y30 = 5.358195× 30.8 = 165.0324.

Assim,

30∑i=1

(yi − yi)2 = (145− 158.0668)2 + (170− 167.7115)2 + . . .+ (172− 165.0324)2 = 9568.823.

Page 109

Page 110: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONPela Equacao (142), o erro padrao de β1 e dado por

ep(β1) =

√9568.823/(30− 1)

34729.55≈ 0.09747218,

que sob H0 resulta em

T1 =5.358195− 0

0.09747218≈ 54.972.

Pela linha ν = 30 − 1 = 29 da Tabela t (pg. 133) sabe-se que Pr(T > 54.972) < 0.0005 = Pr(T >3.674), i.e., p = 2Pr(T > 54.972) < 2 × 0.0005 = 0.001. Pelo nomograma da Figura 3.6b (pg. 71)verifica-se uma consideravel significancia, onde p < 1− 0.999999 = 0.000001. O p calculado via softwareresulta em p = 0.0000000.,

Teste para β0

As hipoteses para o teste do intercepto β0 saoH0 : β0 = β∗0H1 : β0 6= β∗0

.

Sob H0,

T0 =β0 − β∗0ep(β0)

∼ tn−2, (143)

onde

ep(β0) =

√σ2

[1

n+

x2

Sxx

]=

√∑ni=1(yi − yi)2

n− 2

[1

n+

x2∑ni=1(xi − x)2

]. (144)

A medida ep(β0) e o erro padrao de β0. Novamente o padrao e testar H0 : β0 = 0. Caso o teste nao

indique a rejeicao de H0, basta utilizar a RPO e recalcular β1 conforme Equacao (138).

Exemplo 5.11. (Teste para β0) Considere novamente as informacoes dos Exemplos 5.2, ??, 5.3, 5.6 e5.9. Pode-se testar H0 : β0 = 0 vs H1 : β0 6= 0 calculando

ep(β0) =

√9332.152

30− 2

[1

30+

(1009.9/30)2

732.9497

]≈ 22.94372,

que sob H0 resulta em

T0 =−19.3341− 0

22.94372≈ −0.843.

Pela linha ν = 30 − 2 = 28 da Tabela t (pg. 133) sabe-se que 0.10 < Pr(T > 0.843) < 0.25, i.e.,0.20 < p < 0.50. O nomograma da Figura 3.6b (pg. 71) indica p > 0.05. O p calculado via softwareresulta em p = 0.4065509.,

Page 110

Page 111: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONAnalise dos resıduos

Resıduo e a diferenca entre o valor observado (yi) e o valor estimado por um modelo (yi), a partirde uma amostra. Quanto menor esta diferenca, melhor sera o ajuste do modelo aos dados, podendo-seobter resıduo zero no caso particular em que todos os pontos estao sobre a curva (Figura 5.3a).

Como existe a suposicao ε ∼ N(0, σ2ε) no universo, espera-se que os resıduos tenham distribuicao

aproximadamente normal com media zero. Para validar o modelo, porotanto, procede-se com testes dohipotese para avaliar H0: a distribuicao e normal e H0 : µε = 0. Existem diversos testes de normalidadena literatura, sem haver um teste otimo em relacao aos demais. A linguagem R oferece por padrao oteste de normalidade de Shapiro-Wilk atraves da funcao stats::shapiro.test.

Alem dos testes utiliza-se usualmente o qq-plot, que indica graficamente o quao proximos os resıduosestao de uma normal teorica. A Figura 5.4 apresenta graficos de qq-plot para diferentes distribuicoes deprobabilidade. Na Figura 5.4a e possıvel notar um ajuste bastante adequado aos dados simulados a partirde uma distribuicao normal teorica. Na Figura 5.4b estao os dados simulados de uma distribuicao t, cujascaudas pesadas aparecem descoladas da reta nos extremos. A distribuicao de Poisson, apresentada naFigura 5.4c, e uma distribuicao discreta e fica nitidamente mal ajustada a reta teorica. O ultimo exemplo(Figura 5.4d) e de uma distribuicao qui-quadrado, com assimetria explıcita no grafico.

(a) Normal (b) t

(c) Poisson (d) Qui-quadrado

Figura 5.4: QQ-plot para diferentes distribuicoes

Page 111

Page 112: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 5.12. (Resıduos) Dos Exemplos 5.6 e 5.8 podem-se ajustar qq-plots como na Figura 5.5.

(a) RPO, Y = 5.3582x (b) Completo, Y = −19.3341 + 5.9204x

Figura 5.5: QQ-plots

> # Teste de resıduos do modelo RPO

> fit0 <- lm(gar ~ temp-1)

> shapiro.test(fit0$residuals)

Shapiro-Wilk normality test

data: fit0£residuals

W = 0.9498, p-value = 0.167

> # Teste de resıduos do modelo completo

> fit <- lm(gar ~ temp)

> shapiro.test(fit$residuals)

Shapiro-Wilk normality test

data: fit£residuals

W = 0.95569, p-value = 0.2394

,

Coeficiente de Determinacao r2

O coeficiente de determinacao e uma medida de avaliacao da qualidade do ajuste de um modelo. Oprincıpio e comparar a Soma de Quadrado dos Resıduos do modelo ajustado (SQRmodelo) com a Somade Quadrado dos Resıduos do modelo nulo (SQRmodelo nulo) atraves da expressao

r2 = 1− SQRmodelo

SQRmodelo nulo= 1−

∑(yi − y)2∑(yi − y)2

. (145)

O modelo nulo e um modelo de referencia, geralmente y. Usualmente define-se r2 como a proporcaoda variacao de Y que e explicada ajustando-se um particular modelo que depende de X. No caso daregressao linear simples, o coeficiente de determinacao e dado pelo quadrado do coeficiente de correlacaode Pearson, sendo simplesmente r2.

Uma caracterıstica importante e que a magnitude de r2 depende da amplitude de variacao do X,conforme Figura 5.6a. Anscombe (1973) sugeriu quatro conjuntos de dados com mesma media de X e Y,porem com comportamentos bem diferentes, conforme Figura 5.6b. A conclusao de Anscombe e que umr2 alto nao assegura uma relacao valida, portanto deve-se sempre avaliar o r2 juntamente com o graficode dispersao.

Page 112

Page 113: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

(a) r2 para diferentes amplitudes de X

5 10 15

46

810

12

x1

y1

5 10 15

46

810

12

x2

y2

5 10 15

46

810

12

x3

y3

5 10 15

46

810

12

x4

y4

(b) Conjuntos de dados de Anscombe

Figura 5.6: Dispersao de X e Y

> summary(anscombe[,1:4]) # Medidas de posic~ao para x

x1 x2 x3 x4

Min. : 4.0 Min. : 4.0 Min. : 4.0 Min. : 8

1st Qu.: 6.5 1st Qu.: 6.5 1st Qu.: 6.5 1st Qu.: 8

Median : 9.0 Median : 9.0 Median : 9.0 Median : 8

Mean : 9.0 Mean : 9.0 Mean : 9.0 Mean : 9

3rd Qu.:11.5 3rd Qu.:11.5 3rd Qu.:11.5 3rd Qu.: 8

Max. :14.0 Max. :14.0 Max. :14.0 Max. :19

> summary(anscombe[,5:8]) # Medidas de posic~ao para y

y1 y2 y3 y4

Min. : 4.260 Min. :3.100 Min. : 5.39 Min. : 5.250

1st Qu.: 6.315 1st Qu.:6.695 1st Qu.: 6.25 1st Qu.: 6.170

Median : 7.580 Median :8.140 Median : 7.11 Median : 7.040

Mean : 7.501 Mean :7.501 Mean : 7.50 Mean : 7.501

3rd Qu.: 8.570 3rd Qu.:8.950 3rd Qu.: 7.98 3rd Qu.: 8.190

Max. :10.840 Max. :9.260 Max. :12.74 Max. :12.500

> sqrt((colMeans(anscombe^2)-(colMeans(anscombe))^2)*11/10) # Desvios padr~ao

x1 x2 x3 x4 y1 y2 y3 y4

3.316625 3.316625 3.316625 3.316625 2.031568 2.031657 2.030424 2.030579

> cor(anscombe[,c('x1','y1')])[1,2]^2 # Coeficiente de determinac~ao de (x1,y1)

[1] 0.6665425

> cor(anscombe[,c('x2','y2')])[1,2]^2 # Coeficiente de determinac~ao de (x2,y2)

[1] 0.666242

> cor(anscombe[,c('x3','y3')])[1,2]^2 # Coeficiente de determinac~ao de (x3,y3)

[1] 0.666324

> cor(anscombe[,c('x4','y4')])[1,2]^2 # Coeficiente de determinac~ao de (x4,y4)

[1] 0.6667073

Page 113

Page 114: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 5.13. (Coeficiente de determinacao do modelo completo) Primeiramente calcula-se a SQRmodelo nulopor

30∑i=1

(yi − y)2 =

[145−

(5399

30

)]2

+ . . .+

[172−

(5399

30

)]2

= 35022.97.

Do Exemplo 5.9 sabe-se que30∑i=1

(yi − yi)2 = 9332.152,

permitindo que se obtenha

r2 = 1− 9332.152

35022.97≈ 0.7335419.

Note que do Exemplo 5.2 pode-se calcular diretamente r2 = 0.85647062 ≈ 0.7335419. Com a linguagemR pode-se utilizar a funcao stats::cor.

> cor(temp,gar)^2

[1] 0.7335419

,

EXERCICIOS

1. Um corretor-cientista percebeu um alinhamento razoavel entre a metragem quadrada (x) dos imoveis que vende e o

preco de imoveis (y) em localizacoes proximas, e ajustou um modelo linear entre x e y com base em 8 apartamentosdo seu portfolio. Encontrou a equacao

f(x) = y = 2192.04x− 14401.57.

a) O corretor calculou uma correlacao de 0.9586. Faca o teste de hipoteses apropriado com α = 0.05 e interprete ocoeficiente de correlacao.

b) Interprete o coeficiente angular no contexto do problema.

c) Se um cliente deste corretor pedisse R$150, 000.00 por um apartamento de 55m2, voce acharia que o preco estaadequado? Justifique.

2. E esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relacao, uma nutricionista

selecionou 18 mulheres, com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular(Y), resultando na reta de regressao

y = −0.4x+ 55

a) Se a correlacao de Pearson foi igual a −0.837, teste H0 : ρ = 0 com α = 5%.

b) Considerando a reta fornecida, estime a massa muscular media de mulheres com 60 anos.

c) Interprete o coeficiente angular no contexto do problema.

Page 114

Page 115: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION3. Considere as notas de 10 alunos em duas provas de certa disciplina, apresentadas na tabela abaixo.

P1 (x) 2.0 3.2 4.0 4.0 5.0 5.6 7.0 8.3 9.3 10.0P2 (y) 3.0 5.0 6.0 5.0 7.0 8.0 7.0 8.0 8.0 9.6

(a) Modelo com intercepto (b) Modelo sem intercepto

a) Calcule e teste a significancia da correlacao amostral com α = 1%.b) Compare os valores Multiple R-Squared com a correlacao calculada no item anterior. O que voce observa?c) A partir da analise de diagnostico apresentada, escolha o melhor regressao e escreva na forma y = β0 + β1x.

Justifique sua escolha.d) Compare os testes para a correlacao amostral e para β1 dos dois modelos. O que voce observa?

e) Utilizando o modelo escolhido, calcule quanto espera-se que um aluno tire na P2 sendo que sua P1 = 5.6.

Page 115

Page 116: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION4. Seu Macedo desconfia que a venda diaria de picoles da sua budega esta linearmente relacionada com a temperatura

maxima do dia. Para isso ajustou dois modelos lineares a partir de 9 pares de observacoes, apresentados a seguir.

(a) Modelo com intercepto (b) Modelo sem intercepto

a) Teste a significancia da correlacao amostral com α = 5%.

b) A partir da analise de diagnostico apresentada, escolha o melhor regressao e escreva na forma y = β0 + β1x.Justifique sua escolha.

c) Compare os testes para a correlacao amostral e para β1. O que voce observa?d) Utilizando o modelo escolhido, quantos picoles seu Macedo estima vender quando observar uma temperaturamaxima de 22 graus Celsius?e) Se seu Macedo vendeu 340 picoles em um dia, qual a temperatura maxima esperada para aquele dia?

Page 116

Page 117: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION5. Durante os eventos esportivos disponibilizam-se locais abertos para o publico assistir aos jogos. O numero de pessoas

que comparecem a estes locais (y) parece estar relacionado com a quantidade de chuva (x) observada no dia dos

jogos. Para avaliar esta relacao, observou-se a precipitacao e o publico presente durante 7 dias em um certo local de

eventos.

(a) Modelo com intercepto (b) Modelo sem intercepto

a) Qual a sua decisao sobre H0 : ρ = 0 vs H1 : ρ 6= 0? Argumente.

b) Sugira um modelo, indicando-o na forma y = β0 + β1x. Justifique indicando os testes de hipoteses utilizados,juntamente com seus p-values (coluna Pr(>|t|)) e comparacao dos qq-plots.c) Interprete o coeficiente angular β1 no contexto do problema.

d) Se a previsao do tempo indica 12 mm de chuva, qual o publico estimado para este dia utilizando o modeloescolhido no item (b)?

Page 117

Page 118: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION6. Um estudo apontou a nota media em certa disciplina (y) de 10 alunos em funcao do numero de horas mensais de

estudo (x).

(a) Modelo com intercepto (b) Modelo sem intercepto

a) Qual a sua decisao sobre H0 : ρ = 0 vs H1 : ρ 6= 0? Argumente.

b) Sugira um modelo, indicando-o na forma y = β0 + β1x. Justifique indicando os testes de hipoteses utilizados,juntamente com seus p-values (coluna Pr(>|t|)).c) Interprete o coeficiente angular β1 no contexto do problema.

d) Se uma pessoa estuda 15 horas por mes, qual sua nota media esperada nesta disciplina? Utilize o modelo escolhidono item (b).

Page 118

Page 119: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

“ Talvez meu verso nao diga tudo que eu quero dizer,

mas e com poucas palavras que muitos vao entender.”∼ Gaucho da Fronteira, 1981

6 Modelos Nao Lineares

Modelos nao lineares podem assumir formas funcionais quaisquer, contendo polinomios, logarıtmos,raızes, etc.

> # Lendo dados

> x <- read.table('http://www.filipezabala.com/data/drinks.txt', head=T)

> attach(x)

> # Descritivas

> summary(x)

temp gar

Min. :25.20 Min. :106.0

1st Qu.:29.50 1st Qu.:161.0

Median :32.55 Median :178.5

Mean :33.66 Mean :180.0

3rd Qu.:37.88 3rd Qu.:199.8

Max. :41.90 Max. :244.0

> # Correlac~ao

> cor.test(temp,gar)

Pearson's product-moment correlation

data: temp and gar

t = 8.7796, df = 28, p-value = 1.568e-09

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.7176348 0.9298311

sample estimates:

cor

0.8564706

> # Diagnostico

> d <- function(modelo)

print(summary(modelo))

par(mfrow=c(2,2));plot(modelo, which = 1:4)

print(shapiro.test(modelo$residuals))

print(paste0('AIC = ', AIC(modelo)))

>

Page 119

Page 120: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> # linear

> fit <- lm(gar ~ temp)

> d(fit)

Call:

lm(formula = gar ~ temp)

Residuals:

Min 1Q Median 3Q Max

-44.159 -8.965 3.582 10.810 33.602

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -19.3341 22.9437 -0.843 0.407

temp 5.9204 0.6743 8.780 1.57e-09 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 18.26 on 28 degrees of freedom

Multiple R-squared: 0.7335, Adjusted R-squared: 0.724

F-statistic: 77.08 on 1 and 28 DF, p-value: 1.568e-09

Shapiro-Wilk normality test

data: modelo$residuals

W = 0.95569, p-value = 0.2394

[1] "AIC = 263.337017768869"

140 160 180 200 220

−40

020

40

Fitted values

Res

idua

ls

Residuals vs Fitted

1424

11

−2 −1 0 1 2

−2

−1

01

2

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q−Q

1424

11

140 160 180 200 220

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−Location14

24 11

0 5 10 15 20 25 30

0.00

0.10

0.20

Obs. number

Coo

k's

dist

ance

Cook's distance24

1114

Page 120

Page 121: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> # quadratico incompleto

> fit2 <- lm(gar ~ I(temp^2))

> d(fit2)

Call:

lm(formula = gar ~ I(temp^2))

Residuals:

Min 1Q Median 3Q Max

-42.503 -8.452 3.270 10.608 33.237

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 78.736614 11.864893 6.636 3.36e-07 ***

I(temp^2) 0.087444 0.009844 8.883 1.23e-09 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 18.1 on 28 degrees of freedom

Multiple R-squared: 0.7381, Adjusted R-squared: 0.7288

F-statistic: 78.91 on 1 and 28 DF, p-value: 1.228e-09

Shapiro-Wilk normality test

data: modelo$residuals

W = 0.95545, p-value = 0.236

[1] "AIC = 262.818478712006"

140 160 180 200 220

−40

020

40

Fitted values

Res

idua

ls

Residuals vs Fitted

1424

11

−2 −1 0 1 2

−2

−1

01

2

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q−Q

1424

11

140 160 180 200 220

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−Location14

2411

0 5 10 15 20 25 30

0.00

0.10

0.20

Obs. number

Coo

k's

dist

ance

Cook's distance24

11 14

Page 121

Page 122: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> # cubico incompleto

> fit3 <- lm(gar ~ I(temp^3))

> d(fit3)

Call:

lm(formula = gar ~ I(temp^3))

Residuals:

Min 1Q Median 3Q Max

-41.137 -9.121 2.378 11.678 32.558

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.113e+02 8.413e+00 13.234 1.43e-13 ***

I(temp^3) 1.689e-03 1.904e-04 8.872 1.26e-09 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 18.12 on 28 degrees of freedom

Multiple R-squared: 0.7376, Adjusted R-squared: 0.7283

F-statistic: 78.72 on 1 and 28 DF, p-value: 1.26e-09

Shapiro-Wilk normality test

data: modelo$residuals

W = 0.9566, p-value = 0.253

[1] "AIC = 262.873279706026"

140 160 180 200 220

−40

020

40

Fitted values

Res

idua

ls

Residuals vs Fitted

1424

11

−2 −1 0 1 2

−2

−1

01

2

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q−Q

14 24

11

140 160 180 200 220

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−Location1424

11

0 5 10 15 20 25 30

0.00

0.10

0.20

Obs. number

Coo

k's

dist

ance

Cook's distance24

611

Page 122

Page 123: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> # logaritmico

> fit4 <- lm(gar ~ log(temp))

> d(fit4)

Call:

lm(formula = gar ~ log(temp))

Residuals:

Min 1Q Median 3Q Max

-46.062 -9.816 4.887 12.512 33.590

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -508.37 80.49 -6.316 7.86e-07 ***

log(temp) 196.36 22.94 8.559 2.65e-09 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 18.6 on 28 degrees of freedom

Multiple R-squared: 0.7235, Adjusted R-squared: 0.7136

F-statistic: 73.26 on 1 and 28 DF, p-value: 2.651e-09

Shapiro-Wilk normality test

data: modelo$residuals

W = 0.95523, p-value = 0.2329

[1] "AIC = 264.448373488171"

140 160 180 200 220

−40

020

40

Fitted values

Res

idua

ls

Residuals vs Fitted

14

11

24

−2 −1 0 1 2

−2

−1

01

2

Theoretical Quantiles

Sta

ndar

dize

d re

sidu

als

Normal Q−Q

14

24

11

140 160 180 200 220

0.0

0.5

1.0

1.5

Fitted values

Sta

ndar

dize

d re

sidu

als

Scale−Location14

24 11

0 5 10 15 20 25 30

0.00

0.10

0.20

Obs. number

Coo

k's

dist

ance

Cook's distance24

11 14

Page 123

Page 124: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> # Graficos

> par(mfrow=c(1,1))

> plot(temp, gar)

> abline(a = fit$coefficients[1], b = fit$coefficients[2],col = 'red')> lines(sort(temp), fitted(fit2)[order(temp)], col='blue', type='l')> lines(sort(temp), fitted(fit3)[order(temp)], col='green', type='l')> lines(sort(temp), fitted(fit4)[order(temp)], col='black', type='l')

25 30 35 40

120

140

160

180

200

220

240

temp

gar

> # predic~ao

> newdata = data.frame(temp=39)

> predict(fit, newdata, interval='predict')

fit lwr upr

1 211.5619 172.8394 250.2845

> predict(fit2, newdata, interval='predict')

fit lwr upr

1 211.7394 173.3466 250.1322

> predict(fit3, newdata, interval='predict')

fit lwr upr

1 211.5443 173.1245 249.9641

> predict(fit4, newdata, interval='predict')

fit lwr upr

1 210.9992 171.5684 250.43

Page 124

Page 125: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> # erro padrao do residuo - residual standard error / root mean squared error (RMSE)

> aov(gar~temp)

Call:

aov(formula = gar ~ temp)

Terms:

temp Residuals

Sum of Squares 25690.815 9332.152

Deg. of Freedom 1 28

Residual standard error: 18.25626

Estimated effects may be unbalanced

> sqrt(sum(residuals(fit)^2) / df.residual(fit))

[1] 18.25626

> d(fit)

Call:

lm(formula = gar ~ temp)

Residuals:

Min 1Q Median 3Q Max

-44.159 -8.965 3.582 10.810 33.602

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -19.3341 22.9437 -0.843 0.407

temp 5.9204 0.6743 8.780 1.57e-09 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 18.26 on 28 degrees of freedom

Multiple R-squared: 0.7335, Adjusted R-squared: 0.724

F-statistic: 77.08 on 1 and 28 DF, p-value: 1.568e-09

Shapiro-Wilk normality test

data: modelo$residuals

W = 0.95569, p-value = 0.2394

[1] "AIC = 263.337017768869"

Page 125

Page 126: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

“ Alguem que acredite em crescimento infinito

em um planeta finitoe louco ou economista.”

∼ David Frederick Attenborough

7 Numeros Indice

Um numero ındice e uma medida de variacao percentual media. E obtido atraves de um quocienteexpresso em percentual. Numeros ındices indicam, portanto, variacoes de precos, quantidades e

valores80 de produtos ou cestas no tempo ou espaco.

Exemplo 7.1. (Variacao temporal e espacial) Suponha que o preco de um certo livro tenha variado con-forme a Tabela 7.1.

CidadeAno

2014 2015A R$ 20.00 R$ 22.00B R$ 19.70 R$ 22.10C R$ 21.00 R$ 25.50

Tabela 7.1: Variacao temporal e espacial do preco de um livro

Variacao temporal. Na cidade A, o ındice de preco de 2015 em relacao a 2014 e de

pA2014,2015 =pA2015

pA2014

=22.00

20.00= 110%,

i.e., o preco deste livro em 2015 e 110% − 100% = 10% superior ao seu preco em 2014 na cidade A.Como exercıcio, calcule e interprete a variacao de 2014 para 2015 nas demais cidades.

Variacao espacial. Em 2014, o ındice de preco da cidade B em relacao a cidade A e de

p2014A,B =

p2014B

p2014A

=19.70

20.00= 98.5%,

i.e., o preco deste livro na cidade B foi 100%− 98.5% = 1.5% inferior aquele praticado na cidade A em2014. Como exercıcio, calcule e interprete a variacao entre as cidades B e C em relacao a cidade A em2014 e 2015.

,Na abordagem temporal do Exemplo 7.1, o preco em 2014 e escolhido como base de referencia,

tambem chamado de base de comparacao ou ano-base. O ano de 2015 – cujo preco esta sendo comparadocom a base de referencia – e chamado de ano atual, nao necessariamente o ano corrente.

80valor = preco× quantidade.

Page 126

Page 127: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

7.1 Indices Relativos ou Simples

Os ındices relativos ou simples comparam precos, quantidades e valores de apenas um produto emdois momentos distintos do tempo.

7.1.1 de Preco

p0,t =ptp0

(146)

7.1.2 de Quantidade

q0,t =qtq0

(147)

7.1.3 de Valor

v0,t =vtv0

=ptqtp0q0

(148)

ProdutoPreco unitario (reais) Quantidade comprada

2008 (p0) 2009 (p1) 2010 (p2) 2008 (q0) 2009 (q1) 2010 (q2)Pao 1.20 1.26 1.30 300 330 360Leite 1.70 1.80 2.00 150 150 180Ovos 3.10 3.27 3.40 60 90 120Carne 7.00 8.00 9.00 150 120 90

Tabela 7.2: Exemplo de uma cesta de produtos

Exemplo 7.2. (Indices relativos) Considere a cesta de produtos apresentada pela Tabela 7.2. O ındicerelativo de preco da carne, de 2009 para 2010, e de

pcarne2009,2010 =9.00

8.00= 112.5%,

indicando um aumento de 112.5%− 100% = 12.5% no preco deste produto de 2009 para 2010. O ındicerelativo de quantidade da carne de 2009 para 2010 e de

qcarne2009,2010 =90

120= 75%,

indicando uma reducao de 100%− 75% = 25% na quantidade de carne comprada de 2009 para 2010. Oındice relativo de valor da carne de 2009 para 2010 e de

vcarne2009,2010 =9.00× 90

8.00× 120≈ 84.38%,

indicando uma reducao de 100%− 84.38% ≈ 15.62% no valor da carne de 2009 para 2010.

,

EXERCICIOS

1. Utilizando 2008 como ano-base e utilizando os produtos da Tabela 7.2, calcule:

a) O ındice relativo de preco.b) O ındice relativo de quantidade.c) O ındice relativo de valor.

Page 127

Page 128: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

7.2 Indices Agregativos Simples

Um ındice e dito agregativo quando somam-se os precos, quantidades ou valores em uma cesta deprodutos.

7.2.1 Indice Agregativo Simples (de Bradstreet)

De preco

IP0,t =

∑pit∑pi0,

onde pit e o preco do i-esimo bem na epoca atual e pi0 e o preco do i-esimo bem na epoca base.De quantidade

IQ0,t =

∑qit∑qi0,

onde qit e a quantidade do i-esimo bem na epoca atual e qi0 e a quantidade do i-esimo bem na epoca base.De valor

IV0,t =

∑vit∑vi0,

onde vit = pitqit e o valor do i-esimo bem na epoca atual e vi0 = pi0q

i0 e o valor do i-esimo bem na epoca

base.

Exemplo 7.3. (Indices agregativos simples) Suponha novamente a cesta de produtos da Tabela 7.2. Oındice agregativo de preco da cesta, de 2009 para 2010, e dado por

IP2009,2010 =1.30 + 2.00 + 3.40 + 9.00

1.26 + 1.80 + 3.27 + 8.00≈ 109.56%,

indicando um aumento de 109.56%− 100% ≈ 9.56% no preco da cesta de produtos. O ındice agregativode quantidade da cesta, de 2009 para 2010, e dado por

IQ2009,2010 =360 + 180 + 120 + 90

330 + 150 + 90 + 120≈ 108.70%,

indicando um aumento de 108.70% − 100% ≈ 8.70% na quantidade da cesta de produtos. O ındiceagregativo de valor da cesta, de 2009 para 2010, e dado por

IV2009,2010 =1.30× 360 + 2.00× 180 + 3.40× 120 + 9.00× 90

1.26× 330 + 1.80× 150 + 3.27× 90 + 8.00× 120≈ 105.46%,

indicando um aumento de 105.46%− 100% ≈ 5.46% no valor da cesta de produtos.

7.2.2 Indice Medio Aritmetico (de Sauerbeck)

De preco

P0,t =

∑pi0,tn

,

onde pi0,t e o ındice relativo simples de preco do i-esimo produto e n e o numero de itens.De quantidade

Q0,t =

∑qi0,tn

,

onde qi0,t e o ındice relativo simples de quantidade do i-esimo produto e n e o numero de itens.De valor

V0,t =

∑vi0,tn

,

onde vi0,t = pi0,tqi0,t e o ındice relativo simples de valor do i-esimo produto e n e o numero de itens.

Page 128

Page 129: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 7.4. (Indices medios aritmeticos) Suponha novamente os produtos da cesta apresentada naTabela 7.2. O ındice medio aritmetico de preco da cesta, de 2009 para 2010, e dado por

P2009,2010 =1.301.26 + 2.00

1.80 + 3.403.27 + 9.00

8.00

4≈ 107.69%,

indicando um aumento de 107.69% − 100% ≈ 7.69% no ındice medio de preco da cesta de produtos. Oındice medio aritmetico de quantidade da cesta, de 2009 para 2010, e dado por

Q2009,2010 =360330 + 180

150 + 12090 + 90

120

4≈ 109.36%,

indicando um aumento de 109.36%−100% ≈ 9.36% no ındice medio de quantidade da cesta de produtos.O ındice medio aritmetico de valor da cesta, de 2009 para 2010, e dado por

V2009,2010 =1.30×3601.26×330 + 2.00×180

1.80×150 + 3.40×1203.27×90 + 9.00×90

8.00×120

4≈ 117.22%,

indicando um aumento de 117.22%− 100% ≈ 17.22% no ındice medio de valor da cesta de produtos.

7.3 Indices Agregativos Ponderados

7.3.1 Indice (Ponderado) de Laspeyres ou da epoca base

De precoO ındice de preco de Laspeyres calcula o ındice de precos ponderando-os pelas quantidades no ano-

base.

LP0,t =

∑pitq

i0∑

pi0qi0

De quantidadeO ındice de quantidade de Laspeyres calcula o ındice de quantidades ponderando-as pelos precos no

ano-base.

LQ0,t =

∑qitp

i0∑

qi0pi0

Exemplo 7.5. Suponha novamente a cesta de produtos da Tabela 6.2. O ındice (ponderado) de preco deLaspeyres, de 2009 para 2010, e dado por

LP2009,2010 =1.30× 330 + 2.00× 150 + 3.40× 90 + 9.00× 120

1.26× 330 + 1.80× 150 + 3.27× 90 + 8.00× 120= 109.01%.

O ındice (ponderado) de quantidade de Laspeyres, de 2009 para 2010, e dado por

LQ2009,2010 =360× 1.26 + 180× 1.80 + 120× 3.27 + 90× 8.00

330× 1.26 + 150× 1.80 + 90× 3.27 + 120× 8.00= 97.42%.

7.3.2 Indice (Ponderado) de Paasche ou da epoca atual

De precoO ındice de preco de Paasche calcula o ındice de precos ponderando-os pelas quantidades no ano

atual.

PP0,t =

∑pitq

it∑

pi0qit

De quantidadeO ındice de quantidade de Paasche calcula o ındice de quantidades ponderando-as pelos precos no

ano atual.

PQ0,t =

∑qitp

it∑

qi0pit

Page 129

Page 130: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONExemplo 7.6. Suponha novamente a cesta de produtos da Tabela 6.2. O ındice (ponderado) de preco dePaasche, de 2009 para 2010, e dado por

PP2009,2010 =1.30× 360 + 2.00× 180 + 3.40× 120 + 9.00× 90

1.26× 360 + 1.80× 180 + 3.27× 120 + 8.00× 90= 108.25%.

O ındice (ponderado) de quantidade de Paasche, de 2009 para 2010, e dado por

PQ2009,2010 =360× 1.30 + 180× 2.00 + 120× 3.40 + 90× 9.00

330× 1.30 + 150× 2.00 + 90× 3.40 + 120× 9.00= 96.74%.

7.3.3 Indice (Ponderado) de (Irving) Fisher

Tambem conhecido como ındice de preco ideal, o ındice (ponderado) de Fisher e a media geometricaentre os respectivos ındices de Laspeyres e Paasche.

De preco

FP0,t =√LP0,tP

P0,t

De quantidade

FQ0,t =√LQ0,tP

Q0,t

Exemplo 7.7. Novamente utilizando os dados da cesta de produtos da Tabela 6.2, calcula-se o ındice(ponderado) de preco de Fisher, de 2009 para 2010, por

FP2009,2010 =√

1.0901× 1.0825 = 108.63%.

O ındice (ponderado) de quantidade de Fisher, de 2009 para 2010, e dado por

FQ2009,2010 =√

0.9742× 0.9674 = 97.08%.

EXERCICIOS EXTRAS

1. A ceia de natal e um momento importante para as famılias cristas. E geralmente composta de certos produtos

tıpicos, como aves, frutas secas e doces. Abaixo estao os precos de alguns dos principais produtos que compoem a

ceia natalina, bem como suas variacoes de preco e quantidade ao longo de tres anos.

ProdutoPreco unitario (reais) Quantidade comprada

2007 (p0) 2008 (p1) 2009 (p2) 2007 (q0) 2008 (q1) 2009 (q2)Peru 44.98 48.31 56.17 2 2 1Nozes 9.32 10.45 12.33 0.5 0.7 0.9Cereja 8.11 9.50 11.12 0.1 0.2 0.2

Tabela 7.3: Cesta de produtos natalinos

Calcule:

a) O ındice relativo de precos da cereja em 2009 com base em 2007.

b) O ındice agregativo simples de quantidade da cesta de produtos da tabela acima em 2008, com base em 2007.c) O ındice relativo de valor da cereja em 2009, com base em 2007.d) O ındice ponderado de Fisher de quantidade da cesta de produtos da tabela acima em 2008, com base em 2007.

Page 130

Page 131: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION2. Considere os precos e quantidades apresentados na tabela abaixo.

ProdutoPreco unitario (reais) Quantidade comprada

2008 (p0) 2009 (p1) 2010 (p2) 2008 (q0) 2009 (q1) 2010 (q2)Ambrosia 1.75 1.89 2.90 11 11 13Erva mate gold 7.03 7.58 8.20 2 3 3Mumu 1.28 1.99 2.70 7 8 10

Tabela 7.4: Cesta de produtos gauderios

a) O ındice relativo de preco do Mumu em 2009, com base em 2008.b) O ındice agregativo simples de quantidade da cesta de produtos da tabela acima em 2010, com base em 2008.

c) O ındice ponderado de Paasche de preco da cesta de produtos da tabela acima em 2010, com base em 2009.

d) O ındice ponderado de Fisher de preco da cesta de produtos da tabela acima em 2010, com base em 2009.

Page 131

Page 132: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

A Tabelas

Tabela normal padrao N (0, 1)

Page 132

Page 133: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

Tabela t

Page 133

Page 134: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

Tabela Qui-quadrado χ2

Page 134

Page 135: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

Tabela F de Fisher-Snedecor 10%

Page 135

Page 136: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

Tabela F de Fisher-Snedecor 5%

Page 136

Page 137: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

Tabela F de Fisher-Snedecor 2.5%

Page 137

Page 138: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

Tabela F de Fisher-Snedecor 1%

Page 138

Page 139: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

Tabela F de Fisher-Snedecor 0.5%

Page 139

Page 140: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

B Respostas dos exercıcios

Capıtulo 1 - IntroducaoSecao 1.4

1. (pg. 6) Obs.: Os dados podem variar dependendo da atualizacao dos dados do pacote.

> sum(coronavirus$cases) # 1a

[1] 28602365

> sum(coronavirus$cases^2) # 1b

[1] 541174070111

> by(coronavirus$cases, coronavirus$type, sum) # 1c

coronavirus$type: confirmed[1] 17591968---------------------------------------------------------------------------------------------coronavirus$type: death[1] 679439---------------------------------------------------------------------------------------------coronavirus$type: recovered[1] 10330958

d)∑150720i=1 xi = 28602365.

∑150720i=1 x2

i = 541174070111.

Capıtulo 2 - Estatıstica DescritivaSecao 2.1

1. (pg. 12)

a) Quantitativa discretab) Quantitativa contınuac) Quantitativa discretad) Quantitativa contınuae) Qualitativa nominalf) Qualitativa ordinalg) Qualitativa nominalh) Quantitativa contınuai) Quantitativa contınuaj) Qualitativa ordinalk) Quantitativa contınual) Qualitativa nominal

m) Quantitativa contınua

Secao 2.2

1. (pg. 13)

a) −4, 1, 3, 5, 7, 9, 10b) x(4) = 5. O quarto valor da ordenacao e 5.

2. (pg. 13)

> hosp <- read.table('http://www.filipezabala.com/data/hospital.txt', head = T)

> sort(hosp$filhos)

[1] 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

[61] 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 5 6

> sort(hosp$altura)

[1] 1.51 1.52 1.53 1.54 1.55 1.55 1.56 1.56 1.56 1.56 1.57 1.57 1.58 1.58 1.58 1.58 1.58 1.59 1.59 1.59 1.59 1.59 1.59 1.59

[25] 1.59 1.60 1.60 1.60 1.60 1.60 1.60 1.60 1.60 1.61 1.61 1.61 1.61 1.61 1.61 1.61 1.62 1.62 1.62 1.62 1.62 1.62 1.62 1.62

[49] 1.62 1.62 1.63 1.63 1.63 1.63 1.63 1.64 1.64 1.64 1.64 1.64 1.64 1.64 1.64 1.64 1.64 1.64 1.65 1.65 1.65 1.65 1.65 1.65

[73] 1.65 1.65 1.65 1.65 1.66 1.66 1.66 1.66 1.66 1.66 1.66 1.67 1.67 1.67 1.68 1.68 1.68 1.68 1.68 1.69 1.69 1.69 1.70 1.70

[97] 1.70 1.72 1.73 1.74

Page 140

Page 141: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION3. (pg. 16)

a) Quantitativa discreta.b) f3 = 9. 9 pecas possuem 2 defeitos.c) fr3 = 9/50 = 0.18. 18% das pecas possuem 2 defeitos.d) F4 = 44. 44 pecas tem ate 3 defeitos.e) Fr5 = 49/50 = 0.98. 98% das pecas tem ate 4 defeitos.f)

> barplot(c(17,10,9,8,5,1), xlab = 'Numero de defeitos', ylab = 'Frequencia', names.arg = 0:5)

4. (pg. 16)

a) fV I = 38. 38 paıses devem pagar 3 unidades monetarias.b) frI = 21/173 ≈ 0.1214. 12.14% dos paıses devem pagar 25 unidades monetarias.c) FII = 47. 47 paıses devem pagar 20 ou 25 unidades monetarias.d) FrIII = 57/173 ≈ 0.3295. 32.95% dos paıses devem pagar 15, 20 ou 25 unidades monetarias.

5. (pg. 22)

a) Quantitativa contınua.b) fr3 = 30/100 = 0.3. 30% dos alunos tem altura entre 1.60m (inclusive) e 1.70m (exclusive).c) F4 = 92. 92 alunos tem altura ate 1.80m (exclusive).d) Fr2 = 15/100 = 0.15. 15% dos alunos tem altura ate 1.60m.e) `3 = 30 + 47 + 8 = 85.f)

> labs <- c('140 |- 150','150 |- 160','160 |- 170','170 |- 180','180 |-| 190')> barplot(c(2,15,30,47,8), main = 'Altura', ylab = 'Frequencia', names.arg = labs, las = 2, space = 0)

140

|− 1

50

150

|− 1

60

160

|− 1

70

170

|− 1

80

180

|−| 1

90

Altura

Fre

quên

cia

0

10

20

30

40

6. (pg. 22)

a) Vide Exemplo 2.16.b) Vide Exemplo 2.17.

Page 141

Page 142: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONSecao 2.3

1. Da Tabela 2.4 (pg. 15), x =0× 11 + 1× 27 + 2× 30 + 3× 19 + 4× 11 + 5× 1 + 6× 1

100= 1.99.

2. 1.99× 1500 = 2985

3. G1 = 0.8

(P1 + P2

2

)+ 0.2

(T1 + T2

2

)4. > hosp <- read.table('http://www.filipezabala.com/data/hospital.txt', head = T)

> (mqf <- mean(hosp$filhos^2))

[1] 5.55

> sqrt(mqf)

[1] 2.355844

> (mqa <- mean(hosp$altura^2))

[1] 2.644279

> sqrt(mqa)

[1] 1.626124

5. Pela Tabela 2.4 (pg. 15) 2 e o numero de filhos que ocorreu com maior frequencia, portanto e a moda.

6. Mediana (P50%): 50% das altura sao de ate 1.62m e 50% estao acima deste valor.

Tercil 1 (P33.3%): 1/3 (≈ 33.3%) das altura sao de ate 1.61m e 2/3 (≈ 66.7%) estao acima deste valor.

7. a)b) Sim, basta verificar, por exemplo, que Md = Q2 = D5 = P50.c) Exemplos: k = 7 septil. k = 8 octil.d) k − 1

8. > hosp <- read.table('http://www.filipezabala.com/data/hospital.txt', head = T)

> # filhos

> quantile(hosp$filhos, probs = seq(0,1,1/3)) # Tercis

0% 33.33333% 66.66667% 100%

0 1 2 6

> quantile(hosp$filhos, probs = seq(0,1,1/100)) # Demais medidas

0% 1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12% 13% 14% 15% 16% 17% 18% 19% 20% 21% 22% 23% 24%

0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.89 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00

25% 26% 27% 28% 29% 30% 31% 32% 33% 34% 35% 36% 37% 38% 39% 40% 41% 42% 43% 44% 45% 46% 47% 48% 49%

1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.62 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00

50% 51% 52% 53% 54% 55% 56% 57% 58% 59% 60% 61% 62% 63% 64% 65% 66% 67% 68% 69% 70% 71% 72% 73% 74%

2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.32 3.00 3.00 3.00 3.00 3.00 3.00

75% 76% 77% 78% 79% 80% 81% 82% 83% 84% 85% 86% 87% 88% 89% 90% 91% 92% 93% 94% 95% 96% 97% 98% 99%

3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.00 3.13 4.00 4.00 4.00 4.00 4.00 4.00 4.00 4.00 4.00 4.00 4.02 5.01

100%

6.00

> # altura

> quantile(hosp$altura, probs = seq(0,1,1/3)) # Tercis

0% 33.33333% 66.66667% 100%

1.51 1.61 1.65 1.74

> quantile(hosp$altura, probs = seq(0,1,1/100)) # Demais medidas

Page 142

Page 143: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION0% 1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12% 13% 14% 15% 16%

1.5100 1.5199 1.5298 1.5397 1.5496 1.5500 1.5594 1.5600 1.5600 1.5600 1.5690 1.5700 1.5788 1.5800 1.5800 1.5800 1.5800

17% 18% 19% 20% 21% 22% 23% 24% 25% 26% 27% 28% 29% 30% 31% 32% 33%

1.5883 1.5900 1.5900 1.5900 1.5900 1.5900 1.5900 1.5900 1.5975 1.6000 1.6000 1.6000 1.6000 1.6000 1.6000 1.6000 1.6067

34% 35% 36% 37% 38% 39% 40% 41% 42% 43% 44% 45% 46% 47% 48% 49% 50%

1.6100 1.6100 1.6100 1.6100 1.6100 1.6100 1.6160 1.6200 1.6200 1.6200 1.6200 1.6200 1.6200 1.6200 1.6200 1.6200 1.6250

51% 52% 53% 54% 55% 56% 57% 58% 59% 60% 61% 62% 63% 64% 65% 66% 67%

1.6300 1.6300 1.6300 1.6300 1.6345 1.6400 1.6400 1.6400 1.6400 1.6400 1.6400 1.6400 1.6400 1.6400 1.6400 1.6434 1.6500

68% 69% 70% 71% 72% 73% 74% 75% 76% 77% 78% 79% 80% 81% 82% 83% 84%

1.6500 1.6500 1.6500 1.6500 1.6500 1.6500 1.6500 1.6500 1.6524 1.6600 1.6600 1.6600 1.6600 1.6600 1.6600 1.6617 1.6700

85% 86% 87% 88% 89% 90% 91% 92% 93% 94% 95% 96% 97% 98% 99% 100%

1.6700 1.6714 1.6800 1.6800 1.6800 1.6800 1.6809 1.6900 1.6900 1.6906 1.7000 1.7000 1.7006 1.7202 1.7301 1.7400

Secoes 2.4 e 2.5

1. σ2 =

(n− 1

n

)s2

2.∑4x=1 x = 10,

∑4x=1 x

2 = 30.

a) x = 2.5, Md = 2.5, amodal.b) A = 4− 1 = 3c) σ2 = 5/4 = 1.25d) s2 = 5/3 ≈ 1.6667e) 1/3 ≈ 33.33%

3. > hosp <- read.table('http://www.filipezabala.com/data/hospital.txt', head = T)

> # filhos

> f <- hosp$filhos

> mean(f) # media

[1] 1.99

> median(f) # mediana

[1] 2

> names(which.max(table(f))) # moda

[1] "2"

> diff(range(f)) # amplitude

[1] 6

> var(f) # variancia amostral

[1] 1.60596

> var(f)*((length(f)-1)/length(f)) # variancia universal

[1] 1.5899

> cat((length(f)/(length(f)-1)-1)*100,'%') # percentual

1.010101 %

> sd(f) # desvio padr~ao

[1] 1.267265

> sd(f)/mean(f) # coeficiente de variac~ao

[1] 0.6368164

> e1071::skewness(f, type = 3) # assimetria

[1] 0.431264

> e1071::kurtosis(f, type = 3) # curtose

Page 143

Page 144: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION[1] -0.136933

> # altura

> a <- hosp$altura

> mean(a) # media

[1] 1.6255

> median(a) # mediana

[1] 1.625

> names(which.max(table(a))) # moda

[1] "1.64"

> diff(range(a)) # amplitude

[1] 0.23

> var(a) # variancia amostral

[1] 0.002049242

> var(a)*((length(a)-1)/length(f)) # variancia universal

[1] 0.00202875

> cat((length(a)/(length(a)-1)-1)*100,'%') # percentual

1.010101 %

> sd(a) # desvio padr~ao

[1] 0.04526856

> sd(a)/mean(a) # coeficiente de variac~ao

[1] 0.02784901

> e1071::skewness(a, type = 3) # assimetria

[1] -0.0488405

> e1071::kurtosis(a, type = 3) # curtose

[1] -0.09699975

4.

(9

9− 1− 1

)× 100% = 12.5%

> cat((9/(9-1)-1)*100,'%')

12.5 %

5.

(6

6− 1− 1

)× 100% = 20%

> cat((6/(6-1)-1)*100,'%')

20 %

Secao 2.6

1. -

2. -

EXERCICIOS EXTRAS

1. a) 5.07%, 95.79%.

Page 144

Page 145: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONb) 1186/1539 ≈ 77.06%.c) 30/3445 ≈ 0.87%.d) Fumantes: 300+, pois fF = 412. A categoria de nıvel de cotinina com maior representatividade entre os fumantes

e 300+. Nao fumantes: 0 ` 14, pois fNF = 3300. A categoria de nıvel de cotinina com maior representatividade

entre os nao fumantes e 0 ` 14.e) A mediana do fumantes esta na sexta classe, 200 ` 250, pois F5 ≈ 49.44% e F6 ≈ 63.83%. A mediana do nao

fumantes esta na primeira classe, 0 ` 14, pois F1 ≈ 95.79%.

> f <- c(78,133,142,206,197,220,141,412)

> cumsum(f)/sum(f)

[1] 0.05101373 0.13799869 0.23086985 0.36559843 0.49444081 0.63832570 0.73054284 1.00000000

> nf <- c(3300,72,23,15,7,8,9,11)

> cumsum(nf)/sum(nf)

[1] 0.9579100 0.9788099 0.9854862 0.9898403 0.9918723 0.9941945 0.9968070 1.0000000

f) > labs <- c('0 |- 14','14 |- 50','50 |- 100','100 |- 150','150 |- 200','200 |-| 250','250 |-| 300','300 +')> par(mfrow=c(1,2))

> barplot(c(78,133,142,206,197,220,141,412), main = 'Fumantes', ylab = 'Frequencia',names.arg = labs, las = 2, space = 0)

> barplot(c(3300,72,23,15,7,8,9,11), main = 'N~ao fumantes', ylab = 'Frequencia',names.arg = labs, las = 2, space = 0)

0 |−

14

14 |−

50

50 |−

100

100

|− 1

5015

0 |−

200

200

|−| 2

5025

0 |−

| 300

300

+

Fumantes

Fre

quên

cia

0

100

200

300

4000

|− 1

414

|− 5

050

|− 1

0010

0 |−

150

150

|− 2

0020

0 |−

| 250

250

|−| 3

0030

0 +

Não fumantesF

requ

ênci

a

0

500

1000

1500

2000

2500

3000

2. a) Sao medidas-resumo, que auxiliam a avaliacao de conjuntos de dados.b) Dados ordinais possuem informacao de ordenacao, ao contrario dos dados nominais que sao grupos nao ordenados.c) Vantagens: simplifica a interpretacao pelo agrupamento em classes. Desvantagens: perda de informacao, maior

complexidade nos calculos de medidas descritivas.d) Quando deseja-se ter a nocao do quanto aquela classe esta sendo representada em relacao ao total.e) Sao medidas que dividem um conjunto de dados em quatro partes iguais, cada uma contendo 25% (ou 1/4) dos

dados.f) Sao medidas de tendencia central. Media: para dados quantitativos. Mediana: para dados qualitativos ordinais.

3. V V V V F V

4. Mediana, pois a descricao do exercıcio e exatamente a definicao desta medida.

Page 145

Page 146: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONNıvel de cotinina (ng/mL) fF frF fNF frNF

0 ` 14 78 0.0507 3300 0.9579

14 ` 50 133 0.0864 72 0.0209

50 ` 100 142 0.0923 23 0.0067100 ` 150 206 0.1339 15 0.0044

150 ` 200 197 0.1280 7 0.0020

200 ` 250 220 0.1429 8 0.0023250 ` 300 151 0.0981 9 0.0026

300 + 412 0.2677 11 0.0032

Total 1539 1.0000 3445 1.0000

5. Itens a) e b) na tabela abaixo.

X Y

Media 24 145Mediana 22.5 137.5

Amplitude 29 285

Variancia 148 8400Desvio padrao 12.1655 91.6515

Coeficiente de variacao 0.507 0.632

c) No setor Y, pois 0.632 > 0.507.

6. P1 = 7.5× 3− (5 + 9) = 8.5.

7. Itens a) e b) na tabela abaixo.

Media 14 dias 74.03

Mediana 14 dias 75.20Media semana 1 73.54

Mediana semana 1 73.00Media semana 2 74.51

Mediana semana 2 76.30

c) O chimarrao ficou bom em 71.4% das vezes, conforme tabela abaixo.

ChimarraoSemana 1 Semana 2 14 diasf frr f fr f fr

Frio 2 28.6% 1 14.3% 3 21.4%

Bom 4 57.1% 6 85.7% 10 71.4%

Pelando 1 14.3% 0 0.0% 1 7.1%

d) Primeira semana: chimarrao ficou bom 57.1% das vezes. Segunda semana: 85.7% das vezes.

8. Itens a), b) e c) desenvolvidos no codigo abaixo.

> id <- c(18,54,20,46,25,48,53,27,26,37,40,36,42,25,27,33,28,40,45,25)

> mean(id) # media

[1] 34.75

> median(id) # mediana

[1] 34.5

> names(which.max(table(id))) # moda

[1] "25"

> quantile(id, probs = seq(0,1,1/4))

0% 25% 50% 75% 100%

18.00 25.75 34.50 42.75 54.00

Page 146

Page 147: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONc) 25% das pessoas que trabalham em casa tem 25.75 anos ou menos. 75% das pessoas que trabalham em casa temmais de 25.75 anos.

d) Como a mediana encontrada no conjunto de idades de pessoas que trabalham em casa e 34.5 anos, muito proximo

da mediana da populacao (35 anos), nao ha indıcios que pessoas que trabalham em casa sejam mais jovens ou maisvelhas. (Nao testamos isto, estamos apenas investigando!)

9. a)

Cidade Rodovia

Media 25.05 29.99Mediana 25.58 29.93

Moda 24.62 28.96

b) -

10. a) Metade das meninas bulımicas tem consumo calorico ate 18.50, enquanto a outra metade tem consumo calorico

superior a este valor. Metade das meninas saudaveis tem consumo calorico ate 33.45, enquanto a outra metadetem consumo calorico superior a este valor.

b) Media bulımicas: 19.23. Media saudaveis: 31.73.c) O grupo das saudaveis, pois 0.21 > 0.17.

Bulımicas Saudaveis

Media 19.23 31.73

Mediana 18.50 33.45Desvio padrao 3.28 6.72

Coeficiente de variacao 0.17 0.21

11. a) Quantitativa discreta. Itens b), c), d), e), f), solucoes na tabela.

MEEM G1 MEEM G2

Media 13.88 22.13Mediana 12.00 21.00

Moda 12.00 21 e 19

Amplitude 9.00 12.00Variancia populacional 10.86 15.61

Desvio padrao populacional 3.30 3.95

Variancia amostral 12.41 17.84Desvio padrao amostral 3.52 4.22

Coeficiente de variacao 0.25 0.19

12. V, NSA, F (pois ha criancas que nao foram, pois moda e mediana iguais a zero), F.

13. E

14. A e C

15. B

Capıtulo 3 - ProbabilidadeSecao 3.2

1. P4. Pode-se escrever Ω = A ∪ Ac, e de (43) pode-se fazer Pr(Ω) = Pr(A ∪ Ac) = 1. Como A e Ac sao disjuntos,

por (44) temos Pr(A) + Pr(Ac) = 1, logo Pr(A) = 1− Pr(Ac).a

P5. Pode-se escrever Ω = Ω∪∅, e de (43) pode-se fazer Pr(Ω) = Pr(Ω∪∅) = 1. Como Ω e ∅ sao disjuntos, por (44)

temos Pr(Ω) + Pr(∅) = 1, logo Pr(∅) = 0.a

P6.

P7.

P8.

2. a) Pr(C) = 1/2b) Pr(A ∩ C) = 0c) Pr(A|C) = 0

Page 147

Page 148: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONd) Pr(Ac|C) =

1/2

1/2= 1

Secao 3.3

1. p(2) = p(12) = 1/36

p(3) = p(11) = 2/36p(4) = p(10) = 3/36

p(5) = p(9) = 4/36

p(6) = p(8) = 5/36p(7) = 6/36∑12x=2 p(x) = 1.

2. p(0) = p(3) = 1/8p(1) = p(2) = 3/8∑3x=0 p(x) = 1.

Secao 3.4

1. A integral de uma funcao densidade de probablidade deve integrar 1, conforme (80).

2. > Fx <- function(x)

(-46875/19652)*(x^3/3 - 1.68*x^2 + 2.36*x - 76/75)

> Fx(1.72)

[1] 0.5440668

> Fx(1.45)

[1] 0.2559973

3. (86) F (x) =∫ xa

1b−adt = 1

b−a [t]

∣∣∣∣xa

= x−ab−a .

a

(87) E(X) =∫ ba

xb−adx = 1

b−a

[x2

2

] ∣∣∣∣ba

= b2−a22(b−a)

. Por (89) b2−a22(b−a)

=(b−a)(b+a)

2(b−a), logo E(X) = a+b

2.

a

(88) Por definicao, V (X) = E(X2)− [E(X)]2.

E(X2) =∫ ba

x2

b−adx = 1b−a

[x3

3

] ∣∣∣∣ba

= b3−a33(b−a)

. Por (90), b3−a33(b−a)

=(b−a)(b2+ab+a2)

3(b−a)= a2+ab+b2

3. Aplicando a

definicao, V (X) = a2+ab+b2

3− a2+2ab+b2

4= a2−2ab+b2

12=

(b−a)2

12.

a

4. B(420, 0.7).

Pr(X ≤ 200) ≈ Pr(Z <

200− 420× 0.7√

420× 0.7× 0.3

)= Φ(−10.00907) ≈ 6.952944× 10−24

Utilizando a correcao de continuidade,

Pr(X ≤ 200) ≈ Pr(Z <

200 + 0.5− 420× 0.7√

420× 0.7× 0.3

)= Φ(−9.955826) ≈ 1.189192× 10−23

A probabilidade exata e 1.032943× 10−21.

5. > tcl <- function(n,p,S)

mS <- n*p

sS <- sqrt(n*p*(1-p))

# Aproximac~ao da binomial pela normal SEM correc~ao de continuidade

z <- (S-mS)/sS

pz <- pnorm(z)

# Aproximac~ao da binomial pela normal COM correc~ao de continuidade

zc <- (S+0.5-mS)/sS

pzc <- pnorm(zc)

# Probabilidade exata

pex <- pbinom(S,n,p)

return(list(media = mS, dp = sS, zTeste = z, pSem = pz,

zTesteCor = zc, pCom = pzc, pExata = pex))

> tcl(420, 0.7, 200)

Page 148

Page 149: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION$media

[1] 294

$dp

[1] 9.391486

$zTeste

[1] -10.00907

$pSem

[1] 6.952944e-24

$zTesteCor

[1] -9.955826

$pCom

[1] 1.189192e-23

$pExata

[1] 1.032943e-21

EXERCICIOS EXTRAS

1. Ω = MMM,MMF,MFM,FMM,MFF, FMF,FFM,FFF. Brinde: |Ω| = 8.

2. a) 400010000

= 25

= 0.40

b) 20010000

= 150

= 0.02

c) 5100+370010000

= 2225

= 0.88

d) 10000−510010000

= 40100

= 0.49

e) 510010000

= 51100

= 0.51

3. a) 1500001400000

= 328≈ 0.1071

b) 130000+1000001400000

= 23140≈ 0.1643

c) 11500001400000

= 2328≈ 0.8214

4. a) 15120

= 18

= 0.125

b) 15+30+18120

= 2140

= 0.525

c) 7+12+5120

= 15

= 0.2

5. a) Pr(V ∪M) = Pr(V ) + Pr(M)− Pr(V ∩M) = 0.55 + 0.30− 0.2 = 0.65.

b) Pr([V ∪M ]c) = 1− 0.65 = 0.35.

6. a) 25+2374

= 2437

= 0.648

b) 974

= 0.1216

c) 8+874

= 837

= 0.216

d) 4+1274

= 837

= 0.216

e) 2+274

= 237

= 0.054

7. a) 62745≈ 0.0832

b) 238745≈ 0.3195

c) 2745≈ 0.0027

d) 248386

= 124193≈ 0.6425

e) 248310

= 45

= 0.8

8. a) Pr(A ∪B) = Pr(A) + Pr(B)− Pr(A ∩B) = 0.01 + 0.05− 0.005 = 0.055

b) Pr([A ∪B]c) = 1− Pr(A ∪B) = 1− 0.055 = 0.945

c) 1000× [Pr(B)− Pr(A ∩B)] = 1000× [0.05− 0.005] = 45 pessoas

9. a) 217700338000

= 21773380

≈ 0.6441

b) 15000338000

= 15338≈ 0.0444

Page 149

Page 150: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONc) 25200+27600

338000= 132

845≈ 0.1562

d) 27600+24000+20700+37800+41400+5600010000000

= 0.02075

10. a) 5601000

= 1425

= 0.56

b) 7201000

= 1825

= 0.72

c) 601000

= 350

= 0.06

d) 200+801000

= 725

= 0.28

11. a) 55100

= 0.55

b) 3563

= 59≈ 0.56

c) 63100

= 0.63

d) 9100

= 0.09

e) 21+16100

= 0.37

12. D : Item defeituoso

Pr(A) = 0.5 Pr(D|A) = 0.01

Pr(B) = 0.3 Pr(D|B) = 0.02Pr(C) = 0.2 Pr(D|C) = 0.03

a)

Pr(A|D) =Pr(A)Pr(D|A)

Pr(A)Pr(D|A) + Pr(B)Pr(D|B) + Pr(C)Pr(D|C)

=0.5× 0.01

0.5× 0.01 + 0.3× 0.02 + 0.2× 0.03

=5

17≈ 0.294117647

b)

Pr(B|D) =0.3× 0.02

0.017=

6

17≈ 0.352941176

Pr(C|D) = 1−(

5

17+

6

17

)=

6

17≈ 0.352941176

13. Pr(C) = Pr(K) =1

2

a) Ω = CCC,CCK,CKC,KCC,CKK,KCK,KKC,KKKb) RX = 0, 1, 2, 3

c) p(0) = Pr(X = 0) = Pr(KKK) =1

1

1

2=

(1

2

)3

=1

8= 0.125

p(1) = Pr(X = 1) = Pr(CKK,KCK,KKC) =

(1

2

)3

+

(1

2

)3

+

(1

2

)3

=3

8= 0.375

p(2) = Pr(X = 2) = Pr(CCK,CKC,KCC) = 3

(1

2

)3

=3

8= 0.375

p(3) = Pr(X = 3) = Pr(CCC) = 1−(

1

8+

3

8+

3

8

)=

1

8= 0.125

d) E(X) = 0×1

8+ 1×

3

8+ 2×

3

8+ 3×

1

8= 1.5 (Por simetria)

E(X2) = 02 ×1

8+ 12 ×

3

8+ 22 ×

3

8+ 32 ×

1

8= 3

V (X) = E(X2)− [E(X)]2 = 3− 1.52 = 0.75

D(X) =√

0.75 ≈ 0.866025403

14. Pr(C) = 0.7, P r(K) = 0.3

a) Ω = CCC,CCK,CKC,KCC,CKK,KCK,KKC,KKKb) RX = 0, 1, 2, 3c) p(0) = Pr(X = 0) = Pr(KKK) = 0.33 = 0.027

p(1) = Pr(X = 1) = Pr(CKK,KCK,KKC) = 3× 0.7× 0.32 = 0.189

p(2) = Pr(X = 2) = Pr(CCK,CKC,KCC) = 3× 0.72 × 0.3 = 0.441

p(3) = Pr(X = 3) = Pr(CCC) = 1− (0.027 + 0.189 + 0.441) = 0.343

Page 150

Page 151: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONd) E(X) = 0× 0.027 + 1× 0.189 + 2× 0.441 + 3× 0.343 = 2.1

E(X2) = 02 × 0.027 + 12 × 0.189 + 22 × 0.441 + 32 × 0.343 = 5.04

V (X) = 5.04− 2.12 = 0.63

D(X) =√

0.63 ≈ 0.793725393

15. Pr(C) = p, Pr(K) = 1− p

a) Ω = CCC,CCK,CKC,KCC,CKK,KCK,KKC,KKKb) RX = 0, 1, 2, 3c) p(0) = Pr(X = 0) = Pr(KKK) = (1− p)3

p(1) = Pr(X = 1) = Pr(CKK,KCK,KKC) = 3p(1− p)2

p(2) = Pr(X = 2) = Pr(CCK,CKC,KCC) = 3p2(1− p)p(3) = Pr(X = 3) = Pr(CCC) = p3

d) E(X) = 0× (1− p)3 + 1× 3p(1− p)2 + 2× 3p2(1− p) + 3× p3 = 3pE(X2) = 02 × (1− p)3 + 12 × 3p(1− p)2 + 22 × 3p2(1− p) + 32 × p3 = 3p(1 + 2p)

V (X) = [3p(1 + 2p)]− [3p]2 = 3p(1− p)D(X) =

√3p(1− p)

16. p = 1% = 0.01, n = 20

a) X ∼ B(20, 0.01), p(x) =(nx

)0.01x0.9920−x

b) E(X) = 20× 0.01 = 0.2

c) V (X) = 20× 0.01× 0.99 = 0.198

d) D(X) =√

0.198 ≈ 0.4449719092

e) p(6) = Pr(X = 6) =(20

6

)0.0160.9920−6 ≈ 3.3672588× 10−8

f) Pr(X ≥ 1) = 1− Pr(X = 0) = 1−(20

0

)0.0100.9920 = 1− 0.81790694 ≈ 0.18209306

17. λ = 4

a) X ∼ P(4)

b) E(X) = 4, V (X) = 4, D(X) =√

4 = 2.

c) Pr(X ≥ 1) = 1− Pr(X = 0) = 1−e−440

0!≈ 0.981684361

18. f(x) = c(x3 − 3.36x+ 2.36), x ∈ [1, 2]

a) c =100

107≈ 0.9345794

b)

∫ 2

1

100

107(x3 − 3.36x+ 2.36) dx =

100

107

[x4

4−

3.36x2

2+ 2.36x

]∣∣∣∣21

=100

107

[(24

4− 1.68× 22 + 2.36× 2

)−(

14

4− 1.68× 12 + 2.36× 1

)]= 1

c)

F (x) = Pr(X < x) =

∫ x

1

100

107(t3 − 3.36t+ 2.36) dt

=100

107

[t4

4−

3.36t2

2+ 2.36t

]∣∣∣∣x1

=100

107

[(x4

4− 1.68x2 + 2.36x

)−(

14

4− 1.68× 12 + 2.36× 1

)]F (x) =

100

107

[x4

4− 1.68x2 + 2.36x− 0.93

]

d) Pr(1.4 < X < 1.7) = F (1.7)− F (1.4) = 0.294228972− 0.038878504 ≈ 0.255350467

Page 151

Page 152: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONe)

E(X) =100

107

∫ 2

1x(x3 − 3.36x+ 2.36) dx

=100

107

∫ 2

1(x4 − 3.36x2 + 2.36x) dx

=100

107

[x5

5−

3.36x3

3+

2.36x2

2

]∣∣∣∣21

=100

107

[(25

5− 1.12× 23 + 1.18× 22

)−(

15

5− 1.12× 13 + 1.18× 12

)]=

100

107[2.16− 0.26]

E(X) =190

107≈ 1.775700935

E(X2) =100

107

∫ 2

1x2(x3 − 3.36x+ 2.36) dx

=100

107

∫ 2

1(x5 − 3.36x3 + 2.36x2) dx

=100

107

[x6

6−

3.36x4

4+

2.36x3

3

]∣∣∣∣21

=100

107

[(26

6− 0.84× 24 +

2.36× 23

3

)−(

16

6− 0.84× 14 +

2.36× 13

3

)]E(X2) =

100

107

[3.52− 0.113

]≈ 3.183800623

V (X) = 3.183800623− (1.775700935)2 = 0.030686813

D(X) =√

0.030686813 ≈ 0.175176522

19. f(x) = c [ln(x)− 2x+ 10], x ∈ ]0, 1]

a) ∫ 1

0c [ln(x)− 2x+ 10] dx = 1 ∴

c

[xln(x)− x−

2x2

2+ 10x

]∣∣∣∣10

c[(1ln(1)− 1− 12 + 10× 1)− (0ln(0)− 0− 02 + 10× 0)

]= 1 ∴

8c = 1 ∴ c =1

8∴ c = 0.125

b)

F (x) = Pr(X < x) =

∫ x

0

1

8[ln(t)− 2t+ 10] dt

=1

8

[tln(t)− t−

2t2

2+ 10t

]∣∣∣∣x0

F (x) =1

8[x(9 + ln(x)− x)]

c)

Pr(X > 0.2) = 1− Pr(X < 0.2)

= 1− F (0.2)

= 1−1

8[0.2(9 + ln(0.2)− 0.2)]

= 1−1

8× 1.438112418

= 1− 0.179764052

≈ 0.820235947

Page 152

Page 153: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONd)

E(X) =1

8

∫ 1

0x [ln(x)− 2x+ 10] dx

=1

8

∫ 1

0

[xln(x)− 2x2 + 10x

]dx

=1

8

[1

2x2ln(x)−

1

4x2 −

2x3

3+

10x2

2

]∣∣∣∣10

=1

8

[1

2× 12 × ln(1)−

12

4−

2× 13

3+

10× 12

2

]=

1

49

12

E(X) =49

96= 0.510416

E(X2) =1

8

∫ 1

0x2 [ln(x)− 2x+ 10] dx

=1

8

∫ 1

0

[x2ln(x)− 2x3 + 10x2

]dx

=1

8

[1

3x3ln(x)−

1

9x3 −

2x4

4+

10x3

3

]∣∣∣∣10

=1

8

[1× ln(1)

3−

13

9−

14

2+

10× 13

3

]=

1

49

18

E(X2) =49

144= 0.34027

V (X) =49

144−(

49

96

)2

=245

3072

D(X) =

√245

3072≈ 0.282405035

20. X ∼ χ212

a) Pr(X > 4.40) = 0.975

b) Pr(X < 4.40) = 1− 0.975 = 0.025

c) Pr(X > 5.23) < Pr(X > 5.00) < Pr(X > 4.40) ∴ 0.950 < Pr(X > 5) < 0.975

d) 1− Pr(X > 5.23) < Pr(X < 10) < 1− Pr(X > 11.34) ∴ 0.025 < Pr(X < 10) < 0.500

21. T ∼ t5

a) Pr(T > 0.727) = 0.25

b) Pr(T < 4.032) = 1− Pr(T > 4.032) = 1− 0.005 = 0.995

c) t = 2.571

d) Pr(X > 5.893) < Pr(X > 5.000) < Pr(X > 4.773) ∴ 0.0010 < Pr(X > 5) < 0.0025

e) tνν→∞−→ N (0, 1)

22. F ∼ F(10, 6)

a) Pr(F > 2.461) = 0.1

b) f = 4.072

23. X: ‘numero de carretas por dia’, X ∼ P(4)

a) Y : ‘tempo (em dias) entre carretas’, Y ∼ E(4)

b) f(y) = 4e−4y

F (y) = 1− e−4y

Page 153

Page 154: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONc) E(Y ) =

1

4= 0.25.

Espera-se um tempo de 0.25 dia = 6 horas entre as carretas.

D(Y ) =

√1

42= 0.25.

O tempo entre carretas varia, em media, 0.25 dia = 6 horas em torno da media.

d) Pr(Y < 1) = F (1) = 1− e−4×1 ≈ 0.981684361.A probabilidade de que o tempo entre as carretas seja inferior a um dia e de aproximadamente 0.9817.

24. a) Pr(X > 30) = Pr(Z > 30−22

3

)= Pr(Z > 2.67) = 0.0038

b) Pr(20 < X < 30) = Pr(

20−223

< Z < 30−223

)= Pr(−0.67 < Z < 2.67) = 0.9962− 0.2514 = 0.7448

c) Pr(X < 18) = Pr(Z > 18−22

3

)= Pr(Z < −1.33) = 0.0918

d) x = 22− 1.26× 3 = 18.22

e) Pessoas depressivas com ate 18.22 anos tem probabilidade 0.1038 de cometer suicıdio.

25. a) Pr(X > 33) = Pr(Z > 33−27

4

)= Pr(Z > 1.50) = 0.0668

b) Pr(32 < X < 40) = Pr(

32−274

< Z < 40−274

)= Pr(1.25 < Z < 3.25) = 0.9994− 0.8944 = 0.1050

c) x = 27 + 0.31× 4 = 28.24

d) Pessoas de ate 28.24 anos tem probabilidade de 0.6217 de pedir financiamento de automoveis.

26. a) Pr(X < 16000) = Pr(Z < 16000−15000

2000

)= Pr(Z < 0.50) = 0.6915

b) Pr(X > 13000) = Pr(Z > 13000−15000

2000

)= Pr(Z > −1.00) = 0.8413

c) Pr(12000 < X < 14000) = Pr(

12000−150002000

< Z < 14000−150002000

)= Pr(−1.50 < Z < −0.50) = 0.3085 −

0.0668 = 0.2417

27. a) 0.0013 b) 0.9987 c) 0.9986 d) 0.0001 e) 104

28. a) Convencional 0.7734, prioritario 0.0478.

b) Convencional 0.0401, prioritario 0.0000.

c) 0.0474

d) Convencional 28 minutos, prioritario 19 minutos.

e) Sabe-se pela tabela normal que aproximadamente Pr(Z < 0.9) = 1.28. x = 23 + 1.28 × 4 = 28.12. y =

15 + 1.28× 3 = 18.84.

29. a) 0.1151 b) 0.3056 c) 306 d) 6.2 + 1× 1.04 = 7.24

30. a) 0.1587 b) 0.5746 c) 0.0013

31. B

32. D

33. E

Capıtulo 4 - Inferencia Estatıstica ClassicaSecao 4.1

2. Solucao abaixo, note a diferenca dos valores do exemplo devido ao aumento de precisao.

> n <- function(e, conf = 0.95, p = 1/2)

alfa <- 1-conf

z <- qnorm(1-alfa/2)

return(round(z^2*p*(1-p)/e^2))

> n(.02) # comparando com o valor aproximado do exemplo

[1] 2401

> n(.01) # item a)

[1] 9604

> n(.01, p = 0.65) # item b)

[1] 8739

> n(.01, conf = 0.9) # item c)

[1] 6764

> n(.02, conf = 0.9) # item c)

Page 154

Page 155: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION[1] 1691

Secao 4.2

3. Se considerarmos que os predios sao estratos, i.e., relativamente homogeneos em relacao a variavel ‘maneira de se

vestir’, a Amostragem Estratificada seria uma boa opcao.

4. Considerando a Tabela tab1_6_23.xls, temos a seguinte tabela de totais:

Sexo 15 ` 20 20 ` 25 25 ` 40 40 ` 60 60 ou mais TotalM 269851 261472 679481 799937 358515 2369256F 260745 252800 685828 812956 441210 2453539

Total 530596 514272 1365309 1612893 799725 4822795

Calculando percentualmente, temos a tabela abaixo. Para saber o total de entrevistados em cada situacao, bastamultiplicar 1000 pelo percentual da celula correspondente.

Sexo 15 ` 20 20 ` 25 25 ` 40 40 ` 60 60 ou mais TotalM 0.0560 0.0542 0.1409 0.1659 0.0743 0.4913F 0.0541 0.0524 0.1422 0.1686 0.0915 0.5088

Total 0.1101 0.1066 0.2831 0.3345 0.1658 1.0000

> h <- c(269851 , 261472 , 679481 , 799937 , 358515)

> m <- c(260745 , 252800 , 685828 , 812956 , 441210)

> tab <- rbind(h,m)

> (tab.prop <- round(prop.table(tab),4))

[,1] [,2] [,3] [,4] [,5]

h 0.0560 0.0542 0.1409 0.1659 0.0743

m 0.0541 0.0524 0.1422 0.1686 0.0915

> rowSums(tab.prop)

h m

0.4913 0.5088

> colSums(tab.prop)

[1] 0.1101 0.1066 0.2831 0.3345 0.1658

Secao 4.4

5. a) O limite superior de confianca 99% para a media e de −1.2.b) O intervalo de confianca de 82% para a proporcao esta entre 1/7 e 3/7.c) O intervalo de confianca de 90% para a media esta entre 1/7 e 3/7.d) O limite inferior de confianca 95% para a variancia e de 16.e) O limite superior de confianca 95% para a o desvio padrao e de 7.f) O intervalo de confianca de 95% para o desvio padrao esta entre 4 e 7.

Secao 4.5

6. a) H0 : o intervalo de tempo entre os onibus e, em media, igual a 15 minutos

H1 : o intervalo de tempo entre os onibus e, em media, diferente de 15 minutosH0 : µ = 15H1 : µ 6= 15

b) H0 : a duracao media dos amortecedores e maior ou igual a 100 mil kmH1 : a duracao media dos amortecedores e menor que 100 mil km

H0 : µ ≥ 100000

H1 : µ < 100000

c) H0 : o ganho medio diario com a nova composicao e de pelo menos 3 litros de leiteH1 : o ganho medio diario com a nova composicao e inferior a 3 litros de leite

H0 : µ ≥ 3

H1 : µ < 3

Page 155

Page 156: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONd)

H0 : as garrafas de cerveja contem pelo menos 600mL, em media

H1 : as garrafas de cerveja contem menos de 600mL, em mediaH0 : µ ≥ 600

H1 : µ < 600

e) H0 : a face 1 ocorre com frequencia equivalente as demais faces

H1 : a face 1 ocorre com frequencia diferente das demais facesH0 : π = 1/6H1 : π 6= 1/6

f) H0 : a vacina previne pelo menos 80% dos casos de doencaH1 : a vacina previne menos de 80% dos casos de doenca

H0 : π ≥ 80%H1 : π < 80%

Exercıcios extras

1. a) IC(πA, 95%) = 0.45∓ 1.96

√0.45× 0.55

500≈ 0.45∓ 0.0436 = [0.4064, 0.4936]

b) IC(πB , 95%) = 0.37∓ 1.96

√0.37× 0.63

500≈ 0.37∓ 0.0423 = [0.3277, 0.4123]

c) Nao, pois εA ≈ 0.0436 e εB ≈ 0.0423.

2. a) π = 82100

= 0.82

b) IC(π, 95%) = 0.82∓ 0.0753 = [0.7447, 0.8953]

3. a) IC(π, 84%) = 0.47∓ 1.41

√0.47× 0.53

3281≈ 0.47∓ 0.0123 = [0.4577, 0.4823]

IC(π, 95%) = 0.47∓ 1.96

√0.47× 0.53

3281≈ 0.47∓ 0.0171 = [0.4529, 0.4871]

b) ε84% ≈ 0.0123, ε95% ≈ 0.0171.

4. a) π =10

85≈ 0.1176

b) IC(π, 91%) =10

85∓ 1.70

√1085×(1− 10

85

)85

≈ 0.1176∓ 0.0594 = [0.0582, 0.1771]

5. a) π = 2341≈ 0.5610

b) 57× 2341≈ 32

c) IC(π, 85%) =23

41∓ 1.44

√2341×(1− 23

41

)41

≈ 0.5610∓ 0.1116 = [0.4494, 0.6726]

6. a) µ = 13.71, σ2 = 3.552 = 12.6025

b) IC(µ, 98%) = 13.71∓ 2.518×3.55√

22≈ 13.71∓ 1.91 = [11.80, 15.62]

7. a) µ = 13, 000, 000 = 13MM

b) IC(µ, 90%) = 13MM ∓ 1.4MM = [11.6MM, 14.4MM ]

8. IC(µ, 95%) = 0.5250∓ 2.007×0.3486√

53≈ 0.5250∓ 0.0961 = [0.4289, 0.6211]

9. a) 1− α = 96.76%

b) z = ±1.88

10. Sob H0, IC(π, 95%) = 0.9 ∓ 1.96

√0.9× 0.1

58≈ 0.9 ∓ 0.0772 = [0.8228, 0.9772], onde π e a verdadeira proporcao de

hoteis ocupados. A informacao da radio pode estar correta pois π = 49/58 ≈ 0.8448 pertence ao intervalo calculado.De forma equivalente, nao rejeita-se H0 : π = 0.9.

11. a) Hipotese de pesquisa H0 : a media e igual a 20

H1 : a media e diferente de 20

Hipotese estatıstica H0 : µ = 20H1 : µ 6= 20

Page 156

Page 157: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONb) zcalc = 17.4−20

12/√

100= −2.17

Regiao crıtica bilateral a 1%: (−∞,−2.58) ∪ (2.58,+∞). Nao rejeita H0.

Regiao crıtica bilateral a 5%: (−∞,−1.96) ∪ (1.96,+∞). Rejeita H0.Regiao crıtica bilateral a 10%: (−∞,−1.64) ∪ (1.64,+∞). Rejeita H0.

c) IC(µ, 95%) = 17.4± 1.96× 12√100

= [15.05, 19.75].

Com 95% de confianca estima-se que a media esteja entre 15.05 e 19.75.

12. a) Hipotese de pesquisaH0 : a pressao diastolica media de mulheres com diabetes e igual a 74.4 mmHgH1 : a pressao diastolica media de mulheres com diabetes e diferente de 74.4 mmHg

Hipotese estatıstica H0 : µ = 74.4

H1 : µ 6= 74.4

b) tcalc = 84−74.49.1/√

10= 3.34

Regiao crıtica bilateral 5%: (−∞,−2.262) ∪ (2.262,+∞).

DE: Rejeita H0 pois tcalc ∈ (−∞,−2.262) ∪ (2.262,+∞).

CE: Ha evidencias de que a pressao distolica seja maior nas mulheres diabeticas do que em mulheres nao diabeticas

c) valor − p = 2× Pr(T > 3.34) = 2× 0.0043300861 ≈ 0.0087.

d) Sim, pois p = 0.0087 < 0.01.

e) IC(µ, 90%) = 84± 1.833× 9.1√10

= [78.73, 89.27]

IC(µ, 95%) = 84± 2.262× 9.1√10

= [77.49, 90.51]

Aumentar a confianca implica em aumentar a amplitude do intervalo, i.e., reduzir a precisao da estimativa por

intervalo.

13. a) Hipotese de pesquisa H0 : a media de pontuacao nao se modificou

H1 : a media de pontuacao se modificou

Hipotese estatıstica H0 : µ = 900

H1 : µ 6= 900

b) Sob H0, IC(µ, 95%) = 900± 1.96 180√200≈ 900∓ 24.95 = [875.05, 924.95]. Rejeita-se, com α = 5% de significancia

(ou 1− α = 95% de confianca), que a media historica das notas tenha aumentado pois x = 935 nao pertence aointervalo calculado.

14. a) µ = 3.2, σ = 0.4.

b) H0: os digitadores cometem nao mais de 3 erros por pagina. H0 : µ ≤ 3 vs H1 : µ > 3.

c) tcalc = 3.2−30.4/√

25= 2.5 > tcritico = 1.711.

DE: Rejeita-se H0 com nıvel de significancia de 5%.CE: O teste sugere que os digitadores cometem, em media, mais de 3 erros por pagina.

d) 3.2× 150 = 480

15. a) H0: a fabrica embala os produtos com conteudo medio de pelo menos 500g. H0 : µ ≥ 500 vs H1 : µ < 500.

b) tcalc = 492−50030/√

25= −1.33 > tcritico = −1.711. Nao rejeita H0. A fabrica nao deve ser multada.

16. Hipotese de pesquisa H0 : o rendimento medio dos carros e de 10.4 km/L

H1 : o rendimento medio dos carros e diferente de 10.4 km/L

Hipotese estatıstica H0 : µ = 10.4

H1 : µ 6= 10.4

tcalc = 9.8−10.42.3/√

25≈ −0.276 ∈ (−2.064,+2.064). Nao rejeita H0. Os carros podem ter o rendimento declarado pela

fabrica.

Page 157

Page 158: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

Capıtulo 5 - Modelos LinearesExercıcios extras

1. a) T = 0.9586√

8−21−0.95862 = 8.246 > tcrıtico = 2.447, p = 0.0002, rejeita-se H0. O grau de associacao linear entre a

metragem quadrada e o preco e 0.9586.

b) Para cada aumento de 1 m2 no imovel espera-se um aumento de R$ 2192.04 no preco do imovel.

c) y = 2192.04× 55− 14401.57 = 106, 160.63. O preco parece estar bem acima do mercado.

2. a) T = −0.837√

18−21−(−0.837)2

= −6.118 < tcrıtico = −2.120, p = 0.0000, rejeita-se H0. O grau de associacao linear

entre a idade e a massa corporal e −0.837.

b) y = −1.027× 60 + 148.218 = 86.60kg.

c) Para cada aumento de 1 ano de idade, espera-se uma reducao de −1.027 unidade na massa corporal.

3. a) r = 0.9063, gl = 10− 2 = 8, t = 6.065 > tcrıtico = 3.355, p = 0.000301. Rejeita-se H0 : ρ = 0.

b) r =√

0.8213 = 0.9063.

c) Em ambos os modelos Pr(> |t|) < 0.01 para todos os coeficientes estimados. Em relacao aos coeficientes de

determinacao, r21 = 0.8213 < 0.9592 = r2

2 . Em relacao aos resıduos, os do modelo com intercepto esta mais

bem ajustado a distribuicao normal. A luz destas informacoes, escolho o modelo com intercepto, na forma

y = 2.8812 + 0.6470x.

d) Eles fornecem a mesma estatıstica de teste t = 6.065, indicando ser equivalente testar H0 : ρ = 0 e H0 : β1 = 0

no modelo com intercepto.

e) p2 = 2.8812 + 0.6470× 5.6 = 6.5

4. a) r =√

0.9110 = 0.9544, gl = 9− 2 = 7, t = 8.462, Pr< |t| = 6.357× 10−05 < 0.05. Rejeita-se H0 : ρ = 0.

b) Em ambos os modelos Pr(> |t|) < 0.05 para todos os coeficientes estimados. Em relacao aos coeficientes de

determinacao, r21 = 0.9110 < 0.9855 = r2

2 . Em relacao aos resıduos, os do modelo com intercepto esta mais

bem ajustado a distribuicao normal. A luz destas informacoes, escolho o modelo com intercepto, na formay = −141.563 + 14.378x.

c) Eles fornecem a mesma estatıstica de teste t = 8.462, indicando ser equivalente testar H0 : ρ = 0 e H0 : β1 = 0

no modelo com intercepto.

d) y = −141.563 + 14.378× 22 = 175.006 ≈ 175 picoles.

e) x = 340+141.56314.378

≈ 33.5 graus Celsius.

5. a) Pela equivalencia entre o teste de β1 do modelo completo e o teste para ρ, sabe-se que o p-value e igual a0.001490 < 0.05. Logo, rejeita-se H0 : ρ = 0.

b) Escolho o modelo completo pois i) todos os coeficientes sao significantes, ou seja, p-values menores que 0.05 para

os testes H0 : β0 = 0 e H0 : β1 = 0, ii) seu qq-plot sugere um bom ajuste dos resıduos a distribuicao normal, iii)

o r2 = 0.8879 e iv) o coeficiente β1 = −1296 e negativo, coerente com o comportamento dos dados observados.

c) Para cada milımetro adicional de chuva, espera-se uma reducao de 1296 pessoas presentes no evento.

d) y = 20432− 1296× 12 = 4880.

6. a) Pela equivalencia entre o teste de β1 do modelo completo e o teste para ρ, sabe-se que o p-value e igual a

7.85× 10−6 < 0.05. Logo, rejeita-se H0 : ρ = 0.

b) Escolho o modelo incompleto pois i) o coeficiente β1 e significante, ou seja, seu p-value e 2.05×10−11 < 0.05 para

o teste H0 : β1 = 0. O mesmo nao ocorre no modelo completo, onde aceita-se H0 : β0 = 0 (p-value 0.145 > 0.05),sugerindo o modelo incompleto, ii) seu qq-plot sugere um bom ajuste dos resıduos a distribuicao normal e iii)

r2 = 0.9943.

c) Para cada aumento de 1 hora de estudo mensal, espera-se um aumento de 0.42983 pontos na nota media de certa

disciplina.

d) y = 0.42983× 15 ≈ 6.45.

Capıtulo 6 - Numeros IndicesSecao 6.1

1. Aguardando sugestoes.

Exercıcios extras

1. a) pcereja2007,2009 = 137.11%

b) IQ2007,2008 = 111.54%

c) vcereja2007,2009 = 274.23%

d) FQ2007,2008 = 102.88%

2. a) pmumu2008,2009 = 155.47%

b) IQ2007,2008 = 130.00%

c) PP2009,2010 = 118.00%

d) FP2009,2010 = 118.00%

Page 158

Page 159: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

C Uma breve introducao ao R e RStudio

R e uma linguagem e ambiente de programacao para calculos estatısticos e visualizacao. Foi de-senvolvido no departamento de Estatıstica da Universidade de Auckland, e seu codigo esta disponıvelsob a licenca GNU81 GPL82. Atualmente a R Foundation esta sediada na Universidade de Economiae Negocios de Viena, Austria. Foi influenciado por linguagens como S e Scheme seguindo o conceitominimalista orientado a objeto, que especifica um pequeno nucleo padrao acompanhado de pacotes paraa extensao da linguagem.

RStudio e um ambiente de desenvolvimento integrado ao R. Possibilita a criacao de apresentacoes erelatorios automaticos em diversos formatos como pdf, html e docx, mesclando as linguagens R, LATEX,markdown, C++, Python, SQL e D3. Esta disponıvel nas edicoes Desktop e Server, reunindo as funcio-nalidades do R de forma parcimoniosa.

Instalando e acessando R e RStudio

Para instalar o R83, acesse cran.rstudio.com e escolha o seu sistema operacional. No Linux, sigaas instrucoes de instalacao via terminal de acordo com a sua distribuicao; no Mac OS X, use a extensaopkg ; no Windows, acesse http://cran.rstudio.com/bin/windows/base.

Figura C.1: Pagina de download do R para diferentes sistemas operacionais.

Para instalar o RStudio84, acesse www.rstudio.com/products/rstudio/download e escolha o insta-lador85 de acordo com seu sistema operacional conforme Figura C.2.

Figura C.2: Pagina de download do RStudio para diferentes sistemas operacionais.

Caso voce nao tenha disponibilidade para realizar as instalacoes sugeridas, pode-se ainda acessar oR remotamente atraves de algum compilador online.

• http://rextester.com/l/r_online_compiler

• ideone.com (No botao inferior esquerdo, altere de ‘Java’ para ‘R’)

81GNU is Not Unix.82A Licenca Publica Geral GNU e um tipo de licenca utilizada para software livre, que garante aos usuarios finais

(indivıduos, organizacoes ou empresas) a liberdade de usar, estudar, compartilhar e modificar o software.83www.r-project.org84www.rstudio.com85Para a versao beta, acesse https://www.rstudio.com/products/rstudio/download/preview/.

Page 159

Page 160: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

A primeira sessao de R/RStudio

Considera-se que o leitor acessou com sucesso o R/RStudio, conforme detalhamento anterior. Abra oR/RStudio e crie um novo script atraves do menu File; New File; R Script. Salve este documentocom o nome teste.R em uma pasta apropriada. Este script e um documento de texto onde sera escrito ocodigo R. Note que o RStudio utiliza cores para destacar os diferentes objetos (numeros, texto, funcoes),auxiliando a visualizacao do codigo. Para rodar o codigo que esta escrito no documento criado, clique nalinha ou selecione o bloco desejado e tecle Command+Enter (Mac) ou Ctrl+Enter (Windows e Linux).

O R funciona como uma calculadora. Experimente realizar algumas operacoes simples para comecar.Linhas de codigo sao desconsideradas a partir do sımbolo #, que indica um comentario.

> 2+4*3 # Operac~oes algebricas basicas, mantendo as propriedades matematicas

[1] 14

> (2+4)*3 # Note a nova prioridade obtida com os parenteses

[1] 18

> 2^3 # Potencias s~ao indicadas por ^ ou ** (Apos digitar ^ de um espaco no teclado)

[1] 8

> 1:10 # O sımbolo : indica uma sequencia, que pode ser crescente...

[1] 1 2 3 4 5 6 7 8 9 10

> 10:1 # ... ou decresecente

[1] 10 9 8 7 6 5 4 3 2 1

> -(10:1) # Note a diferenca do negativo com

[1] -10 -9 -8 -7 -6 -5 -4 -3 -2 -1

> -10:1 # ... e sem parenteses

[1] -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1

> x <- 2 # O sımbolo <- (seta para esquerda) indica uma atribuic~ao

> x # Digitar o objeto criado apresenta seu conteudo

[1] 2

> (y = 4) # Apresenta o resultado quando colocado entre parenteses

[1] 4

> # = e similar a <-, porem menos versatil. Prefira seta, pois funciona sempre

> (3 -> z) # A atribuic~ao com seta pode, ainda, ser feita no sentido oposto

[1] 3

> x+y*z # Pode-se operar com os valores atribuıdos

[1] 14

Page 160

Page 161: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

> (v <- c(2,0,1,2,4,2)) # Um vetor e facilmente criado com 'c' (concatenar)

[1] 2 0 1 2 4 2

> 2*v # Operac~oes s~ao facilmente realizadas com vetores

[1] 4 0 2 4 8 4

> v^2 # Cada valor ao quadrado. Compare 'sum(v^2)' e '(sum(v))^2'

[1] 4 0 1 4 16 4

> v[3] # Apresenta a terceira posic~ao do vetor 'v'

[1] 1

> v[-3] # Apresenta o vetor 'v', exceto a terceira posic~ao

[1] 2 0 2 4 2

> v[c(3,5)] # Apresenta a terceira e quinta posic~oes do vetor 'v'

[1] 1 4

> length(v) # Indica o tamanho do vetor 'v', teste ?length

[1] 6

> MASS::fractions(cos(c(0,30,45,60)*pi/180)) # Frac~oes

[1] 1 226974/262087 2378/3363 1/2

> letters[1:20] # letras minusculas

[1] "a" "b" "c" "d" "e" "f" "g" "h" "i" "j" "k" "l" "m" "n" "o" "p" "q" "r" "s" "t"

> noquote(LETTERS) # letras maiusculas sem aspas

[1] A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

> substr('abcdef', 2, 4) # apresenta da segunda ate a quarta posic~ao

[1] "bcd"

> x <- c('Chimarrao', 'Gaita', 'Bah')> strsplit(x, 'a') # retira a letra 'a'

[[1]]

[1] "Chim" "rr" "o"

[[2]]

[1] "G" "it"

[[3]]

[1] "B" "h"

> tolower(x) # minusculas

[1] "chimarrao" "gaita" "bah"

> toupper(x) # maiusculas

[1] "CHIMARRAO" "GAITA" "BAH"

Page 161

Page 162: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

D Equacao da Reta

A equacao da reta e uma relacao matematica utilizada para descrever uma reta no plano cartesiano86.Pode ser apresentada de formas distintas, sendo que na Secao 5.2 e utilizada a notacao da reta reduzida,fazendo a′ = β1 e b′ = β0.

Tipo EquacaoGeral ax+ by + c = 0

Segmentariax

−c/a+

y

−c/b= 1

Reduzida y = −abx− c

b⇒ y = a′x+ b′

Exemplo D.1. (Equacao reduzida) Considere a reta que passa pelos pontos A = (0,−3) e B = (1.5, 0).

Uma maneira de descobrir a equacao reduzida e substituir os pontos A e B em y = a′x+ b′:

Ponto A −3 = a′ × 0 + b′ ⇒ b′ = −3

Ponto B + b′ 0 = a′ × 1.5 + (−3) ⇒ a′ =3

1.5= 2

Assim, a equacao reduzida da reta e y = 2x − 3, onde o coeficiente angular e a′ = 2 e o intercepto(constante ou coeficiente linear) e b′ = −3. Para cada aumento de 1 unidade em x, y aumenta 2 unidades.

,

Exemplo D.2. (Equacao segmentaria) Do Exemplo D.1, pode-se obter a equacao segmentaria da reta apartir da forma reduzida.

y = 2x− 3 ⇔ 2x− y = 3 ⇔ 2

3x− 1

3y =

3

3⇔ x

3/2+

y

3/− 1= 1 ⇔ x

1.5+

y

−3= 1.

Assim, −c/a = 1.5 e −c/b = −3. Note que xB = 1.5 e yA = −3.

,

Exemplo D.3. (Equacao geral) Do Exemplo D.1, pode-se obter a equacao geral da reta a partir da formareduzida.

y = 2x− 3 ⇔ 2x− y − 3 = 0.

Assim, a = 2, b = −1 e c = −3. Note que a′ = − 2

−1= 2 e b′ = −−3

−1= −3.

,86Sistema de coordenadas formado por duas retas reais perpendiculares – i.e., que formam um angulo de 90o – utilizado

para especificar pontos a partir de um par de coordenadas numericas na forma (x, y).

Page 162

Page 163: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSION

Referencias

Anderson, D., Sweeney, D., Williams, T., and de Castro Paiva, L. (2007). Estatıstica aplicada a Admi-nistracao e Economia. Cengage Learning.

Anscombe, F. (1973). Graphs in statistical analysis. The American Statistician, 27(1):17–21.

Baratojo, J. (2000). Fatos, contos e piadas da sala de aula (pp. 56–57).

Beckman, O. R. and Costa Neto, P. L. (1980). Analise Estatıstica da Decisao. Editora Edgard BlucherLTDA.

Beers, M. and Fletcher, A. (2004). Manual Merck de Informacao Medica: Saude para a famılia segundaedicao. Merck Manual os Medical Information Home Edition. Simon & Schuster.

Bernardo, J. M. and Smith, A. F. (2009). Bayesian Theory, volume 405. John Wiley & Sons.

Berthouex, P. and Brown, L. (2002). Statistics for environmental engineers. CRC.

Blackwell, D., Pereira, C., and Borges, W. (1974). Estatıstica Basica. McGraw-Hill do Brasil.

Bolfarine, H., de Oliveira Bussab, W., and de Estatıstica, A. B. (2005). Elementos de amostragem.Edgard Blucher.

Breslow, N. E. and Day, N. E. (1980). Statistical Methods in Cancer Research. Volume 1—The Analysisof Case-Control Studies. IARC Scientific Publications, Lyon, France.

Breslow, N. E. and Day, N. E. (1987). Statistical Methods in Cancer Research. Volume 2—The Designand Analysis of Cohort Studies. IARC Scientific Publications, Lyon, France.

Callegari-Jacques, S. (2003). Bioestatıstica. Princıpios e Aplicacoes. Porto Alegre, ArtMed.

Chow, S.-C., Shao, J., and Wang, H. (2007). Sample size calculations in clinical research, volume 20.Chapman & Hall/CRC.

de Finetti, B. (1974). Theory of probability: A critical introductory treatment - Vol. 1. John Wiley &Sons Ltd., Chichester.

DeGroot, M. and Schervish, M. (2002). Probabilty and Statistics. Addison Wesley, Boston, MA, Pennsyl-vania.

Diewert, W. and Nakamura, A. (1993). Essays in index number theory. North-Holland.

Dukette, D. and Cornish, D. (2009). The essential 20: Twenty components of an excellent health careteam (pp. 72–73).

Eisenhauer, J. (2003). Regression through the origin. Teaching Statistics, 25(3):76–80.

Feller, W. (1968). An Introduction to Probabilty Theory and Its Applications. John Wiley & Sons, Inc.,New York, third edition.

Gelman, A., Carlin, J. B., Stern, H. S., and Rubin, D. B. (2003). Bayesian data analysis. Chapman &Hall/CRC.

Gosh, J. (1988). Statistical information and likelihood: A collection of critical essays by dr. d. basu.Lecture Notes in Statistics, 45.

Hohenwarter, M., Borcherds, M., and Ancsin, E. (2014). GeoGebra 5.0.42.0-3d. http://www.geogebra.org.

Huff, D. and Geis, I. (1954). How to lie with statistics.

Hyndman, R. J. and Khandakar, Y. (2008). Automatic time series forecasting: the forecast package forR. Journal of Statistical Software, 26(3):1–22.

Page 163

Page 164: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONIezzi, G. and Murakami, C. (1977). Fundamentos de Matematica Elementar 1: Conjuntos, funcoes. SP

Editora Atual.

Ioannidis, J. P. (2005). Why most published research findings are false. PLoS medicine, 2(8):e124.

James, B. (2010). Probabilidade: Um curso em nıvel intermediario, colecao euclides. Rio de Janeiro.IMPA, 3ª Edicao.

Koertge, N. (2008). New dictionary of scientific biography. Charles Scribner’s Sons/Thomson GaleDetroit, MI.

Kotz, S. and Nadarajah, S. (2000). Extreme value distributions. World Scientific.

Kotz, S., Read, C., Balakrishnan, N., and Vidakovic, B. (2005). Encyclopedia of statistical sciences, 16volume set.

Leisch, F. (2002). Sweave: Dynamic generation of statistical reports using literate data analysis. InHardle, W. and Ronz, B., editors, Compstat 2002 — Proceedings in Computational Statistics, pages575–580. Physica Verlag, Heidelberg. ISBN 3-7908-1517-9.

Likert, R. (1932). A technique for the measurement of attitudes. Archives of psychology.

Magalhaes, M. and Lima, A. (2002). Nocoes de probabilidade e estatıstica.

McCullagh, P. and Nelder, J. A. (1989). Generalized linear models (monographs on statistics and appliedprobability 37). Chapman Hall, London.

Meyer, D., Dimitriadou, E., Hornik, K., Weingessel, A., and Leisch, F. (2017). e1071: Misc Functionsof the Department of Statistics, Probability Theory Group (Formerly: E1071), TU Wien. R packageversion 1.6-8.

Meyerhof Salama, B. (2011). Dano moral no brasil. Serie Pensando o Direito, (37).

Morettin, P. and Bussab, W. (2008). Estatıstica basica. Saraiva.

Mullard, A. (2011). Reliability of ‘new drug target’ claims called into question. Nature Reviews DrugDiscovery, 10(9):643–644.

Pagano, M. (2004). Princıpios de bioestatıstica. Pioneira Thomson Learning.

Paulino, C., Turkman, M., and Murteira, B. (2018). Estatıstica Bayesiana. Fundacao Calouste Gulben-kian, Lisboa, 2nd edition.

Pfanzagl, J. and Sheynin, O. (1996). Studies in the history of probability and statistics xliv - a forerunnerof the t-distribution. Biometrika, pages 891–898.

Puschel, F. (2010). Dano moral. Projeto Pensando o Direito, (37).

R Core Team (2017). R: A Language and Environment for Statistical Computing. R Foundation forStatistical Computing, Vienna, Austria.

Salkind, N. (2007). Encyclopedia of measurement and statistics. Sage Publications, Inc., Thousand Oaks.

Scheinerman, E. (2003). Matematica Discreta - Uma Introducao. Thomson.

Scrucca, L. (2004). qcc: an r package for quality control charting and statistical process control. R News,4/1:11–17.

Silver, N. (2012). The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t. PenguinPress.

Stokes, M. (1997). Plato: Apology of Socrates. Aris & Phillips.

Sturges, H. A. (1926). The choice of a class interval. Journal of the American Statistical Association,21(153):65–66.

Page 164

Page 165: HEstat stica Cla ssicaIDRAFT VERSION HEstat stica Cla ssicaI no RStudio Filipe J. Zabala PUCRS filipe.zabala@pucrs.br 2020-08-10 \ Meninos, eu vou ditar as regras do bem viver n~ao

DRAFT VERSIONTriola, M. (1999). Introducao a estatistica. 7ª edicao. Rio de Janeiro: Livros Tecnicos e Cientıficos

Editora.

Tufte, E. (2007). The Visual Display of Quantitative Information. Graphics Press LLC.

Weisberg, S. (2005). Applied linear regression, volume 528. John Wiley & Sons.

Wickham, H. (2009). ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York.

Yule, G. and Kendall, M. (1948). Introducao a Teoria da Estatıstica. Instituto Brasileiro de Geografia eEstatıstica.

Page 165