apostila estatÍstica (2016.2) vf -...

12
Estatística 1 2016.2

Upload: phamdung

Post on 21-Nov-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Estatística 1

2016.2

Sumário

Capítulo 1 – Conceitos Básicos...............................................................................................................3

MEDIDASDEPOSIÇÃO.........................................................................................................................3

MEDIDASDEDISPERSÃO.....................................................................................................................5

EXERCÍCIOSCAPÍTULO1......................................................................................................................8

Capítulo 2 – Outliers e Padronização....................................................................................................12

VALORPADRONIZADO(Z).................................................................................................................12

BOXPLOT...........................................................................................................................................13

EXERCÍCIOSCAPÍTULO2....................................................................................................................16

Capítulo 3 – Associação entre variáveis................................................................................................20

EXERCÍCIOSCAPÍTULO3....................................................................................................................26

Capítulo 4 – Distribuição de Probabilidade...........................................................................................31

DISTRIBUIÇÃODEPROBABILIDADEDEUMAVARIÁVELDISCRETA...................................................31

DISTRIBUIÇÃOBINOMIAL..................................................................................................................32

DISTRIBUIÇÃONORMAL....................................................................................................................33

EXERCÍCIOSCAPÍTULO4....................................................................................................................42

Capítulo 5 – Intervalo de Confiança......................................................................................................47

MÉDIADAPOPULAÇÃODEDESVIOPADRÃOCONHECIDO...............................................................47

MÉDIADAPOPULAÇÃODEDESVIOPADRÃODESCONHECIDO.........................................................48

PROPORÇÃODAPOPULAÇÃO...........................................................................................................51

RESPOSTAS........................................................................................................................................62

EXERCÍCIOSCAPÍTULO1....................................................................................................................62

EXERCÍCIOSCAPÍTULO2....................................................................................................................63

EXERCÍCIOSCAPÍTULO3....................................................................................................................64

EXERCÍCIOSCAPÍTULO4....................................................................................................................66

EXERCÍCIOSCAPÍTULO5....................................................................................................................67

FGV–ESTATÍSTICA1–2016.2 3

Capítulo 1 – Conceitos Básicos

MEDIDASDEPOSIÇÃO

As principais medidas de posição são: média aritmética simples, média ponderada, moda, mediana, quartis e percentis, conforme apresentadas a seguir.

A média aritmética simples é a base soma de todos valores amostrais, dividindo esse resultado pela quantidade total de amostras. Conforme o exemplo a seguir, é possível entender esse conceito. Se as pessoas A, B e C ganham, respectivamente, R$1.000,00, R$2.000,00 e R$3.000,00, a média dessa amostra será R$2.000,00, uma vez que todos os valores somados resultam em R$6.000,00 e essa soma é dividida por 3 (quantidade da amostra), resultando em R$ 2.000,00. Usualmente, a média de uma amostra (uma porção de uma população) é representada por ! “x barra” e a média da população pela letra grega µ.

FÓRMULA: ! =#$

%$&'

(

A média ponderada, por sua vez, também será obtida por uma soma de valores dividida pelo tamanho amostral. O que difere da média aritmética é que cada elemento da amostra terá um “PESO” (número de repetições desse elemento) e multiplicaremos cada elemento pelo número do seu peso, somaremos todas multiplicações e dividiremos pela soma de todos os pesos. Por exemplo, se quisermos saber qual a média de salário numa firma em que existem 2 gerentes ganhando R$10.000,00 e 10 engenheiros ganhando R$5.000,00, é necessário multiplicar os fatores correspondentes e depois somar o resultado da seguinte maneira: )∗+,.,,,.+,∗/,.,,,

().+,)=

2$5.833,33.

FÓRMULA: 9: = ;'∗<'.;=∗<=.⋯;%∗<%;'.;=.⋯.;%

=?@9@

A@=1

?@A@=1

A moda é o valor que aparece com maior frequência em um conjunto de dados, ou seja, o valor que mais se repete. Por exemplo, no caso das notas dos alunos de uma sala com 10 alunos forem 4; 5; 5; 5; 7; 7; 7,5; 8; 9 e 10, a moda é a nota que aparece com maior frequência, no caso, 5. Existem amostras bimodais (no caso de haver dois valores que aparecem com maior frequência) e amodais (no caso de todos os valores aparecerem com a mesma frequência).

FGV–ESTATÍSTICA1–2016.2 4

A mediana é uma medida que não se baseia no valor, mas sim na posição que cada elemento da amostra ocupa quando os dados estão ordenados em ordem crescente. Classificamos como mediana o elemento que ocupa a posição central da amostra ordenada, ou seja, o valor que deixa os 50% menores da amostra antes dele e os 50% maiores depois dele. Então, caso existam 9 valores numa amostra, deve-se ordenar a amostra em ordem crescente e então, a mediana será o quinto valor (ficam 4 antes e 4 depois do quinto elemento). Logo, caso tivermos uma amostra com os seguintes valores: 1, 2, 3, 4, 6, 7, 8, 9, 1000, a mediana será o quinto valor apresentado, “6”. Algo que devemos ter em mente quando calcularmos média e mediana é que a MÉDIA é afetada por valores extremos e que fogem do padrão da amostra, enquanto que o valor da mediana é menos sensível para este evento, uma vez que o que importa para a mediana é apenas o termo central. No caso ilustrado acima, a mediana é “6”, porém, a média é aproximadamente 115,55.

No caso de uma quantidade de números pares, a mediana será a média entre os dois números medianos, logo, com os valores: 1, 2, 3 e 4, a mediana será “2,5”, uma vez que é a média entre 2 e 3.

Por fim, outras medidas de posição importantes são os percentis e quartis. Organizando-se os dados em ordem crescente, o p-ésimo percentil divide os dados em duas partes, sendo p% menores do que o p-ésimo percentil. Assim, por exemplo, 20% dos valores da base de dados são inferiores ao 20o percentil, 50% dos valores são inferiores ao 50o percentil e assim por diante. Os 25o, 50o e 75o percentis, recebem o nome de 1o, 2o e 3o quartis, respectivamente. Desta forma, 75% dos valores da base de dados são inferiores ao 3o quartil (ou 75o percentil).

Para calcular os percentis, deve-se calcular o índice i (@ = C

+,,A) que indica a posição o p-

ésimo percentil em uma amostra de n observações. Se i não for inteiro, deve-se arredondar para cima (assim, o p-ésimo percentil é o valor que ocupa a posição i+1). Se i for um valor inteiro, o p-ésimo percentil será a média dos valores que ocupam a posição i e i+1. O exemplo abaixo ilustra o cálculo das medidas de posição apresentadas.

EXEMPLO 1: Dados os seguintes valores de uma amostra, determine:

Amostra: 3, 5, 6, 6, 6, 7, 8, 10, 15, 21, 25, 29

a-) Média

b-) Mediana

c-) Moda

d-) 20o percentil

FGV–ESTATÍSTICA1–2016.2 5

e-) 3o quartil

Solução do Exemplo 1:

a-) Média: ! = #$(=

+D+

+)= EE, FG

b-) Mediana: Número par de observações. Assim a Mediana é a média dos dois valores intermediários (6ª e 7ªobservações):

Med = H.I)= F, G

c-) Moda: Valor que aparece com maior frequência é o 6.

d-) 20º percentil: @ = C

+,,A =

),

+,,12 = 2,4ªMNOPQRSçãM

Assim, o 20º percentil ocorre no 3º termo, ou seja, 6, indicando que aproximadamente 20% dos dados são menores do que 6.

e-) 3º quartil (75º percentil):

@ = C

+,,A =

H/

+,,12 = 9ª observação

Como i é inteiro o 3º quartil é a média entre a 9ª e a 10ª observação à +/.)+)

= EW

MEDIDASDEDISPERSÃO

Muitas pessoas acreditam que a média é o fator mais importante na estatística. Porém, caso os valores não apresentassem desvios, não seria necessário calcular a média, certo? Então medir a VARIABILIDADE dos dados é extremamente importante. A forma mais utilizada de se calcular essa variabilidade, ou dispersão dos dados, é por meio do desvio padrão ou da variância. O desvio padrão é a raiz quadrada da variância.

O desvio padrão de uma população é comumente representado pela letra grega σ e a de uma amostra pela letra “s”. Desta forma, a variância da população é σ2 e da amostra s2.

FÓRMULA PARA AMOSTRA: O) = (#$X#)=

(X+ e s = O)

FGV–ESTATÍSTICA1–2016.2 6

FÓRMULA PARA POPULAÇÃO: Z) = (#$X[)=

\ e Z = Z)

Embora muitas pessoas sintam um estranhamento ao verem essas fórmulas pela primeira vez, seu entendimento é simples. Como ela quer calcular a variabilidade de todos os dados presentes na amostra, é necessário ter um ponto de referência para calcular essa variabilidade, portanto, a base escolhida é a média, apresentado como ]. Logo, o que é calculado é a distância de todos os dados até a média, ou, de maneira mais formal, é a "média do quadrado dos desvios de todos os pontos até a média”. Interpretação: Quanto maior for o desvio-padrão, mais dispersos serão os dados em torno da média.

GRÁFICOSDEDISPERSÃOUNIDIMENSIONAL(HISTOGRAMA) O histograma é uma maneira bastante comum de apresentar dados quantitativos. Nele, os dados são sintetizados em uma distribuição de frequência, que pode ser tanto absoluta como relativa.

No eixo x do histograma deve-se colocar a variável de interesse. No eixo y fica a distribuição de frequência (absoluta ou relativa) contida em cada classe (intervalo). Um dos cuidados que se deve ter no histograma é o tamanho das classes, que devem constituir intervalos semelhantes para facilitar a comparação. O exemplo a seguir ilustra como é feito um histograma.

EXEMPLO 2: Os dados abaixo são as notas de alguns alunos, selecionados aleatoriamente, em uma prova de estatística. Com base nos dados elabore o histograma tanto de frequência relativa quanto de frequência absoluta.

Aluno Nota Aluno Nota Aluno Nota 1 0 8 4,9 15 6,9 2 2,5 9 5,2 16 7,2 3 3,1 10 5,4 17 7,3 4 3,4 11 5,5 18 7,4 5 3,7 12 5,8 19 9,4 6 3,9 13 5,9 20 10 7 4,5 14 6,2

FGV–ESTATÍSTICA1–2016.2 7

Solução do Exemplo 2:

Para fazer os histogramas é necessário separar os dados em classes ou intervalos. Como o enunciado não diz nada sobre as classes, vamos utilizar dez classes. A primeira contempla alunos que tiraram nota de zero até 0,99. A segunda alunos que tiraram nota de 1 até 1,99, e assim por diante. Assim temos a seguinte tabela:

Classe Frequência Absoluta Frequência Relativa 0 – 0,99 1 5% 1 – 1,99 0 0% 2 – 2,99 1 5% 3 – 3,99 4 20% 4 – 4,99 2 10% 5 – 5,99 5 25% 6 – 6,99 2 10% 7 – 7,99 3 15% 8 – 8,99 0 0% 9 – 10 2 10% Total 20 100%

Com base na tabela foi possível construir os histogramas, tanto da frequência relativa quanto da frequência absoluta, conforme os gráficos abaixo:

Observação:Existetambémohistogramadedensidades,noqualdecadaretângulodográficosãoiguaisàsfrequênciasrelativasdecadaclasse.Nessecaso,asomadetodasasáreasserá1(ou100%).

2 3 7

Freq.Abs

8 9 10 Nota4 5 6

2

3

4

5

1

1

2 3 7

Freq.Relat

8 9 10 Nota4 5 6

10%

15%

20%

25%

1

5%

FGV–ESTATÍSTICA1–2016.2 8

EXERCÍCIOSCAPÍTULO1

1-) A distribuição de salários de uma empresa é fornecida pela tabela a seguir:

Calcule a média salarial dessa empresa.

2-) A tabela abaixo apresenta a distribuição de frequência dos salários de um grupo de 50 empregados de uma empresa, em certo mês. O salário médio desses empregados, nesse mês, foi de:

a) R$ 2 637,00 b) R$ 2 520,00 c) R$ 2 500,00 d) R$ 2 420,00 e) R$ 2 400,00

FGV–ESTATÍSTICA1–2016.2 9

3-) Em certa eleição municipal foram obtidos os seguintes resultados:

O número de votos obtido pelo candidato vencedor foi:

a) 178 b) 182 c) 184 d) 188 e) 191

4-) A tabela abaixo mostra o resultado de uma pesquisa com 70 pessoas que possuem automóvel. A variável estudada é X= número de vezes que trocou de carro nos últimos 5 anos.

Número de vezes que trocou de carro

Frequência absoluta

0 10

1 15

2 20

3 15

4 10

Qual é o valor do desvio-padrão de X?

a. 1,3 b. 1,6 c. 2,5 d. 4,2 e. 10,5

FGV–ESTATÍSTICA1–2016.2 10

5-) Você é o responsável pela produção de dois antigripais. As únicas informações disponíveis para planejar a produção são a média e o desvio-padrão histórico das vendas do mês de julho para cada medicamento. Os resultados são mostrados a seguir:

Antigripal1 Antigripal 2

Média 105.000 44.000 Desvio-padrão 10.000 8.000

Você quer comparar a variabilidade dos dois antigripais para avaliar para qual dos dois antigripais há menor incerteza nas vendas. Qual das seguintes conclusões é correta neste caso?

a. O desvio-padrão das vendas do antigripal 1 é maior que o desvio-padrão das vendas do

antigripal 2. Portanto, as vendas do antigripal 1 são mais difíceis de prever, pois há mais incerteza.

b. Não há como comparar a variabilidade das vendas dos dois antigripais porque as médias

são diferentes.

c. A média das vendas do antigripal 1 corresponde a 1050% do seu desvio-padrão. A média das vendas do antigripal 2 corresponde a 550% do seu desvio-padrão. Portanto, as vendas do antigripal 1 são mais difíceis de prever, pois há mais incerteza.

d. Ambos desvios-padrão são menores que suas respectivas médias. Portanto, os dois

possuem pequena incerteza e são fáceis de prever.

e. Como os dois medicamentos têm médias diferentes, os valores dos desvios-padrão não devem ser comparados diretamente. O desvio-padrão do antigripal 1 é 9,5% da venda média, enquanto que o do antigripal 2 é 18% da venda média. Portanto, o desvio-padrão das vendas do antigripal 2, percentualmente em relação à média, é maior. Desta forma, considera-se que a incerteza das vendas do antigripal 2 é maior.

FGV–ESTATÍSTICA1–2016.2 11

6-) Em uma empresa, o número de dias para responder uma solicitação de um cliente (variável “X”) segue a distribuição de frequências abaixo:

x p(x)

1 0,1

2 0,2

3 0,4

4 0,2

5 0,1

Qual é o desvio-padrão da variável x?

a. 0,490 b. 1,095 c. 1,200 d. 1,414 e. 1,582

7-) Considere o banco de dados com uma amostra de n igual a 5 clientes de uma loja de departamento:

Cliente Nota para o atendimento

1 6 2 4 3 7 4 7 5 6

Se X é a nota para o atendimento, quanto vale:

!^_^`+

a. 6 b. 7 c. 10 d. 17 e. 30

FGV–2016.2 XX

... Para obter a apostila completa, passe em um de nossos pontos de venda.