apostila de estatistica

129
Estatística – Notas de Aulas Professor Inácio Andruski Guimarães, DSc. ESTATÍSTICA Notas de Aulas Professor Inácio Andruski Guimarães, DSc.

Upload: ana

Post on 25-Jun-2015

158 views

Category:

Economy & Finance


4 download

DESCRIPTION

Apostila de Estatística

TRANSCRIPT

Page 1: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

ESTATÍSTICA

Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

Page 2: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

2

SUMÁRIO

1 CONCEITOS BÁSICOS 5 1.1 Estatística 1.2 Estatística Descritiva 1.3 Estatística Inferencial 1.4 População 1.5 Amostra 1.6 Variável 1.7 Séries Estatísticas

2 APRESENTAÇÃO DE DADOS 7 2.1 Apresentação Tabular 2.2 Apresentação Gráfica

3 DISTRIBUIÇÃO DE FREQÜÊNCIAS 11 3.1 Dados Brutos 3.2 Rol 3.3 Amplitude Total 3.4 Número de Classes 3.5 Amplitude de Classe 3.6 Intervalo de Classe 3.7 Freqüência Simples 3.8 Freqüência Acumulada 3.9 Freqüência Relativa 3.10 Ponto Médio de Classe 3.11 Representações Gráficas

4 MEDIDAS DE TENDÊNCIA CENTRAL OU DE POSIÇÃO 17 4.1 Média Aritmética 4.2 Mediana 4.3 Moda ........................................................................................................................... 4.4 Relação entre Média, Mediana e Moda 4.5 Percentil 4.6 Decil 4.7 Quartil

5 MEDIDAS DE DISPERSÃO 26 5.1 Amplitude 5.2 Desvio Médio 5.3 Variância 5.4 Desvio Padrão 5.5 Coeficiente de Variação

6 ASSIMETRIA E CURTOSE 32 6.1 Coeficiente de Assimetria 6.2 Coeficiente de Curtose

7 TEORIA DA PROBABILIDADE 36 7.1 Teoria dos Conjuntos 7.2 Técnicas de Contagem 7.3 Introdução à Probabilidade

8 VARIÁVEIS ALEATÓRIAS 47 8.1 Tipos de Variáveis Aleatórias 8.2 Função de Probabilidade 8.3 Função Densidade de Probabilidade 8.4 Expectância 8.5 Variância

Page 3: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

3

8.6 Distribuição Conjunta 8.7 Independência 8.8 Função Distribuição Acumulada

9 MODELOS DE PROBABILIDADE PARA VARIÁVEIS DISCRETAS 56 9.1 Distribuição Uniforme 9.2 Distribuição de Bernoulli 9.3 Distribuição Binomial 9.4 Distribuição Geométrica 9.5 Distribuição de Pascal 9.6 Distribuição de Poisson 9.7 Distribuição Hipergeométrica 9.8 Distribuição Multinomial

10 MODELOS DE PROBABILIDADE PARA VARIÁVEIS CONTÍNUAS 61 10.1 Distribuição Uniforme 10.2 Distribuição Normal 10.3 Distribuição Gama 10.4 Distribuição Exponencial 10.5 Distribuição de Weibull 10.6 Distribuição Qui-Quadrado 10.7 Distribuição t, de Student 10.8 Distribuição F, de Fisher 10.9 Aproximação da Distribuição Binomial pela Normal

11 INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA 67 11.1 Estimadores e Estatísticas 11.2 Estimadores Eficientes 11.3 Estatísticas Suficientes 11.4 Família Exponencial 11.5 Método da Máxima Verossimilhança 11.6 Distribuição Amostral da Média

12 INTERVALOS DE CONFIANÇA 74 12.1 Intervalo de Confiança para a Média 12.2 Intervalo de Confiança para a Diferença de Médias 12.3 Intervalo de Confiança para a Proporção 12.4 Intervalo de Confiança para a Diferença de Proporções 12.5 Intervalo de Confiança para a Variância 12.6 Determinação do Tamanho de uma Amostra

13 CONTROLE ESTATÍSTICO DE PROCESSO (CEP) 81 13.1 Conceitos 13.2 Diagrama de Pareto 13.3 Diagrama de Ishikawa 13.4 Gráfico de Controle para Média e Amplitude 13.5 Capabilidade 13.6 Gráficos de Controle para Amplitudes Móveis 13.7 Gráficos de Controle por Atributos

14 TEORIA DA DECISÃO ESTATÍSTICA 98 14.1 Teste de Hipótese 14.2 Teste de Hipótese para a Média 14.3 Teste de Hipótese para a Diferença de Médias 14.4 Teste de Hipótese para a Proporção 14.5 Teste de Hipótese para a Diferença de Proporções

15 ANÁLISE DA VARIÂNCIA (ANOVA) 104 15.1 ANOVA para um Fator 15.2 ANOVA para dois Fatores

Page 4: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

4

16 TESTE QUI-QUADRADO 110

16.1 Teste de Bondade de Ajustamento 16.2 Teste de Independência de Variáveis

17 TESTES NÃO PARAMÉTRICOS 113 17.1 Teste U, de Wilcoxon, Mann e Whitney 17.2 Teste H, de Kruskal – Wallis

18 ANÁLISE DE CORRELAÇÃO E DE REGRESSÃO 118 18.1 Coeficiente de Correlação 18.2 Análise de Regressão Linear 18.3 Método dos Mínimos Quadrados 18.4 Modelo Exponencial 18.5 Modelo Potência 18.6 Modelo Logarítmico APÊNDICE I – INTEGRAIS EULERIANAS APÊNDICE II – MÉTODO DE NEWTON – RAPHSON

Page 5: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

5

1. CONCEITOS BÁSICOS 1.1 Estatística

A Estatística compreende os métodos científicos utilizados para coleta, organização, resumo, apresentação e análise, ou descrição, de dados de observação. Também abrange métodos utilizados para tomadas de decisões sob condições de incerteza. 1.2 Estatística Descritiva

Inclui as técnicas empregadas para coleta e descrição de dados. Também é empregada na análise exploratória de dados. 1.3 Estatística Inferencial

É utilizada para tomar decisões a respeito de uma população, geralmente utilizando dados de amostras. Uma vez que tais decisões são tomadas sob condições de incerteza, faz-se necessário o uso de conceitos relativos à Teoria da Probabilidade. 1.4 População

Um dos conceitos fundamentais na Estatística, é empregado para designar um conjunto de indivíduos que possuem pelo menos uma característica, ou atributo, em comum. Alguns autores empregam o termo universo para referir-se a uma população. 1.5 Amostra

Refere-se a qualquer subconjunto de uma população. A amostragem é uma das etapas mais importantes na aplicação de métodos estatísticos, envolvendo aspectos como determinação do tamanho da amostra, metodologia de formação e representatividade da amostra com relação à população. 1.6 Variável

É usada para atribuição dos valores correspondentes aos dados observados. É importante ressaltar que os dados em questão não são necessariamente numéricos, uma vez que podem dizer respeito a atributos qualitativos observados na população. Por esta razão costuma-se classificar as variáveis nas categorias definidas a seguir. 1.6.1 – Variável Numérica. Também chamada variável quantitativa, é utilizada para representação de dados numéricos, ou quantitativos. 1.6.1.1 – Variável Numérica Discreta. Variável cujo domínio é um conjunto enumerável. Geralmente corresponde a dados de contagem. Exemplo: Número de defeitos em um componente, total de unidades defeituosas em uma amostra. 1.6.1.2 – Variável Numérica Contínua. Variável cujo domínio é um conjunto não enumerável. Refere-se a dados de mensuração. Exemplo: Diâmetro de um eixo, peso de um recém-nascido. 1.6.2 – Variável Qualitativa. É utilizada para representação de atributos. Pode ser dicotômica, ou binária, quando assume apenas dois possíveis valores, ou politômica, também referida como multinomial, quando pode assumir mais de dois possíveis valores. 1.6.2.1 – Variável Qualitativa Categórica. É empregada para representar categorias, ou classes, às quais pertencem as observações registradas. Exemplo: Cor dos olhos, sexo. 1.6.2.2 – Variável Qualitativa Ordinal. Utiliza-se este tipo de variável em situações nas quais presume-se a necessidade de uma ordem, crescente ou decrescente, para os resultados. Exemplo: Grau de escolaridade, categoria salarial.

Page 6: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

6

1.7 – Séries Estatísticas

Uma série estatística consiste basicamente de um conjunto de valores observados para diferentes categorias de uma variável. As séries estatísticas são classificadas em três categorias, apresentadas a seguir. 1.7.1 – Série Temporal. A variável de interesse refere-se a um período de tempo. Exemplo 1.7.1 – A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC durante o ano de 20XY.

Tabela 1.1 – Faturamento mensal (R$ 1000000) da empresa ABC (20XY). Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Total

Faturamento 0,95 1,03 1,12 1,24 1,02 0,92 0,84 0,78 0,72 0,65 0,68 0,82 10,77 Fonte: Dados fictícios.

1.7.2 – Série Geográfica. Aqui a variável estudada é o local. Exemplo 1.7.2 – A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC durante o ano de 20XY, nas respectivas regiões de atuação.

Tabela 1.2 – Faturamento (R$ 1000000) da empresa ABC (20XY), por região.

Região Grande Curitiba

Interior do PR

Interior de SC

Porto Alegre

Interior do RS

Campo Grande

Cuiabá Total

Faturamento 2,75 2,58 1,82 1,42 0,80 0,75 0,70 10,77 Fonte: Dados fictícios.

1.7.3 – Série Específica. Exemplo 1.7.3 - A tabela a seguir mostra o faturamento, em milhões de reais, da empresa fictícia ABC durante o ano de 20XY, especificado por produto.

Tabela 1.3 – Faturamento (R$ 1000000) da empresa ABC (20XY), por produto. Produto Rolamento Mancal Óleo Junta Válvula Retentor Total

Faturamento 3,48 1,84 1,75 1,45 1,25 1,00 10,77 Fonte: Dados fictícios.

1.7.4 – Séries Combinadas. Na prática, é comum combinar séries estatísticas com o objetivo de aumentar, ou detalhar, as informações disponíveis. Exemplo 1.7.4 – O quadro a seguir mostra o faturamento da empresa ABC por produto e região, isto é, uma combinação de uma série geográfica e uma série específica.

Quadro 1.1 – Faturamento (R$ 1000000) da empresa ABC, por produto e região. Produto Região

Rolamento Mancal Óleo Junta Válvula Retentor Total

Grande Curitiba 0,89 0,46 0,45 0,37 0,32 0,26 2,75 Interior do PR 0,83 0,44 0,42 0,35 0,30 0,24 2,58 Interior de SC 0,59 0,31 0,30 0,25 0,21 0,16 1,82 Porto Alegre 0,45 0,24 0,23 0,19 0,16 0,15 1,42

Interior do RS 0,26 0,14 0,13 0,11 0,09 0,07 0,80 Campo Grande 0,24 0,13 0,12 0,10 0,09 0,07 0,75

Cuiabá 0,22 0,12 0,10 0,08 0,08 0,10 0,70 Total 3,48 1,84 1,75 1,45 1,25 1,00 10,77

Fonte: Dados fictícios.

Page 7: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

7

2. APRESENTAÇÃO DE DADOS

A apresentação de dados pode ser efetuada através de dois modos, tabular ou gráfico, não mutuamente exclusivos. Para esta tarefa deve-se ter em mente o objetivo da apresentação, no que diz respeito ao nível de detalhamento e ao tipo de informação que se deseja extrair dos dados em questão. A apresentação tabular permite obter informações mais detalhadas, enquanto a apresentação gráfica permite uma compreensão mais rápida a respeito do comportamento da variável observada. 2.1 – Apresentação Tabular

Em primeiro lugar, é importante frisar que os termos “tabela” e “quadro” são utilizados para designar objetos distintos. O primeiro designa o arranjo de dados na forma de grade com laterais abertas, enquanto o segundo termo é empregado para designar arranjos em grades com laterais fechadas, conforme a Figura 2.1.

Figura 2.1 – Formatos de tabela e quadro. Independente do formato escolhido, uma tabela deve conter três elementos: 1 – Cabeçalho. Deve conter o máximo de informações sobre os dados apresentados 2 – Corpo. De dimensões variáveis, é o espaço destinado à apresentação propriamente dita dos dados. 3 – Rodapé. Deve conter a fonte dos dados e outras informações necessárias à compreensão. 2.1.1 – Tabela Simples. É o tipo mais comum de tabela, utilizado para representar os valores correspondentes a uma série estatística. A disposição pode ser feita tanto por colunas como por linhas. Exemplo 2.1 – Exemplo de tabela simples. Dados dispostos em linha.

Tabela 1.1 – Faturamento mensal (R$ 1000000) da empresa ABC (20XY). Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Total

Faturamento 0,95 1,03 1,12 1,24 1,02 0,92 0,84 0,78 0,72 0,65 0,68 0,82 10,77 Fonte: Dados fictícios.

Exemplo 2.2 - Exemplo de tabela simples. Dados dispostos em coluna.

Tabela 2.1 – Número de beneficiários de planos privados de saúde, em milhões, no período 2000 – 2006.

Ano Beneficiários (milhões) 2000 34,5 2001 34,3 2002 35,0 2003 36,2 2004 38,8 2005 41,6 2006 44,7

Fonte: Jornal Folha de São Paulo. 4/6/2007

Variável Valores Total

Variável Valores Total

Page 8: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

8

2.1.2 – Tabela de Dupla Entrada. É utilizada para representar dados de duas séries combinadas. Exemplo 2.3 – Exemplo de tabela de dupla entrada.

Tabela 2.2 – Faturamento (R$ 1000000) da empresa ABC, por produto e região. Produto Região

Rolamento Mancal Óleo Junta Válvula Retentor Total

Grande Curitiba 0,89 0,46 0,45 0,37 0,32 0,26 2,75 Interior do PR 0,83 0,44 0,42 0,35 0,30 0,24 2,58 Interior de SC 0,59 0,31 0,30 0,25 0,21 0,16 1,82 Porto Alegre 0,45 0,24 0,23 0,19 0,16 0,15 1,42

Interior do RS 0,26 0,14 0,13 0,11 0,09 0,07 0,80 Campo Grande 0,24 0,13 0,12 0,10 0,09 0,07 0,75

Cuiabá 0,22 0,12 0,10 0,08 0,08 0,10 0,70 Total 3,48 1,84 1,75 1,45 1,25 1,00 10,77

Fonte: Dados fictícios. 2.1.3 – Tabela de Múltiplas Entradas. É utilizada na representação de dados correspondentes a mais de duas séries. Exemplo 2.4 – Exemplo de tabela de múltipla entrada.

Tabela 2.3 – Unidades vendidas por região e por semestre. Produto

Rolamento Mancal Região 1o Semestre 2o semestre 1o Semestre 2o semestre

Total

Sul 38 24 18 14 94 Sudeste 26 20 14 12 72

Centro Oeste 16 18 8 17 59 Total 80 62 40 43 225

Dados Fictícios. 2.2 – Apresentação Gráfica

Para a apresentação gráfica deve-se levar em consideração o tipo de série estatística estudada e o, também, o tipo de variável observada, quantitativa ou qualitativa. Também é possível combinar as duas formas de apresentação, tabular e gráfica. Os principais tipos de gráficos são: 2.2.1 – Gráfico Linear. É utilizado principalmente para representar séries temporais. Exemplo 2.5

Tabela 1.1 – Faturamento mensal (R$ 1000000) da empresa ABC (20XY). Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez Total

Faturamento 0,95 1,03 1,12 1,24 1,02 0,92 0,84 0,78 0,72 0,65 0,68 0,82 10,77 Fonte: Dados fictícios.

Faturamento da Empresa ABC

0

0,5

1

1,5

1 2 3 4 5 6 7 8 9 10 11 12

Meses

R$

1000

000,

00

Page 9: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

9

2.2.2 – Gráfico Setorial. É utilizado para representar séries geográficas ou específicas. Exemplo 2.6

Tabela 1.2 – Faturamento (R$ 1000000) da empresa ABC (20XY), por região.

Região Grande Curitiba

Interior do PR

Interior de SC

Porto Alegre

Interior do RS

Campo Grande

Cuiabá Total

Faturamento 2,75 2,58 1,82 1,42 0,80 0,75 0,70 10,77 Fonte: Dados fictícios.

Faturamento por Região

Grande Curitiba; 2,75

Interior do PR; 2,58Interior de SC; 1,82

Porto Alegre; 1,42

Interior do RS; 0,8

Campo Grande; 0,75

Cuiabá; 0,7

Grande Curitiba

Interior do PR

Interior de SC

Porto Alegre

Interior do RS

Campo Grande

Cuiabá

2.2.3 – Gráfico de Colunas. Pode ser utilizado no lugar do gráfico setorial. Exemplo 2.7 – Os dados da Tabela 1.2 poderiam ser representados através do gráfico a seguir.

Faturamento por Região

00,5

11,5

22,5

3

GrandeCuritiba

Interior doPR

Interior deSC

PortoAlegre

Interior doRS

CampoGrande

Cuiabá

2.2.4 – Gráfico de Colunas Superpostas. É utilizado para representar os dados de tabelas de dupla entrada. Exemplo 2.8 – Representação dos dados da Tabela 2.2.

Faturamento por Produto e por Região (%)

0%

20%

40%

60%

80%

100%

GrandeCuritiba

Interior doPR

Interior deSC

PortoAlegre

Interior doRS

CampoGrande

Cuiabá

Retentor

Válvula

Junta

Óleo

Mancal

Rolamento

Page 10: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

10

2.2.5 – Gráfico de Colunas Justapostas. È utilizado para representar dados de tabelas de dupla entrada.

Faturamento por Produto e por Região

0

0,2

0,4

0,6

0,8

1

GrandeCuritiba

Interior doPR

Interior deSC

PortoAlegre

Interior doRS

CampoGrande

Cuiabá

Rolamento

Mancal

Óleo

Junta

Válvula

Retentor

Page 11: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

11

3. DISTRIBUIÇÕES DE FREQÜÊNCIAS

As distribuições de freqüências são usadas principalmente para a apresentação de grandes conjuntos de dados. 3.1 – Dados Brutos É a designação para um conjunto de dados não ordenados. 3.2 – Rol É um conjunto de dados ordenados. Exemplo 3.1 – Teores de ácido palmítico (%) observados em 120 amostras de óleos vegetais, utilizadas em um estudo para comparar as características de óleos obtidos a partir de diferentes fontes.

3,8 5,2 6,1 6,4 8,3 10,1 10,9 11,5 3,9 5,4 6,1 6,4 8,3 10,2 10,9 11,5 4,1 5,4 6,1 6,5 9,3 10,4 11 11,5 4,5 5,5 6,2 6,6 9,4 10,4 11 11,5 4,6 5,6 6,2 6,7 9,6 10,5 11 11,6 4,8 5,7 6,2 6,7 9,7 10,5 11 11,6 4,8 5,9 6,2 6,8 9,7 10,5 11,1 11,9 4,8 5,9 6,2 7 9,7 10,5 11,1 11,9 4,9 5,9 6,2 7,2 9,8 10,5 11,1 12,2 5 6 6,2 7,5 9,8 10,5 11,1 12,2

5,1 6 6,2 7,6 9,8 10,7 11,2 12,2 5,1 6 6,2 7,7 9,9 10,8 11,2 13 5,1 6 6,2 8 10 10,8 11,3 13 5,1 6,1 6,3 8 10 10,9 11,4 13,1 5,1 6,1 6,4 8,2 10 10,9 11,4 13,1

Fonte: Brodnjak – Vončina et al. (2005)

3.3 – Amplitude Total (R) É a diferença entre o valor máximo e o valor mínimo observados no conjunto de dados, isto é:

)1()( xxR n −= (3.1)

Exemplo 3.2 – Para o conjunto de dados do exemplo anterior a amplitude total é R = 13,1 – 3,8 = 9,3 3.4 – Número de Classes (k) Pode ser determinado arbitrariamente ou de acordo com a expressão a seguir, denominada fórmula de Sturges, onde n é o número de observações, ou tamanho da amostra.

nk log3,31+= (3.2)

Exemplo 3.3 – Uma distribuição de freqüências para os dados do Quadro 3.1, de acordo com a fórmula de Sturges, terá

886,7)120log(3,31 ≅=+=k

3.5 – Amplitude de Classe (h)

Pode ser calculada por k

Rh = (3.3)

Page 12: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

12

Exemplo 3.4 – Para os dados dos exemplos anteriores, a amplitude de classe é 2,18

3,9≅=h .

3.6 – Intervalo de Classe Os limites de cada classe podem ser definidos de quatro modos distintos, mostrados a seguir.

1. Intervalo “exclusive – exclusive”:

2. Intervalo “inclusive – exclusive”:

3. Intervalo “inclusive – inclusive”:

4. Intervalo “exclusive – inclusive”: Exemplo 3.5 – Para os dados utilizados como exemplo até agora, as classes e intervalos são:

Tabela 3.1 – Distribuição de freqüências para os teores (%) de ácido palmítico observados em amostras de

óleos vegetais. Classe Teores de Ácido Palmítico Observações

1 3,8 |-- 5,0 9 2 5,0 |-- 6,2 24 3 6,2 |-- 7,4 21 4 7,4 |-- 8,6 8 5 8,6 |-- 9,8 6 6 9,8 |-- 11,0 24 7 11,0 |-- 12,2 21 8 12,2 |-- 13,4 7 Total (N) 120

3.7 – Freqüência Simples (fi) A freqüência simples da i–ésima classe é igual ao número do observações pertencentes à mesma. Exemplo 3.6 – Na distribuição do exemplo anterior: f1 = 9 , f2 = 24 , ... , f8 = 4. 3.8 – Freqüência Acumulada

A freqüência acumulada crescente da i–ésima classe é dada por: ∑=

=i

jji ffac

1

(3.4)

Exemplo 3.7 – A freqüência acumulada crescente da quarta classe, na distribuição mostrada na Tabela 3.1, é: fac4 = 9 + 24 + 21 + 8 = 62.

A freqüência acumulada decrescente da i–ésima classe é dada por: ∑=

=k

ijji ffad (3.5)

Exemplo 3.8 – Para a quarta classe da distribuição anterior, a freqüência acumulada decrescente é dada por: fad4 = 8 + 6 + 24 + 24 + 4 = 66. 3.9 – Freqüência Relativa (fri)

A freqüência relativa da i–ésima classe é dada por:

∑=

=k

jj

ii

f

ffr

1

(3.6)

Page 13: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

13

Exemplo 3.9 – As freqüências relativas para distribuição da Tabela 3.1 são

Tabela 3.2 – Distribuição de freqüências simples e relativas para os teores (%) de ácido palmítico observados em amostras de óleos vegetais.

Classe Teores de Ácido Palmítico Observações Freqüências Relativas 1 3,8 |-- 5,0 9 0,0750 2 5,0 |-- 6,2 24 0,2000 3 6,2 |-- 7,4 21 0,1750 4 7,4 |-- 8,6 8 0,0667 5 8,6 |-- 9,8 6 0,0500 6 9,8 |-- 11,0 24 0,2000 7 11,0 |-- 12,4 21 0,1750 8 12,4 |-- 13,6 7 0,0583 Total (N) 120 1,0000

3.10 – Ponto Médio de Classe (Xi) O ponto médio da i–ésima classe é dado por:

2ii

i

LSLIX

+= (3.7)

onde LIi e LSi são os limites inferior e superior da classe, respectivamente. Exemplo 3.10 – As classes da distribuição da Tabela 3.1 têm os seguintes pontos médios:

Tabela 3.3 – Distribuição de freqüências simples e pontos médios de classe para os teores (%) de ácido palmítico observados em amostras de óleos vegetais.

Classe Teores de Ácido Palmítico Observações Pontos Médios (Xi) 1 3,8 |-- 5,0 9 4,4 2 5,0 |-- 6,2 24 3 6,2 |-- 7,4 21 4 7,4 |-- 8,6 8 5 8,6 |-- 9,8 6 6 9,8 |-- 11,0 24 7 11,0 |-- 12,2 21 8 12,2 |-- 13,4 7 12,8 Total (n) 120

3.11 – Representações Gráficas As distribuições de freqüências podem ser representadas através de três tipos de gráficos, não mutuamente exclusivos. 3.11.1 – Histograma É um gráfico de colunas justapostas, onde a largura da base de cada coluna representa o intervalo de classe correspondente e a altura representa a freqüência simples da referida classe. Exemplo 3.11 – A Figura 3.1 mostra o histograma da distribuição mostrada na Tabela 3.1.

Page 14: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

14

0

5

10

15

20

25

30

3,8 - 5,0 5,0 - 6,2 6,2 - 7,4 7,4 - 8,6 8,6 - 9,8 9,8 - 11,0 11,0 - 12,2 12,2 - 13,4

Figura 3.1 – Histograma da distribuição de freqüências de teores de ácido palmítico.

3.11.2 – Polígono de Freqüências É definido por uma linha poligonal cujos vértices são definidos pelos pontos médios e pelas freqüências das classes representadas. Exemplo 3.12 – O polígono de freqüências para a distribuição anterior é mostrado na Figura 3.2.

0

5

10

15

20

25

30

1 2 3 4 5 6 7 8

Classes

Fre

ênci

as

Figura 3.2 – Polígono de freqüências da distribuição de teores de ácido palmítico.

3.11.3 – Curva de Freqüências Exemplo 3.13 – A curva de freqüências para a distribuição dos exemplos anteriores é mostrada na Figura 3.3.

0

5

10

15

20

25

30

1 2 3 4 5 6 7 8

Figura 3.3 – Curva de freqüências para a distribuição de teores de ácido palmítico.

Page 15: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

15

3.12 – Exercícios O Quadro 3.1 mostra 150 valores correspondentes ao comprimento da sépala, observados em flores de três espécies: íris virginica, íris setosa e íris versicolor, para um estudo cujo é a comparação das diferenças entre as dimensões observadas para cada um dos três grupos.

Quadro 3.1 – Comprimentos (mm) das sépalas observadas em 150 exemplares de flores íris.

43 46 44 46 50 54 50 49 56 58

44 47 44 48 56 55 51 57 61 59

46 48 45 49 56 55 55 58 61 60

46 50 48 50 56 55 56 60 62 62

47 50 49 51 58 56 57 64 63 63

48 51 49 52 59 57 57 64 63 63

48 51 50 53 59 58 57 65 64 64

49 51 50 55 60 60 58 65 64 65

49 51 50 57 61 60 58 67 67 67

50 52 51 63 61 60 61 68 69 67

50 52 51 64 61 63 62 72 72 67

51 54 52 65 62 66 63 73 72 68

54 54 54 66 63 67 63 76 74 69

54 57 55 69 64 67 65 77 77 69

58 57 55 70 67 68 71 77 79 77

Fonte: Fisher (1936).

1) Calcular a amplitude total. 2) Calcular o número de classes para construir uma distribuição de freqüências. 3) Calcular a amplitude de cada classe. 4) Determinar os intervalos e limites de classes. 5) Distribuir as freqüências. 6) Calcular as freqüências acumuladas. 7) Calcular os pontos médios. 8) Traçar o histograma.

Resposta:

Classe Comprimento (mm) Flores faci fadi fri Ponto médio 1 43 |-- 47 9 9 150 0,0600 45 2 47 |-- 51 23 32 141 0,1533 49 3 51 |-- 55 19 51 118 0,1267 53 4 55 |-- 59 28 79 99 0,1867 57 5 59 |-- 63 20 6 63 |-- 67 23 7 67 |-- 71 16 8 71 |-- 75 6 9 75 |-- 79 6 150 6 Total 150

Page 16: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

16

0

5

10

15

20

25

30

Figura 3.4 – Histograma para os dados do Quadro 3.1.

Referências Brodnjak – Vončina, D., Kodba, Z., Novič, M., Multivariate data analysis in classification of vegetable oils characterized by the content of fatty acids. Chemometrics and Intelligent Laboratory Systems 75, pp. 31-43, 2005. Fisher, R. A., The use of multiple measurements in taxonomic problems. Annals of Eugenics 7, pp. 179-178, 1936. Johnson, R. A., Wichern, D. W., Applied multivariate statistical analysis. 2nd. Ed. New Jersey: Prentice-Hall International, Inc., 1988.

Page 17: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

17

4. MEDIDAS DE TENDENCIA CENTRAL OU DE POSIÇÃO

São medidas utilizadas principalmente para a descrição de dados. Neste caso o que se deseja encontrar são os valores representativos do conjunto de dados, de modo a resumir ao máximo as observações sobre os dados em questão. As principais medidas de posição são a média aritmética, a mediana e a moda. As definições, e algumas propriedades, destas medidas são brevemente descritas a seguir. 4.1 – Média Aritmética ( x )

Seja um conjunto de dados x1 , x2 , ... , xn . A média aritmética, ou simplesmente “média”, é dada por

n

x

x

n

ii∑

== 1 (4.1)

Exemplo 4.1 – Seja o conjunto 2 , 4 , 3 , 5 , 6 , 2 , 5. Então a média aritmética é:

8571,37

5265342=

++++++=x .

OBS: A notação x é empregada para representar a média de uma amostra de valores. A média da população costuma ser representada pela letra grega µ (“mi” ou “mu”). 4.1.1 – Propriedades da Média Aritmética: P1: Se uma constante k é somada a cada valor do conjunto, então a média será acrescida de k. Exemplo 4.2 – Se todos os valores do conjunto do exemplo 3.1 forem aumentados em 5, a média será 8,8571. P2: Se cada valor do conjunto é multiplicado por uma constante k, então a média também será multiplicada pelo mesmo valor. Exemplo 4.3 – Se todos os valores do conjunto do exemplo 3.1 forem multiplicados por 5, a média será 19,2855.

P3: Seja xxd ii −= o desvio do i – ésimo valor em relação à média aritmética. Então ∑=

=n

iid

1

0 .

4.1.2 – Média Aritmética Ponderada

Para dados agrupados em distribuições de freqüências calcula-se a média ponderada, sendo que a freqüência observada para cada valor é o peso do mesmo. Então, se um conjunto de n valores foi agrupado em k classes, com pontos médios X1 , X2 , ... , Xk , e freqüências simples f1 , f2 , ... , fk , respectivamente, então a média aritmética é dada por:

=

==k

ii

k

iii

f

fX

x

1

1 (4.2)

Page 18: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

18

Exemplo 4.4 – O teor médio de ácido palmítico, para os dados da Tabela 3.1, é dado por:

Classe Teores de Ácido Palmítico (%) Observações (fi) Xi Xi fi

1 3,8 |-- 5,0 9 4,4 39,6 2 5,0 |-- 6,2 24 3 6,2 |-- 7,4 21 4 7,4 |-- 8,6 8 5 8,6 |-- 9,8 6 6 9,8 |-- 11,0 24 7 11,0 |-- 12,2 21 8 12,2 |-- 13,4 7 12,8 89,6 Total (n) 120

54,8120

4,1024≅=x

OBS: Se a média para os 120 valores fosse obtida diretamente do conjunto, através da fórmula (4.1), o valor encontrado seria 8,40. 4.2 – Mediana ( x~ )

É o valor que ocupa a posição central em um conjunto de dados, quando organizados em ordem crescente. Se a quantidade de valores é ímpar, a mediana, ou valor mediano, é simplesmente o valor central. Se a quantidade de valores é par, a mediana é a média dos dois valores centrais. Exemplo 4.5 – Seja o conjunto 2 , 2 , 3 , 5 , 5 , 6 , 7 , 7 , 9 , 9 , 10. Neste caso a mediana é x~ = 6. Exemplo 4.6 – Seja o conjunto 0 , 1 , 1 , 2 , 3 , 4 , 5 , 5 , 6 , 6 , 7 , 8. Aqui a mediana é dada pela média dos dois valores centrais, isto é, x~ = (4 + 5)/2 = 4,5. 4.2.1 – Mediana para dados agrupados em distribuições de freqüências

Para dados agrupados em distribuições de freqüências pode-se utilizar para o cálculo da mediana a expressão:

hfme

fcan

LIx x

+= 2~~

(4.3)

onde: LIx = limite inferior da classe que contém o valor mediano, isto é, da classe cuja freqüência acumulada crescente é igual ou imediatamente superior a n / 2. fca = freqüência acumulada crescente da classe anterior à classe que contém o valor mediano. fme = freqüência simples da classe que contém o valor mediano. h = amplitude da classe que contém o valor mediano. Exemplo 4.7 – O teor mediano de ácido palmítico, para os dados da Tabela 3.1, é dado por:

Classe Teores de Ácido Palmítico (%) Observações (fi) faci

1 3,8 |-- 5,0 9 9 2 5,0 |-- 6,2 24 33 3 6,2 |-- 7,4 21 54 4 7,4 |-- 8,6 8 62 5 8,6 |-- 9,8 6 6 9,8 |-- 11,0 24 7 11,0 |-- 12,2 21 8 12,2 |-- 13,4 7 Total (n) 120

Page 19: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

19

602

=n (Então a mediana pertence à 4ª. classe).

LIx = 7,4 fca = 54 fme = 8 h = 8,6 – 7,4 = 1,2 Substituindo na expressão (4.3): OBS: Se a mediana fosse obtida a partir da definição, diretamente do conjunto de dados, o valor encontrado seria 8,25. 4.3 - Moda

A moda, ou valor modal, de um conjunto de dados é o valor com maior freqüência individual. É importante ressaltar que o valor modal pode não existir, além disto, caso exista, pode não ser único. Neste último caso, diz-se que o conjunto é bimodal, trimodal, etc. Exemplo 4.8 – O valor modal para o conjunto de observação dos teores de ácido palmítico é 6,2, cuja freqüência é 10.

3,8 5,2 6,1 6,4 8,3 10,1 10,9 11,5 3,9 5,4 6,1 6,4 8,3 10,2 10,9 11,5 4,1 5,4 6,1 6,5 9,3 10,4 11 11,5 4,5 5,5 6,2 6,6 9,4 10,4 11 11,5 4,6 5,6 6,2 6,7 9,6 10,5 11 11,6 4,8 5,7 6,2 6,7 9,7 10,5 11 11,6 4,8 5,9 6,2 6,8 9,7 10,5 11,1 11,9 4,8 5,9 6,2 7 9,7 10,5 11,1 11,9 4,9 5,9 6,2 7,2 9,8 10,5 11,1 12,2 5 6 6,2 7,5 9,8 10,5 11,1 12,2

5,1 6 6,2 7,6 9,8 10,7 11,2 12,2 5,1 6 6,2 7,7 9,9 10,8 11,2 13 5,1 6 6,2 8 10 10,8 11,3 13 5,1 6,1 6,3 8 10 10,9 11,4 13,1 5,1 6,1 6,4 8,2 10 10,9 11,4 13,1

Para dados agrupados em distribuições de freqüências, a moda pode ser calculada através da fórmula dada por:

hLIMo

∆+∆

∆+=

21

1mod

(4.4)

onde: LImod = limite inferior da classe modal, isto é, a de maior freqüência simples. ∆1 = (freqüência simples da classe modal menos a freqüência simples da classe anterior). ∆2 = (freqüência simples da classe modal menos a freqüência simples da classe posterior). h = amplitude da classe modal. Exemplo 4.9 – Calcular a moda para a distribuição de freqüências dos teores de ácido palmítico. A distribuição de freqüências é dada na tabela a seguir.

Classe Teores de Ácido Palmítico (%) Observações (fi)

Page 20: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

20

1 3,8 |-- 5,0 9 2 5,0 |-- 6,2 24 3 6,2 |-- 7,4 21 4 7,4 |-- 8,6 8 5 8,6 |-- 9,8 6 6 9,8 |-- 11,0 24 7 11,0 |-- 12,2 21 8 12,2 |-- 13,4 7 Total (n) 120

Neste caso as classes 2 e 6 têm a mesma freqüência. Então a distribuição obtida é bimodal, conforme se pode notar na Figura 3.3, com a curva de freqüências para este conjunto de dados. As respectivas modas são: Primeiro valor modal: LImod = 5,0 ∆1 = 24 – 9 = 15 ∆2 = 24 – 21 = 3 h = 6,2 – 5,0 = 1,2 Substituindo na fórmula (4.4):

=

++= ),(,Mo 21

315051

.

Segundo valor modal: LImod = 9,8 ∆1 = 24 – 6 = 18 ∆2 = 24 – 21 = 3 h = 11,0 – 9,8 = 1,2 Substituindo na fórmula (4.4):

=

++= ),(,Mo 21

318892

.

OBS: É importante chamar a atenção para o fato de que nenhum dos valores coincide com o real valor modal, que é igual a 6,2. Comentário

Nos exemplos anteriores é possível observar que as medidas calculadas para um conjunto de dados podem apresentar discrepância quando calculadas através de abordagens distintas. Para a distribuição de freqüências dos teores (%) de ácido palmítico observados em amostras de óleos vegetais, por exemplo, a média aritmética foi calculada como 8,54, para os dados agrupados, e 8,40 para os dados apenas ordenados. O mesmo ocorre com a mediana, que, por definição, é 8,25. Entretanto, para os mesmos dados, quando agrupados, a mediana é igual a 8,30. Para o cálculo da moda a diferença é ainda mais gritante, pois foram encontrados dois valores, 6,0 e 10,8, para a moda. Contudo, é fácil perceber que o valor em questão é igual a 6,2.

Este tipo de ocorrência deve ser levado em consideração quando se opta pela apresentação, e

tratamento, de dados na forma de distribuições de freqüências. O fácil acesso a programas computacionais e aplicativos pode tornar dispensável a construção de distribuições de freqüências, especialmente quando o interesse do estudo restringe-se aos resultados obtidos para as diferentes medidas aqui estudadas. Neste caso, a distribuição de freqüências pode ser usada apenas como meio de apresentação dos dados.

Page 21: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

21

4.4 – Relação entre Média, Mediana e Moda

A relação entre os valores encontrados para a média, para a mediana e para a moda indica o tipo de assimetria da distribuição de freqüências. Aqui entende-se por assimetria o grau de desvio dos dados em relação ao centro da distribuição.

Figura 4.1 – Assimetria positiva (Mo < x~ < x ).

Figura 4.2 – Assimetria negativa (Mo > x~ > x ).

22

Figura 4.3 – Distribuição simétrica (normal) (Mo = x~ = x ).

Na prática é comum obter distribuições de freqüências cujas medidas não apresentam nenhum dos comportamentos descritos, e ilustrados, nas Figuras 4.1 a 4.3. Neste caso recomenda-se excluir a moda nas relações mostradas acima, isto é, comparar apenas a média e a mediana. 4.5 - Percentil

O valor mediano é aquele que divide um conjunto de dados ordenados em duas partes iguais. Da mesma forma, também pode ser útil discriminar valores correspondentes a uma determinada percentagem. Este tipo de situação ocorre, por exemplo, quando se deseja determinar a renda familiar que define os 10% mais ricos em uma sociedade.

Page 22: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

22

Para determinar certo percentil em um conjunto de dados é suficiente ordenar estes mesmos dados e localizar o elemento correspondente à fração desejada, de modo análogo ao usado para determinar a mediana. Exemplo 4.10 – Seja o conjunto de dados mostrado no Quadro 4.1. O 90o percentil é o valor que separa 90% dos exemplares com menor largura dos 10% com a maior largura. Então, considerando que o conjunto tem n = 150 observações, basta separar os 15 últimos elementos, que são justamente os pertencentes à última coluna. Neste caso o 90o percentil é igual a 37. Isto significa que 90% dos exemplares apresentam largura inferior a 37 mm.

Quadro 4.1 – Larguras (em mm) das sépalas observadas em 150 exemplares de flores íris.

20 25 27 28 30 30 31 32 34 37

22 25 27 28 30 30 31 32 34 37

22 25 27 29 30 30 31 33 34 37

22 25 28 29 30 30 31 33 34 38

23 26 28 29 30 30 32 33 34 38

23 26 28 29 30 30 32 33 35 38

23 26 28 29 30 30 32 33 35 38

23 26 28 29 30 30 32 33 35 38

24 26 28 29 30 31 32 34 35 38

24 27 28 29 30 31 32 34 35 39

24 27 28 29 30 31 32 34 35 39

25 27 28 29 30 31 32 34 36 40

25 27 28 30 30 31 32 34 36 41

25 27 28 30 30 31 32 34 36 42

25 27 28 30 30 31 32 34 36 44

Fonte: Fisher (1936). Para dados agrupados em distribuições de freqüências pode-se utilizar a fórmula dada por:

hfP

fcapn

LIP Pp

+= 100 (4.5)

onde: LIP = limite inferior da classe que contém o p–ésimo percentil, isto é, da classe cuja freqüência acumulada crescente é igual ou imediatamente superior a pn / 100. fca = freqüência acumulada crescente da classe anterior à classe que contém o p–ésimo percentil. fP = freqüência simples da classe que contém o p–ésimo percentil. h = amplitude da classe que contém o p–ésimo percentil. Exemplo 4.11 – Calcular o 90o percentil e o 10o percentil para os dados da distribuição de freqüências dos dados mostrados no Quadro 4.1.

Classes Largura (mm) Exemplares faci

1 20 |-- 23 4 4 2 23 |-- 26 15 19 3 26 |-- 29 28 47 4 29 |-- 32 47 94 5 32 |-- 35 31 125 6 35 |-- 38 13 138 7 38 |-- 41 9 147 8 41 |--| 44 3 150 Total 150

Page 23: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

23

Neste caso: p = 90. Então 135100

15090=

× . O valor procurado pertence à 6ª. classe, que tem freqüência

acumulada crescente igual a 138. LIP = 35 fca = 125 fP = 13 h = 38 – 35 = 3

Substituindo na fórmula 4.5: 3,37)3(13

1251353590 ≅

−+=P .

O cálculo do 10o percentil é deixado como exercício. 4.6 - Decil

Esta medida é aplicada quando de deseja dividir um conjunto de dados ordenados em dez partes iguais. Não é difícil perceber que:

D1 = P10 D2 = P20 D3 = P30

... D9 = P90

Exemplo 4.12 – Para os dados do Quadro 4.1, o quarto decil corresponde ao valor que separa quatro décimos, ou 40% dos valores. Para n = 150 observações, isto representa 60 valores, ou as quatro primeiras colunas. Então D4 = 30. 4.7 - Quartil

Esta medida divide um conjunto de dados ordenados em quatro partes iguais. Também é fácil perceber que:

Q1 = P25 Q2 = P50 Q3 = P75

Exemplo 4.13 – Para os dados do Quadro 4.1, o terceiro quartil é valor que separa o conjunto em duas partes, uma correspondente a 75% dos valores e outra correspondente a 25% dos valores. Como o conjunto possui 150 observações, e ¾ de 150 correspondem a 112,5, o elemento procurado é a média do 112o e do 113o valores. Então o Q3 = 33 (verifique no próprio quadro !) 4.8 - Exercícios 4.8.1) O Quadro 3.1 foi utilizado para construir uma distribuição de freqüências no Exercício 3.12. Calcular, para a distribuição de freqüências obtida:

1) Média. 2) Mediana. 3) Moda. 4) Comparar os resultados obtidos com os reais valores. 5) Estudar a assimetria da distribuição. 6) Calcular o 10o e o 90o percentís. 7) Calcular o 1o e o 4o quartís.

Respostas: O quadro original é dado a seguir.

Page 24: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

24

Quadro 3.1 – Comprimentos (mm) das sépalas observadas em 150 exemplares de flores íris.

43 46 44 46 50 54 50 49 56 58

44 47 44 48 56 55 51 57 61 59

46 48 45 49 56 55 55 58 61 60

46 50 48 50 56 55 56 60 62 62

47 50 49 51 58 56 57 64 63 63

48 51 49 52 59 57 57 64 63 63

48 51 50 53 59 58 57 65 64 64

49 51 50 55 60 60 58 65 64 65

49 51 50 57 61 60 58 67 67 67

50 52 51 63 61 60 61 68 69 67

50 52 51 64 61 63 62 72 72 67

51 54 52 65 62 66 63 73 72 68

54 54 54 66 63 67 63 76 74 69

54 57 55 69 64 67 65 77 77 69

58 57 55 70 67 68 71 77 79 77

Fonte: Fisher (1936). A distribuição de freqüências obtida é dada na tabela a seguir.

Classe Comprimento (mm) Flores faci fadi fri Ponto médio 1 43 |-- 47 9 9 150 0,0600 45 2 47 |-- 51 23 32 141 0,1533 49 3 51 |-- 55 19 51 118 0,1267 53 4 55 |-- 59 28 79 99 0,1867 57 5 59 |-- 63 20 99 71 0,1333 61 6 63 |-- 67 23 122 51 0,1533 65 7 67 |-- 71 16 138 28 0,1067 69 8 71 |-- 75 6 144 12 0,0400 73 9 75 |-- 79 6 150 6 0,0400 77 Total 150

1) Média: x = 59,03 mm.

2) Mediana: x~ = 58,43 mm. 3) Moda: Mo = 57,12 mm. 4) x = 55,42 mm.

4.8.2) O Quadro 4.1 mostra os valores observados para as larguras (mm) das sépalas observadas nos 150 exemplares mencionados nos exemplos anteriores.

1) Construir uma distribuição de freqüências para os dados observados. 2) Calcular a largura média. 3) Calcular a largura mediana. 4) Calcular a largura modal. 5) Comparar os valores obtidos a partir da distribuição de freqüências com os valores obtidos

diretamente no conjunto de dados. 6) Estudar a assimetria da distribuição. 7) Calcular o 10o e o 90o percentís.

Page 25: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

25

Quadro 4.1 – Larguras (em mm) das sépalas observadas em 150 exemplares de flores íris.

20 25 27 28 30 30 31 32 34 37 22 25 27 28 30 30 31 32 34 37 22 25 27 29 30 30 31 33 34 37 22 25 28 29 30 30 31 33 34 38 23 26 28 29 30 30 32 33 34 38 23 26 28 29 30 30 32 33 35 38 23 26 28 29 30 30 32 33 35 38 23 26 28 29 30 30 32 33 35 38 24 26 28 29 30 31 32 34 35 38 24 27 28 29 30 31 32 34 35 39 24 27 28 29 30 31 32 34 35 39 25 27 28 29 30 31 32 34 36 40 25 27 28 30 30 31 32 34 36 41 25 27 28 30 30 31 32 34 36 42 25 27 28 30 30 31 32 34 36 44

Fonte: Fisher (1936).

Respostas: 1) A distribuição de freqüências fica:

Classes Largura (mm) Exemplares

1 20 |-- 23 4 2 23 |-- 26 15 3 26 |-- 29 28 4 29 |-- 32 47 5 32 |-- 35 31 6 35 |-- 38 13 7 38 |-- 41 9 8 41 |--| 44 3 Total 150

2) A largura média é: x = 31,02 mm.

3) A largura mediana é: x~ = 30,78 mm.

4) A largura modal é: Mo = 30,63 mm.

0

10

20

30

40

50

20 - 23 23 - 26 26 - 29 29 - 32 32 - 35 35 - 38 38 - 41 41 - 44

Figura 4.4 – Histograma para os dados do Quadro 4.1.

Page 26: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

26

5. MEDIDAS DE DISPERSÃO

A principal utilidade das medidas de tendência central, quando calculadas para determinado conjunto de dados, é a determinação de valores característicos ou típicos deste conjunto. Entretanto, a informação fornecida por tais medidas é incompleta, se não for acompanhada de alguma informação sobre a variabilidade dos dados. Esta informação é obtida através do cálculo de medidas de dispersão, ou variabilidade. 5.1 – Amplitude Total

Seja um conjunto de dados ordenados x(1) , x(2) , ... , x(n) , onde x(1) e x(n) representam o valor mínimo e o valor máximo, respectivamente, do conjunto. A amplitude total é dada por:

)1()( xxR n −= (5.1)

Exemplo 5.1 – A amplitude total para o conjunto de dados do Quadro 4.1 é: R = 44 – 20 = 24 mm.

Quadro 4.1 – Larguras (em mm) das sépalas observadas em 150 exemplares de flores íris.

20 25 27 28 30 30 31 32 34 37 22 25 27 28 30 30 31 32 34 37 22 25 27 29 30 30 31 33 34 37 22 25 28 29 30 30 31 33 34 38 23 26 28 29 30 30 32 33 34 38 23 26 28 29 30 30 32 33 35 38 23 26 28 29 30 30 32 33 35 38 23 26 28 29 30 30 32 33 35 38 24 26 28 29 30 31 32 34 35 38 24 27 28 29 30 31 32 34 35 39 24 27 28 29 30 31 32 34 35 39 25 27 28 29 30 31 32 34 36 40 25 27 28 30 30 31 32 34 36 41 25 27 28 30 30 31 32 34 36 42 25 27 28 30 30 31 32 34 36 44

Fonte: Fisher (1936).

5.2 – Desvio Médio

Seja um conjunto de dados x1 , x2 , ... , xn , não necessariamente ordenados. Então o desvio médio dos valores do conjunto em relação à sua média é dado por:

n

xx

D

n

ii∑

=

= 1 (5.2)

Exemplo 5.2 – O Quadro 5.1 mostra os teores (%) de vanádio encontrados em uma amostra de sete estratos de óleo cru extraídas de solo do tipo “Wilhelm sandstone”.

Quadro 5.1 – Teores de vanádio. Estrato 1 2 3 4 5 6 7

Teor (%) 3,9 2,7 2,8 3,1 3,5 3,9 2,7 Fonte: Johnson e Wichern (1988)

A média é 2286,3=x . O desvio médio é: 4612,07

2286,37,2...2286,39,3=

−++−=D .

Page 27: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

27

Para uma distribuição de freqüências com k classes, com freqüências simples f1 , ... , fk , e pontos médios X1 , ... , Xk , respectivamente, o desvio médio é dado por:

=

=

=k

ii

k

iii

f

fxXD

1

1 (5.3)

Exemplo 5.3 – O desvio médio para a distribuição de freqüências dos dados do Quadro 4.1 é calculado como: A média é x = 31,02 mm.

Classes Largura (mm) Exemplares Ponto Médio (Xi) | Xi – x | | Xi – x | fi 1 20 |-- 23 4 21,5 9,52 38,08 2 23 |-- 26 15 24,5 6,52 97,80 3 26 |-- 29 28 27,5 3,52 98,56 4 29 |-- 32 47 30,5 0,52 24,44 5 32 |-- 35 31 33,5 2,48 76,88 6 35 |-- 38 13 36,5 5,48 71,24 7 38 |-- 41 9 39,5 8,48 76,32 8 41 |--| 44 3 42,5 11,48 34,44 Total 150 517,76

Então 4517,3150

76,517=D .

5.3 – Variância

Seja um conjunto de dados x1 , x2 , ... , xn , não necessariamente ordenados. Assim como o desvio médio, a variância é gerada a partir das diferenças dos valores do conjunto de dados em relação à média do mesmo. Entretanto, é necessário ter em mente a natureza dos dados estudados, mais especificamente, se os mesmos constituem uma população ou uma amostra. Para o primeiro caso, e representando a média populacional por µ , a variância é dada por:

( )

n

xn

ii∑

=

= 1

2

2

µ

σ . (5.4)

A fórmula acima pode ser facilmente transformada para uma expressão mais simples, dada por:

21

2

2 µσ −=∑

=

n

xn

ii

. (5.6)

Quando o conjunto de dados x1 , x2 , ... , xn representa uma amostra, calcula-se o estimador

corrigido para a variância amostral, dado por

( )

11

2

2

=∑

=

n

xx

s

n

ii

. (5.7)

O estimador acima também costuma ser representado por 2σ , e a fórmula (5.7) pode ser transformada para

11

21

2

2

−−

−=∑

=

n

xn

n

x

s

n

ii

. (5.8)

Page 28: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

28

Exemplo 5.4 – Calcular a variância para a amostra de teores de vanádio, mostrados no Quadro 5.1.

Quadro 5.1 – Teores de vanádio. Estrato 1 2 3 4 5 6 7

Teor (%) 3,9 2,7 2,8 3,1 3,5 3,9 2,7 Fonte: Johnson e Wichern (1988)

A média é 2286,3=x . Então, usando a fórmula (5.8):

2833,06

97,72

6

7,74

17

)2286,3)(7(

17

7,2...7,29,3 22222 =−=

−−

+++=s .

Para uma distribuição de freqüências com k classes, com freqüências simples f1 , ... , fk , e pontos

médios X1 , ... , Xk , respectivamente, a variância populacional é dada por:

2

1

1

2

2 µσ −=

=

=

k

ii

k

iii

f

fX . (5.9)

Para dados amostrais, o estimador corrigido é dado por

11

21

2

2

−−

−=∑

=

n

xn

n

fX

s

k

iii

. (5.10)

Exemplo 5.5 – Calcular a variância amostral para os dados da distribuição de freqüências dos dados do Quadro 4.1.

Classes Largura (mm) Exemplares (fi) Ponto Médio (Xi) Xi2 Xi

2fi 1 20 |-- 23 4 21,5 462,25 1849 2 23 |-- 26 15 24,5 600,25 9003,75 3 26 |-- 29 28 27,5 756,25 21175 4 29 |-- 32 47 30,5 930,25 43721,75 5 32 |-- 35 31 33,5 1122,25 34789,75 6 35 |-- 38 13 36,5 1332,25 17319,25 7 38 |-- 41 9 39,5 1560,25 14042,25 8 41 |--| 44 3 42,5 1806,25 5418,75 Total 150 147319,5

A média é x = 31,02 mm. Então, usando a fórmula (5.10):

0231,20149

06,144336

149

5,147319

1150

)02,31)(150(

1150

5,147319 22 =−=

−−

−=s .

Quando não tem à disposição uma planilha de cálculo, ou mesmo uma calculadora adequada,

pode-se reduzir o esforço para calcular a variância. Isto é possível através das fórmulas (5.12) e (5.13), obtidas a partir das fórmulas (5.9) e (5.10), respectivamente. Para tanto basta efetuar a substituição de variável dada por:

ii hdAX += . (5.11)

Efetuada a substituição nas fórmulas (5.9) e (5.10), após convenientes manipulações algébricas obtém-se as fórmulas dadas por:

Page 29: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

29

−=

=

=

=

=

2

1

1

1

1

2

22k

ii

k

iii

k

ii

k

iii

f

fd

f

fd

hσ (5.12)

−−

=

∑∑==

)1(1

2

11

2

22

nn

fd

n

fd

hs

k

iii

k

iii (5.13)

Nas fórmulas acima: A = ponto médio de uma classe de referência escolhida arbitrariamente (em geral escolhe-se a classe modal, isto é, a que possui a maior freqüência simples). h = amplitude de classe (deve ser igual para todas as classes). di = desvio da i-ésima classe em relação à classe escolhida como classe de referência.

∑=

=k

iifn

1

.

Exemplo 5.6 – Calcular a variância amostral para a distribuição de freqüências do exemplo anterior. Escolhendo, arbitrariamente, a quarta classe como classe de referência:

Classes Largura (mm) Exemplares (fi) di difi di2fi

1 20 |-- 23 4 - 3 - 12 36 2 23 |-- 26 15 - 2 - 30 60 3 26 |-- 29 28 - 1 - 28 28 4 29 |-- 32 47 0 0 0 5 32 |-- 35 31 1 31 31 6 35 |-- 38 13 2 26 52 7 38 |-- 41 9 3 27 81 8 41 |--| 44 3 4 12 48 Total 150 26 336

Lembrando que h = 3 e n = 150:

[ ] 0232,200302,02550,29)1150)(150(

26

1150

336)3(

222 =−=

−−

−=s

5.3.1 – Método Breve para o Cálculo da Média Aritmética

A substituição (5.15) aplicada à fórmula da média, permite a seguinte transformação:

=

==k

ii

k

iii

f

fX

x

1

1 ↔

=

=+=k

ii

k

iii

f

fd

hAx

1

1 (5.14)

A fórmula (5.14) também é conhecida como Método Breve para o cálculo da média. 5.4 – Desvio Padrão

È dado pela raiz quadrada da variância. Deste modo, para o cálculo do desvio padrão, deve-se levar em consideração a natureza dos dados. È a medida de dispersão mais utilizada para a descrição de dados, juntamente com a média aritmética.

Page 30: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

30

Seja o conjunto de dados x1 , x2 , ... , xn , não necessariamente ordenados. Se o conjunto

representa uma população, o desvio padrão é dado por:

21

2

µσ −=∑

=

n

xn

ii

. (5.15)

Se o conjunto representa uma amostra, o estimador corrigido é dado por:

11

21

2

−−

−=∑

=

n

xn

n

x

s

n

ii

. (5.16)

Exemplo 5.7 – Calcular o desvio padrão para os dados do Quadro 5.1.

Quadro 5.1 – Teores de vanádio. Estrato 1 2 3 4 5 6 7

Teor (%) 3,9 2,7 2,8 3,1 3,5 3,9 2,7 Fonte: Johnson e Wichern (1988)

A média é 2286,3=x . Então, usando a fórmula (5.16):

5323,02833,017

)2286,3)(7(

17

7,2...9,3 222

==−

−−

++=s .

5.4.1 – Desvio Padrão para Dados Agrupados em Distribuições de Freqüências

Para uma distribuição de freqüências com k classes, com freqüências simples f1 , ... , fk , e pontos médios X1 , ... , Xk , respectivamente, o desvio padrão populacional é dado por:

2

1

1

2

µσ −=

=

=

k

ii

k

iii

f

fX . (5.17)

O estimador corrigido para o desvio padrão amostral é dado por:

11

21

2

−−

−=

∑=

n

xn

n

fXs

k

iii

. (5.18)

Para o cálculo do desvio padrão através das fórmulas (5.17) e (5.18) também é possível efetuar a

mesma substituição de variável aplicada ao cálculo da variância. Neste caso as duas fórmulas são transformadas para:

2

1

1

1

1

2

−=

=

=

=

=

k

ii

k

iii

k

ii

k

iii

f

fd

f

fd

hσ , (5.19)

e

)1(1

2

11

2

−−

=

∑∑==

nn

fd

n

fd

hs

k

iii

k

iii

. (5.20)

Page 31: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

31

5.5 – Coeficiente de Variação É definido como a razão entre o desvio padrão e a média, isto é

x

sCV = (5.21)

Exemplo 5.8 – Calcular o coeficiente de variação para os dados do Quadro 5.1.

1649,02286,3

5323,0==CV .

5.6 – Exercícios 5.6.1) Seja a distribuição de freqüências dos dados do Quadro 3.1, ou seja:

Classe Comprimento (mm) Flores faci fadi fri Ponto médio 1 43 |-- 47 9 9 150 0,0600 45 2 47 |-- 51 23 32 141 0,1533 49 3 51 |-- 55 19 51 118 0,1267 53 4 55 |-- 59 28 79 99 0,1867 57 5 59 |-- 63 20 99 71 0,1333 61 6 63 |-- 67 23 122 51 0,1533 65 7 67 |-- 71 16 138 28 0,1067 69 8 71 |-- 75 6 144 12 0,0400 73 9 75 |-- 79 6 150 6 0,0400 77 Total 150

Calcular:

1) O desvio padrão. 2) O coeficiente de variação.

5.6.2) Repetir o exercício anterior para os dados da distribuição de teores de ácido palmítico.

Classe Teores de Ácido Palmítico (%) Observações (fi)

1 3,8 |-- 5,0 9 2 5,0 |-- 6,2 24 3 6,2 |-- 7,4 21 4 7,4 |-- 8,6 8 5 8,6 |-- 9,8 6 6 9,8 |-- 11,0 24 7 11,0 |-- 12,2 21 8 12,2 |-- 13,4 7 Total (n) 120

Respostas: Desvio padrão: s = 2,6515 ; Coeficiente de variação: CV = 0,3123.

6. ASSIMETRIA E CURTOSE

Assimetria é o afastamento de uma distribuição em relação a um valor central. Curtose é o achatamento de uma distribuição. 6.1 – Coeficiente de Assimetria

Já foi visto que uma distribuição de freqüências pode ser assimétrica positiva, negativa ou simétrica, neste caso também chamada distribuição normal. Os três casos são ilustrados nas figuras a seguir.

Page 32: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

32

Figura 4.1 – Assimetria positiva (Mo < x~ < x ).

Figura 4.2 – Assimetria negativa (Mo > x~ > x ).

22

Figura 4.3 – Distribuição simétrica (normal) (Mo = x~ = x ).

O coeficiente de assimetria de Pearson mede o afastamento que caracteriza o tipo de assimetria.

Este coeficiente é dado por:

s

xxass

)~(3 −= . (6.1)

Exemplo 5.1 – Calcular o coeficiente de assimetria para os dados do Quadro 5.1. Depois de ordenados, os valores ficam:

Quadro 5.1 – Teores de vanádio (ordenados) Estrato (1) (2) (3) (4) (5) (6) (7)

Teor (%) 2,7 2,7 2,8 3,1 3,5 3,9 3,9 Fonte: Johnson e Wichern (1988)

A média é x = 3,2286 e o desvio padrão é s = 0,5323. A mediana é x~ = 3,1. Então:

Page 33: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

33

7248,05323,0

)1,32286,3(3=

−=ass .

6.2 – Coeficiente de Curtose

O coeficiente de curtose mede o achatamento de uma distribuição de freqüências, em comparação com uma distribuição normal. Na prática só é calculado para distribuições simétricas, ou muito aproximadamente simétricas. O coeficiente percentílico de curtose é dado por:

)(2 1090

2575

PP

PPC

−= . (6.2)

Para uma distribuição normal, o coeficiente de curtose é C = 0,263. Se o valor calculado para C é inferior a 0,263, diz-se que a distribuição é leptocúrtica (alongada). Se o valor é superior a 0,263, diz-se que a distribuição é platicúrtica (achatada). As três situações são ilustradas nas Figuras 6.1, 6.2 e 6.3.

0

10

20

30

40

50

60

70

Figura 3.1 – Distribuição leptocúrtica.

0

5

10

15

20

25

30

35

40

45

Figura 3.2 – Distribuição mesocúrtica.

Page 34: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

34

0

5

10

15

20

25

30

Figura 3.3 – Distribuição platicúrtica.

A caracterização do tipo de curtose auxilia na avaliação da dispersão dos dados do conjunto.

Uma distribuição leptocúrtica possui dispersão baixa, enquanto uma distribuição platicúrtica possui dispersão elevada, tomando como referência a dispersão verificada em uma distribuição normal. 6.3 – Exercícios 6.3.1) Seja a distribuição de freqüências para os dados do Quadro 4.1. Isto é,

Classes Largura (mm) Exemplares 1 20 |-- 23 4 2 23 |-- 26 15 3 26 |-- 29 28 4 29 |-- 32 47 5 32 |-- 35 31 6 35 |-- 38 13 7 38 |-- 41 9 8 41 |--| 44 3 Total 150

Calcular:

1) O coeficiente de assimetria de Pearson. 2) O coeficiente percentílico de curtose.

Page 35: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

35

EXERCÍCIOS DE REVISÃO O Quadro 6.1 contém os teores de ácido oléico observados em 120 observações de óleos vegetais.

22,3 25,1 26,8 30,4 34,8 52,2 22,7 25,1 27 31 34,9 53,2 22,8 25,2 27,1 31,1 35 54,6 22,9 25,3 27,1 31,1 35 55,5 23,1 25,3 27,1 31,1 35 55,9 23,1 25,3 27,2 31,1 35,2 56,6 23,2 25,5 27,4 31,1 35,2 57,2 23,2 25,6 27,8 31,7 35,2 58 24 25,7 28,3 31,7 35,4 58,2

24,1 25,7 28,3 31,8 35,8 59 24,1 25,8 28,3 31,8 37,4 59,1 24,4 25,8 29,1 32,1 37,7 59,2 24,4 25,9 29,4 32,6 38,4 59,2 24,4 26 29,5 32,9 39,3 59,3 24,5 26 29,6 33,6 39,7 61,6 24,5 26,1 29,6 33,6 40,1 61,8 24,6 26,1 29,8 33,9 41,4 62,6 24,6 26,4 29,9 34 43 64,9 24,7 26,5 30,3 34,4 43,3 77,8 24,9 26,7 30,4 34,5 45,7 80,6

1) Construir uma distribuição de freqüências para os dados. 2) Traçar o histograma. 3) Calcular a média aritmética. 4) Calcular a mediana. 5) Calcular a moda. 6) Tanto a mediana como a moda podem ser obtidas diretamente no Quadro 6.1. Comparar os

valores encontrados pela observação direta com os valores obtidos pelas fórmulas, nos exercícios 4 e 5.

7) Calcular o desvio padrão. 8) Estudar a assimetria da distribuição. 9) O cálculo do coeficiente de curtose é justificado para este conjunto de dados ? Por quê ?

Algumas respostas:

1) Amplitude total: R = 58,3; Número de classes: k = 1 + 3,3log(120) = 8 ; Amplitude de classe (R/n) : h = 7,3.

Page 36: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

36

7. TEORIA DA PROBABILIDADE

As mais freqüentes aplicações da estatística envolvem processos de tomada de decisões sob condições de incerteza. Este tipo de situação ocorre, por exemplo, em processos de inspeção de qualidade. Aqui o tomador de decisões deve decidir, após inspecionar uma amostra, se um lote de certo produto está conforme parâmetros de qualidade previamente definidos. Neste caso a incerteza decorre de fatores como tamanho da amostra, representatividade da mesma e método de inspeção, entre outros. Esta incerteza é tratada pela estatística com o auxílio da teoria da probabilidade. Na seqüência apresenta-se uma breve revisão dos principais conceitos envolvidos no estudo desta teoria. 7.1 – Teoria dos Conjuntos 7.1.1 – Conjunto. É o termo empregado para designar uma lista, ou coleção, bem definida de elementos. Um conjunto é representado por letra maiúscula, enquanto seus elementos são representados por letras minúsculas. Se um elemento x pertence a um conjunto C, escreve-se Cx ∈ . Caso contrário, Cx ∉ . Diz–se que um conjunto A está contido em outro conjunto B, se todos os elementos de A pertencem também ao conjunto B. Neste caso escreve-se BA ⊂ , ou AB ⊃ . A negação para a primeira representação é BA ⊄ . Há duas formas de se representar um conjunto. Pode-se listar os seus elementos ou utilizar uma representação gráfica conhecida como Diagrama de Venn. Seja por exemplo o conjunto C, de todos os resultados observáveis no lançamento de um dado. Então:

C = 1 , 2 , 3 , 4 , 5 , 6

1 2 3 4 5 6

Se um conjunto V não possui quaisquer elementos, diz-se que o mesmo é vazio. Neste caso pode-se representar como V = ou V = Ø. 7.1.2 – Operações com Conjuntos

Sejam A, B e C três conjuntos arbitrários. São definidas as seguintes operações: 7.1.2.1 – União A união dos conjuntos A e B é o conjunto formado por todos os elementos que pertencem a A ou a B.

: BxAxxBA ∈∨∈=∪ .

Exemplo 7.1 – Seja os conjuntos A = 1,2,3,4,5,6,7,8,9 e B = 7,8,9,10,11,12. Então a união de A e B resulta no conjunto 12,11,10,9,8,7,6,5,4,3,2,1=∪ BA .

7.1.2.2 – Intersecção A intersecção dos conjuntos A e B é o conjunto formado por todos os elementos que pertencem a A e a B.

BxAxBA ∈∧∈=∩ . Exemplo 7.2 – A intersecção dos conjuntos A e B do exemplo anterior resulta no conjunto

9,8,7=∩ BA .

Page 37: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

37

7.1.2.3 – Diferença

A diferença dos conjuntos A e B é o conjunto de elementos de que pertencem ao conjunto A, mas não ao conjunto B.

:\ BxAxxBA ∉∧∈= .

Se BA ⊂ , diz-se que B \ A é o complemento de A em relação a B.

B A Exemplo 7.3 – A diferença dos conjuntos A e B dos exemplos anteriores resulta no conjunto

6,5,4,3,2,1\ =BA .

Exemplo 7.4 – Sejam os conjuntos X = 2,3,4,5,6,7 e Y = 4,5,6. Então o complemento de Y em relação a X é X \ Y = 2,3,7. 7.1.3 – Conjuntos Finitos e Enumeráveis

Diz-se que um conjunto A é finito quando é formado por n elementos, onde n é um número inteiro positivo. Diz-se que um conjunto é enumerável quando é possível atribuir uma seqüência aos seus elementos. Exemplo 7.5 – Seja X o conjunto de todos os possíveis resultados observáveis no lançamento de um dado. Neste caso, X = 1,2,3,4,5,6 é finito e enumerável. Exemplo 7.6 – Seja I o conjunto de todos os números reais compreendidos entre 0 e 1. Então o conjunto dado por I = x : 0 < x < 1 não é finito e nem enumerável. Exemplo 7.7 – Seja P o conjunto de todos os números inteiros positivos ímpares. Então o conjunto dado por P = 1,3,5,... é infinito e enumerável. 7.1.4 – Produto Cartesiano

Sejam dois conjuntos, A e B. O produto cartesiano de A e B, representado por A × B é o conjunto de todos os pares ordenados (x , y) onde x pertence a A e y pertence a B.

:),( ByAxyxBA ∈∧∈=×

Exemplo 7.8 – Sejam os conjuntos A = 2,4,6 e B = 5,7. Então o produto cartesiano é o conjunto dado por A × B = (2,5) , (2,7) , (4,5) , (4,7) , (6,5) , (6,7). 7.1.5 – Classes

Há situações nas quais os elementos de um conjunto também são conjuntos. Seja por exemplo o conjunto dos números naturais, IN. O subconjunto de todos os múltiplos de 7 forma um conjunto. Seja um conjunto A. Uma classe de A é um conjunto de subconjuntos de A. Exemplo 7.9 – Seja o conjunto A = 1,2,3,4,5,6,7,8,9,10. Algumas classes de A são dadas por: [1,3,5,7,9 , 2,4,6,8,10 , 1,2,3,4] , [1,3,5 , 7,9 , 2,4 , 6,8,10] , [1,3,5,7,9].

Page 38: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

38

7.1.5.1 – Classe Indexada

Em algumas situações utiliza-se a expressão classe indexada de conjuntos, cuja notação

geralmente é : IiAi ∈ . Neste caso deseja-se esclarecer que a cada elemento i de I corresponde um

conjunto A i . O conjunto I é chamado conjunto dos índices, e os conjuntos A i são os conjuntos indexados por I. Quando I é subconjunto do conjunto IN, dos números naturais, a classe indexada A1 , A2 , ... é chamada seqüência de conjuntos.

O conjunto de elementos, cada um dos quais pertencente a pelo menos um conjunto A i , é

chamado união dos A i , e pode ser representado por iIi A∈U .

O conjunto de elementos, cada um dos quais pertencente a todos os conjuntos A i , é chamado

intersecção dos A i , e pode ser representado por iIi A∈I .

7.1.6 – Partição

Seja um conjunto A. Uma partição é uma classe de subconjuntos não vazios e disjuntos deste conjunto. Exemplo 7.10 – Seja o conjunto D = 2,3,4,5,7,8,9. Uma partição de D é [2,3,4 , 5,7 , 8,9]. Por outro lado, a classe [2,3,4 , 4,5,7 , 8,9] não é uma partição, pois o elemento “4” pertence a dois subconjuntos. 7.1.7 – σ – Álgebra

Sejam um conjunto A e uma classe A não vazia de subconjuntos de iIi A∈U . Diz-se que A é

uma σ – álgebra se:

1. O complemento de qualquer conjunto de A pertence a A. 2. A união de um número finito, e enumerável, de conjuntos de A pertence a A.

7.2 – Técnicas de Contagem De acordo com o princípio fundamental da contagem, se um procedimento pode ser executado de m modos possíveis, e um segundo procedimento pode ser executado de n modos possíveis, então o número de modos pelos quais é possível executar os dois procedimentos é m.n . Exemplo 7.11 – Seja um experimento que consiste em lançar um dado e, na seqüência, uma moeda. Então o número de possíveis resultados é 6.2 = 12. Exemplo 7.12 – Quantas placas com três letras seguidas de quatro algarismos podem ser confeccionadas, sabendo que nenhuma placa possui quatro algarismos iguais a zero ? Neste caso pode-se considerar que há 26 letras disponíveis (incluindo k, w e y) e 10 algarismos, 0 , ... , 9. Como nenhuma placa pode ter quatro algarismos iguais a zero, para a última posição há nove algarismos possíveis. Então o total de placas possíveis é: 26 × 26 × 26 × 10 × 10 × 10 × 9 = 158 184 000

7.2.1 – Fatorial

Seja n um número inteiro positivo. O fatorial de n é dado por:

1)...2)(1(! −−= nnnn . (7.1)

É possível demonstrar que 0 ! = 1. Exemplo 7.13 – 5 ! = 5.4.3.2.1 = 120 ; 8 ! / 6 ! = (8.7.6 !) / 6 ! = 8.7 = 56.

Page 39: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

39

7.2.2 – Coeficiente Binomial

Sejam dois números inteiros positivos n e p, tais que p ≤ n. Então o coeficiente binomial de n sobre p é dado por:

!)(!

!

pnp

n

p

n

−=

. (7.2)

Exemplo 7.14 – 212

42

1.2

6.7

1.2!5

!5.6.7

!2!5

!7

)!57(!5

!7

5

7=====

−=

Propriedades:

P1: 10

=

n.

P2: nn

=

1.

P3: 1=

n

n.

P4: Se p + q = n , então

=

q

n

p

n.

7.2.3 – Permutação

A disposição dos elementos de um conjunto seguindo certa ordem é chamada permutação. O total de permutações que pode efetuar com n elementos é dado por

!nPn = . (7.3)

Exemplo 7.15 – Seja o conjunto X = 2,4,6. As possíveis permutações com os três elementos são: 246 , 426 , 462 , 264 , 624 , 642. Total: 3 ! = 3.2.1 = 6. 7.2.4 – Arranjo

Sejam n elementos. Uma permutação de p, p ≤ n, destes elementos, de acordo com determinada ordem, é denominada arranjo. O número de arranjos de n elementos, tomados p a p, é dado por:

!)(

!, pn

nA pn

−= . (7.4)

Exemplo 7.16 – Sejam os algarismos 1 , 2 , ... , 8 , 9. Quantos números com três dígitos podem ser formados a partir dos algarismos dados ?

5047.8.9!6

!6.7.8.9

!6

!93,9 ====A .

OBS: Alguns autores não fazem distinção entre permutação e arranjo, preferindo utilizar apenas a primeira expressão.

Page 40: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

40

7.2.5 – Permutação com Repetição

Há situações nas quais alguns dos n elementos com os quais deseja-se efetuar um arranjo são iguais. Então, se n1 , n2 , ... , nr são iguais, o número de permutações é dado por:

!...!!

!

21 rnnn

n . (7.5)

Exemplo 7.17 – De quantos modos é possível arranjar as letras da palavra PARANÁ ?

120!3

!3.4.5.6

!3

!6==

7.2.6 – Combinação

Sejam n elementos. Uma disposição de p, p ≤ n, destes elementos, sem levar em consideração a ordem, é denominada combinação. O número de combinações de n elementos, tomados p a p, é dado por:

=

p

nC pn , . (7.6)

Exemplo 7.18: Sejam os algarismos 1 , 2 , ... , 8 , 9. Quantas combinações com três dígitos podem ser formadas a partir dos algarismos dados ? Neste caso considera-se que 567 e 675, por exemplo, são uma só combinação, já que a ordem é irrelevante. Então o total de combinações é dado por:

84!6.1.2.3

!6.7.8.9

!6!3

!93,9 ===C .

7.2.7 – Exercícios 7.2.7.1) Arme e efetue:

a) 6 ! b) 8 !

c)

6

8

d)

2

8

e)

2

7

5

7

7.2.7.2) Uma loteria consiste em 60 números, numerados de 1 a 60, entre os quais o apostador deve escolher seis. De quantos modos é possível escolher os seis números ? 7.2.7.3) Quantos anagramas é possível formar com as letras da palavra ESTATÍSTICA ? 7.2.7.4) Um baralho completo possui 52 cartas, divididas em quatro grupos iguais (naipes). Deste baralho são retiradas cinco cartas. Quantos resultados são possíveis ?

Page 41: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

41

7.3 – Introdução à Probabilidade

As origens da teoria da probabilidade remontam a meados do século 17. Os conceitos fundamentais, como probabilidade e esperança matemática, surgiram nas correspondências trocadas entre Pascal e Fermat, e que geralmente tratavam de jogos de azar. De acordo com Gnedenko (1962), as questões então levantadas não faziam parte do escopo da matemática da época. O desenvolvimento da teoria da probabilidade, observado nos séculos subseqüentes, foi impulsionado em grande parte pelas necessidades das ciências naturais. A abordagem matemática, caracterizada pelo rigor formal, teve início em meados do século 19, prolongando-se até meados do século 20. As aplicações da teoria da probabilidade podem ser observadas em praticamente qualquer área de pesquisa, seja através da modelagem de experimentos aleatórios, ou através da aplicação de testes estatísticos fundamentados em conceitos da mencionada teoria.

Embora não haja uma definição formal para o termo probabilidade, pode-se entender que o

mesmo designa o estudo de experimentos aleatórios, isto é, experimentos cujos resultados estão sujeitos ao acaso. Alguns conceitos necessários ao referido estudo são apresentados a seguir. 7.3.1 – Espaço Amostral e Evento

Seja um experimento aleatório realizado sob condições fixas. Chama-se espaço amostral do experimento o conjunto Ω de todos os resultados observáveis para o experimento. Chama-se evento a qualquer subconjunto E, de Ω. Vale lembrar que um espaço amostral pode conter mais de um evento. Neste caso é possível combinar eventos através de operações com conjuntos, isto é:

1. Evento união: BA ∪ . 2. Evento intersecção: BA ∩ .

3. Evento complementar: CA (só ocorre quando A não ocorre). Exemplo 7.19 – Um exemplo de experimento aleatório é o lançamento de um dado. Neste caso o espaço amostral correspondente é o conjunto Ω = 1 , 2 , 3 , 4 , 5 , 6. Um exemplo de evento é o subconjunto de Ω dado por E = 2 , 4 , 6, que corresponde ao resultado “número par”. Exemplo 7.20 – Imagine-se que um experimento aleatório consiste em registrar o tempo t, em horas, entre falhas apresentadas por determinado equipamento. Então Ω = t ∈ IR ; 0 < t. Não é difícil perceber que este espaço amostral contém resultados claramente impossíveis. Entretanto, na definição de um espaço amostral, deve-se ter a preocupação de definir um conjunto que contenha todos os possíveis resultados para o experimento aleatório em questão. Neste sentido, a escolha do conjunto acima é bastante adequada. 7.3.1.1 – Eventos Mutuamente Exclusivos

Sejam A e B eventos de um espaço amostral Ω. Diz-se que A e B são eventos mutuamente exclusivos se, e somente se, A e B são disjuntos. Exemplo 7.21 – O espaço amostral associado ao lançamento de um dado é Ω = 1 , 2 , 3 , 4 , 5 , 6. Não é difícil perceber que os eventos A = número par = 2 , 4 , 6 e B = número ímpar = 1 , 3 , 5 são mutuamente exclusivos. 7.3.2 – Enfoques

Para a formalização do conceito de probabilidade pode-se adotar um de três enfoques: 7.3.2.1 – Enfoque Clássico

Também conhecido como definição clássica de probabilidade, estabelece que, se Ω é um espaço amostral finito, então a probabilidade de qualquer evento E, contido em Ω, é dada por

)(#

)(#)(

Ω=

EEP . (7.8)

Page 42: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

42

7.3.2.2 – Enfoque Relativo

De acordo com este enfoque, a probabilidade de um evento E é dada pela razão entre o total de ocorrências do evento e o total de observações. De outra forma, a probabilidade de ocorrência é igual à proporção de “sucessos”. Neste caso o cálculo da probabilidade está baseado na coleta de observações, razão pela qual este enfoque também é denominado enfoque empírico. Exemplo 7.22 – Se, numa entrevista com 200 eleitores, observou-se que 120 pretendem votar em determinado candidato, então a probabilidade encontrar um eleitor daquele candidato é p = 0,6. 7.3.2.3 – Enfoque Subjetivo

Também chamado personalístico, é baseado no “grau de crença” na ocorrência do evento em questão. Atualmente, é muito aplicado à tomada de decisões em finanças e mercado de capitais, por exemplo. 7.3.3 – Axiomas de Probabilidade A1: Para qualquer evento E de um espaço amostral Ω: 0 ≤ P(E) ≤ 1. A2: P(Ω) = 1. A3: Se A e B são eventos mutuamente exclusivos, então )()()( BPAPBAP +=∪ . 7.3.4 – Teoremas de Probabilidade

T1: )(1)( APAP C −= . T2: )()( BPAPBA ≤⇒⊂ . T3: )()()\( BAPAPBAP ∩−= . T4: )()()()( BAPBPAPBAP ∩−+=∪ .

7.3.5 – Espaço de Probabilidade

Seja Ω um espaço amostral finito, isto é, Ω = e1 , e2 , ... , en . Um espaço de probabilidade é o conjunto P = p1 , p2 , ... , pn , obtido ao associar-se a cada ei ∈ Ω um valor pi ∈ IR, denominado probabilidade de ei , e tal que:

1. 0 ≤ pi , i = 1 , ... , n.

2. 11

=∑=

n

iip .

Exemplo 7.23 – Uma moeda é lançada três vezes, com o objetivo de observar o número de “caras”, representado por k.

Espaço amostral: Ω = 0 , 1 , 2 , 3 Probabilidades: P(k = 0) = ⅛ ; P(k = 1) = ⅜ ; P(k = 2) = ⅜ ; P(k = 3) = ⅛ . Então o espaço de probabilidade é: P = ⅛ , ⅜ , ⅜ , ⅛ .

Exemplo 7.24 – Um dado é lançado até obter o número 6. O número de lançamentos é representado por x. Espaço amostral: Ω = 1 , 2 , 3 , ... , ∞ Probabilidades: P(x = 1) = 1/6 ; P(x = 2) = (5/6)(1/6) ; P(x = 3) = (5/6)2(1/6) ; ... ; P(x = n) = 5/6n Espaço de probabilidade: P = 1/6 , 5/36 , 5/216 , ... , 0.

Page 43: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

43

7.3.6 – Eventos Independentes

Sejam A e B dois eventos de um espaço amostral Ω, observados em seqüência. Diz-se que ambos são independentes quando a ocorrência, ou não, do primeiro não afeta a probabilidade de ocorrência do outro. Neste caso:

)().()( BPAPBAP =∩ . (7.9)

Exemplo 7.25 – Um dado é lançado duas vezes. Qual a probabilidade de obter os resultados 4 e 5 ?

36

1

6

1

6

1)54( ==∩P .

7.3.7 – Eventos Dependentes e Probabilidade Condicional

Sejam A e B dois eventos de um espaço amostral Ω. Diz-se que ambos são dependentes quando a ocorrência, ou não, do primeiro afeta a probabilidade de ocorrência do outro. Neste caso:

)|().()( ABPAPBAP =∩ . (7.10) OBS: P(B | A) significa “probabilidade de ocorrência de B após a ocorrência de A”. Exemplo 7.26 – Uma urna contém seis bolas brancas e quatro bolas vermelhas. São retiradas duas bolas, sem reposição. Sejam os eventos B1 , bola branca na primeira retirada, e V2 , bola vermelha na segunda retirada. Neste caso, para calcular a probabilidade de V2 deve-se levar em consideração o resultado da primeira retirada, isto é:

15

4

9

4

10

6)|( 12 ==BVP ou

15

2

9

3

10

4)|( 12 ==VVP

A probabilidade condicional de um evento B ocorrer após a ocorrência de um evento A é dada

por:

)(

)()|(

AP

BAPABP

∩= . (7.11)

Exemplo 7.27 – Um dado é lançado duas vezes. Se a soma dos resultados é sete, qual a probabilidade de que um dos resultados tenha sido quatro ? Ω = (1,1) , (1,2) , ... , (1,6) , (2,1) , ... , (2,6) , (3,1) , ... , (3,6) , ... , (1,6) , ... , (6,6) → #(Ω) = 36. S = a soma é sete = (1,6) , (2,5) , (3,4) , (4,3) , (5,2) , (6,1) → #(S) = 6. D = um dos resultados é quatro = (1,4) , (4,1) , (2,4) , ... , (3,4) , (4,3) , ... , (4,6) → #(D) = 12. S ∩ D = (3,4) , (4,3) → #(S ∩ D) = 2.

3

1

366

362

)|( ==SDP

7.3.7.1 – Comentário

É importante ressaltar que eventos mutuamente exclusivos e eventos independentes não são necessariamente o mesmo tipo de evento. A primeira expressão é utilizada para situações nas quais apenas um dos eventos pode ocorrer, excluindo qualquer possibilidade de ocorrência do outro. A segunda expressão é utilizada quando a ocorrência de um dos eventos não tem qualquer efeito sobre a ocorrência do outro.

Page 44: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

44

7.3.8 – Teorema da Probabilidade Total

Seja um espaço amostral Ω e sejam A1 , A2 , ... , An partições de Ω, isto é, Ai ∩ Aj = Ø e a união de todos os Ai é o próprio espaço Ω. Seja B um evento qualquer de Ω. A1 A2 A3 A4 A5 ... An

B Então a probabilidade de B é dada por:

∑=

=n

iii ABPAPBP

1

)|()()( . (7.12)

Exemplo 7.28 – Uma indústria adquire certo componente de três fornecedores, A, B e C. O primeiro é responsável por 40% da produção e o segundo é responsável por 25% da produção. A proporção de defeituosos é de 2% para o fornecedor A, 5% para o fornecedor B e 4% para o fornecedor C. Qual a probabilidade de uma unidade selecionada ao acaso ser defeituosa ?

P(A) = 0,40 , P(B) = 0,25 , P(C) = 0,35. P(D|A) = 0,02 , P(D|B) = 0,05 e P(D|C) = 0,04.

P(D) = P(A)P(D|A) + P(B)P(D|B) + P(C)P(D|C) = (0,40)(0,02) + (0,25)(0,05) + (0,35)(0,04) = 0,0345 7.3.9 – Teorema de Bayes

Seja um espaço amostral Ω e sejam A1 , A2 , ... , An partições de Ω, isto é, Ai ∩ Aj = Ø e a união de todos os Ai é o próprio espaço Ω. Seja B um evento qualquer de Ω. Então, para qualquer i = 1 , ... , n:

∑=

=n

jjj

iii

ABPAP

ABPAPBAP

1

)|()(

)|()()|( . (7.13)

Exemplo 7.29 – Sejam os dados do exemplo anterior. Se uma peça é defeituosa, qual a probabilidade de ter sido entregue pelo fornecedor C ?

)|()()|()()|()(

)|()()|(

CDPCPBDPBPADPAP

CDPCPDCP

++=

4058,00345,0

014,0

)04,0)(35,0()05,0)(25,0()02,0)(40,0(

)04,0)(35,0()|( ==

++=DCP

7.4 – Exercícios 7.4.1) Um caixa contém 12 unidades de certo componente, sendo três defeituosas. São retiradas três unidades ao acaso, e sem reposição. Seja X o número de unidades defeituosas obtidas neste experimento aleatório. Determinar os espaços amostral e de probabilidades. 7.4.2) Dois dados são lançados. Calcular a probabilidade de:

a) Obter dois números diferentes. b) O segundo resultado ser menor que o primeiro. c) Pelo menos um dos resultados ser 2.

Page 45: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

45

7.4.3) São escolhidos ao acaso, em seqüência e sem reposição, dois números entre 0 e 9. Se a soma é par, qual a probabilidade de que os dois números sejam ímpares ? 7.4.4) Uma caixa contém quatro bolas brancas e seis bolas pretas. Quatro bolas são retiradas, sem reposição. Qual a probabilidade de que três sejam pretas ? 7.4.5) Um jogador tem na mão quatro cartas de paus. Se ele deve receber mais duas cartas, qual a probabilidade de:

a) Ambas serem de paus ? b) Pelo menos uma ser de paus ?

7.4.6) Em uma indústria de móveis, 7% das unidades apresentam risco na pintura, 5% apresentam dobradiças soltas e 4% apresentam os dois defeitos. Uma unidade é escolhida aleatoriamente.

a) Se apresenta risco na pintura, qual a probabilidade de também apresentar dobradiças soltas ? b) Se apresenta dobradiças soltas, qual a probabilidade de também apresentar risco na pintura ? c) Qual a probabilidade de apresentar risco na pintura ou dobradiças soltas ?

7.4.7) Um lote de 20 unidades de um componente contém quatro unidades defeituosas. Escolhe-se aleatoriamente uma amostra de cinco unidades do lote. Qual a probabilidade de que a amostra contenha duas unidades defeituosas ? 7.4.8) Uma loja tem no estoque 12 furadeiras da marca X, das quais duas operam em 220 v, 15 furadeiras da marca Y, das quais três operam em 220 v e oito furadeiras da marca Z, das quais apenas uma opera em 220 v. Uma furadeira é escolhida ao acaso.

a) Qual a probabilidade de ser da marca X e operar em 220 v ? b) Se opera em 220 v, qual a probabilidade de ser da marca X ?

7.4.9) Em uma escola, 70% dos alunos são do sexo masculino. Sabe-se também que 20% dos rapazes usam óculos, o mesmo ocorrendo com 30% das moças. Se um nome é escolhido ao acaso e verifica-se que usa óculos. Qual a probabilidade de ser uma moça ? 7.4.10) Uma urna contém duas bolas vermelhas e três bolas amarelas. Retira-se uma bola da urna e, na seqüência coloca-se uma bola da outra cor. Em seguida retira-se outra bola da urna. Qual a probabilidade desta segunda bola ser branca ? Respostas 1) Ω = 0 , 1 , 2 , 3 P(X = 0) = (9/12)(8/11)(7/10) = 504/1320 = 0,3818 P(X = 1) = 0,4909 P(X = 2) = 0,1228 P(X = 3) = 0,0045 P = 0,3818 ; 0,4909 ; 0,1228 ; 0,0045 3) Se a soma é par, os dois números ou são pares ou são ímpares. Ω = (0,1) , ... , (0,9) , (1,0) , (1,2) , ... , (1,9) , (2,0) , (2,1) , (2,3) , ... , (2,9) , ... , (9,0) , ... , (9,8) Soma Par = (0,2) , ... , (0,8) , (1,3) , ... , (1,9) , (2,4) , ... , (2,8) , (3,1) , ... , (3,9) , ... , (9,1) , .... , (9,7) Ímpares = (1,3) , (1,5) , (1,7) , (1,9) , (3,1) , (3,5) , (3,7) , (3,9) , (5,1) , ... , (5,9) , ... , (9,1) , .... , (9,7) #( Ω ) = 90 #( Soma Par ) = 40 #( Ímpares ) = 20 P( Ímpares | Soma Par ) = 20/40 = ½ 5) a) Se o jogador tem quatro cartas de paus, há 48 cartas na mesa, sendo nove de paus. Então o total de

possíveis resultados é dado por 11282

48=

. Se há nove cartas de paus, então o total de resultados

com duas cartas de paus é dado por 362

9=

. Então p = 36 / 1128 = 0,0319.

Page 46: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

46

7) Se a amostra contém cinco unidades, e duas devem ser defeituosas, então três devem ser perfeitas. O

número de possibilidades de encontrar duas defeituosas entre as quatro existentes é dado por 62

4=

.

As três unidades perfeitas podem ser escolhidas entre as 16 nestas condições. Então o total de

possibilidades é 5603

16=

. Finalmente, o total de possíveis combinações é dado por

155045

20=

. Então p = (6)(560) / 15504 = 0,2167.

9) O diagrama de árvore fica Usa óculos 0,20 Rapaz 0,70 0,80 Não usa óculos Usa óculos 0,30 0,30 Moça 0,70 Não usa óculos P( Moça | Usa óculos) = 0,09 / 0,23 = 0,3913.

Page 47: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

47

8. VARIÁVEIS ALEATÓRIAS

Sejam um espaço amostral Ω e um espaço de probabilidade P, associados a um experimento aleatório. Uma variável aleatória X no espaço de probabilidade é uma função real X(ω): Ω → IR definida em Ω e tal que [X ≤ x] é um evento aleatório para qualquer x real. Exemplo 8.1 – Um lote contém 20 unidades de um componente, sendo quatro defeituosas. São retiradas quatro peças e X representa o número de unidades defeituosas entre as quatro retiradas. Neste caso a variável X assume seus valores no conjunto Ω = 0 , 1 , 2 , 3 , 4. O espaço de probabilidade P é dado por P = 0,3756 ; 0,4623 ; 0,1486 ; 0,0132 ; 0,0002.

x 0 1 2 3 4 Total

P( X = x) 0,3756 0,4623 0,1486 0,0132 0,0002 1

As probabilidades acima são dadas por: 3756,0116280

43680

17

13

18

14

19

15

20

16)0( ====XP

4623,017

4

18

14

19

15

20

164)1( ===XP 1486,0

17

3

18

4

19

15

20

166)2( ===XP

0132,017

2

18

3

19

4

20

164)3( ===XP 0002,0

17

1

18

2

19

3

20

4)4( ===XP

Propriedades Sejam X e Y variáveis aleatórias em um espaço Ω. Então: P1: (X + Y )(ω) = X(ω) + Y(ω) P2: (kX )(ω) = kX (ω) P3: (X + k )(ω) = X(ω) + k P4: (XY )(ω) = X (ω) Y (ω) 8.1 – Tipos de Variáveis Aleatórias

São considerados dois tipos de variáveis aleatórias, discreta e contínua, ambos definidos a seguir. 8.1.1 – Variável Aleatória Discreta

Seja X uma variável aleatória definida no espaço amostral Ω. Diz-se que X é uma variável aleatória discreta (v.a.d.) se assume um número finito, ou enumerável, de valores. De outro modo, X é discreta se existe um conjunto enumerável x1 , x2 , ... , xn , contido em IR, tal que X(ω) ∈ x1 , ... , xn , para qualquer ω ∈ Ω. Exemplo 8.2 – A variável aleatória X do exemplo anterior é discreta. 8.1.2 – Variável Aleatória Contínua

Seja X uma variável aleatória definida no espaço amostral Ω. Diz-se que X é uma variável aleatória contínua (v.a.c.) se assume seus valores em um intervalo de números reais. Exemplo 8.3 – Seja t a variável aleatória que representa o tempo entre duas falhas consecutivas apresentadas por um equipamento. Neste caso t é uma variável aleatória contínua, e Ω = t ∈ IR ; 0 ≤ t . 8.2 – Função de Probabilidade

Seja X uma variável aleatória discreta no espaço amostral Ω, tal que X(ω) ∈ x1 , x2 ,... , xn , para qualquer ω ∈ Ω. Diz-se que p (x) é uma função de probabilidade (f.p.) de X se:

Page 48: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

48

1. p (xi ) = P( X = xi ). 2. p(xi ) ≥ 0 .

3. ∑=

=n

iixp

1

1)(

Exemplo 8.4 – Seja X a v.a.d. que indica o total de resultados iguais a 6, obtidos em cinco lançamentos de um dado. Então X ∈ 0 , 1 , 2 , 3 , 4 , 5. As probabilidades são dadas por: P(X = 0) = C5 , 0 (1/6)0 (5/6)5 = 0,4019 P(X = 1) = C5 , 1 (1/6)1 (5/6)4 = 0,4019 ...

Não é difícil verificar que: 1) xx

xCxpxXP−

===

5

,5 6

5

6

1)()( . 2) 0)( ≥ixp .

3) 17776

7776

6

1)1(

6

5)5(

6

5)10(

6

5)10(

6

5)5(

6

5)1(

6

5

6

15555

2

5

3

5

4

5

56

1

5

==+++++=

=

i

xx

i

ii

x.

8.3 – Função Densidade de Probabilidade

Seja X uma variável aleatória contínua em um espaço amostral Ω. Diz-se que f (x) é uma função densidade de probabilidade (f.d.p.) se:

1. 0)( ≥ixf .

2. ∫=≤≤2

1

)()( 21

x

x

dXXfxXxP

3. ∫+∞

∞−

= 1)( dXXf

Exemplo 8.5 – Sejam uma v.a.c. X , 0 ≤ X e a função f ( X ) = e – X . A função dada é uma f.d.p., pois:

1. 0)( ≥ixf

2. ∫−−− +−==≤≤

2

1

12)( 21

x

x

xxX eedXexXxP .

2. ∫+∞

∞+−− =−=0

01XX edXe

8.4 – Expectância

A expectância, também chamada esperança, valor esperado ou valor médio, de uma variável aleatória X é dada por:

1. ∑=

==n

iiiX xpxXE

1

)()( µ , se X é uma variável aleatória discreta. (8.1)

2. ∫+∞

∞−

== dXXXfXE X )()( µ , se X é uma variável aleatória contínua. (8.2)

Page 49: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

49

Propriedades Sejam X e Y variáveis aleatórias definidas em um mesmo espaço amostral Ω, k um número real. Então:

P1: E(kX ) = kE(X ) P2: E(X + k) = E( X ) + k P3: E(X + Y ) = E(X ) + E(Y ) P4: E(XY) = E(X)E(Y)

Exemplo 8.6 – Seja X a variável aleatória do exemplo 8.1. Então a sua expectância é calculada como:

x 0 1 2 3 4 Total

P( X = x) 0,3756 0,4623 0,1486 0,0132 0,0002 1 xP(X = x) 0 0,4623 0,2972 0,0396 0,0008 0,7999

E (X ) = 0,7999

Exemplo 8.7 – Sejam a variável aleatória e a função densidade de probabilidade dadas no exemplo 8.5. Então:

1)2()(0

=Γ== ∫∞

− dxxeXE x .

8.5 – Variância A variância de uma variável aleatória X é dada por:

1. ∑=

−==n

iii xpXExXVar

1

22 )()]([][ σ , se X é uma variável aleatória discreta. (8.3)

2. ∫+∞

∞−

−== dXXfXEXXVar )()]([][ 22σ , se X é uma variável aleatória contínua. (8.4)

Propriedades Sejam X e Y variáveis aleatórias definidas em um mesmo espaço amostral Ω, k um número real. Então:

P1: Var(X + k) = Var(X) . P2: Var(kX) = k2 Var(X)

A variância também pode ser calculada através da fórmula:

22 )]([)(][ XEXEXVar −= . (8.5)

Na fórmula (8.5): ∑=

=n

iii xpxXE

1

22 )()( , para v.a.d. e ∫+∞

∞−

= dXXfXXE i )()( 22 , para v.a.c..

Exemplo 8.8 – Seja X a variável aleatória do exemplo 8.1. Então a sua variância é calculada como:

x 0 1 2 3 4 Total

P( X = x) 0,3756 0,4623 0,1486 0,0132 0,0002 1 x2 P(X = x) 0 0,4623 0,5944 0,1188 0,0032 1,1787

Então: Var[X] = 1,1787 – (0,7999)2 = 0,5389. Exemplo 8.9 – Sejam a variável aleatória e a função densidade de probabilidade dadas no exemplo 8.5. Então:

2!2)3()(0

22 ==Γ== ∫∞

− dxexXE x .

Logo, Var[X] = 2 – 12 = 1.

Page 50: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

50

8.6 – Distribuição Conjunta

Sejam duas variáveis aleatórias, X e Y, definidas em um espaço amostral Ω, e com os contradomínios X(ω) = x1 , ... , xn e Y(ω) = y1 , ... , ym . Seja também o produto cartesiano dado por:

),(),...,,()()( 11 mn yxyxYX =× ωω .

Chama-se distribuição conjunta, ou função de probabilidade conjunta de X e Y a função definida por:

);(),( jiji yYxXPyxH === . (8.6)

Se X e Y são variáveis aleatórias discretas:

1. 0),( ≥ji yxH .

2. ∑∑= =

=n

i

m

jji yxH

1 1

1),( .

3. ),();( jiji yxHyYxXP === .

Se X e Y são variáveis aleatórias contínuas: 1. 0),( ≥YXH .

2. ∫ ∫+∞

∞−

+∞

∞−

= 1),( dXdYYXH .

3. ∫ ∫=≤≤≤≤2

1

2

1

),();( 2121

x

x

y

y

dYdXYXHyYyxXxP

Para a função (8.6) há um espaço de probabilidades. Tais probabilidades podem ser apresentadas

em tabelas, ou quadros, de dupla entrada.

Tabela 8.1 – Distribuição de Probabilidade Conjunta. Y

X y1 y2 ... ym

Total

x1 H(x1 , y1) H(x1 , y2) ... H(x1 , ym) f(x1) x2 H(x2 , y1) H(x2 , y2) ... H(x2 , ym) f(x2) ... ... ... ... ... ... xn H(xn , y1) H(xn , y2) ... H(xn , ym) f(xn )

Total g(y1) g(y2) ... g(ym) 1 Na Tabela 8.1 as funções f e g são chamadas distribuições marginais, e são definidas por:

1. ∑ ∑= =

==m

j

n

ijijjii yxHygyxHxf

1 1

),()(),()( , para X e Y discretas.

2. ∫ ∫+∞

∞−

+∞

∞−

== dxyxHygdyyxHxf ),()(),()( , para X e Y contínuas.

8.7 – Independência de Variáveis

Sejam X e Y duas variáveis aleatórias definidas em um espaço amostral Ω, com os contradomínios X(ω) = x1 , ... , xn e Y(ω) = y1 , ... , ym , e com distribuição conjunta H(xi , yj). Diz-se que X e Y são variáveis aleatórias independentes se, e somente se:

Page 51: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

51

)()(),( jiji ygxfyxH = .

Exemplo 8.10 – Um experimento aleatório consiste em lançar uma moeda e retirar uma carta de um baralho. Sejam as variáveis aleatórias X , resultado observado na moeda(0 = cara e 1 = coroa), e Y , naipe da carta retirada (1 = paus, 2 = ouro, 3 = copas, 4 = espada). Então o espaço de probabilidades é:

Y X

1 2 3 4 Total

0 ⅛ ⅛ ⅛ ⅛ ½ 1 ⅛ ⅛ ⅛ ⅛ ½

Total ¼ ¼ ¼ ¼ 1 Neste caso as variáveis são independentes, pois H(xi , yj) = f(xi )g(yj ). 8.7.1 – Expectância

Sejam X e Y duas variáveis aleatórias definidas em um espaço amostral Ω, com os contradomínios X(ω) = x1 , ... , xn e Y(ω) = y1 , ... , ym , e com distribuição conjunta H(xi , yj). A expectância do produto de X e Y é dada por:

1. ∑=

==n

ijijiXY yxHyxXYE

1

),()( µ , se X e Y são variáveis aleatórias discretas. (8.7)

2. ∫ ∫+∞

∞−

+∞

∞−

== dXdYYXXYHXYE XY ),()( µ , se X e Y são variáveis aleatórias contínuas. (8.8)

8.7.2 – Covariância

Sejam X e Y duas variáveis aleatórias definidas em um espaço amostral Ω, e com os contradomínios X(ω) = x1 , ... , xn e Y(ω) = y1 , ... , ym , e com expectâncias µX e µY , respectivamente. Além disto, considere-se que a distribuição conjunta das duas variáveis é H(xi , yj). Então a covariância de X e Y é dada por:

∑∑= =

−−=n

i

m

jjiYjXi yxHyxYXCov

1 1

),(]][[),( µµ , para X e Y discretas. (8.9)

∫ ∫+∞

∞−

+∞

∞−

−−= dXdYYXHYXYXCov YX ),())((),( µµ , para X e Y contínuas. (8.10)

A covariância também pode ser calculada por:

)()()(),( YEXEXYEYXCov −= . (8.11) 8.7.3 – Correlação

Sejam X e Y duas variáveis aleatórias definidas em um espaço amostral Ω, e com os contradomínios X(ω) = x1 , ... , xn e Y(ω) = y1 , ... , ym , e com variâncias σ2

X e σ2Y, respectivamente.

O coeficiente de correlação de X e Y é a medida da relação linear entre as duas variáveis, e é dado por:

22

),(),(

YX

YXCovYX

σσρ = . (8.12)

O coeficiente de correlação ρ pertence ao intervalo real [– 1 ; 1] . Se ρ = 1 ou ρ = – 1, a relação é perfeita, e neste caso Y = aX + b , onde a e b são números reais. Quanto maior a independência entre as variáveis X e Y, mais próximo de zero é o valor de ρ.

Page 52: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

52

Exemplo 8.11 – Um experimento aleatório consiste em lançar uma moeda três vezes e anotar os resultados. Sejam as variáveis aleatórias X = número de caras e Y é definida como: Y = 1, se o primeiro resultado é cara, ou Y = 0, se o primeiro resultado é coroa.

Espaço amostral Probabilidade X Y 1,1,1 0,125 3 1 1,1,0 0,125 2 1 1,0,1 0,125 2 1 0,1,1 0,125 2 0 0,0,1 0,125 1 0 0,1,0 0,125 1 0 1,0,0 0,125 1 1 0,0,0 0,125 0 0

A distribuição conjunta é dada por:

X Y

0 1 2 3 Total

0 0,125 0,25 0,125 0 0,5 1 0 0,125 0,25 0,125 0,5

Total 0,125 0,375 0,375 0,125 1 É possível notar que as variáveis não são independentes. Por exemplo: P(X = 0;Y = 0) ≠ P(X = 0)P(Y = 0).

As expectâncias são: 5,18

12

8

13

8

32

8

31

8

10 ==+++=Xµ e 5,0

8

4

8

41

8

40 ==+=Yµ .

A expectância do produto é: 1)125,0)(1)(3(...)25,0)(0)(1()125,0)(0)(0()( =+++=XYE Nota-se que E(XY) ≠ E(X)E(Y) .

As variâncias são: 75,04

9

4

122 =−=Xσ e 25,04

1

2

12 =−=Yσ .

A covariância é: 25,0)5,0)(5,1(1),( =−=YXCov .

O coeficiente de correlação é: 2887,05,05,1

25,0==ρ .

8.8 – Função Distribuição Acumulada

Seja uma variável aleatória X, discreta ou contínua, definida no espaço amostral Ω, e tal que X(ω) ∈ x1 ,... , xn , para qualquer ω ∈ Ω. Chama-se função de distribuição acumulada a função dada por:

1. ∑=

=i

jii xfxF

1

)()( . Se X é uma variável aleatória discreta.

2. ∫∞−

=x

dttfxF )()( . Se X é uma variável aleatória contínua.

Em qualquer dos casos: P1: se a ≤ b, então F(a) ≤ F(b).

Page 53: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

53

P2: 0)(lim =−∞→

xFx

e 1)(lim =+∞→

xFx

.

Exemplo 8.12 – Seja X a variável aleatória do exemplo 8.1.

x 0 1 2 3 4 Total

P( X = x) 0,3756 0,4623 0,1486 0,0132 0,0002 1 x2 P(X = x) 0 0,4623 0,5944 0,1188 0,0032 1,1787

F(3) = P(X ≤ 3) = 0,3756+ 0,4623 + 0,0132 = 0,9997. Exemplo 8.13 – Sejam a variável aleatória e a função densidade de probabilidade dadas no exemplo 8.5. Então:

9502,0|)3( 0330

3

0

=+−=−== −−−

∫ eeedxeF xx .

8.9 – Exercícios, 8.9.1) Seja x uma variável aleatória contínua, e seja a função dada por:

≤≤=

.,0

30,1

)(casooutro

xxkxf

a) Se f é uma função densidade de probabilidade, qual o valor de k ? b) Qual a expectância ? c) Qual a variância ? d) Calcular P(1 ≤ x ≤ 2). e) Calcular a função de distribuição acumulada.

8.9.2) Seja X uma variável aleatória discreta, com a distribuição de probabilidade mostrada no quadro a seguir.

X 0 1 2 3 4 5 P(X) 0,12 0,24 0,28 0,18 0,10 0,08

a) Qual a expectância ? b) Qual a variância ? c) Calcular P(0 ≤ x ≤ 3).

8.9.3) Um experimento aleatório consiste em lançar um dado e observar o resultado. Há duas variáveis aleatórias associadas a este experimento: X, que é igual ao dobro do resultado, e Y, que vale 1 (um) quando o resultado é um número primo e 0 (zero) quando não é primo.

a) Definir o espaço amostral. b) Definir os espaços X(ω) e Y(ω). c) Definir o espaço de probabilidade conjunta. d) Verificar se as duas variáveis são independentes. e) Calcular a expectância e a variância para X. f) Idem para Y. g) Calcular o coeficiente de correlação para X e Y.

8.9.4) Seja o experimento aleatório do exercício anterior e seja Z a variável aleatória que é igual ao número de divisores de X, incluindo 1 e excluindo X.

a) Definir o espaço Z(ω). b) Definir o espaço de probabilidade conjunta. c) Verificar se X e Z são independentes.

Page 54: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

54

d) Calcular a expectância e a variância para Z. e) Calcular o coeficiente de correlação para X e Z.

8.9.5) Um jogo consiste em lançar uma moeda duas vezes. Se der uma “cara”, o jogador ganha R$ 1,00. Se der duas “caras”, o jogador recebe R$ 2,00. Se não der “cara”, o jogador perde R$ 4,00. Este jogo pode ser considerado como favorável ao jogador ? 8.9.6) Um automóvel custa R$ 45000,00. Sabe-se que em anos anteriores a taxa de roubo deste mesmo automóvel foi de 2%. Neste caso, qual o valor “justo” do prêmio de um seguro contra roubo ? 8.9.7) Seja X uma variável aleatória que pode assumir os valores – 1 , 0 , 1 com as probabilidades dadas no quadro a seguir. Seja Y = X 2.

X – 1 0 1 P(X) ¼ ¼ ½

a) Obter a distribuição de probabilidades para a variável Y. b) Obter a distribuição conjunta de probabilidades. c) Calcular a expectância e a variância para X. d) Idem para Y.

8.9.8) Seja X uma variável aleatória contínua com função densidade de probabilidade dada por:

≤≤

=.,0

.,)(

casooutro

bxakxf

a) Qual o valor de k ? b) Quanto vale a expectância ? c) Quanto vale a variância ?

8.9.9) Seja X uma variável aleatória discreta. Verificar que Var[X] = E[X 2] – E[X]2. 8.9.10) Uma caixa contém 10 unidades de um componente, das quais três são defeituosas. Deve-se testar as unidades até encontrar duas defeituosas. Seja X o número de testes necessários.

a) Obter a distribuição de probabilidades para X. b) Calcular a expectância e a variância para X.

Respostas 8.9.3) a) Ω = 1 , 2 , 3 , 4 , 5 , 6 b) X(ω) = 2 , 4 , 6 , 8 , 10 , 12 Y(ω) = 0 , 1 c)

X Y

2 4 6 8 10 12 Total

0 0 0 0 1/6 0 1/6 2/6 1 1/6 1/6 1/6 0 1/6 0 4/6

Total 1/6 1/6 1/6 1/6 1/6 1/6 1 d) X e Y não são independentes. e) E[X] = 7 Var[X] = 11,6667 f) E[Y] = 0,6667 Var[Y] = 0,2222 8.9.4) a) Z(ω) = 1 , 2 , 3 , 3 , 3 , 5 c) As variáveis não são independentes. d) E[Z] = 2,8333 Var[Z] = 1,4722 b) A distribuição conjunta é dada no quadro a seguir.

Page 55: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

55

X Z

2 4 6 8 10 12 Total

1 1/6 0 0 0 0 0 1/6 2 0 1/6 0 0 0 0 1/6 3 0 0 1/6 1/6 1/6 0 3/6 5 0 0 0 0 0 1/6 1/6

Total 1/6 1/6 1/6 1/6 1/6 1/6 1 8.9.6) Neste caso, o “jogo” é honesto se P(ser roubado).Valor = P(não ser roubado).Prêmio Então: (0,02)(45000) = (0,98)(Prêmio) → Prêmio = 918,37

8.9.8) a) ∫ −=⇒=−==

b

a

b

a abkabkkxkdx

11)(

b) ∫+

=−

−=

−=

−=

b

a

b

a

baab

ab

x

abdx

ab

xxE

22

1

2

1][

222

c) 33

1

3

1][

2233322 aabbab

ab

x

abdx

ab

xxE

b

a

b

a

++=

−=

−=

−= ∫

12

)(

4

2

3][

22222 abbabbaabbxVar

−=

++−

++=

8.9.10) a) Ω = 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9

X 2 3 4 5 6 7 8 9 P(X) 0,0667 0,1167 0,0150 0,1667 0,1667 0,1500 0,1167 0,2015

Referência: Gnedenko, B.V., Theory of Probability. Chelsea Publishing Company. 1962.

Page 56: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

56

9. MODELOS DE PROBABILIDADE PARA VARIÁVEIS DISCRETAS

Certos problemas práticos são bastante adequados à utilização de variáveis aleatórias discretas. Em tais situações, a compreensão da natureza destas variáveis é requisito fundamental para a formulação de modelos probabilísticos associados a este tipo de variável. Os principais modelos probabilísticos para variáveis aleatórias discretas, também chamados distribuições, são apresentados na seqüência. 9.1 – Distribuição Uniforme Discreta

Seja uma variável aleatória discreta X, que assume os valores x1 , x2 , ... , xk . Diz-se que X tem distribuição uniforme discreta se, e somente se, para todo i = 1 , 2 , ... , k:

kxXP i

1)( == . (9.1)

A expectância e a variância são dadas por:

k

x

XE

k

ii∑

== 1)( (9.2) e

−= ∑ ∑

= =

k

i

k

iii x

kx

kXVar

1

2

1

2 )(11

)( (9.3)

A função de distribuição acumulada é dada por

k

xnxF

)()( = . (9.4)

Na fórmula (9.4), n(x) é número de elementos xi ≤ x.

Exemplo 9.1 – Seja X a variável aleatória que representa o resultado observado no lançamento de um dado. Neste caso:

X 1 2 3 4 5 6 P(X) 1/6 1/6 1/6 1/6 1/6 1/6

6

1)( == ixXP

9.2 – Distribuição de Bernoulli

Para definir este modelo é conveniente apresentar um experimento aleatório conhecido como experimento de Bernoulli. Este experimento consiste na observação de sucessivos eventos, que apresentam as seguintes propriedades:

1. Apenas dois resultados são admitidos: sucesso ou insucesso. 2. A probabilidade p, de sucesso, é constante ao longo do experimento. 3. Cada evento é independente.

Seja X uma variável aleatória discreta que assume os valores 0 (zero) ou 1 (um), conforme o

resultado de um evento em um experimento de Bernoulli seja insucesso ou sucesso, sendo p a probabilidade de sucesso. Nestas condições, diz-se que X tem distribuição de Bernoulli com parâmetro p. O modelo de probabilidade correspondente é dado por:

xx ppxXP −−== 1)1()( . (9.5)

Também se utiliza a notação X ~ Ber(p). A expectância e a variância são dadas, respectivamente, por:

pXE =)( (9.6) )1()( ppXVar −= (9.7)

Page 57: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

57

A função de distribuição acumulada é dada por:

<≤−

<

=

x

xp

x

xF

1,1

10,1

0,0

)( . (9.8)

Exemplo 9.2 – Um experimento aleatório consiste em lançar um dado e observar o seu resultado. Seja X a variável aleatória que vale 1, se o resultado é “6”, e 0 em outro caso. Neste caso a probabilidade de sucesso é p = 1/6. Então o modelo correspondente é dado por:

xx

xXP−

==

1

6

5

6

1)( .

9.3 – Distribuição Binomial

Seja X uma variável aleatória que indica o número de sucessos observados em n eventos de um experimento de Bernoulli, com probabilidade p de sucesso. Então diz-se que X tem distribuição binomial com parâmetros n e p, e modelo de probabilidade dado por:

xnx ppx

nxXP −−

== )1()( . (9.9)

A notação para X é X ~ b(n , p). A expectância e a variância são respectivamente:

npXE =)( (9.10) )1()( pnpXVar −= (9.11) Exemplo 9.3 – A proporção de não conformidade de certo componente é 8%. Ao se inspecionar um lote de 12 unidades deste componente, qual a probabilidade de se encontrar três unidades não conformes ?

0532,0)472161,0)(000512,0)(220()92,0()08,0(3

12)3( 93 ==

==XP

Exemplo 9.4 – No exemplo anterior, o número esperado de unidades defeituosas, e a variância, são:

8832,0)(96,0)08,0)(12()( === XVarXE

9.4 – Distribuição Geométrica

Seja X uma variável aleatória discreta que indica o número de observações de um experimento de Bernoulli até a ocorrência de um sucesso, com probabilidade p, isto é, o número de tentativas até se obter um sucesso. Neste caso, diz-se que X tem distribuição geométrica, com parâmetro p. O modelo probabilístico é dado por:

1)1()( −−== xppxXP . (9.12)

A expectância e a variância são dadas por:

pXE

1)( = (9.13)

2

1)(

p

pXVar

−= (9.14)

Exemplo 9.5 – A proporção de não conformidade de certo componente é 8%. Ao se inspecionar um lote de 12 unidades deste componente, qual a probabilidade de se encontrar uma unidade defeituosa apenas na quarta observação ?

0623,0)92,0)(08,0()4( 3 ===XP

Page 58: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

58

9.5 – Distribuição de Pascal

Seja X uma variável aleatória discreta que indica o número de observações de um experimento de Bernoulli, com probabilidade p de sucesso, até a ocorrência de n sucessos. Aqui diz-se que X tem distribuição de Pascal, cujo modelo probabilístico é dado por:

nxn ppn

xxXP −−

−== )1(

1

1)( . (9.15)

A expectância e a variância são dadas por:

p

nXE =)( (9.16)

2

)1()(

p

pnXVar

−= (9.17)

Exemplo 9.6 – A proporção de não conformidade de certo componente é 8%. Ao se inspecionar um lote de 12 unidades deste componente, qual a probabilidade de se ter que inspecionar cinco unidades para encontrar duas não conformes ?

0199,0)92,0()08,0(12

15)5( 32 =

−==XP .

9.6 – Distribuição Hipergeométrica

Seja um conjunto com N elementos e k ocorrências de determinado evento. Seja um subconjunto com n elementos, extraídos do conjunto citado. Se X é a variável aleatória discreta que indica o número de ocorrências no subconjunto, então diz-se que X tem distribuição hipergeométrica, com parâmetros N, k e n, e o seu modelo probabilístico é:

==

n

N

x

k

xn

kN

xXP )( . (9.18)

A expectância e a variância são:

N

nkXE =)( (9.19)

=

1

1)(

N

nN

n

k

n

knXVar (9.20)

Exemplo 9.7 – Em um lote de 20 motores há dois defeituosos. São retiradas cinco unidades para inspeção. Qual a probabilidade de se encontrar uma unidade defeituosa entre as cinco retiradas para inspeção ?

3947,015504

)2)(3060(

5

20

1

2

15

220

)1( ==

==XP.

9.7 – Distribuição Multinomial

Seja um experimento aleatório executado n vezes, com k possíveis resultados, e probabilidades p1 , p2 , ... , pk . Sejam X1 , X2 , ... , Xk as variáveis aleatórias discretas que indicam o total de ocorrências de cada uma das k respostas, e tais que X1 + X2 + ... + Xk = n. Aqui diz-se que X tem distribuição multinomial, ou polinomial. O modelo de probabilidade é dado por:

Page 59: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

59

∏∏

=

=

=

===k

i

xik

ii

k

ii

kkip

x

x

xXxXP1

1

111

!

!

),...,( . (9.21)

A expectância e a variância são dadas por:

ii npXE =)( (9.22) )1()( iii pnpXVar −= (9.23)

Exemplo 9.8 – Na inspeção de qualidade de um produto são utilizadas quatro categorias para classificação: conforme, aproveitável, reciclável e refugado. As probabilidades de pertencer a cada um dos grupos são, respectivamente: p1 = 0,70 , p2 = 0,15 , p3 = 0,10 e p3 = 0,05. Em um lote de 10 unidades, qual a probabilidade de se encontrar seis unidades conformes, duas aproveitáveis, uma reciclável e uma refugada ?

0334,0)05,0()10,0()15,0()70,0(!1!1!2!6

!10)1,1,2,6( 1126

4321 ====== XXXXP .

9.8 – Distribuição de Poisson

Um experimento aleatório é chamado Experimento de Poisson quando consiste em observar as ocorrências de determinado evento ao longo de um intervalo contínuo subdividido em pequenos intervalos, de acordo com as seguintes propriedades:

1. O numero de sucessos em determinado intervalo independe do número de sucessos em qualquer outro intervalo.

2. A probabilidade de sucesso em um intervalo é proporcional ao comprimento deste mesmo intervalo.

3. A probabilidade de mais de um sucesso em um intervalo muito pequeno é desprezível.

Seja X a variável aleatória discreta que indica o número de sucessos observados em um intervalo de um experimento de Poisson. Neste caso diz-se que X tem distribuição de Poisson com parâmetro λ, e o modelo de probabilidade é dado por:

!)(

x

exXP

xλλ−

== . (9.24)

A expectância e a variância são dadas por:

λ=)(XE (9.25) λ=)(XVar (9.26)

Exemplo 9.9 – O número médio de clientes atendidos por um terminal é de 12 por hora. Qual a probabilidade de se ter que atender cinco clientes em meia hora ?

λ→

h

h

2

1

121 λ = 6 1606,0

!5

6)5(

56

===−e

XP .

Em aplicações práticas que envolvem experimentos de Poisson, geralmente o intervalo considerado pode ser de tempo, de comprimento, de área ou de volume. As aplicações práticas desta distribuição incluem o controle de qualidade, a teoria das filas e o processamento de sinais, entre outras.

Page 60: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

60

9.9 – Exercícios 9.9.1) Um aeroporto registra em média oito pousos a cada período de seis horas. Qual a probabilidade de registrar dois pousos em uma hora ? 9.9.2) Um procedimento de inspeção de qualidade consiste em retirar para inspeção duas unidades de cada lote de 20 unidades. Se nenhuma das duas unidades é defeituosa, o lote é aprovado. Supondo que um lote contenha duas unidades defeituosas, qual a probabilidade de ser aprovado ? 9.9.3) A proporção de não conformidade de um produto é igual a 6%. Qual a probabilidade de uma amostra de 15 unidades apresentar duas não conformes ? 9.9.4) No exercício anterior, qual a probabilidade de que se tenha que inspecionar quatro unidades até encontrar uma defeituosa ? 9.9.5) No processo de fabricação de um produto, a taxa de rejeição é de 20%. Ao receber uma encomenda de oito unidades do produto, a gerência decide confeccionar dez unidades. Qual a probabilidade desta quantidade ser suficiente para atender à encomenda ? 9.9.6) No exercício anterior, se o custo de cada unidade fabricada é R$ 400,00, qual o custo esperado para atender à encomenda ? 9.9.7) Uma instituição financeira classifica os clientes em três grupos de risco de inadimplência: Alto risco, médio risco e baixo risco. Um levantamento apontou que 6% dos clientes pertencem ao primeiro grupo, 12% ao segundo e 82% ao terceiro. Qual a probabilidade de um grupo de 15 clientes apresentar um cliente do primeiro grupo, dois do segundo e 12 do terceiro ? 9.9.8) Certo tipo de cabo é vendido em rolos de 50m. Verificou-se que cada rolo apresenta em média duas imperfeições. Qual a probabilidade de um segmento de 10m apresentar uma falha ? 9.9.9) A proporção de não conformidade de um produto é de 4%. O produto é comercializado em embalagens com 12 unidades. Uma embalagem é rejeitada se for encontrada mais de uma unidade não conforme. Qual a probabilidade de que, em uma encomenda de dez embalagens, no máximo duas sejam rejeitadas ? 9.9.10) No exercício anterior, se cada embalagem rejeitada representa um custo de R$ 5,00 para o fabricante, qual o custo esperado para uma encomenda de 1000 embalagens ? 9.9.11) Uma linha de produção, trabalhando continuamente, apresenta em média duas falhas a cada oito horas. Cada falha implica em uma interrupção de 20 minutos. Ao receber uma encomenda que demanda 16 horas de trabalho, a empresa reserva 18 horas para a tarefa. Qual a probabilidade de que o prazo seja suficiente ? 9.9.12) Uma rede de auto-atendimento possui 12 unidades, que operam oito horas por dia. Em média são atendidos dois clientes por hora. Qual a probabilidade de que, em um intervalo de 15 minutos, oito unidades estejam ocupadas ? Respostas: 9.9.2) P(X = 0) = 0,8053 (X é o número de unidades defeituosas entre as duas retiradas para inspeção). 9.9.4) P(X = 4) = 0,0498 (X é o número de unidades inspecionadas até que se encontre a defeituosa). 9.9.6) Custo esperado = 400 × E(X) = 400 × 10 = 4000,00. 9.9.8) P(X = 1) = 0,2681 9.9.10) Custo esperado = (5,00) × (1000) × P(rejeição) = 404,50 9.9.12) A probabilidade de um terminal atender um cliente em um intervalo de 15 minutos é p = 0,3033. Então a probabilidade de que oito dos doze terminais estejam ocupados é P(X = 8) = 0,0084.

Page 61: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

61

10. MODELOS DE PROBABILIDADE PARA VARIÁVEIS CONTÍNUAS

Assim como as variáveis aleatórias discretas, as variáveis aleatórias contínuas podem ser de grande utilidade na abordagem de problemas práticos. Os principais modelos probabilísticos para variáveis aleatórias contínuas são apresentados na seqüência. Estes modelos também são denominados funções densidades de probabilidades, e podem envolver mais de um parâmetro. 10.1 – Distribuição Uniforme Contínua

Seja uma variável aleatória contínua X, que assume seus valores no intervalo I = ]0 , θ[. Diz-se X tem distribuição uniforme no intervalo I, o que se denota por X ~ U(0 , θ), se a função densidade de probabilidade de X é dada por:

<<

=−

.,0

0,)|(

1

casooutro

xxf

θθθ (10.1)

A função (10.1) também pode ser representada por:

)(1

)|( ),0( xIxf θθ

θ = . (10.2)

Na forma (10.2):

<<

=casooutro

xxI

,0

0,1)(),0(

θθ

. (10.3)

A expectância e a variância são dadas por:

2][

θ=XE (10.5)

12][

2θ=XVar (10.6)

10.2 – Distribuição Normal

Diz-se que uma variável aleatória contínua X tem distribuição normal, com parâmetros µ e σ2, o que se denota por X ~ N(µ , σ2), quando a função densidade de probabilidade de X é dada por:

−−=

2

22 )(

2

1exp

2

1),|(

σ

µ

πσσµ

xxf . (10.7)

A expectância e a variância são:

µ=][XE (10.8) 2][ σ=XVar (10.9)

A probabilidade de X pertencer ao intervalo I = [x1 , x2] é dada por:

∫=≤≤2

1

),|()( 221

x

x

dxxfxXxP σµ .

A integral acima não pode ser calculada analiticamente, e exige o uso de algum método de integração numérica. Este problema pode ser resolvido, em parte, pela distribuição normal padronizada, ou padrão. Inicialmente efetua-se a mudança de variável:

σ

µ−=

xz . (10.10)

Page 62: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

62

Demonstra-se, neste caso, que a variável z, definida por (10.10), também tem distribuição normal, com média igual a zero e variância igual a um. A função densidade de probabilidade é dada por:

−=

2exp

2

1)(

2zz

πφ . (10.11)

Figura 10.1 – Gráfico da distribuição normal padrão.

Desta forma:

−≤≤

−=≤≤

σ

µ

σ

µ 2121 )(

xz

xPxXxP . (10.12)

O valor para a expressão (10.12) corresponde à área limitada por z1 , z2 e pelo gráfico da função. Esta área pode ser encontrada com o auxílio da Tabela da distribuição normal padrão, que fornece a área entre z = 0 e z = zc . Exemplo 10.1 – Seja uma v.a.c. X, tal que X ~ N(12 , 4).

a) Calcular P(12 ≤ X ≤ 13,5) z(12) = 0 e z(13,5) = 0,75. Então P(12 ≤ X ≤ 13,5) = Área(0 ≤ z ≤ 0,75) = 0,2734 .

b) Calcular P(10,5 ≤ X ≤ 12) z(12) = 0 e z(10,5) = – 0,75. Então P(10,5 ≤ X ≤ 12) = Área(- 0,75 ≤ z ≤ 0) = Área(0 ≤ z ≤ 0,75) = 0,2734 .

c) Calcular P(10,7 ≤ X ≤ 13,7) z(10,7) = – 0,65 e z(13,7) = 0,85. Então P(10,7 ≤ X ≤ 13,7) = Área(– 0,65 ≤ z ≤ 0,85). P(10,7 ≤ X ≤ 13,7) = Área(– 0,65 ≤ z ≤ 0) + Área(0 ≤ z ≤ 0,85) = 0,2422 + 0,3023 = 0,5445. 10.3 – Distribuição Gama

Diz-se que uma v.a.c. X, 0 ≤ X, tem distribuição gama quando a sua função densidade de probabilidade é dada por:

xexxf βαα

α

ββα −−

Γ= 1

)(),|( . (10.13)

Em (10.13), Γ(α) = (α – 1)! A expectância e a variância são dadas por:

Page 63: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

63

∫ ∫+∞ +∞

−−−

Γ=

Γ=

0 0

1

)()(][ dxexdxexxXE xx βα

αβα

α

α

β

α

β .

Fazendo βx = t :

β

αα

αβαβββα

β α

α

αα

=+ΓΓ

= ∫∫+∞

−+∞

− )1()(

1

)(

1

)(][

00

dtetdt

et

XE tt . (10.14)

2][

β

α=XVar . (10.15)

10.4 – Distribuição Exponencial

Seja um experimento aleatório de Poisson, conforme descrito em (9.8). Seja T a variável aleatória que representa o intervalo entre dois sucessos. Neste caso diz-se que T tem distribuição exponencial com parâmetro λ, o que se denota por T ~ Exp(λ). A função densidade de probabilidade é dada por:

<

= −

te

ttf t

0,1

0,0)|(

λ

λ

λ . (10.16)

A expectância e a variância são dadas por:

λ=][TE (10.17) 2][ λ=TVar (10.18)

Exemplo 10.2 – Sabe-se que a vida útil média de um componente segue uma distribuição exponencial com parâmetro λ = 600. Qual a probabilidade de que uma unidade deste componente dure mais de 800 horas ?

2636,0|)600(600

1

600

1)800(

800

800600600 =−==< ∫

+∞∞+

−−tt

edteTP .

Exemplo 10.3 – Uma v.a.c. T tem distribuição exponencial com parâmetro λ = 4. Determinar um valor t para T tal que P(t < T) = 0,95.

205,095,0)4(4

1

4

1)( 44 =⇒=−==<

+∞−

+∞−

∫ xedteTxPx

t

x

t

.

10.5 – Distribuição de Weibull

Diz-se que uma v.a.c. X , 0 ≤ X, tem distribuição de Weibull, com parâmetros α e β, quando a sua função densidade de probabilidade é dada por:

)exp(),|( 1 ββ ααββα xxxf −= − . (10.19)

A expectância e a variância são dadas por:

+Γ=

βα β 1

1][1

XE (10.20)

+Γ−

+Γ=

−22

11

21][

ββα βXVar (10.21)

Uma das aplicações mais freqüentes da distribuição de Weibull é na fixação de períodos de

garantia contra falhas apresentadas por equipamentos.

Page 64: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

64

10.6 – Distribuição Qui-Quadrado (χ2)

Diz-se que uma v.a.c. X, 0 ≤ X, tem distribuição Qui-Quadrado (χ2), com φ graus de liberdade, quando a sua função densidade de probabilidade é dada por:

21

2

2

2

2

1

)(x

exxf−−

Γ

ϕ

ϕ. (10.22)

Aqui se utiliza a notação X ~ χ2

φ . A expectância e a variância são dadas por:

ϕ=][XE (10.23) ϕ2][ =XVar (10.24)

10.7 – Distribuição t, de Student

Sejam duas variáveis aleatórias contínuas, z ~ N(0 , 1) e U ~ χ2φ . Então a v.a.c. t, dada por

ϕ

U

zt = ,

tem distribuição t, de Student com ν graus de liberdade. A expectância e a variância são dadas por:

0][ =tE (10.23) 2

][−

ϕtVar (10.24)

10.8 – Distribuição F, de Fisher

Sejam U e V duas variáveis aleatórias contínuas, tais que U ~ χ2ν e V ~ χ2

η . Então a variável aleatória W, definida por

V

UW = ,

tem função densidade de probabilidade dada por:

2

2

22

122

2)(

ην

νν

η

νη

ν

ην

ην

+

+

Γ

Γ

=W

Wf . (10.25)

A expectância e a variância são dadas por:

2][

−=

η

ηWE (10.26)

)4()2(

)2(2][

2

2

−−

−+=

ηην

ηνηWVar (10.27)

10.9 – Aproximação da Distribuição Binomial pela Normal

Seja X uma variável aleatória discreta com distribuição binomial de parâmetros n e p. Para valores muito grandes de n é possível substituir a distribuição binomial pela distribuição normal, quando se deseja calcular determinada probabilidade, como P(X ≤ x), por exemplo. Neste caso basta calcular o escore reduzido para x, dado por:

Page 65: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

65

)1( pnp

npxz C

x−

−= . (10.28)

Na fórmula (10.28), xC = x – 0,5 para calcular P(x ≤ X), e xC = x + 0,5 para calcular P(X ≤ x). Exemplo 10.4 – A proporção de não conformidade de certo componente é igual a 4%. Em um lote de 500 unidades, qual a probabilidade de se encontrar no máximo 30 unidades não conformes ? P(X ≤ 30) = P(XC ≤ 30,5) ; µ = (500)(0,04) = 20 ; σ2 = (500)(0,04)(0,96) = 19,2 ; σ = 4,3818. O escore reduzido é zx = 2,39. Então P(X ≤ 30) = área(zx ≤ 2,39) = 0,5 + 0,4916 = 0,9916. 10.10 – Exercícios 10.10.1) Uma variável aleatória X é normalmente distribuída, com média igual a 5 e variância igual a 4. Calcular as probabilidades: a) P(5 ≤ X ≤ 7,5) b) P(4,5 ≤ X ≤ 7,5) c) P(5,8 ≤ X ≤ 8,5) d) P(6,5 ≤ X ) e) P(X ≤ 7,5) f) P(X ≤ 4,5) 10.10.2) Os diâmetros dos tubos produzidos por uma máquina são normalmente distribuídos, com média igual a 49,7 mm e desvio padrão igual a 0,18 mm. Um cliente rejeita qualquer unidade com diâmetro superior a 50,2 mm. Qual a probabilidade de uma unidade ser rejeitada ? Resposta: 0,9973 10.10.3) O peso líquido dos potes de margarina de certa marca é normalmente distribuído, com média igual a 500 g e desvio padrão igual a 8 g. Um cliente rejeitou 15% de um lote, alegando que o peso líquido era inferior ao seu limite de tolerância. Quanto vale este limite ? 10.10.4) Um aeroporto registra em média cinco aterrissagens por hora. Qual a probabilidade de que o intervalo entre duas aterrissagens seja superior a 20 minutos ? Resposta: 0,1889 10.10.5) No exercício anterior, qual a probabilidade de que o intervalo de tempo seja inferior a 15 minutos? 10.10.6) Seja T uma variável aleatória contínua tal que T ~ Exp(λ). Verificar que E[T] = λ e Var[T] = λ2. 10.10.7) Seja X uma variável aleatória contínua com distribuição de Weibull, de parâmetros α e β. Encontrar a expectância e a variância de X. 10.10.8) O tempo médio até a ocorrência da primeira falha em um componente é igual a 500 horas. O fabricante oferece uma garantia de 200 horas. Qual a probabilidade de que a primeira falha ocorra dentro deste prazo ? Resposta: 0,6703 10.10.9) Seja uma variável aleatória X, tal que X ~ N(µ , σ2). Calcular:

a) P(X ≤ µ + σ)

b) P(X ≤ µ + 2σ)

Page 66: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

66

c) P(µ – σ ≤ X ≤ µ + σ)

d) P(µ – 3σ ≤ X ≤ µ + 3σ) 10.10.10) Seja X uma variável aleatória contínua tal que X ~ χ2

7 . Determinar xc tal que:

a) P(X ≤ xc ) = 0,95

b) P( xc ≤ X ) = 0,95

c) P( xc ≤ X ) = 0,025 10.10.11) Uma empresa aérea registra um índice de 8% de desistência para determinado vôo. Para compensar o prejuízo a empresa, que utiliza um avião com capacidade para 150 passageiros, costuma vender 155 passagens. Qual a probabilidade de que haja excesso de lotação (overbooking) ?

Resposta: 0,0096 10.10.12) O tempo médio até a ocorrência da primeira falha em um componente é igual a 500 horas. O fabricante oferece uma garantia de 200 horas. Um equipamento utiliza oito unidades deste componente. Qual a probabilidade de no máximo duas unidades apresentarem defeito no prazo de garantia ? 10.10.13) Seja X uma v.a.c. com distribuição de Weibull, de parâmetros α = 0,0281 e β = 2,3499. Calcular:

a) P(2,5 ≤ X ) b) P(X ≤ 3)

Page 67: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

67

11. INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

Seja X uma variável aleatória, contínua ou discreta, com função densidade de probabilidade, ou função de probabilidade dada por f (x | θ), onde θ é o parâmetro desconhecido. A inferência estatística é o nome dado ao problema que tem por objetivo especificar um ou mais valores para θ, tendo como base um conjunto de valores observados para a variável aleatória X. Exemplo 11.1 – Seja X uma variável aleatória discreta, com distribuição de Bernoulli. Então a função de probabilidade de X é:

xxxf −−= 1)1()|( θθθ

Neste caso, o parâmetro desconhecido é θ. 11.1 – Estimadores e Estatísticas Seja uma variável aleatória X. Uma amostra aleatória de tamanho n da distribuição de X é uma seqüência x1 , x2 , ... , xn de n variáveis aleatórias independentes e identicamente distribuídas (i.i.d.) com função densidade, ou de probabilidade, f (x | θ). A função densidade, ou de probabilidade, conjunta é dada por:

∏=

=n

iin xfxxxf

121 )|()|,...,,( θθ . (11.1)

A função (11.1) também é denominada função de verossimilhança de θ correspondente à amostra:

=

nx

x

x

...2

1

X .

A função de verossimilhança é denotada por:

∏=

=n

iixfL

1

)|();( θθ X . (11.2)

Uma estatística é qualquer função da amostra, e que não depende de parâmetros desconhecidos. Exemplo 11.2 – Seja X = [ x1 , ... , xn ]

T uma amostra aleatória de uma variável aleatória X ,com f.d.p., ou f.p., dada por f (x | θ). São exemplos de estatísticas:

a) ∑=

=n

iix

nX

1

1 . b) ),...,min( 1)1( nxxX = .

Chama-se espaço paramétrico o conjunto Θ, no qual θ assume seus valores. Exemplo 11.3 – Seja a variável aleatória X do exemplo 11.1. Neste caso o espaço paramétrico é o conjunto Θ = θ ; 0 ≤ θ ≤ 1. Um estimador para θ é qualquer estatística que assuma valores no espaço paramétrico Θ. Em alguns casos o objetivo é a estimação de uma função g(θ). Então qualquer estatística que assume valores apenas no conjunto de possíveis valores para g(θ) é um estimador para a função.

O erro quadrático médio (EQM) de um estimador θ é dado por:

]ˆ[]ˆ[]ˆ[ 2 θθθ BVarEQM −= . (11.3)

Page 68: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

68

Na fórmula (11.3), θθθ −= ]ˆ[]ˆ[ EB é o viés, ou vício, do estimador. Se θθ =]ˆ[E , diz-se que o

estimador é não viciado, ou não viesado. Neste caso ]ˆ[]ˆ[ θθ VarEQM = . Também, se 0]ˆ[lim =∞→

θBn

,

diz-se que o estimador é assintoticamente não viesado. Exemplo 11.4 – Seja X = [x1 , x2 , ... , xn]

T uma amostra aleatória da variável aleatória X, tal que E[X] = µ e Var[X] = σ2. Neste caso:

∑∑∑===

==

=

=

n

ii

n

ii

n

ii xE

nxE

nx

nEXE

111

][111

][ µ .

Então ∑=

=n

iix

nX

1

1 é um estimador não viesado para µ.

11.2 – Estimadores Eficientes Seja θ o estimador para um parâmetro desconhecido θ. A eficiência do estimador em questão é dada por:

]ˆ[

][]ˆ[

θ

θθ

Var

LIe = . (11.4)

Na fórmula (11.4), LI[θ] é o limite inferior da variância dos estimadores não viesados de θ. Se 1]ˆ[ =θe ,

diz-se que o estimador é eficiente. 11.3 – Estatísticas Suficientes

Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória X, com f.d.p., ou f.p., dada

por f(x| θ). Quando se utiliza uma estatística para resumir as informações a respeito do parâmetro desconhecido θ, deve-se evitar que haja perda de informação. Neste sentido, se existe uma estatística, dada por T = T(x1 , x2 , ... , xn), que contém toda a informação fornecida por X, diz-se que T é uma estatística suficiente para estimar θ. De acordo com Bolfarine e Sandoval (2001), diz-se que a estatística T = T(x1 , x2 , ... , xn) é suficiente para θ, quando a distribuição condicional de x1 , ... , xn dado T é independente de θ. 11.3.1 – Critério da Fatoração de Neyman

Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória X, com f.d.p., ou f.p., dada

por f(x| θ), e função de verossimilhança L(θ ; X). Então a estatística T = T(x1 , x2 , ... , xn) é suficiente para θ se, e somente se:

)),...,((),...,();( 11 nn xxTgxxhL θθ =X . (11.5)

Na expressão (11.5), h é uma função que depende apenas de X e gθ depende de θ e de X apenas através de T. Exemplo 11.5 – Seja X = [x1 , x2 , ... , xn]

T uma amostra aleatória da variável aleatória discreta X, com distribuição de Poisson, isto é, X ~ P(θ). Então:

∏=

=n

iixfL

1

)|();( θθ X

∑== =−

=

−−

n

iin x

nn

ii

n

xx

e

xx

e

x

eL 1

1

1

1 !

1

!...

!);( θ

θθθ θ

θθ

X

Neste caso:

Page 69: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

69

∏=

=n

iix

h

1

!

1)(X e

∑= =−

n

iix

neTg 1))(( θθθ X . Então a estatística suficiente para θ é:

∑=

=n

iixT

1

)(X .

O critério da fatoração de Neyman é válido também no caso de funções multiparamétricas, isto é,

com mais de um parâmetro desconhecido. 11.4 – Família Exponencial Seja uma variável aleatória X, com f.d.p., ou f.p., dada por f(x| θ). Diz-se que a distribuição de X pertence à família exponencial se:

)]()()()(exp[)|( xSdxTcxf ++= θθθ . (11.6)

Na forma (11.6), c e d são funções reais de θ, enquanto T e S são funções reais de x. Exemplo 11.6 – Seja X uma v.a.d. com distribuição de Poisson, ou seja, X ~ P(θ). Então:

]!lnlnexp[!

)|( xxx

exf

x

−+−==−

θθθ

θθ

.

Neste caso, d(θ) = – θ ; c(θ) = ln θ ; S(x) = – ln x! ; T(x) = x. Seja X = [x1 , x2 , ... , xn]

T uma amostra aleatória da variável aleatória X, com f.d.p., ou f.p., dada por f(x| θ), pertencente à família exponencial. Então a distribuição conjunta de x1 , x2 , ... , xn é dada por:

)]()()()(exp[)|,...,( 1 XX SDTCxxf n ++= θθθ . (11.7)

A distribuição conjunta também pertence à família exponencial:

∑=

=n

iixTT

1

)()( X ∑=

=n

iixSS

1

)()( X

De acordo com o critério da fatoração de Neyman, T(X) é uma estatística suficiente para estimar o parâmetro desconhecido θ. Exemplo 11.7 – Seja X = [x1 , x2 , ... , xn]

T uma amostra aleatória da variável aleatória discreta X, com distribuição de Poisson, ou X ~ P(θ). Então:

∑== =−

=

−−

n

iin x

n

n

ii

n

xx

n e

xx

e

x

exxf 1

1

1

11

!

1

!...

!)|,...,( θ

θθθ θ

θθ

.

+−= ∑

∏ =

=

θθθ ln!

1lnexp)|,...,(

1

1

1

n

iin

ii

n xn

x

xxf .

∑=

=n

iixT

1

)(X

∏=

=n

iix

S

1

!

1ln)(X θθ ln)( =C θθ nD −=)(

Page 70: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

70

11.5 – Método da Máxima Verossimilhança Seja X = [x1 , x2 , ... , xn]

T uma amostra aleatória da variável aleatória X, com f.d.p., ou f.p., dada por f(x|θ), pertencente à família exponencial. A função de verossimilhança de θ, correspondente à amostra é dada por:

∏=

=n

iixfL

1

)|();( θθ X

O estimador de máxima verossimilhança de θ é o valor θ que maximiza a função de

verossimilhança. Em geral é mais prático trabalhar com o logaritmo da função de verossimilhança, isto é, com a função log-verossimilhança, dada por:

))|(ln();(1

∏=

=n

iixf θθ Xl . (11.8)

Desta forma o estimador do parâmetro θ é dado por:

0)|(

=∂

θ

θ Xl . (11.9)

Exemplo 11.8 – Seja X = [x1 , x2 , ... , xn]

T uma amostra aleatória da variável aleatória discreta X, com distribuição de Poisson, ou X ~ P(θ). Então:

∑== =−

=

−−

n

iin x

n

n

ii

n

xx

e

xx

e

x

eL 1

1

1

1 !

1

!...

!)|( θ

θθθ θ

θθ

X

θθθ ln!

1ln);(

1

1

+−= ∑

∏ =

=

n

iin

ii

xn

x

Xl

01

);(1

=

+−=

∂∑

= θθ

θ

n

iixnXl

O estimador de máxima verossimilhança de θ é:

Xxn

n

ii =⇒

= ∑

=

θθ ˆ1ˆ1

.

Há situações nas quais a derivada (11.9) não apresenta solução analítica explícita. Neste caso pode-se utilizar algum método numérico para obter o valor para o estimador de máxima verossimilhança. Seja a função escore, dada por:

θ

θθ

∂=

)|()(

XlU . (11.10)

O método mais utilizado para obter a solução é o método de Newton-Raphson, que resulta na expressão:

)('

)(1

k

kkk U

U

θ

θθθ −=+

. (11.11)

11.6 – Distribuição Amostral da Média Seja a variável aleatória X, associada a uma população de tamanho N, cujos parâmetros são a média populacional, µ = E[X], e a variância populacional σ2 = Var[X]. Além disto, supõe-se que os dois

Page 71: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

71

parâmetros são conhecidos. Sejam todas as possíveis amostras aleatórias, de tamanho n, extraídas da população em questão. Se for calculada a média para cada uma das amostras, obtém-se uma distribuição amostral da média, com expectância e variância dadas, respectivamente, por:

µ=][XE (11.12) n

XVar2

][σ

= (11.13)

Seja a variância populacional dada por:

( )∑=

−=N

iix

N 1

22 1µσ . (11.14)

Pode-se considerar como estimador para a variância populacional a estatística dada por:

( )∑=

−=n

ii Xx

n 1

22 1σ (11.15)

( )

−+−= ∑

=

n

ii Xx

n 1

22 1ˆ µµσ ,

( ) ( )( ) ( )

−+−−−−= ∑∑∑

===

n

i

n

ii

n

ii XXxx

n 1

2

11

22 21

ˆ µµµµσ ,

( ) ( )

−−−= ∑

=

2

1

22 1ˆ µµσ Xnx

n

n

ii

.

Desta forma:

−−−= ∑

=

n

ii XnExE

nE

1

222 ][][1

]ˆ[ µµσ

−= ∑

=

n

ii XnVarxVar

nE

1

2 ][][1

]ˆ[σ

−=

nnn

nE

222 1

]ˆ[σ

σσ

22 1]ˆ[ σσ

n

nE

−= . (11.16)

Com isto, observa-se que o estimador (11.15) possui um viés, dado por:

2222 ˆ1

ˆ]ˆ[)ˆ( σσσσn

EB −=−= . (11.17)

Um estimador não viesado é dado por 2ˆ1

σ−n

n . Desta forma, um estimador não viesado para σ2 é

definido por:

∑=

−−

=n

ii Xx

ns

1

22 )(1

1 . (11.18)

11.6.1 – Erro Padrão

O erro padrão para a média amostral é definido como a raiz quadrada da variância, dada por (11.13), isto é:

nXEP

σ=][

Page 72: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

72

11.7 – Exercícios 11.7.1) Seja X = [x1 , x2 , ... , xn]

T uma amostra aleatória da variável aleatória discreta X, com distribuição de Bernoulli, isto é:

xxxf −−= 1)1()|( θθθ .

a) Mostrar que a função pertence à família exponencial. b) Encontrar uma estatística suficiente para estimar θ. c) Encontrar o estimador de máxima verossimilhança para θ.

11.7.2) Seja X = [x1 , x2 , ... , xn]

T uma amostra aleatória da variável aleatória discreta X, com distribuição exponencial, isto é:

θ

θθ

x

exf−

=1

)|( .

a) Mostrar que a função pertence à família exponencial. b) Encontrar uma estatística suficiente para estimar θ. c) Encontrar o estimador de máxima verossimilhança para θ.

Respostas: XcxTbn

ii =

= ∑

=

θ))()1

X .

11.7.3) Seja X = [x1 , x2 , ... , xn]

T uma amostra aleatória da variável aleatória discreta X, com distribuição de Weibull, isto é:

)exp(),|( 221

12121

θθ θθθθθ xxxf −= − .

a) Mostrar que a função pertence à família exponencial. b) Encontrar uma estatística suficiente para estimar θ = [θ1 , θ2]

T . c) Encontrar os estimadores de máxima verossimilhança para θ.

11.7.4) O fabricante de certo equipamento deseja estimar o tempo médio entre falhas. Para tanto, observou o funcionamento do equipamento e registrou os tempos, em horas, entre as ocorrências das dez primeiras falhas. Os valores são dados no quadro abaixo. Supondo que o tempo entre as falhas segue distribuição exponencial, qual a probabilidade de que o tempo entre duas falhas seja superior a oito horas?

Falha 1 2 3 4 5 6 7 8 9 10

Tempo 5,5 8,5 7,0 9,0 8,5 6,0 6,5 5,0 7,0 5,0 Resposta: P(8 < t) = 0,3053. 11.7.5) Seja X = [x1 , x2 , ... , xn]

T uma amostra aleatória da variável aleatória contínua X, X ~ N(µ,1).

a) Mostrar que a função pertence à família exponencial. b) Encontrar uma estatística suficiente para estimar µ. c) Encontrar o estimador de máxima verossimilhança para µ.

11.7.6) Seja X = [x1 , x2 , ... , xn]

T uma amostra aleatória da variável aleatória contínua X, X ~ N(0 , σ2).

a) Mostrar que a função pertence à família exponencial. b) Encontrar a estatística suficiente para estimar σ2. c) Encontrar o estimador de máxima verossimilhança para σ2.

Respostas: ∑∑==

=

=

n

ii

n

ii x

ncxTb

1

2

1

2 1ˆ))() θX .

11.7.7) Um criador de galinhas, que entrega ovos em embalagens de doze unidades, deseja estimar a probabilidade de que uma embalagem seja entregue com mais de um ovo quebrado. O criador inspecionou dez embalagens, cada uma com uma dúzia de ovos, e registrou o número de ovos quebrados. Os valores são mostrados no quadro a seguir.

Page 73: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

73

Embalagem 1 2 3 4 5 6 7 8 9 10

Ovos quebrados 1 0 1 2 0 1 1 0 0 3

a) Qual a distribuição de probabilidade da variável aleatória X, que representa o número de ovos quebrados em uma embalagem ?

b) Qual a estatística suficiente para estimar o parâmetro desconhecido θ ? c) Estimar o parâmetro desconhecido θ. d) Qual a probabilidade de uma embalagem apresentar mais de um ovo quebrado ? e) Quanto vale a expectância de X ?

11.7.8) O processo de fabricação de determinado componente mecânico apresenta uma elevada taxa de rejeição. O componente é entregue ao cliente em lotes de cinco unidades. O fabricante está interessado em descobrir o número de unidades produzidas até que se obter as cinco unidades. O quadro a seguir mostra o número de unidades produzidas para atender aos dez primeiros pedidos.

Pedido 1 2 3 4 5 6 7 8 9 10

Unidades produzidas 8 7 7 6 8 9 5 6 7 7

a) Caracterizar a variável aleatória X, que representa o número de unidades produzidas até se obter as cinco unidades necessárias.

b) Qual a estatística suficiente para estimar o parâmetro desconhecido θ ? c) Estimar o parâmetro desconhecido θ. d) Qual a quantidade média necessária para atender cada pedido ? e) Se o custo para produzir uma unidade é de R$ 100,00, qual o custo médio para produzir um lote?

Respostas:

a) X é variável aleatória discreta com distribuição de Pascal. Então 55 )1(15

1)|( −−

−= xx

xf θθθ .

110

1

5ˆ))() −

=

=

= ∑ XcxTb

ii θX d) E(X) = 5,8 e) Custo médio = R$ 580,00.

11.7.9) Seja X = [x1 , x2 , ... , xn]

T uma amostra aleatória da variável aleatória contínua X, tal que:

( )( )

θ−

+θθ

+=θ

xexp

x|xf

1

1

a) Mostrar que a função pertence à família exponencial. b) Encontrar a estatística suficiente para estimar θ. c) Encontrar o estimadore de máxima verossimilhança para θ.

11.7.10) Seja X = [x1 , x2 , ... , xn]

T uma amostra aleatória da v. a. c. X, 0 ≤ X ≤ 1, e seja a função dada por:

1)|( −= θθθ xxf .

a) Calcular a expectância e a variância de X. b) Se a função é uma f.d.p., verificar se pertence à família exponencial. c) Encontrar, caso exista, uma estatística suficiente para estimar o parâmetro desconhecido. d) Encontrar, se existir, o estimador de máxima verossimilhança para o parâmetro desconhecido.

a) 2)1)(2(

)12(][,

2][

++

−=

+=

θθ

θθ

θ

θXVarXE b) Sim. c) ∑

=

=n

iixT

1

ln)(X .

Referências Bolfarine, H., Sandoval, M.C., Introdução à Inferência Estatística. Sociedade Brasileira de Matemática. Rio de Janeiro, RJ. 2001.

Page 74: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

74

12. INTERVALOS DE CONFIANÇA

Os estimadores estudados até aqui são denominados pontuais, uma vez que especificam um único valor para o estimador. Este método, embora correto, impede uma avaliação mais precisa do erro cometido no processo. Para aumentar a informação a respeito do valor do estimador pode-se utilizar a estimação por intervalo de confiança. Tal intervalo é construído com relação à média amostral, e permite especificar a probabilidade de que o valor do parâmetro desconhecido pertença ao intervalo em questão. O nível de confiança associado a um intervalo de confiança indica a percentagem de intervalos que incluiriam o valor do parâmetro que se deseja estimar. 12.1 – Intervalo de Confiança para a Média

Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da v. a. c. X, com distribuição normal, com

variância σ2 . Então um intervalo de confiança para a média populacional µ é dado por:

+−

nzX

nzX

σσαα

22; . (12.1)

Na expressão (12.1), α = 1 – β, onde β é o nível de confiança desejado. O valor de α é tal que:

βσ

µσ

αα =

+≤≤−

nzX

nzXP

22

. (12.2)

Exemplo12.1 – Sabe-se que o peso da semente de certa espécie de planta é normalmente distribuído, com variância igual a 0,25 g. Uma amostra de 15 sementes apresentou os pesos mostrados no quadro a seguir. Construir um intervalo de 95% de confiança para estimar o peso médio das sementes da planta em questão.

Observação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Peso (g) 8,0 7,5 6,7 7,2 8,0 7,1 7,8 7,2 6,8 7,3 6,6 8,2 8,1 7,4 6,9 Neste caso, σ2 = 0,25. A média amostral é 3867,7=X . Como o nível de confiança desejado é β = 0,90,

α = 0,05. Isto significa que α deve ser tal que:

90,015

5,03867,7

15

5,03867,7

22=

+≤≤− αα µ zzP .

A tabela da distribuição normal mostra que esta probabilidade é obtida para z = 1,645. Então o intervalo de confiança procurado é:

90,015

5,0645,13867,7

15

5,0645,13867,7 =

+≤≤− µP

[ ] 90,02124,03867,72124,03867,7 =+≤≤− µP

[ ] 90,05991,71743,7 =≤≤ µP .

Os níveis de confiança, e os respectivos valores críticos, mais utilizados na prática são mostrados

no Quadro 12.1. Quadro 12.1 – Níveis de confiança.

β 0,90 0,95 0,99

zc 1,645 1,96 2,58 12.1.1 – Intervalo de Confiança para a Média, com σ2 Desconhecida.

No exemplo anterior a variância populacional é conhecida. Entretanto, tal fato não é freqüente na prática, quando não se dispõe de informação a respeito da variância populacional. Em situações com esta

Page 75: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

75

deve-se utilizar a variância amostral. Neste caso os valores para determinação da probabilidade correspondente ao nível de confiança desejado são dados pela distribuição t, de Student.

Seja X = [x1 , x2 , ... , xn]

T uma amostra aleatória da v. a. c. X, com distribuição normal, com média e variância desconhecidas. Então um intervalo de confiança para a média populacional µ é dado por:

+−

n

stX

n

stX cc ; . (12.3)

Na expressão (12.3) o valor de tc é obtido na tabela da distribuição t, de Student, com φ = n – 1 graus de liberdade. Exemplo 12.2 – O Quadro 5.1 mostra os teores (%) de vanádio encontrados em uma amostra de sete estratos de óleo cru extraídas de solo do tipo “Wilhelm sandstone”. Construir um intervalo de 95% de confiança para o teor médio.

Quadro 5.1 – Teores de vanádio. Estrato 1 2 3 4 5 6 7

Teor (%) 3,9 2,7 2,8 3,1 3,5 3,9 2,7 Fonte: Johnson e Wichern (1988)

Aqui, a média e o desvio padrão amostrais são: 5376,02286,3 == seX . Como o nível de confiança

desejado é 95%, o valor procurado para tc é: t(α = 0,025 ; φ = 7 – 1 = 6) = 2,4469. Então o intervalo é:

9507

537604469222863

7

537604469222863 ,

,,,

,,,P =

+≤µ≤−

[ ] 95,04972,02286,34972,02286,3 =+≤≤− µP

[ ] 95,07258,37314,2 =≤≤ µP .

12.2 – Intervalo de Confiança para a Proporção

Seja uma variável aleatória discreta X, associada a uma população na qual se observa a ocorrência de certo evento. Seja p a proporção de sucessos na população em questão. Neste caso a variável X é tal que:

=sucesso

insucessoX

,1

,0 .

Então a expectância e a variância de X são dadas por: pXE =)( e )1()( ppXVar −= , respectivamente.

Seja X = [x1 , x2 , ... , xn]

T uma amostra aleatória extraída da população referida anteriormente, e seja Xn o total de sucessos na amostra. Então Xn tem distribuição binomial com parâmetros n e p. A proporção de sucessos na amostra é dada por:

n

Xp n=ˆ .

Conforme foi visto em 10.9, a distribuição binomial, da variável Xn , pode ser aproximada pela distribuição normal, isto é:

)1(,(~ pnpnpNX n − .

Além disto,

n

pppNp

)1(,~ˆ .

Page 76: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

76

O intervalo de confiança para a proporção p, com nível β de confiança, é dado por:

βαα =

−+≤≤

−−

n

ppzpp

n

ppzpP

)ˆ1(ˆˆ

)1(ˆ

22

. (12.4)

Exemplo 12.3 – Efetuou-se uma inspeção em uma amostra de 15 unidades de certo produto. Seja X a v.a.d. que representa a ocorrência de alguma não conformidade, ou seja, X = 0, se a unidade é conforme, ou X = 1, caso esteja fora de conformidade. O resultado da inspeção é mostrado no quadro a seguir. Construir um intervalo de 90% de confiança para a proporção de não conformidade do produto.

Unidade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

X 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1

A proporção de sucessos é: 2,015

3ˆ ==p . Para o nível β = 90%, z = 1,645. Então o intervalo é:

90,015

)2,01)(2,0()645,1(2,0

15

)2,01)(2,0()645,1(2,0 =

−+≤≤

−− pP

[ ] 90,01699,02,01699,02,0 =+≤≤− pP

[ ] 90,03699,00301,0 =≤≤ pP .

12.3 – Intervalo de Confiança para a Diferença de Médias Na prática, a necessidade de comparar duas médias populacionais pode ser observada em experimentos em áreas como medicina e agronomia, por exemplo. Aqui são consideradas duas populações, supostamente com distribuição normal, com médias e variâncias dadas por µ1 e σ1

2, para a primeira população, e µ2 e σ2

2, para a segunda população. Uma questão importante diz respeito à igualdade das variâncias populacionais. Uma prática comum é utilizar a variância ponderada para a construção do intervalo de confiança para a diferença de duas médias. Sejam duas amostras aleatórias das populações de interesse, X1 = [x11 , x12 , ... , x1n1 ]

T e X2 = [x21 , x22 , ... , x2n2]T, com médias e variâncias

dadas por 211 seX e 2

22 seX , respectivamente. Então o intervalo de confiança para a diferença

das duas médias populacionais é dado por:

βσσ

µµσσ

=

++−≤−≤+−−

−−−−

2

2)(

1

2)(

21212

2)(

1

2)(

2121212121

ˆˆ)()(

ˆˆ)(

nntXX

nntXXP

XXXX

c

XXXX

c (12.5)

O erro padrão para a diferença das médias é dado por:

2

)1()1(ˆ

21

222

2112

)( 21 −+

−+−=

− nn

snsnXX

σ . (12.6)

O valor de tc é obtido diretamente na tabela da distribuição t, de Student, com φ = n1 + n2 – 2 graus de liberdade. Exemplo 12.3 – O Quadro 12.2 mostra os teores de ferro observados em amostras de óleo cru, uma oriunda de argila Wilhelm e outra de argila sub-mulinia. Construir um intervalo de 95% de confiança para a diferença dos teores médios das duas amostras.

Quadro 12.2 – Teores de ferro (%) em amostras de óleo cru. Observação 1 2 3 4 5 6 7 8 9 10 11

Wilhelm 51 49 36 45 46 43 35 Sub-Mulinia 47 32 12 17 36 35 41 36 32 46 30

Fonte: Johnson e Wichern (1988)

Page 77: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

77

As médias e variâncias são: 2857,3757,43 211 == seX ; 8909,1150909,33 2

21 == seX .

O erro padrão é dado por: 414,862117

)8909,115)(111()2857,37)(17(ˆ 2

)( 21=

−+

−+−=

− XXσ .

95,011

414,86

7

414,86)1199,2(4791,10)(

11

414,86

7

414,86)1199,2(4791,10 21 =

++≤−≤+− µµP

[ ] 95,05279,94791,10)(5279,94791,10 21 =+≤−≤− µµP

[ ] 95,00070,20)(9512,0 21 =≤−≤ µµP .

12.4 – Intervalo de Confiança para a Diferença de Proporções

Sejam duas populações com proporções p1 e p2 de sucessos. Sejam duas amostras, de tamanhos n1 e n2, e proporções

1p e 2p de sucessos, respectivamente. O intervalo de confiança para a diferença das

duas proporções populacionais é dado por:

βππππππππ

=

−+

−+−≤−≤

−+

−−−

212121

2121

)ˆ1(ˆ)ˆ1(ˆ)ˆˆ()(

)ˆ1(ˆ)ˆ1(ˆ)ˆˆ(

nnzpppp

nnzppP cc

. (12.7)

Na expressão (12.7): 21

2211 ˆˆˆ

nn

pnpn

+

+=π .

Exemplo 12.4 - Em set/2006 foi publicado um estudo sobre os efeitos do medicamento Celecoxib sobre o câncer de cólon e reto. O estudo envolveu 1561 pacientes, dos quais 933 utilizaram o medicamento, enquanto os demais foram tratados com placebo. No grupo tratado com o medicamento, 314 apresentaram lesões típicas da moléstia. Entre o grupo tratado com placebo, a doença foi detectada em 309 pacientes. Construir um intervalo de 95% para a diferença de proporções de incidência da doença entre os pacientes tratados com o medicamento e os pacientes tratados com placebo.

4920,0628

309ˆ 1 ==p (placebo), 3365,0

933

314ˆ 2 ==p (medicamento) , 3991,0

628933

309314ˆ =

+

+=π .

β=

++≤−≤+−

628

2398,0

933

2398,0)96,1(155,0)(

628

2398,0

933

2398,0)96,1(155,0 21 ppP

[ ] 95,00495,0155,0)(0495,0155,0 21 =+≤−≤− ppP

[ ] 95,02045,0)(1055,0 21 =≤−≤ ppP .

Então o índice de incidência da doença no grupo tratado com placebo é de 10,55% a 20,45% superior ao índice verificado no grupo tratado com o medicamento, com 95% de confiança. 12.5 – Intervalo de Confiança para a Variância

Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da v. a. c. X, com distribuição normal, com

média e variância desconhecidas. Então um intervalo de confiança para a variância populacional σ2 é dado por:

21,1

22

2

1,2

2 )1()1(

−−−

−≤≤

nn

snsn

αα χσ

χ . (12.8)

Na fórmula (12.8), α = 1 – β. Exemplo 12.5 – O Quadro 5.1 mostra os teores (%) de vanádio encontrados em uma amostra de sete estratos de óleo cru extraídas de solo do tipo “Wilhelm sandstone”. Construir um intervalo de 95% de confiança para a variância.

Quadro 5.1 – Teores de vanádio. Estrato 1 2 3 4 5 6 7

Teor (%) 3,9 2,7 2,8 3,1 3,5 3,9 2,7

Page 78: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

78

Fonte: Johnson e Wichern (1988) Aqui, a média e o desvio padrão amostrais são: 5376,02286,3 == seX . Como o nível de confiança

desejado é 95%, os valores procurados para χ2 são: χ2( 0,025 ; 6 ) = 14,449 e χ2

( 0,95; 6 ) = 1,635. Então:

237,1

)5376,0)(17(

449,14

)5376,0)(17( 22

2 −≤≤

−σ

95,0]4018,11200,0[ 2 =≤≤ σP .

12.6 – Determinação do Tamanho de uma Amostra A coleta de dados pode ser precedida do cálculo do tamanho mínimo da amostra necessária para estimar a média ou a proporção. Neste caso deve-se especificar o nível de confiança desejado e o erro aceitável. 12.6.1 – Tamanho da Amostra para Estimar a Média

Há duas situações a considerar, ambas relativas ao tamanho da população, que pode ser conhecido ou não. No primeiro caso, o tamanho mínimo da amostra é dado por:

222

22

1 sz)N(

sNzn

c

c

+−ε≥ . (12.8)

Na fórmula (12.8): N = tamanho da população; s2 = estimador para a variância populacional, calculado a partir de uma amostra piloto; zc = valor crítico correspondente ao nível de confiança desejado; ε = erro máximo admitido para a estimativa da média. Quando o tamanho da amostra é desconhecido, o tamanho da amostra pode ser calculado por:

2

22

ε

szn c≥ . (12.9)

Exemplo 12.5 – Uma empresa de serviços deseja estimar o valor médio das contas, com um nível de confiança de 95% e admitindo um erro máximo de R$ 2,00, a mais ou a menos. Uma amostra piloto apresentou os valores mostrados no quadro a seguir. Determinar o tamanho mínimo da amostra necessária à estimação.

Observação 1 2 3 4 5 6 7 8 9 10

Valor (R$) 85,50 86,30 69,40 85,60 72,30 98,80 78,90 69,50 64,20 85,30 Nível de confiança: β = 0,95 → zc = 1,96. Erro: ε = 2. O valor estimado para a variância é s2 = 112,6464. Então:

1092

)6464,112()96,1(2

22

≅≥n .

12.6.2 – Tamanho da Amostra para Estimar a Proporção Assim como no caso anterior, há duas situações:

1. Tamanho da população conhecido: )ˆ1(ˆ)1(

)ˆ1(ˆ22

2

ppzN

ppNzn

c

c

−+−

−≥

ε .

2. Tamanho da população desconhecido: 2

2 )ˆ1(ˆ

ε

ppzn c −

≥ .

Nos dois casos, p é o estimador da proporção populacional, obtido a partir de uma amostra piloto.

Page 79: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

79

Exemplo 12.6 – Uma empresa deseja estimar o percentual de clientes dispostos a aceitar uma alteração contratual. Um levantamento preliminar apontou 35% de concordância. A empresa deseja que a estimativa tenha um erro máximo de 4%, e um nível de 95% de confiança. Qual deve ser o tamanho mínimo da amostra ?

5460016,0

8740,0

)04,0(

)35,01)(35,0()96,1(2

2

≅=−

≥n .

12.7 – Exercícios 12.7.1) O quadro a seguir mostra os preços de venda observados para um determinado modelo de veículo usado. Construir um intervalo de 95% de confiança para o preço médio do produto.

Anúncio 1 2 3 4 5 6 7 8 9 10

Valor (R$10000,00) 2,5 2,4 2,38 2,45 2,35 2,5 2,45 2,35 2,45 2,38 12.7.2) Uma técnica utilizada no diagnóstico de esclerose múltipla consiste em produzir um estímulo visual sobre cada um dos olhos. Em seguida anota-se a diferença entre os tempos de resposta observados para cada um dos olhos. O quadro a seguir mostra os valores observados para 15 portadores (diagnóstico positivo) e 15 não portadores (diagnóstico negativo) da doença. Construir um intervalo de 95% de confiança para a diferença dos tempos médios de resposta entre os dois grupos.

Quadro 12.3 – Diferenças de tempos de resposta a um estímulo visual para diagnóstico de esclerose múltipla.

Observação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Negativo 1,6 0,4 3,2 0,8 1,6 3,2 4,8 1,6 3,2 2,8 1,6 0,8 2,4 3,4 0,6 Positivo 0,8 3,2 8,0 14,2 12,8 6,8 3,4 29,2 18,4 1,6 1,8 9,2 16,8 8,0 4,6

Fonte: Johnson e Wichern (1988) 12.7.3) A vacina Salk, contra poliomielite, foi desenvolvida no início da década de 50, e sua eficácia foi colocada à prova em 1954. Para tanto, foram formados dois grupos, cada um com 200000 crianças. A um dos grupos foi ministrada a vacina, enquanto ao outro grupo foi ministrado um placebo. No primeiro grupo a doença manifestou-se em 33 crianças, o mesmo acontecendo com 115 crianças do segundo grupo. Construir um intervalo de 95% de confiança para a diferença de proporções entre os dois grupos. 12.7.4) O New England Journal of Medicine, v. 318, no. 4, publicou um estudo sobre os efeitos da Aspirina na prevenção de ataques cardíacos. O experimento envolveu 22131 médicos, que foram monitorados durante seis anos. O medicamento foi ministrado em doses regulares a 11097 médicos, enquanto 11034 médicos tomaram placebo. Ao final do período de acompanhamento verificou-se que 104 médicos do primeiro grupo sofreram ataque cardíaco, contra 189 médicos do grupo que ingeriu placebo. Construir um intervalo de 95% de confiança para a diferença de proporções nos dois grupos. 12.7.5) A tabela a seguir mostra a distribuição de freqüências dos comprimentos das sépalas de 150 exemplares de flores íris.

a) Construir um intervalo de 95% de confiança para o comprimento médio. b) Construir intervalo de 95% de confiança para a variância.

Classe Comprimento (mm) Flores

1 43 |-- 47 9 2 47 |-- 51 23 3 51 |-- 55 19 4 55 |-- 59 28 5 59 |-- 63 20 6 63 |-- 67 23 7 67 |-- 71 16 8 71 |-- 75 6 9 75 |-- 79 6 Total 150

Page 80: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

80

12.7.6) Um comerciante deseja estimar o valor médio gasto por cliente. De estudos anteriores, sabe-se que o desvio padrão pode ser estimado em R$ 1,85. Admite-se um erro de R$ 0,50 e deseja-se um nível de confiança de 95%. Qual o tamanho mínimo da amostra necessária ? Resposta: n ≥ 53 12.7.7) Uma pesquisa eleitoral publicada em agosto de 2007, junto a 1091 eleitores paulistanos, apontou que 24% dos entrevistados pretendem votar na candidata Marta Suplicy, nas próximas eleições municipais. Construir um intervalo de 95% de confiança para o percentual de votos da candidata.

Resposta: P[0,2147 ≤ p ≤ 0,2653] = 0,95. 12.7.8) O fabricante de um produto efetuou uma pesquisa para avaliar a renda dos seus clientes. Uma amostra de 12 clientes apresentou os valores mostrados no quadro a seguir. Construir um intervalo de 95% de confiança para a renda média.

Cliente 1 2 3 4 5 6 7 8 9 10 11 12

Renda (R$1000,00) 1,5 2,9 2,8 2,5 3,3 3,5 3,5 4,5 4,4 3,8 4,8 3,9 Resposta: P[2,86 ≤ µ ≤ 4,04] = 0,95. 12.7.9) O quadro a seguir mostra os teores de ácido palmítico observados em sete amostras de azeite.

a) Construir um intervalo de 95% de confiança para a média. b) Idem para a variância.

Amostra 1 2 3 4 5 6 7

Teor (%) 14,9 9,3 10,9 10,5 12,0 11,7 11,4 Respostas: a) P[9,92 ≤ µ ≤ 13,13] = 0,95. b) P[1,28 ≤ σ2 ≤ 14,60] = 0,95. 12.7.10 – O quadro a seguir mostra os teores de ácido esteárico observados em amostras de óleos vegetais de diferentes origens. Construir um intervalo de 95% de confiança para a diferença dos teores médios observados nas amostras de óleo de:

a) Oliva e colza. b) Colza e girassol.

Origem

Observação Oliva Colza Milho Girassol

1 14,9 9,6 4,5 9,7 2 9,3 9,7 4,8 9,8 3 10,9 10,0 4,8 9,8 4 10,5 10,2 5,1 9,3 5 12,0 10,4 5,1 11,5 6 11,7 10,5 5,1 12,2 7 11,4 10,5 5,4 13,1 8 10,5 5,5 10,5 9 10,9 5,7

Page 81: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

81

13. CONTROLE ESTATÍSTICO DE PROCESSO (CEP) O Controle Estatístico de Processo (CEP) é uma técnica muito utilizada no Controle Estatístico de Qualidade. De modo informal, pode-se dizer que é um conjunto de métodos estatísticos empregados com a finalidade de manter as variações de um processo dentro de certos limites, chamados limites de tolerância. Para melhor compreender as propriedades do CEP, deve-se ter em mente o conceito de qualidade, aqui entendida como a capacidade de um produto, ou serviço, de superar as expectativas do cliente. Na seqüência serão apresentados os principais métodos empregados no CEP. 13.1 – Conceitos 13.1.1 – Qualidade O conceito de “qualidade” é extremamente subjetivo, variando de indivíduo para indivíduo. Todavia, não há como negar que o termo está diretamente relacionado à satisfação do cliente, ou usuário, de um produto, ou serviço. Uma das definições mais utilizadas na prática é dada a seguir:

“Qualidade é a capacidade que um produto apresenta de superar as expectativas do cliente”.

Em qualquer aplicação das técnicas de qualidade é imprescindível que se definam, em primeiro lugar, os parâmetros de qualidade. Uma vez que se tenha isto em mente, os trabalhos subseqüentes deverão ter tal parâmetro como foco. 13.1.2 – Processo O conceito mais frequëntemente adotado na prática é conhecido por 6 M’s , e envolve os seguintes elementos:

1) Material

2) Mão de obra 3) Máquina 4) Meio ambiente 5) Método 6) Meio de medição

13.1.3 – Controle É um conjunto de técnicas adotadas com objetivo de garantir que determinados padrões, previamente estabelecidos, sejam alcançados. 13.1.4 – Tolerância É a maior diferença admitida entre um padrão estabelecido (parâmetro) e um padrão alcançado. A tolerância pode ser: 1.1.4.1 – Bilateral: Quando admite tanto uma diferença positiva como negativa. O diâmetro de um eixo, por exemplo, pode ser especificado como 105 mm ± 0,3 mm. Neste caso admite-se que o diâmetro varie de 104,7 mm até 105,3 mm. 13.1.4.2 – Unilateral: Quando admite a diferença em apenas um sentido. No exemplo citado acima, a especificação poderia ser 105 mm + 0,3 mm. Neste caso qualquer unidade com diâmetro inferior a 105 mm seria rejeitada. 13.1.5 – Característico É o termo usado para designar qualquer elemento que esteja sendo estudado na busca da qualidade. Assim, p.ex., o diâmetro de um eixo e o conteúdo de uma lata de refrigerante podem ser considerados característicos de qualidade.

Page 82: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

82

13.1.6 – Variação No Controle Estatístico de Processo as variações são classificadas como: 13.1.6.1 – Aleatórias: São as variações inerentes ao processo de fabricação. Este tipo de variação não pode ser eliminado. Neste caso o que se pretende é a manutenção de tais variações dentro de certos limites. Diz-se que um processo está sob controle quando as variações aleatórias estão dentro dos limites acima referidos. 13.1.6.2 – Causais: São as variações estranhas ao processo, indicando um desvio do processo com relação aos parâmetros do projeto. A eliminação de tais variações é o principal objetivo do CEP. 13.2 – Diagrama de Pareto A primeira etapa a ser cumprida na busca de melhoria na qualidade deve ser o levantamento dos problemas existentes. Tal procedimento visa identificar os problemas que ocorrem com maior freqüência, permitindo que sejam abordados em primeiro lugar. Deste modo as ações têm resultados mais efetivos. Uma técnica muito usada nesta primeira fase é conhecida como diagrama de Pareto. Este diagrama é uma forma de representar graficamente os resultados do levantamento já mencionado, e consiste de um gráfico de colunas, cada uma representando uma ocorrência, apresentadas em ordem decrescente de freqüências. Exemplo 13.1 – O quadro a seguir mostra os problemas apresentados por um determinado produto, bem como as suas freqüências.

Quadro 13.1 – Problemas detectados em certo produto. Problema Freqüência absoluta Freqüência relativa

Vazamento de óleo 46 35,38% Folga no mancal 32 24,62%

Superaquecimento 20 15,38% Oxidação do bocal mestre 12 9,23%

Vibração no cabeçote 8 6,15% Outras 12 9,23%

O diagrama de Pareto correspondente é mostrado na Figura 13.1.

01020304050

Vazam

ento

Folga

Super

aque

cimen

to

Oxida

ção

Vibraç

ão

Outra

s

Freqüência Relativa

Figura 13.1 – Diagrama de Pareto para os Dados do Quadro 13.1 13.3 – Diagrama de Ishikawa Também é chamado de gráfico de causa – efeito e gráfico espinha de peixe. É utilizado para analisar as causas do problema a ser resolvido, sempre com relação a cada um dos seis elementos envolvidos no processo. A sua forma é mostrada na Figura 13.2. Para elaboração do diagrama correspondente a determinado problema, deve-se considerar as opiniões de todos os envolvidos no processo. Para tanto deve-se promover encontros nos quais todos possam expressar suas opiniões.

Page 83: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

83

Máquina Mão de Obra Meio Ambiente

Problema . Método Meio de Medição Material

Figura 13.2 – Estrutura do Diagrama de Ishikawa.

Exemplo 13.2 – Um exemplo de diagrama de Ishikawa para o problema vazamento de óleo, do exemplo anterior é mostrado na Figura 13.3. Máquina Mão de Obra Meio Ambiente Vibrando Sem treinamento Poeira

Vazamento de óleo Posição de difícil acesso Junta ressecada Método Meio de Medição Material

Figura 13.3 – Exemplo de Diagrama de Ishikawa para o vazamento de óleo. 13.4 – Gráfico de Controle para Média e Amplitude

Também chamado carta de controle, é formado por três linhas paralelas ao eixo das abscissas. A intermediária é chamada “linha média” (LM). As outras duas são chamadas “limites de controle”. A região compreendida entre os limites de controle é chamada “zona de controle”. As regiões abaixo do limite inferior de controle (LIC) e acima do limite superior de controle (LSC) são denominadas “zonas de ação”. Quando usados de forma adequada os gráficos de controle proporcionam benefícios como:

1) Auxiliar os operadores a atingir e manter o controle de um processo. 2) Proporcionar uma linguagem comum para acompanhar o desempenho do processo. 3) Ajudar a tornar o processo mais consistente e previsível.

Medidas Zona de ação LSC Zona de controle LM Zona de controle LIC Zona de ação Amostras

Figura 13.4 – Estrutura de um Gráfico de Controle.

Page 84: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

84

Diz-se que um processo está sob controle quando nenhum ponto correspondente a uma medida está fora da zona de controle. Caso um ponto fique fora dos limites de controle, diz-se que o processo está fora de controle, o que indica a ocorrência de uma variação causal naquele ponto. Adiante serão apresentadas outras situações que indicam a ocorrência de variações causais, mesmo que nenhum ponto esteja fora da zona de controle.

As etapas para a construção do gráfico da média e da amplitude, denotado por ( Rx − ) são dadas a seguir.

1) Determinar a quantidade ( k ) de amostras. 2) Determinar o tamanho ( n ) das amostras. 3) Para cada amostra calcular a média aritmética:

kjn

Xx

n

ii

j ,...,,211 ==∑

= (13.1)

4) Para cada amostra calcular a amplitude:

)1()( jnjj XXR −= (13.2)

5) Calcular a média das médias: k

x

x

k

j

j∑=

=1 (13.3)

6) Calcular a média das amplitudes: k

R

R

k

jj∑

==

1 (13.4)

7) Calcular os limites de controle para o gráfico da média:

Limite Superior de Controle: RAxLSC 2+= (13.5)

Linha Média: xLM = (13.6)

Limite Inferior de Controle: RAxLIC 2−= (13.7)

8) Calcular os limites de controle para o gráfico da amplitude:

Limite Superior de Controle: 4DRLSCR .= (13.8)

Linha Média: RLM R = (13.9)

Limite Inferior de Controle: 3DRLICR .= (13.10)

As constantes A2 , D3 e D4 são dadas no quadro 13.2.

Quadro 13.2 – Constantes Multiplicativas para o Gráfico Rx − n 2 3 4 5 6 7 8 9 10 D4 3,27 2,57 2,28 2,11 2,00 1,92 1,86 1,82 1,78

D3 - - - - - 0,08 0,14 0,18 0,22

D2 1,13 1,69 2,06 2,33 2,53 2,70 2,85 2,97 3,08

A2 1,88 1,02 0,73 0,58 0,48 0,42 0,37 0,34 0,31

Para amostras com menos de sete unidades considera-se que não há limite inferior para o gráfico

da amplitude. Exemplo 13.3: A seguir são mostrados os valores observados para um determinado característico de qualidade. Por comodidade foram anotados apenas os valores decimais, isto é, se o valor observado foi 85,92 mm, anotou-se apenas “2”. Esta é uma prática bastante comum, e não compromete os resultados

Page 85: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

85

finais. No total foram observadas 20 amostras, cada uma com cinco elementos. O objetivo é construir o

gráfico Rx − .

Amostra X1 X2 X3 X4 X5 x R

1 2 1 3 4 5 3 4 2 1 2 1 3 2 3 6 1 2 2 2 4 3 3 2 2 2 5 2 3 2 3 1 2,2 2 6 4 3 3 4 1 7 4 2 3 2 2 8 2 5 1 5 2 9 5 4 1 4 3 10 5 4 4 2 1 3,2 4 11 3 2 4 1 1 12 4 2 5 2 4 13 3 1 4 3 3 14 2 3 3 2 4 15 3 4 2 2 3 2,8 2 16 2 4 3 1 3 17 2 3 1 2 3 18 1 2 2 3 5 19 0 0 0 2 2 20 2 1 1 1 2 1,4 1

Quantidade de amostras: k = Tamanho das amostras: n = Média das médias: Amplitude média: A2 = D3 = D4 =

Causas especiais:

Grafico X barra - R para os dados do exemplo 8.03.

Amostras

CTR = 2,54

UCL = 4,16

LCL = 0,92

0 4 8 12 16 200

1

2

3

4

5

Gráfico para a amplitude

Amostras

CTR = 2,80

UCL = 5,92

LCL = 0,00

0 4 8 12 16 200

1

2

3

4

5

6

Page 86: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

86

13.4.1 – Interpretação do Gráfico de Controle

A ocorrência de um ponto fora da zona de controle indica uma variação causal, o que exige uma intervenção no processo. Entretanto, é possível que tenha ocorrido um erro de medição, ou mesmo de plotagem. Também é possível que o instrumento de medição foi trocado, ou sofreu alguma avaria. Outro ponto a ser ressaltado é que todas as medições devem ser efetuadas por uma mesma pessoa, a fim de evitar erros de observação.

Além da ocorrência de pontos fora da zona de controle, deve-se prestar atenção à possível

ocorrência de determinados padrões, descritos a seguir.

1. Uma seqüência crescente de três pontos acima da linha média. Isto indica que o processo está se desviando da média, e talvez da especificação. O gráfico da média e da amplitude, do exemplo 13.3, apresenta esta ocorrência nas amostras 7, 8 e 9.

2. Uma seqüência decrescente de três pontos abaixo da linha média. O significado é o mesmo da

situação anterior. 3. Uma seqüência de sete pontos, todos acima, ou abaixo, da linha média. Isto indica um desvio

do processo, possivelmente causado por um problema de máquina. 4. Sazonalidade. Variações periódicas podem indicar troca de operador, ou de funcionário

encarregado de efetuar a coleta de amostras e anotar os valores observados.

13.4.2 – Processo Normalizado Diz-se que um processo está normalizado quando a curva de freqüências do mesmo é simétrica, ou normal, conforme a Figura 13.7. O estudo também ser feito com o auxílio do histograma da distribuição de freqüências, conforme a figura 13.8. É importante ressaltar que esta é uma condição essencial para a implantação do CEP, uma vez que a aplicação do controle sobre um processo com distribuição assimétrica poderá mascarar variações causais. De fato, a aplicação do CEP pode ser precedida de uma análise exploratória dos dados, isto é, do cálculo das principais medidas de tendência central e de dispersão.

Figura 13.7 – Curva de freqüências de um processo normalizado.

0

10

20

30

40

50

60

70

Figura 13.8 – Histograma de um processo normalizado.

Page 87: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

87

Exemplo 13.4 – Construir a distribuição de freqüências para os valores observados no processo do exemplo anterior.

Valor Observado Freqüência 85,90 3

1 17 2 33 3 23 4 16 5 7 6 1

Total 100

A média e o desvio padrão são, respectivamente, 28,157,2 == seX (na verdade, a média é igual a

85,9257). A moda é igual a 2 (maior freqüência). Deve-se prestar atenção ao fato de que a média dos valores observados é igual a 85,9254. O histograma é mostrado na Figura 13.9, e permite observar que a distribuição é assimétrica positiva.

0

5

10

15

20

25

30

35

Figura 13.9 – Histograma para a distribuição de freqüências dos valores do exemplo 13.3.

A assimetria pode ser melhor avaliada através da comparação da média com a mediana e a moda. Neste caso, ambas são iguais a 85,92. Neste caso é recomendável que se faça uma análise do processo, a fim de descobrir, e eliminar, as causas desta assimetria. Os resultados obtidos pelo CEP são mais efetivos quando o método é aplicado a processos normalizados, isto é, que apresentam uma curva de freqüências simétrica. 13.4.3 – Estimação do Desvio Padrão

O desvio padrão do processo, quando se utiliza o gráfico da média e da amplitude, é calculado pelo estimador:

2

ˆD

R=σ . (13.11)

Os valores para D2 são dados no Quadro 13.2.

Quadro 13.2 – Constantes Multiplicativas para o Gráfico Rx − n 2 3 4 5 6 7 8 9 10 D2 1,13 1,69 2,06 2,33 2,53 2,70 2,85 2,97 3,08

Exemplo 13.5 – O desvio padrão estimado para o processo do exemplo 13.3 é: 0120,033,2

028,0ˆ ==σ .

13.5 – Capabilidade

A capabilidade de um processo indica a capacidade do mesmo em atender as especificações do projeto, e pode ser descrita em termos da distância entre a média do processo e os limites de controle, em unidades de desvio padrão. Os principais índices de capabilidade são apresentados na seqüência.

Page 88: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

88

13.5.1 – Índice Cp. Quando o processo está centrado, isto é, quando a média das médias é igual à especificação, ou parâmetro (µ) do projeto, pode-se estimar a capabilidade pelo índice dado por:

σ6

LIELSECp

−= . (13.12)

Na fórmula acima, LSE é o limite superior de especificação e LIE é o limite inferior de especificação. 13.5.2 – Índice Cpm. Em alguns casos os limites de especificação não são simétricos, isto é, quando se verifica que LSE – µ ≠ µ – LIE. Nestes casos pode-se calcular o índice dado por:

22 )(ˆ6 T

LIELSECpm

−+

−=

µσ

. (13.13)

Na fórmula acima, 2

LIELSET

+= .

13.5.3 – Índice Cpk. Quando o processo não está centrado, pode-se calcular o índice Cpk, que leva em consideração a média do processo. Este índice é igual ao menor dos dois valores a seguir.

σ

σ

ˆ3

ˆ3xLSE

Cps

LIExCpi

−=

−=

(13.14)

13.5.4 – Classificação do Processo

Com relação à capabilidade, o processo é classificado como:

Quadro 13.3 – Classificação de um Processo. Valor do índice (Cp, Cpm ou Cpk) Classificação

C < 1 Incapaz. 1 ≤ C < 1,33 Adequado. Exige inspeção.

1,33 ≤ C Capaz.

Exemplo 13.6 – Calcular o índice de capabilidade do processo do exemplo 13.3, supondo que a especificação é 85,90mm e que os limites de especificação inferior e superior são, respectivamente, 85,87mm e 85,95mm. Como o processo não está centrado, calcula-se o índice Cpk.

=⇒

=−

=

=−

=

Cpk

Cps

Cpi

)0120,0(3

9254,8595,85

)0120,0(3

87,859254,85.

Então o processo é classificado como ...................................................

Os dois valores calculados acima podem ser usados para estimar a proporção de não conformidade (p.n.c.). Basta verificar que zLIE = 4,62 e que zLSE = 2,04. Em seguida, com o auxílio da tabela da distribuição normal padrão, calcula-se as áreas à esquerda de zLIE e à direita de zLSE , ou seja: P(X ≤ 85,87) = Área(z ≤ – 4 ,62) = 0,000 e P(85,95 ≤ X ) = Área(2,04 ≤ z) = Então estima-se a p.n.c. como igual a .

Page 89: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

89

13.6 – Gráfico de Controle para Observações Individuais e Amplitudes Móveis (X – MR) Este gráfico é usado quando o controle é efetuado sobre observações individuais. Este tipo de controle é aplicado quando não há possibilidade de coletar amostras de tamanhos elevados, ou mesmo quando a amostragem não é justificada. Exemplos deste tipo de situação podem ser encontrados na indústria química, quando uma única amostra de um produto armazenado em um tanque é suficiente para obter as informações desejadas. Também pode ser utilizado quando a informação prescinde de ensaios destrutivos, que podem ser excessivamente onerosos para grandes amostras. O gráfico X – MR pode ser utilizado nestas situações, desde que sejam observados os seguintes fatos:

• Observações individuais não têm a mesma eficiência que observações amostrais. • Deve-se ter cuidado com as conclusões, principalmente se a distribuição de freqüências do

processo não for normal (simétrica). • Como as observações são individuais, a média do processo e o seu desvio padrão podem

apresentar grande variabilidade.

As etapas para construção do gráfico são dadas a seguir. 1) Determinar a quantidade k de observações

2) A partir da n – ésima observação (em geral a segunda), determinar a diferença (amplitude) entre

cada observação e a observação anterior. Não levar em consideração o sinal. Se o cálculo é efetuado a partir da segunda observação:

1−−= jjj XXR , j = 2 , 3 , ... , k

3) Calcular a amplitude média

1

2

−=

∑=

k

R

R

k

jj

(13.15)

4) Calcular a média do processo

k

Xx

k

ii∑

== 1

5) Calcular os limites de controle para as observações individuais:

Limite Superior de Controle RExLSC 2+= (13.16)

Linha Média xLM = (13.17) Limite Inferior de Controle RExLIC 2−= (13.18)

6) Calcular os limites de controle para o gráfico da amplitude

Limite Superior de Controle: 4DRLSCR .= (13.19)

Linha Média: RLM R = (13.20)

Limite Inferior de Controle: 3DRLIC R .= (13.21)

Page 90: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

90

As constantes E2 , D3 e D4 são dadas no Quadro 13.4.

Quadro 13.4 – Constantes Multiplicativas para o Gráfico X – MR n 2 3 4 5 6 7 8 9 10 D4 3,27 2,57 2,28 2,11 2,00 1,92 1,86 1,82 1,78

D3 - - - - - 0,08 0,14 0,18 0,22

D2 1,13 1,69 2,06 2,33 2,53 2,70 2,85 2,97 3,08

E2 2,66 1,77 1,46 1,29 1,18 1,11 1,05 1,01 0,98

13.6.1 – Capabilidade A estimação da capabilidade segue os mesmos procedimentos adotados no gráfico Rx − . Exemplo 13.7: O quadro a seguir mostra as observações efetuadas para um processo industrial qualquer. Os dados referem-se à concentração, em p.p.m., de certa substância. Construir o gráfico X – MR. Obs. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Xi 10 15 13 10 15 16 18 14 10 12 8 10 9 12 13 10 11 9 8 10 Rj - 5 2 3 1 2

Page 91: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

91

13.7 – Gráficos de Controle por Atributos Embora sejam extremamente confiáveis como ferramentas de apoio à decisão, os gráficos de controle por variável apresentam alguns inconvenientes de ordem prática, alguns dos quais listados a seguir:

• Cada gráfico, ou carta, pode ser usado para apenas uma variável. Se um produto tem cinco característicos a serem controlados, serão necessários cinco gráficos.

• Em algumas etapas da produção o interesse resume-se à simples verificação de conformidade em

relação a algum parâmetro. Uma situação típica deste caso é a inspeção efetuada com o objetivo de verificar se o diâmetro de um eixo está dentro dos limites de tolerância. Aqui não há interesse em determinar o diâmetro, o que dispensa a coleta de amostras e os cálculos das medidas já estudadas.

• Alguns componentes são inspecionados apenas com o objetivo de verificar a presença de algum

defeito. Nas indústrias automobilísticas as partes da carroceria de um veículo são inspecionadas com a finalidade de verificar se apresentam riscos. A simples ocorrência de um risco na pintura é suficiente para que a peça seja rejeitada, não importando a dimensão ou a quantidade de riscos.

O controle por atributo trabalha apenas com os conceitos “passa – não passa”, “presente – ausente” e “conforme – não conforme”, entre outros. É de grande utilidade nos trabalhos de inspeção final, e em alguns setores industriais, como na indústria eletrônica e na indústria de confecções, p. ex. Também pode ser utilizado para controlar falhas em processos administrativos, como o monitoramento do nível de reclamações na prestação de algum serviço. A estrutura de um gráfico de controle por atributo é igual à do gráfico de controle por variável, isto é, possui dois limites de controle, que definem a zona de controle, e uma linha média, definida com base na proporção de ocorrências do atributo. Antes de se adotar o controle por atributo deve-se tomar alguns cuidados, entre os quais destacam-se:

• Inspecionar cada unidade, de cada uma das amostras selecionadas. • Definir claramente o que é uma “não conformidade”.

• Criar um ambiente favorável, do ponto de vista do gerenciamento. Algumas empresas delegam a

elaboração de gráficos de controle por variável aos próprios operários responsáveis pela fabricação dos componentes avaliados. Para o controle por atributo esta prática é um tanto temerária, pois o item inspecionado pode ser proveniente de um processo ao qual são aplicadas técnicas de CEP. Neste caso o controle por atributo pode ser usado mais como ferramenta de apoio à decisão, já que na inspeção de vários atributos pode-se detectar falhas não identificadas anteriormente.

• Levar em consideração as necessidades do cliente/usuário ao definir os critérios de decisão.

13.7.1 – Gráfico da Proporção de Unidades Não Conformes ( p ) O gráfico p mostra a proporção de não conformidade, ou de itens não conformes, em um grupo de amostras inspecionadas. Este gráfico pode apresentar tanto as variações para um atributo como para vários deles. As etapas para elaboração são dadas a seguir.

1) O tamanho (n) das k amostras não precisa ser igual. Este tipo de gráfico normalmente requer amostras grandes, geralmente de tamanho não inferior a 50. Este detalhe pode se tornar uma desvantagem, pois em alguns setores industriais, ou mesmo de serviços, a observação de uma amostra deste tamanho pode demandar um período de tempo muito grande, o que acabaria por impedir a detecção de padrões que podem evidenciar uma variação causal.

Page 92: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

92

2) Para cada uma das k amostras, calcular a fração defeituosa, ou proporção de não conformidade, que se obtém dividindo o número de itens defeituosos (dj) da amostra pelo tamanho (nj) da mesma.

j

jj n

dp = (13.22)

3) Calcular a fração defeituosa média, ou proporção média de não conformidade.

=

==

k

jj

k

jj

n

d

p

1

1 (13.23)

4) Se as amostras têm tamanhos diferentes, calcular o tamanho médio das amostras:

k

n

n

k

jj∑

==

1 (13.24)

5) Calcular o desvio padrão do processo:

n

ppp

)( −=

1σ (13.25)

6) Calcular os limites de controle:

Limite Superior de Controle: pp pLSC σ3+= (13.26)

Linha Média: pLM p = (13.27)

Limite Inferior de Controle: pp pLIC σ3−= (13.28)

Exercício 13.8: O quadro a seguir mostra o resultado das observações sobre 20 amostras de um determinado produto. Construir o gráfico de controle da fração defeituosa.

Amostra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Tamanho 50 40 50 60 50 50 30 40 40 30 60 20 40 50 50 40 20 30 50 50

Defeituosos 3 2 2 3 3 2 1 1 2 0 3 3 1 0 2 3 2 1 4 0 pj

Linha Média: Desvio padrão: Limite Superior de Controle: Limite Inferior de Controle:

Page 93: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

93

13.7.2 – Gráfico do Número de Unidades Não Conformes (np)

Também conhecido como Gráfico do Número de Defeituosos, pode ser usado como alternativa ao gráfico da fração defeituosa, desde que as amostras tenham o mesmo tamanho, ao contrário do gráfico anterior, que permite a observação de amostras de diferentes tamanhos. As etapas para construção do gráfico np são dadas a seguir.

1) Selecionar k amostras, de tamanho n.

2) Calcular o número médio de unidades não conformes do processo:

k

np

pn

k

jj∑

==

1 (13.29)

3) Calcular o desvio padrão do processo:

)(ˆ ppnnp −= 1σ (13.30)

4) Calcular os limites de controle:

Limite Superior de Controle:

nppnLSC σ3+= (13.31)

Linha Média: pnLM = (13.32)

Limite Inferior de Controle:

nppnLIC σ3−= (13.33)

Exemplo 13.9: Construir o gráfico do número de unidades não conformes para os dados a seguir. Os valores apresentados referem-se à observação de 20 amostras, de tamanho 50, de certo produto.

Amostra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 n 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50 50

Defeituosos 2 3 1 0 3 4 0 0 2 2 3 5 4 2 3 3 0 1 3 4 p 0,04 0,06 0,06 0,08

Linha Média: Desvio padrão: Limite Superior de Controle: Limite Inferior de Controle:

Page 94: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

94

13.7.3 – Gráfico do Número de Não Conformidades

Este gráfico é utilizado para avaliar o número de não conformidades, ou defeitos, em uma amostra. A utilização deste gráfico requer tamanho constante para as amostras observadas. Algumas aplicações são, p.ex., controle de bolhas em garrafas e riscos em peças estampadas. A principal diferença com relação ao gráfico p, é que este último se utiliza da contagem de unidades defeituosas, não se preocupando com a quantidade de defeitos. Uma idéia desta diferença é dada pela figura 13.10, a seguir. Considerando cada quadro como uma unidade, e cada ponto em destaque como um defeito, nota-se que há na amostra da esquerda quatro unidades defeituosas, e um total de sete defeitos. Na amostra da direita há duas unidades defeituosas, e o mesmo número de defeitos da primeira.

Figura 13.10 As etapas para construção do gráfico c são dadas a seguir.

1) Selecionar k amostras com o mesmo tamanho, e determinar o número de defeitos, c , para cada amostra.

2) Calcular o número médio de não conformidades, ou defeitos.

k

c

c

k

jj∑

==

1 (13.34)

3) Calcular os limites de controle.

Limite Superior de Controle: ccLSC 3+= (13.35) Linha Média: cLM = (13.36) Limite Inferior de Controle: ccLIC 3−= (13.37) Exemplo 13.10: Os dados a seguir referem-se à observação de 20 amostras, cada uma com 10 camisas. A cada amostra observada anotou-se o número de defeitos verificados (c). Construir um gráfico c para os dados.

Amostra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 cj 3 2 5 4 2 0 3 4 5 1 1 2 0 3 4 3 2 2 0 3

Linha Média: Desvio padrão: Limite Superior de Controle: Limite Inferior de Controle:

Page 95: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

95

13.7.4 – Gráfico do Número de Não Conformidades por Unidade (u)

Este gráfico mede o número de não conformidades, ou defeitos, por unidade. Pode ser uma alternativa ao gráfico c, quando as amostras não têm o mesmo tamanho. Também pode ser usado quando a amostra é constituída de apenas uma unidade, mas que possui muitos componentes que devem ser inspecionados, como um motor, p. ex.,.

As etapas para construção do gráfico u são dadas a seguir.

1) Selecionar k amostras, que podem ter tamanhos diferentes, e registrar o número de defeitos (c) encontrados em cada uma.

2) Para cada uma das k amostras, determinar o número de defeitos por unidade.

j

j

j n

cu = (13.38)

onde cj é o número de defeitos encontrados na j – ésima amostra.

3) Calcular o número médio de defeitos por unidade:

k

u

u

k

jj∑

==

1 (13.39)

4) Calcular o tamanho médio das amostras:

k

n

n

k

jj∑

==

1 (13.40)

5) Calcular os limites de controle.

Limite Superior de Controle: n

uuLSC 3+= (13.41)

Linha Média: uLM = (13.42)

Limite Inferior de Controle: n

uuLIC 3−= (13.43)

Exemplo 13.11: Os dados a seguir referem-se à observação de 15 amostras de certo produto. A cada amostra observada anotou-se o número de defeitos verificados. Construir um gráfico u para os dados.

Amostra ( j ) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 nj 30 25 50 20 20 10 25 30 40 40 50 20 30 30 20 cj 3 2 5 4 2 0 3 4 5 1 1 2 0 3 4 uj

Linha Média: Desvio padrão: Limite Superior de Controle: Limite Inferior de Controle:

Page 96: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

96

Comentário

Além dos gráficos estudados neste material, há outros menos utilizados, como, por exemplo, o gráfico para mediana e amplitude e o gráfico para média e desvio padrão, este último recomendado para amostras com tamanho igual ou superior a dez unidades. A opção por não apresenta-los decorre da constatação de que sua utilização é muito rara na prática. Também é necessário esclarecer que o índice Cpk prescinde do cálculo do estimador para o desvio padrão. Quando o estimador do desvio padrão (13.11) é substituído pelo desvio padrão amostral s, calculado para todas as observações, utiliza-se a notação Ppk. 13.8 – Exercícios

13.8.1) Um gráfico Rx − tem os seguintes valores: x = 135,0 mm e R = 2,5 mm. Foram inspecionadas 25 amostras, com cinco unidades cada uma. As especificações do cliente são: µ = 135,2 mm, LSE = 136,5 mm e LIE = 133,6 mm. Calcular o índice de capabilidade e estimar a proporção de não conformidade. 13.8.2) Em uma confecção foram inspecionadas 15 amostras, cada uma com 30 calças. Registrou-se o número de defeitos em cada amostra. Calcular os limites de controle e construir o gráfico.

Amostra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Defeitos 6 4 8 4 5 4 2 8 4 3 4 4 2 6 4

13.8.3) Os gráficos de controle por variável devem ser construídos para processos normalizados, isto é, quando a curva de freqüências é normal. O quadro a seguir mostra o resultado da inspeção em 20 amostras, cada uma com cinco unidades, de tubos de PVC. O característico avaliado é o diâmetro.

a) Construir uma distribuição de freqüências para os valores observados. (Use amplitude de classe igual a 0,2 mm para as oito classes).

b) Calcular a média, a mediana e a moda. c) Verificar se o processo está normalizado. d) Calcular os limites de controle para um gráfico Rx − . e) Calcular o índice de capabilidade, supondo que as especificações do cliente são: LIE = 24,0

mm e LSE = 25,5 mm. f) Classificar o processo quanto à sua capabilidade e estimar a p.n.c.

Amostra X1 X2 X3 X4 X5 Média Amplitude

1 24,3 24,1 24,0 24,2 24,3 2 24,8 24,8 24,7 24,9 24,8 3 24,5 24,4 24,4 24,5 24,4 4 25,3 25,4 25,5 25,5 24,3 5 24,6 24,7 24,7 24,7 24,6 6 25,3 25,5 25,4 25,5 24,3 7 24,8 24,8 24,9 24,8 24,8 8 24,8 24,8 24,8 24,9 24,3 9 25,0 24,5 24,5 24,5 24,4 10 24,8 24,8 24,1 24,0 24,2 11 25,0 25,0 25,1 25,1 24,9 12 25,2 25,3 25,4 25,2 24,5 13 24,5 24,2 24,6 24,0 24,3 14 25,2 25,3 25,3 25,3 24,4 15 25,2 25,0 25,2 25,0 24,8 16 24,6 24,7 24,7 24,2 24,3 17 24,6 24,7 24,4 24,6 24,7 18 24,8 24,9 24,8 24,9 24,9 19 24,6 24,7 24,6 24,6 24,7 20 25,0 25,0 25,3 25,1 25,3

Page 97: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

97

13.8.4) Uma indústria química produz certo tipo de solvente, cujo principal característico é a salinidade. Uma inspeção em 15 tonéis do produto apresentou os valores dados no quadro abaixo, referentes à concentração de sal, em p.p.m. Construir o gráfico de controle apropriado.

Tonel 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 p.p.m. 15 20 16 18 22 14 17 13 22 15 19 25 20 18 14

13.8.5) Da produção de uma máquina foram extraídas 20 amostras, cada uma com 50 unidades de um componente. As unidades foram inspecionadas para a verificação da ocorrência de certo defeito. Calcular os limites de controle e construir o gráfico de controle.

Amostra 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Defeituosos 2 3 0 2 0 5 1 0 0 3 2 0 5 4 1 2 3 0 2 3

Page 98: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

98

14. TEORIA DA DECISÃO ESTATÍSTICA Este assunto trata do teste de hipóteses relacionadas a suposições a respeito de algum parâmetro e sua finalidade é verificar se a mencionada suposição é válida, isto é, se a hipótese inicial pode ser aceita. É uma das principais ferramentas da pesquisa científica aplicada e abrange as mais variadas áreas de estudo. 14.1 – Teste de Hipótese

Este tipo de teste parte de uma suposição inicial, isto é, de uma hipótese, a respeito do valor de algum parâmetro, como média e proporção, por exemplo, e tem como principal objetivo verificar a validade da referida suposição. Também é comum utilizar a expressão hipótese estatística para designar este tipo de suposição, que se refere ao valor de um parâmetro e que toma por base o resultado de uma observação sobre uma amostra. A realização de um teste de hipóteses pode seguir os passos listados a seguir.

1. Formular a hipótese. Na realidade, são formuladas duas hipóteses. A primeira é chamada hipótese nula (H0), e contém o suposto valor para o parâmetro estudado. O objetivo é testar a validade desta hipótese. A segunda é chamada hipótese alternativa (H1), e contradiz a hipótese anterior. A forma como esta hipótese é formulada define o tipo de teste a ser efetuado, isto é, se o teste é unilateral ou bilateral.

2. Determinar o nível de significância. Ao se testar uma hipótese pode-se cometer um de dois tipos de erros. O primeiro, chamado Erro tipo I, ocorre quando se rejeita uma hipótese nula válida. O Erro tipo II ocorre quando se aceita uma hipótese nula que não é válida. A probabilidade de cometer um erro do tipo I é chamada nível de significância. Este nível, representado pela letra grega α, está associado a um valor crítico, que será usado para testar a validade da hipótese em questão.

3. Escolher a estatística, ou estimador, para o teste. A estatística de teste é, na maioria das vezes, o estimador não tendencioso do parâmetro estudado, que pode ser obtido a partir de uma amostra retirada da população à qual pertence o parâmetro.

4. Tomar a decisão. Nesta etapa compara-se o valor de teste com o valor crítico associado ao nível de significância desejado. A partir desta comparação toma-se a decisão de aceitar, ou rejeitar, a hipótese nula. 14.2 – Teste de Hipótese para a Média

Neste caso há duas situações a considerar, ambas envolvendo a variância populacional, que pode, ou não, ser conhecida. Na prática são mais comuns situações nas quais não se conhece o verdadeiro valor da variância populacional. 14.2.1 – Teste de Hipótese para a Média com Variância Populacional Conhecida

Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória contínua X, com

distribuição normal, isto é, X ~ N(µ , σ2), onde σ2 é conhecida e supõe-se que µ assume determinado valor. Neste caso a estatística de teste é dada por:

nx

z calcσ

µ−= . (14.1)

Para tomar a decisão de aceitar, ou rejeitar, a hipótese nula, deve-se comparar o valor de zcalc

com o valor crítico associado ao nível de significância α. A hipótese nula é aceita quando o valor da estatística de teste pertence ao intervalo limitado pelo valor crítico. Os valores críticos associados aos níveis de significância mais utilizados na prática são mostrados no Quadro 14.1.

Page 99: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

99

Quadro 14.1 – Principais valores críticos.

Nível de significância Tipo de teste

0,01 0,05 0,10 Unilateral ± 2,33 ± 1,645 ± 1,28 Bilateral ± 2,58 ± 1,96 ± 1,645

Os valores críticos são os valores de z que delimitam a área correspondente ao nível de significância adotado, conforme a Figura 14.1.

– zcrít zcrít

Figura 14.1 – Intervalo de não rejeição da hipótese nula.

Exemplo 14.1 - Sabe-se que o peso da semente de certa espécie de planta é normalmente distribuído, com variância igual a 0,25 g. Um pesquisador suspeita que o peso médio da semente estudada é igual a 7,5 g. Uma amostra de 15 sementes apresentou os pesos mostrados no quadro a seguir. Com 5% de significância, pode-se confirmar a suposição do pesquisador ?

Observação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Peso (g) 8,0 7,5 6,7 7,2 8,0 7,1 7,8 7,2 6,8 7,3 6,6 8,2 8,1 7,4 6,9 14.2.2 – Teste de Hipótese para a Média com Variância Populacional Desconhecida

Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória da variável aleatória contínua X, com

distribuição normal, isto é, X ~ N(µ , σ2), onde σ2 é desconhecida e supõe-se que µ assume determinado valor. Neste caso a estatística de teste é dada por:

ns

xt calc

µ−= . (14.2)

Os valores críticos podem ser obtidos na tabela da distribuição t, de Student.

Page 100: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

100

Exemplo 14.2 – O Quadro a seguir mostra os teores (%) de vanádio encontrados em uma amostra de sete estratos de óleo cru extraídas de solo do tipo “Wilhelm sandstone”. Pode-se afirmar, com 5% de significância, que o teor médio de vanádio deste tipo de óleo é igual a 3,5% ?

Quadro 5.1 – Teores de vanádio. Estrato 1 2 3 4 5 6 7

Teor (%) 3,9 2,7 2,8 3,1 3,5 3,9 2,7 Fonte: Johnson e Wichern (1988)

14.3 – Teste de Hipótese para a Diferença de Médias

Sejam duas amostras aleatórias, X1 = [x11 , x12 , ... , x1n1 ]T e X2 = [x21 , x22 , ... , x2n2]

T, com médias e variâncias amostrais dadas por 2

11 seX e 222 seX , respectivamente. Em última análise o que se deseja

determinar é se as duas amostras são provenientes de uma mesma população. Uma questão importante diz respeito à variância populacional, que deve ser a mesma para as duas amostras, já que se supõe que ambas são originárias da mesma população. Uma prática comum é utilizar a variância ponderada. A estatística de teste é dada por:

pcalc s

xxt

21 −= . (14.3)

Na fórmula (14.3): 2

2

1

22121

n

ˆ

n

ˆs

)xx()xx(

p

−− σ+

σ= (14.4)

Também: 2

)1()1(ˆ

21

222

2112

)( 21 −+

−+−=

− nn

snsnXX

σ .

Exemplo 14.3 - O Quadro 12.2 mostra os teores de ferro observados em amostras de óleo cru, uma oriunda de argila Wilhelm (Tipo W) e outra de argila sub-mulinia (Tipo SM). Pode-se afirmar, com 5% de significância, que o teor médio de ferro do Tipo W é significativamente superior ao teor médio do Tipo SM ?

Quadro 12.2 – Teores de ferro (%) em amostras de óleo cru. Observação 1 2 3 4 5 6 7 8 9 10 11

Wilhelm 51 49 36 45 46 43 35 Sub-Mulinia 47 32 12 17 36 35 41 36 32 46 30

Fonte: Johnson e Wichern (1988)

Page 101: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

101

14.4 – Teste de Hipótese para a Proporção

Seja X = [x1 , x2 , ... , xn]T uma amostra aleatória extraída de uma população com proporção p de

sucessos, onde p é desconhecida, e seja Xn o total de sucessos na amostra. Neste caso a variável X é tal que:

=sucesso

insucessoX

,1

,0 .

Então Xn tem distribuição binomial com parâmetros n e p. A proporção de sucessos na amostra é

dada por:

n

Xp n=ˆ .

Conforme foi visto em 10.9, a distribuição binomial da variável Xn pode ser aproximada pela distribuição normal, isto é:

)1(,(~ pnpnpNX n − .

Além disto,

n

pppNp

)1(,~ˆ .

Para se testar uma hipótese a respeito do valor de p utiliza-se a estatística de teste dada por

n

pp

ppz calc

)ˆ1(ˆ

ˆ

−= . (14.5)

Para tomar a decisão de aceitar, ou rejeitar, a hipótese nula, deve-se comparar o valor de zcalc

com o valor crítico associado ao nível de significância α. A hipótese nula é aceita quando o valor da estatística de teste pertence ao intervalo limitado pelo valor crítico. Exemplo 14.4 – Efetuou-se uma inspeção em uma amostra de 15 unidades de certo produto. Seja X a v.a.d. que representa a ocorrência de alguma não conformidade, ou seja, X = 0, se a unidade é conforme, ou X = 1, caso esteja fora de conformidade. Com 5% de significância, pode-se afirmar que a proporção de não conformidade do produto é igual a 10% ?

Unidade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

X 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1

Page 102: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

102

14.5 – Teste de Hipótese para a Diferença de Proporções

Sejam duas populações com proporções p1 e p2 de sucessos, ambas desconhecidas. Sejam duas amostras, de tamanhos n1 e n2, e proporções 1p e 2p de sucessos, respectivamente. A estatística de teste

para hipóteses relativas à diferença entre as duas proporções populacionais é dada por:

)ˆˆ(

21

21ˆ

ˆˆ

ppcalc

ppz

−=

σ . (14.6)

Na fórmula (14.6): 21

)ˆˆ(

)ˆ1(ˆ)ˆ1(ˆˆ

21 nnpp

ππππσ

−+

−=−

e 21

2211 ˆˆˆ

nn

pnpn

+

+=π .

Exemplo 14.5 - Em set/2006 foi publicado um estudo sobre os efeitos do medicamento Celecoxib sobre o câncer de cólon e reto. O estudo envolveu 1561 pacientes, dos quais 933 utilizaram o medicamento, enquanto os demais foram tratados com placebo. No grupo tratado com o medicamento, 314 apresentaram lesões típicas da moléstia. Entre o grupo tratado com placebo, a doença foi detectada em 309 pacientes. Pode-se afirmar, com 5% de significância, que o medicamento em questão é eficaz no combate à referida moléstia ? 14.6 – Exercícios 14.6.1) A vacina Salk, contra poliomielite, foi desenvolvida no início da década de 50, e sua eficácia foi colocada à prova em 1954. Para tanto, foram formados dois grupos, cada um com 200000 crianças. A um dos grupos foi ministrada a vacina, enquanto ao outro grupo foi ministrado um placebo. No primeiro grupo a doença manifestou-se em 33 crianças, o mesmo acontecendo com 115 crianças do segundo grupo. Testar a eficácia do medicamento, com 5% de significância. 14.6.2) O New England Journal of Medicine, v. 318, no. 4, publicou um estudo sobre os efeitos da Aspirina na prevenção de ataques cardíacos. O experimento envolveu 22131 médicos, que foram monitorados durante seis anos. O medicamento foi ministrado em doses regulares a 11097 médicos, enquanto 11034 médicos tomaram placebo. Ao final do período de acompanhamento verificou-se que 104 médicos do primeiro grupo sofreram ataque cardíaco, contra 189 médicos do grupo que ingeriu placebo. Pode-se afirmar, com 5% de significância, que a Aspirina é eficaz na prevenção de ataques cardíacos ? 14.6.3) Uma pesquisa eleitoral publicada em agosto de 2007, junto a 1091 eleitores paulistanos, apontou que 262 dos entrevistados pretendem votar na candidata Marta Suplicy, nas próximas eleições municipais. Pode-se afirmar, com base na pesquisa e com 5% de significância, que a candidata terá 35% dos votos ? 14.6.4) Uma técnica utilizada no diagnóstico de esclerose múltipla consiste em produzir um estímulo visual sobre cada um dos olhos. Em seguida anota-se a diferença entre os tempos de resposta observados para cada um dos olhos. O quadro a seguir mostra os valores observados para 15 portadores (diagnóstico positivo) e 15 não portadores (diagnóstico negativo) da doença. Pode-se afirmar que os tempos de resposta são significativamente diferentes, com 5% de significância ?

Page 103: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

103

Quadro 12.3 – Diferenças de tempos de resposta a um estímulo visual para diagnóstico de esclerose múltipla.

Observação 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Negativo 1,6 0,4 3,2 0,8 1,6 3,2 4,8 1,6 3,2 2,8 1,6 0,8 2,4 3,4 0,6 Positivo 0,8 3,2 8,0 14,2 12,8 6,8 3,4 29,2 18,4 1,6 1,8 9,2 16,8 8,0 4,6

Fonte: Johnson e Wichern (1988) 14.6.5) O quadro a seguir mostra o teor de vanádio observado em diferentes amostras de óleo cru, provenientes de dois estratos geológicos diferentes. Com 5% de significância, é possível afirmar que os teor médio do óleo proveniente do estrato Sub-Mulinia é significativamente superior ao do óleo proveniente do estrato Wilhelm ?

Observação 1 2 3 4 5 6 7 8 9 10 11

Wilhelm 3,9 2,7 2,8 3,1 3,5 3,9 2,7 Sub-Mulinia 5,0 3,4 1,2 8,4 4,2 4,2 3,9 3,9 7,3 4,4 3,0

Fonte: Johnson e Wichern (1988) Resposta: tcalc = 1,5866 < tcrit = 1,7459 : Aceita-se H0.

Page 104: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

104

15. ANÁLISE DA VARIÂNCIA (ANOVA) A análise da variância (ANOVA) é uma ferramenta para analisar as diferenças entre k > 2 médias, seguindo a suposição inicial de que as médias amostrais avaliadas são oriundas de populações normalmente distribuídas e com a mesma variância. As origens da ANOVA remontam ao início do século XX, quando os principais conceitos foram formulados por Ronald A. Fisher e William Gosset (Student) e aplicados a experimentos agrícolas na estação experimental de Rothamstead, Inglaterra, o que explica a utilização de alguns termos técnicos relacionados à agricultura. As aplicações da ANOVA não se restringem à agronomia, e podem ser encontradas nas engenharias, na medicina, na administração de empresas e na biologia, para citar apenas algumas áreas de pesquisa. Neste material serão apresentados os principais conceitos e métodos envolvidos na ANOVA. Uma abordagem mais ampla e detalhada pode ser encontrada em Vieira (2006), por exemplo. 15.1 – Experimentos com Um Fator A ANOVA para experimentos com um fator está relacionada ao teste de hipótese de diferença entre k médias amostrais, onde k > 2. Neste tipo de experimento, os tratamentos aos quais as amostras estão relacionadas são designados aleatoriamente às unidades experimentais, adotando-se o critério de similaridade das unidades com relação à variável resposta, isto é, ao fator estudado. Os valores observados podem ser anotados em um quadro, conforme mostrado a seguir. São consideradas k amostras, de tamanhos n1 , n2 , ... , nk , respectivamente.

Quadro 15.1 – Valores para ANOVA com um fator. Amostras (Tratamentos)

Observações 1 2 ... k

1 x11 x21 ... xk1

2 x12 x22 ... xk2

3 x13 x23 ... xk3

... ... ... ... ... Total T1 T2 ... Tk

Aqui se supõe que cada resposta é dada por: xij = µ + αk + εij = média + efeito no grupo k + resíduo. Também se supõe que: i – os resíduos são v.a.’s independentes; ii – a variância é constante; iii – os resíduos seguem distribuição normal, ou muito aproximadamente normal. O quadro para ANOVA aplicada a experimentos com um fator é:

Quadro 15.2 – Quadro para ANOVA com um fator. Fonte de Variação Soma Quadrática Graus de Liberdade Quadrado Médio Fcalc

Entre os grupos SQE k – 1 QME = SQE ÷ (k – 1) QME ÷ QMR Resíduos SQR N – k QMR = SQR ÷ (N – k)

Total SQT N – 1 A hipótese nula é: H0 : αk = 0 (O tratamento não tem efeito sobre o grupo k). Se a hipótese nula é verdadeira, tem-se que: µ1 = µ2 = ... = µk .

Os valores para cálculo são: ∑∑= =

−=k

i

n

jij N

TxSQT

i

1

2

1

2 . (15.1)

∑=

−=k

i i

i

N

T

n

TSQE

1

22

. (15.2)

∑∑==

==k

ii

k

ii nNTT

11

.

SQESQTSQR −= . (15.3)

Os valores críticos para a estatística F são obtidos na tabela da distribuição F, de Fisher.

Page 105: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

105

Exemplo 15.1 – O quadro a seguir mostra o teor de ferro observado em amostras de óleo cru provenientes de três estratos geológicos. Com 5% de significância, é possível afirmar que os teores médios são significativamente diferentes ?

1 2 3 4 5 6 7 8 9 10 11 12 13 14 Wilhelm 51 49 36 45 46 43 35 Sub-Mulinia 47 32 12 17 36 35 41 36 32 46 30 Superior 13 27 24 18 25 26 17 14 20 34 18 22 52 41

Fonte: Johnson e Wichern (1988)

H0 : H1 : T1 = 305 T2 = 364 T3 = 351 n1 = 7 n2 = 11 n3 = 14 N = T = SQT = SQE = SQR = O quadro para ANOVA fica:

Fonte de Variação Soma Quadrática Graus de Liberdade Quadrado Médio Fcalc

Entre os grupos SQE = k – 1 = QME = Resíduos SQR = N – k = QMR =

Total SQT = N – 1 = 15.2 – Experimento com Dois Fatores Na ANOVA para dois fatores são considerados dois conjuntos de classificação, ou tratamentos. Este tipo de experimento também é conhecido como delineamento de blocos aleatórios, pois as unidades experimentais são designadas aleatoriamente para cada combinação de fatores, ou tratamentos. Neste tipo de experimento considera-se que cada resposta é dada por: xij = µ + αi + βj + εij = média + efeito do fator i + efeito do fator j + resíduo. Os valores observados podem anotados em um quadro na forma a seguir.

Quadro 15.3 – Valores para ANOVA com dois fatores. Fator 2

Fator 1 Nível 1 Nível 2 ... Nível n

Total

Nível 1 x11 x12 ... x1n L1

Nível 2 x21 x22 ... x2n L2

... ... ... ... ... ... Nível m xm1 xm2 ... xmn Lm

Total C1 C2 ... Cn T O quadro para ANOVA aplicada a experimentos com dois fatores é:

Quadro 15.4 – Quadro para ANOVA com dois fatores. Fonte de Variação

Soma Quadrática

Graus de Liberdade

Quadrado Médio Fcalc

Fator 1 SQL m – 1 QML = SQL ÷ (m – 1) QML ÷ QMR Fator 2 SQC n – 1 QMC = SQC ÷ (n – 1) QMC ÷ QMR

Resíduos SQR (m – 1)(n – 1) QMR = SQR ÷ (m – 1)(n – 1) Total SQT N – 1

As hipóteses nulas são: H0 : αi = 0 (O efeito do fator 1 é nulo) e H0 : βj = 0 (O efeito do fator 2 é nulo).

Os valores para cálculo são: ∑∑= =

−=m

i

n

jij N

TxSQT

1

2

1

2 . (15.4)

Page 106: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

106

∑=

−=m

ii N

TL

nSQL

1

221 . (15.5)

∑=

−=n

ji N

TC

mSQC

1

221 . (15.6)

SQCSQLSQTSQR −−= . (15.7)

Exemplo 15.2 – Deseja-se determinar os efeitos sobre a resistência à tensão de ruptura exercidos por três diferentes composições de ligas metálicas e por quatro diferentes níveis de temperatura para tratamento térmico. Os valores observados, em kgf/mm2, são mostrados no quadro a seguir.

Temperatura Liga

Nível 1 Nível 2 Nível 3 Nível 4 Total

A 1,2 1,4 0,9 1,5

B 0,8 1,1 0,7 1,4

C 0,7 1,3 1,1 0,8 Total

O quadro para ANOVA fica:

Fonte de Variação

Soma Quadrática

Graus de Liberdade

Quadrado Médio Fcalc

Liga QML = Temperatura QMC =

Resíduos QMR = Total

15.3 – Experimento com Dois Fatores Repetidos Neste tipo de experimento é possível estudar a ocorrência de interação entre os fatores. Este fenômeno, quando observado, indica que as respostas observadas para os dois fatores não são independentes entre si. Aqui são testadas três hipóteses, as duas tratadas no caso anterior e mais a hipótese nula segundo a qual não há interação entre os fatores. Para realizar o estudo em questão basta efetuar mais de uma observação para cada combinação de fatores. Os valores observados podem anotados em um quadro na forma a seguir.

Quadro 15.5 – Valores para ANOVA com dois fatores com repetição. Fator 2

Fator 1 Nível 1 Nível 2 ... Nível n

Total

Nível 1 x111 ...

x11p

x121 ...

x12p ...

x1n1 ...

x1np L1

Nível 2 x211 ...

x21p

x221 ...

x22p ...

x2n1 ...

x2np L2

... ... ... ... ... ...

Nível m xm11 ...

xm1p

xm21 ...

xmnp ...

xmn1 ...

xmnp Lm

Total C1 C2 ... Cn T

Page 107: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

107

O quadro para ANOVA aplicada a experimentos com dois fatores com repetição é:

Quadro 15.6 – Quadro para ANOVA com dois fatores. Fonte de Variação

Soma Quadrática

Graus de Liberdade

Quadrado Médio Fcalc

Fator 1 SQL m – 1 QML = SQL ÷ (m – 1) QML ÷ QMR Fator 2 SQC n – 1 QMC = SQC ÷ (n – 1) QMC ÷ QMR

Interação SQI (m – 1)(n – 1) QMI = SQI ÷(m – 1) (n – 1) QMI ÷ QMR Resíduos SQR mn(p – 1) QMR = SQR ÷ mn(p – 1)

Total SQT mnp – 1

Os valores para cálculo são: ∑ ∑∑= ==

−=m

i

p

kijk

n

j mnp

TxSQT

1

2

1

2

1

. (15.8)

∑=

−=n

jj mnp

TC

mpSQC

1

221 . (15.9)

∑=

−=m

ii mnp

TL

npSQL

1

221 . (15.10)

SQCSQLmnp

TS

pSQI

m

i

n

jij −−−= ∑∑

= =1

2

1

21 . (15.11)

∑=

=p

kijkij xS

1

. (15.12)

SQISQCSQLSQTSQR −−−= . (15.13)

Exemplo 15.3 – A fim de estudar as condições ótimas para extrusão de plástico costuma-se aplicar uma técnica denominada Operação Evolucionária. Um dos fatores estudados é a resistência à tração, medida em dois níveis de fatores, taxa de extrusão e total de aditivo. Dados observados em um destes experimentos são mostrados no quadro a seguir. Com 5% de significância, pode-se afirmar que:

a) Os dois níveis de taxa de extrusão produzem respostas significativamente diferentes ? b) Os dois níveis de aditivo produzem respostas significativamente diferentes ? c) Há interação entre os dois fatores ?

Total de aditivo

1,0% 1,5%

Total

- 10% 6,5 6,2 5,8 6,5 6,5 6,9 7,2 6,9 6,1 6,3 Taxa de extrusão

10% 6,7 6,6 7,2 7,1 6,8 7,1 7,0 7,2 7,5 7,6 Total 65,9

Fonte: Johnson e Wichern (1988). O quadro para ANOVA é:

Fonte de Variação

Soma Quadrática

Graus de Liberdade Quadrado Médio Fcalc

Taxa de extrusão m – 1 QML = Total de aditivo n – 1 QMC =

Interação (m – 1)(n – 1) QMI = Resíduos mn(p – 1) QMR =

Total N – 1

Page 108: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

108

15.4 – Exercícios 15.4.1) O quadro seguir mostra os comprimentos das pétalas observados em uma amostra de flores de três espécies diferentes. Pode-se afirmar, com 5% de significância, que os comprimentos observados entre as três espécies são significativamente diferentes ?

Espécie Observação

íris setosa íris versicolor íris virginica 1 51 70 65 2 49 74 76 3 47 69 49 4 46 65 73 5 50 55 67 6 54 57 72 7 46 63 65 8 50 49 64 9 44 66 68

10 49 52 57 Fonte: Fisher (1936).

15.4.2) O quadro a seguir mostra o valor inverso do teor de hidrocarbonetos saturados observado em amostras de óleo cru provenientes de três estratos geológicos. Com 5% de significância, é possível afirmar que os teores médios são significativamente diferentes ?

1 2 3 4 5 6 7 8 9 10 11 12

Wilhelm 7,06 7,14 7,00 7,20 7,81 6,25 5,11 Sub-Mulinia 7,06 5,82 5,54 6,31 9,25 5,69 5,63 6,19 8,02 7,54 5,12 Superior 4,24 5,69 4,34 3,92 5,39 5,02 3,52 4,65 4,27 4,32 4,38 3,06

Fonte: Johnson e Wichern (1988)

15.4.3) Um experimento tem por objetivo avaliar os efeitos sobre a resistência à tensão de ruptura, em kgf/mm2, de cabos de aço, causados por dois fatores: composição da liga e processo de fabricação. Os valores observados no experimento são mostrados no quadro a seguir. Com 5% de significância, pode-se afirmar que:

a) As ligas metálicas produzem valores significativamente diferentes para a tensão de ruptura ? b) Os processos de fabricação produzem valores significativamente diferentes para a tensão de

ruptura ? Processo

Liga A B C

1 1,5 1,6 1,2 2 1,8 1,8 1,4 3 1,4 1,4 1,3 4 0,9 1,7 1,4

15.4.4) O quadro a seguir mostra os valores observados em um experimento cujo objetivo é determinar os efeitos produzidos por dois aditivos, em diferentes proporções, sobre o ponto de fusão (oC) de determinado material. Pode-se afirmar que:

a) O aditivo 1 produz resultados significativamente diferentes ? b) O aditivo 2 produz resultados significativamente diferentes ?

Aditivo 2

Aditivo 1 5% 7,5% 10% 12,5%

10% 256 264 259 265 15% 248 260 245 258 20% 249 268 251 255

Page 109: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

109

15.4.5) Um dos fatores estudados no experimento mencionado no exemplo 15.3 é a opacidade, também medida em dois níveis de fatores, taxa de extrusão e total de aditivo. Dados observados em um destes experimentos são mostrados no quadro a seguir. Com 5% de significância, pode-se afirmar que:

d) Os dois níveis de taxa de extrusão produzem respostas significativamente diferentes ? e) Os dois níveis de aditivo produzem respostas significativamente diferentes ? f) Há interação entre os dois fatores ?

Proporção de aditivo

1,0% 1,5%

Total

- 10% 4,4 6,4 3,0 4,1 0,8 5,7 2,0 3,9 1,9 5,7 Taxa de extrusão 10% 2,8 4,1 3,8 1,6 3,4 8,4 5,2 6,9 2,7 1,9

Total Fonte: Johnson e Wichern (1988).

15.4.6) O quadro a seguir mostra os teores de ácido esteárico observados em amostras de quatro tipos de óleos vegetais. Pode-se afirmar, com 5% de significância, que os teores observados são significativamente diferentes ?

Origem Observação

Oliva Colza Girassol 1 14,9 9,6 9,7 2 9,3 9,7 9,8 3 10,9 10,0 9,8 4 10,5 10,2 9,3 5 12,0 10,4 11,5 6 11,7 10,5 12,2 7 11,4 10,5 13,1 8 10,5 10,5 9 10,9

Fonte: Brodnjak-Vončina et al. (2005)

Page 110: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

110

16. TESTE QUI-QUADRADO Na prática, é comum que os resultados obtidos através de uma amostragem não correspondam aos resultados esperados. Esta discrepância pode ser avaliada através do Método Qui-Quadrado, que compara as freqüências observadas no experimento com as freqüências esperadas. Estas últimas podem ser baseadas em distribuições de probabilidade ou observações conhecidas a priori. O método em questão pode ser aplicado a dois tipos de estudos: teste de bondade de ajustamento, ou de aderência, e teste de independência de variáveis. No primeiro caso o objetivo é determinar se as freqüências observadas seguem uma determinada distribuição de probabilidade. No segundo caso o objetivo é verificar a dependência de duas variáveis aleatórias, tomando por base os conceitos apresentados no capítulo 8, mais especificamente no parágrafo que trata da independência de duas variáveis (8.7). 16.1 – Teste de Bondade de Ajustamento Sejam os experimentos ε1 , ε2 , ... , εk , que ocorrem com freqüências observadas O1 , O2 , ... , Ok , respectivamente, e cujas freqüências esperadas são E1 , E2 , ... , Ek , respectivamente. A medida de discrepância é a estatística χ2 (lê-se “qui-quadrado”), calculada por:

∑=

−=

k

i i

ii

E

EO

1

22 )(

χ . (16.1)

A hipótese nula, H0, supõe que as freqüências observadas concordam com as freqüências esperadas, isto é, Oi = Ei , i = 1 , 2 , ... , k. O valor crítico para a tomada de decisão é obtido diretamente na tabela da distribuição qui-quadrado, com o número de graus de liberdade dado por φ = k – p – 1 , onde p é o número de parâmetros da distribuição de probabilidade em questão. Neste caso, se as freqüências decem seguir uma distribuição exponencial, por exemplo, o valor de p é 1, já que a referida distribuição possui apenas uma parâmetro. Se a distribuição de interesse é a normal, então p = 2, correspondente aos parâmetros µ e σ2. Exemplo 16.1 – Uma reportagem publicada no jornal New York Post (data não disponível) mostrou os resultados de 144 páreos, relacionando o número de vitórias com a posição de largada. Pode-se afirmar, com 1% de significância, que há relação entre as posições de largada e de chegada ?

Posição 1 2 3 4 5 6 7 8

Vitórias 29 19 18 25 17 10 15 11 16.2 – Teste de Independência de Variáveis Aqui são estudadas as discrepâncias observadas em experimentos que envolvem duas variáveis, em diferentes níveis. O objetivo é verificar o grau de relação existente entre as variáveis estudadas. Os valores observados podem ser anotados em um quadro da forma:

Variável Y Variável X

Y 1 Y 2 ... Y n Total

X 1 O11 O12 ... O1n L1

X 2 O21 O22 ... O2n L2

... ... ... ... ... ... X m Om1 Om2 ... Omn Lm

Total C1 C2 ... Cn T

A hipótese nula consiste na suposição de que não há relação, ou dependência, entre as variáveis, isto é, Oij = Eij , i = 1 , 2 , ... , m e j = 1 , 2 , ... , n. A estatística de teste é dada por:

∑ ∑= =

−=

m

i

n

j ij

ijij

E

EO

1 1

22

)(χ . (16.2)

As freqüências esperadas são dadas por:

Page 111: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

111

T

CLE ji

ij = . (16.3)

Para a tomada de decisão utiliza-se o valor crítico obtido na tabela da distribuição qui-quadrado, com o número de graus de liberdade dado por φ = (m – 1)(n – 1). Exemplo 16.2 – O New England Journal of Medicine, v. 318, no. 4, publicou um estudo sobre os efeitos da Aspirina® na prevenção de ataques cardíacos. O experimento envolveu 22131 médicos, que foram monitorados durante seis anos. O medicamento foi ministrado em doses regulares a 11097 médicos, enquanto 11034 médicos tomaram placebo. Os resultados observados são mostrados de forma mais detalhada no quadro a seguir. Pode-se afirmar, com 5% de significância, que há relação entra o uso do medicamento e a ocorrência de ataques cardíacos ?

Ataque fatal Ataque não fatal Nenhum ataque Total

Placebo 18 171 10845 11034 Aspirina 5 99 10993 11097

Total 23 270 21838 22131 Fonte: Agresti (1990)

16.3 – Exercícios 16.3.1) O quadro a seguir mostra os resultados de uma pesquisa publicada pelo jornal Folha de São Paulo, em 23/09/2007. Na pesquisa foram entrevistadas 2771, das quais 588 declararam-se fumantes. As pessoas incluídas neste grupo foram entrevistadas a respeito da intenção de abandonar o vício, e foram classificadas de acordo com a renda, em salários mínimos. É possível afirmar, com 5% de significância, que o comportamento está relacionado à renda ?

Renda (SM) Já tentou parar de fumar ?

Até 2 De 2 a 5 De 5 a 10 Mais de 10 Total

Sim 115 83 115 89 402 Não 45 45 45 51 186

Total 160 128 160 140 588 Fonte: Jornal Folha de São Paulo, 23/09/2007

16.3.2) O quadro a seguir mostra os resultados observados em um estudo relacionando a aplicação da pena de morte e a cor dos réus acusados de homicídio, bem como a cor das vítimas. Os dados foram coletados em 20 municípios do estado norte-americano da Flórida, entre os anos de 1976 e 1977. Com 5% de significância, é possível afirmar que há relação entre:

a) A cor dos réus e a sentença ? b) A cor das vítimas e a sentença ?

Cor Pena de Morte

Réu Vítima Sim Não Branca 19 132

Branca Negra 0 9 Branca 11 52

Negra Negra 6 97

Page 112: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

112

16.3.3) O quadro a seguir mostra os resultados de uma pesquisa publicada no SPSS™ Advanced Statistics Guide, 2nd. Ed. O objetivo da pesquisa era verificar a relação entre a renda e o nível de satisfação de 901 trabalhadores de áreas distintas. Com 5% de significância, pode-se afirmar que o nível de satisfação está associado à renda ?

Nível de satisfação/insatisfação Renda (US$)

Muito insatisfeito Moderadamente

insatisfeito Moderadamente

satisfeito Muito satisfeito

< 6000 20 24 80 82 6000 – 15000 22 38 104 125

15000 – 25000 13 28 81 113 25000 < 7 18 54 92

Fonte: Agresti, 1990. 16.3.4) O quadro a seguir o número de casos de leucemia registrados pelo British Cancer Registry, entre os anos de 1946 e 1960. Pode-se afirmar que o número de registros independe do mês ?

Mês Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez

Casos 40 34 30 44 39 58 51 56 36 48 33 38 16.3.5) O quadro a seguir mostra os resultados de uma pesquisa eleitoral na qual os eleitores foram classificados de acordo com a escolaridade. Com 5% de significância, pode-se afirmar que a intenção de voto está associada à escolaridade ?

Candidato Escolaridade

Lula Alckmin Garotinho H. Helena Total

Fundamental 45 19 14 4 82 Médio 41 26 10 8 85

Superior 30 33 7 12 82 Total 116 78 31 24 249

Fonte: Jornal Folha de São Paulo, 19/03/2006.

Page 113: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

113

17. TESTES NÃO PARAMÉTRICOS

Os testes de hipóteses estudados até agora envolvem suposições sobre a distribuição das populações das quais são extraídas as amostras. Na prática, contudo, há situações nas quais não há justificativas para tais suposições. Em tais situações é possível utilizar testes que não dependam de suposições a respeito de distribuições populacionais ou dos parâmetros envolvidos. Também podem ser utilizados quando os dados estudados não envolvem variáveis numéricas. 17.1 – Teste do Sinal

Este teste é indicado para estudos que envolvem uma variável qualitativa binária, isto é, com apenas dois possíveis resultados, traduzidos por seus sinais (positivo ou negativo). Este tipo de situação ocorre, por exemplo, quando consumidores são indagados a respeito da melhora, ou não, da qualidade de serviços ou produtos. Também pode ser aplicado em estudos que envolvem amostras casadas, ou emparelhadas, isto é, amostras formadas por indivíduos observados individualmente e submetidos a dois cenários diferentes. A hipótese nula postula que não há diferença significativa entre os totais de sinais negativos e positivos, e toma por base uma distribuição binomial, aproximada pela normal, que supõe que a proporção, tanto de sinais positivos como negativos, é igual a 0,5. A decisão é tomada a partir de valores da distribuição normal. As etapas são resumidas a seguir. Etapa 1: Registrar o número de sinais positivos, ou negativos, e representar o total por X. Etapa 2: Considerar p = 0,5 e calcular Np, onde N é o total de sinais positivos e negativos. Etapa 3: Se X < Np, fazer X* = X + 0,5. Se Np < X, fazer X* = X – 0,5. Etapa 4: Efetuar a aproximação da distribuição binomial pela distribuição normal, isto é, calcular a estatística z, dada por:

)1(

*

pNp

NpXz

−= . (17.1)

Etapa 5: Tomar a decisão, comparando o valor z com o valor crítico zC , correspondente ao nível de significância desjado. Exemplo 17.1 – Um estudo, com o objetivo de avaliar os efeitos de determinada dieta sobre portadores de certa moléstia, acompanhou 20 pacientes por determinado período de tempo. Ao final deste período o peso de cada paciente foi comparado com o peso (kg) anotado no início do estudo, a fim de verificar se o mesmo havia aumentado ou diminuído. Os resultados são mostrados no quadro a seguir. Pode-se afirmar, com 5% de significância, que a dieta é eficaz para a redução de peso ?

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Antes 85 78 77 69 94 85 79 68 72 75 79 84 85 76 96 85 86 78 80 76 Depois 76 70 82 74 88 80 83 68 68 78 82 80 81 79 88 79 82 75 75 72

H0: A dieta é inócua. H1: A dieta é eficaz. Quantidade de sinais N =

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Antes 85 78 77 69 94 85 79 68 72 75 79 84 85 76 96 85 86 78 80 76 Depois 76 70 82 74 88 80 83 68 68 78 82 80 81 79 88 79 82 75 75 72 Sinal - - + + - - + 0 - + + - - + - - - - - -

Total de sinais negativos: X = 13 → =−−

=)5,0)(5,0)(19(

)5,0)(19()5,013(z

Para o nível de significância desejado, o valor crítico é: Decisão:

Page 114: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

114

17.2 – Teste U, de Mann-Whitney

É indicado para testes que envolvem variáveis ordinais, observadas para duas amostras. Também pode substituir o teste t, para diferença de médias. As etapas são descritas a seguir. Etapa 1: Ordenar os valores dentro de cada amostra. A ordenação é feita do menor para o maior. Etapa 2: Atribuir postos para os valores ordenados, de modo que os menores valores recebam os menores postos. Em caso de empate, isto é, de valores iguais, atribui-se a mediana dos postos que seriam atribuídos, caso os valores fossem diferentes. Etapa 3: Somar os postos dentro de cada amostra. Se as amostras têm tamanhos diferentes, representar por R1 e n1 a soma dos postos e o tamanho da menor amostra, respectivamente. Etapa 4: Calcular a estatística U, dada por:

111

21 2

)1(R

nnnnU −

++= (17.2)

Etapa 5: Calcular a média e a variância, dadas por:

221 nn

U =µ (17.3)

12

)1( 21212 ++=

nnnnUσ (17.4)

Etapa 6: Calcular a estatística de teste, dada por:

U

UU

Uz

σ

µ−= (17.5)

Etapa 7: Tomar a decisão com base na distribuição normal. Exemplo 17.2 – Uma pesquisa com 22 casais observou o grau de envolvimento amoroso de maridos e esposas para com os respectivos parceiros. A variável resposta assume seus valores conforme a escala a seguir:

1 – Nenhum 2 – Pouco 3 – Algum 4 – Muito 5 – Tremendo

Os valores observados são mostrados no quadro a seguir. Com 5% de significância, é possível afirmar que o grau de envolvimento amoroso é significativamente diferente para maridos e esposas ? Casal 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

Marido 2 5 4 4 3 3 3 4 4 4 4 5 4 4 4 3 4 5 5 4 4 4 Esposa 4 4 4 4 4 3 4 3 4 3 4 5 4 4 4 3 5 4 3 5 5 4

Fonte: Johnson e Wichern (1988). Etapa 1: Ordenar os valores dentro de cada amostra (complete o quadro): Casal 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

Marido 2 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 Esposa

Etapa 2: Atribuir postos para os valores ordenados (complete o quadro): Casal 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

Marido 2 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 Postos 1 6 6 6 6 Esposa 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 Postos 6 6 6 6 6

Page 115: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

115

Etapa 3: R1 = n1 = R2 = n2 = Etapa 4: Calcular a estatística U: Etapa 5: Calcular a média e a variância: Etapa 6: Calcular a estatística de teste: Etapa 7: Tomar a decisão com base na distribuição normal: 17.3 – Teste H, de Kruskal-Wallis O teste H pode ser considerado uma generalização do teste U pra mais de duas amostras. De fato, as etapas para realização deste teste seguem o mesmo raciocínio utilizado para estudos com duas amostras, com a diferença de que a estatística H segue distribuição qui-quadrado, com φ = k – 1 graus de liberdade.

Sejam k amostras de tamanho n1 , ... , nk , de valores correspondentes a uma variável ordinal. Inicialmente deve-se ordenar os valores dentro de cada amostra. Na seqüência, deve-se atribuir postos aos valores ordenados, de modo análogo ao empregado no teste U. As somas dos postos, R1 , ... , Rk são utilizadas para calcular a estatística H, dada por:

)1(3)1(

12

1

2

+−+

= ∑=

Nn

R

NNH

k

i i

i . (17.6)

Onde: ∑=

=k

iinN

1

.

Exemplo 17.3 – O quadro seguir mostra os comprimentos das pétalas observados em uma amostra de flores de três espécies diferentes. Pode-se afirmar, com 5% de significância, que os comprimentos observados entre as três espécies são significativamente diferentes ?

Espécie Observação

íris setosa íris versicolor íris virginica 1 51 70 65 2 49 74 76 3 47 69 49 4 46 65 73 5 50 55 67 6 54 57 72 7 46 63 65 8 50 49 64 9 44 66 68

10 49 52 57 Fonte: Fisher (1936).

Sugestão: Transformar os valores conforme a seguinte escala:

[44 ; 52[ = 1 [52 ; 60[ = 2 [60 ; 68[ = 3 [68 ; 76] = 4

O quadro com os valores convertidos para a escala acima é dado a seguir (complete):

Page 116: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

116

Espécie Observação

íris setosa íris versicolor íris virginica 1 1 4 3 2 1 4 4 3 1 4 1 4 1 5 1 6 2 7 1 8 1 9 1

10 1 Ordenar os valores:

Espécie Observação

íris setosa íris versicolor íris virginica 1 1 2 1 3 1 4 1 5 1 6 1 7 1 8 1 9 1

10 2 Determinar a soma dos postos: R1 = R2 = R3 = Calcular a estatística H: Tomar a decisão: 17.4 – Exercícios 17.4.1) Aplicar o teste do sinal ao problema tratado no exemplo 17.2. 17.4.2) Para avaliar o grau de satisfação dos clientes com relação a certa modalidade de serviço, uma empresa solicitou a um grupo de clientes que atribuísse uma nota, que varia de 0 a 5, conforme o grau de satisfação de cada um. Os valores observados são mostrados no quadro a seguir. Com 5% de significância, pode-se afirmar que o nível de satisfação não é significativamente diferente entre as modalidades ?

Modalidade Cliente

Premium Classic Personal 1 2 3 3 2 5 4 5 3 4 4 3 4 5 3 4 5 5 3 4 6 4 4 5 7 3 2 3 8 3 5 2 9 2 4 3

10 1 3 2

Page 117: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

117

17.4.3) O Quadro 12.2 mostra os teores de ferro observados em amostras de óleo cru, uma oriunda de argila Wilhelm (Tipo W) e outra de argila sub-mulinia (Tipo SM). Pode-se afirmar, com 5% de significância, que o teor médio de ferro do Tipo W é significativamente superior ao teor médio do Tipo SM ?

Quadro 12.2 – Teores de ferro (%) em amostras de óleo cru. Observação 1 2 3 4 5 6 7 8 9 10 11

Wilhelm 51 49 36 45 46 43 35 Sub-Mulinia 47 32 12 17 36 35 41 36 32 46 30

Fonte: Johnson e Wichern (1988) 17.4.4) O quadro a seguir mostra os teores de ácido esteárico observados em amostras de quatro tipos de óleos vegetais. Pode-se afirmar, com 5% de significância, que os teores observados são significativamente diferentes ?

Origem Observação

Oliva Colza Girassol 1 14,9 9,6 9,7 2 9,3 9,7 9,8 3 10,9 10,0 9,8 4 10,5 10,2 9,3 5 12,0 10,4 11,5 6 11,7 10,5 12,2 7 11,4 10,5 13,1 8 10,5 10,5 9 10,9

Fonte: Brodnjak-Vončina et al. (2005) Sugestão: [9,3 ; 10,4[ = 1 [10,4 ; 11,5[ = 2 [11,5 ; 12,6[ = 3 [12,6 ; 13,7[ = 4 [13,7 ; 14,9] = 5.

Page 118: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

118

18. ANÁLISE DE CORRELAÇÃO E DE REGRESSÃO O conceito de correlação foi apresentado na unidade 8, e pode ser entendido como a expressão do grau de relação entre duas variáveis aleatórias. A análise de correlação tem por objetivo avaliar este grau a fim de verificar se é possível ajustar um modelo funcional que expresse a mencionada relação, que é o objetivo da análise de regressão. 18.1 – Coeficiente de Correlação

Sejam X e Y duas variáveis aleatórias contínuas definidas em um espaço amostral Ω, para as quais são conhecidas n realizações na forma (x1 , y1) , ... , (xn , yn), e com variâncias σ2

X e σ2Y,

respectivamente. Conforme foi visto na unidade 8.7.3, o coeficiente de correlação de X e Y é a medida da relação linear entre as duas variáveis, e é dado por:

22

),(),(

YX

YXCovYX

σσρ = . (8.12)

O coeficiente de correlação ρ pertence ao intervalo real [– 1 ; 1] . Se ρ = 1 ou ρ = – 1, diz-se que a relação é perfeita, e neste caso pode-se representa-la na forma Y = aX + b , onde a e b são números reais. Na prática utiliza-se o coeficiente de correlação de Pearson, dado por:

∑ ∑∑∑

∑∑∑

= ===

===

=n

i

n

iii

n

ii

n

ii

n

ii

n

ii

n

iii

yynxxn

yxyxn

r

1

2

1

2

2

11

2

111 . (18.1)

O coeficiente de correlação de Pearson fornece uma medida do grau de relação entre as duas variáveis. Se r → 0, diz-se que há fraca correlação entre X e Y. Se r → – 1, ou r → 1, diz-se que há forte correlação. Esta idéia é ilustrada, de forma bastante simplificada, na figura 18.1. Ausência de correlação Fraca correlação positiva Forte correlação negativa Forte correlação positiva

Figura 18.1 – Diagramas de Dispersão.

Page 119: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

119

Exemplo 18.1 – O quadro a seguir mostra a evolução das populações masculina e feminina no Brasil, de 1940 a 2000, em milhões de pessoas. Calcular o coeficiente de correlação.

Quadro 18.1 – População Brasileira 1940 – 2000. Ano 1940 1950 1960 1970 1980 1991 2000

População Masculina 20,6 25,9 35,0 46,3 59,1 72,5 83,6 População Feminina 20,6 26,0 35,1 46,8 59,9 74,3 86,2

Fonte: IBGE – Folha de São Paulo (30/09/2003)

X = população masculina Y = população feminina

Diagrama de Dispersão para o Quadro 18.1

0

20

40

60

80

100

0 20 40 60 80 100

∑ Xi = 343,0 ∑ Yi = 348,9 ∑ Xi

2 = 20201,88 ∑ Yi2 = 21061,55 ∑ XiYi = 20626,26 n = 7

18.2 – Análise de Regressão Linear Na análise de correlação linear, o objetivo é determinar o grau de relacionamento entre duas variáveis. Na análise de regressão linear, o objetivo é determinar o modelo que expressa esta relação. Sejam X e Y duas variáveis aleatórias contínuas, conforme apresentadas na introdução. Conforme já foi visto, se o coeficiente de correlação é muito próximo de 1, ou de ( – 1), existe uma relação linear entre X e Y, que pode ser expressa na forma:

iii xy ε+β+α= . (18.2)

No modelo acima, α e β são os parâmetros do modelo, e εi é o resíduo correspondente à i – ésima observação. Os resíduos também podem ser escritos na forma:

iii xy β−α−=ε . (18.3)

Outra informação importante é que, na análise de regressão linear, parte-se da suposição de que os resíduos têm distribuição normal, com média igual a zero e variância σ2, isto é, ε ~ N( 0 , σ2 ). 18.3 – Método dos Mínimos Quadrados Para obter os Estimadores de Máxima Verossimilhança (EMV) dos parâmetros α e β, utiliza-se o Método dos Mínimos Quadrados (MMQ). O objetivo é minimizar a Soma dos Quadrados dos Resíduos (SQR), na forma (18.3), dada por:

Page 120: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

120

( )∑=

β−α−=n

iii xySQR

1

2 . (18.4)

As derivadas parciais, em relação aos parâmetros α e β, são dadas por:

( ) ( )∑=

β−α−−=α∂

∂ n

iii xySQR

1

2 . (18.5)

( ) ( )∑=

β−α−−=β∂

∂ n

iiii xxySQR

1

2 . (18.6)

Após igualar as duas expressões a zero, e efetuar algumas manipulações algébricas elementares, obtém-se o sistema de equações dado por:

=β+α

=β+α

∑∑∑

∑∑

===

==

n

iii

n

ii

n

ii

n

ii

n

ii

yxxˆxˆ

yxˆnˆ

11

2

1

11 . (18.7)

O sistema (18.7) é chamado sistema normal, e a sua resolução fornece os estimadores para os parâmetros desconhecidos do modelo linear, na forma:

xˆˆy β+α= .

Os parâmetros α e β também são chamados, respectivamente, de intercepto e coeficiente angular.

Exemplo 18.2 – Calcular os estimadores de máxima verossimilhança para o modelo linear ajustado aos dados do Quadro 18.1. ∑ Xi = 343,0 ∑ Yi = 348,9 ∑ Xi

2 = 20201,88 ∑ Yi2 = 21061,55 ∑ XiYi = 20626,26 n = 7

18.3.1 – Análise da Variância (ANOVA) para o Modelo de Regressão Linear

A ANOVA pode ser empregada para testar a existência, e a significância, da regressão linear. Este estudo tem por objetivo verificar se o modelo encontrado é consistente, ou seja, se produz resultados confiáveis. O quadro para ANOVA do modelo de regressão linear é dado por:

Quadro 18.2 – Quadro para ANOVA. Fonte de Variação Soma Quadrática Graus de Liberdade Quadrado Médio Fcalc

Regressão VM 1 QVM = VM QVM ÷ QVR Resíduos VR n – 2 QVR = VR ÷ (n – 2)

Total VT n – 1 As hipóteses testadas são: H0: β = 0 × H1: β ≠ 0. As somas quadráticas são dadas por:

Page 121: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

121

−= ∑∑∑

===

n

ii

n

ii

n

iii yx

nyxbVM

111

1 . (18.9)

−= ∑∑

==

2

11

2 1 n

ii

n

ii y

nybVT . (18.10)

VMVTVR −= . (18.11)

Exemplo 18.3 – Efetuar a ANOVA para o modelo obtido no exemplo anterior. 18.4 – Modelo Exponencial

Há situações nas quais o modelo linear não é o mais adequado para expressar a relação entre as variáveis estudadas. Nestes casos pode-se pesquisar a possibilidade de expressar a referida relação através de modelos não lineares. Os principais modelos não lineares serão apresentados de forma bastante sucinta na seqüência.

O modelo exponencial é dado por:

xey βα= . (18.12)

O gráfico para o modelo exponencial é mostrado na Figura 18.2.

Figura 18.2 – Gráfico do Modelo Exponencial.

Para obter os EMV dos parâmetros do modelo pode-se partir da forma linearizada, dada por:

xlnyln β+α=

Fazendo A = ln α, obtém-se o sistema normal dado por:

=β+

=β+

∑∑∑

∑∑

===

==

n

iii

n

ii

n

ii

n

ii

n

ii

ylnxxˆxA

ylnxˆnA

11

2

1

11 (18.13)

É importante ressaltar que, do ponto vista estritamente matemático, o procedimento adotado não

é consistente, uma vez que, ao efetuar a linearização, os resíduos são considerados na forma multiplicativa, isto é, o procedimento exige que cada observação seja escrita na forma i

xi

iey εα= β .

Page 122: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

122

Se os resíduos forem considerados na forma aditiva, dada por ix

iiey ε+α= β , a obtenção dos

estimadores exigiria a aplicação de métodos iterativos, entre os quais se destaca o método de Newton-Raphson. Entretanto, não é difícil verificar que o modelo obtido através da linearização é adequado.

O coeficiente de correlação para o modelo exponencial é dado por:

∑ ∑∑∑

∑∑∑

= ===

===

=n

i

n

iii

n

ii

n

ii

n

ii

n

ii

n

iii

ylnylnnxxn

ylnxylnxn

r

1

2

1

2

2

11

2

111 . (18.14)

Exemplo 18.4 – O quadro a seguir mostra o faturamento total das empresas brasileiras de produtos light e diet no período 1990 – 2002. Calcular o coeficiente de correlação e os EMV para um modelo exponencial, a fim de estimar o faturamento total para determinado ano.

Quadro 18.3 – Faturamento, em milhões de US$, do mercado brasileiro de produtos diet e light. Ano 1990 1992 1994 1996 1998 2000 2002

Faturamento 160 175 400 736 1000 1700 2800 Fonte: Jornal Folha de São Paulo, 18/08/2004.

18.5 – Modelo Potência O modelo, ou função, potência é dado por

βα= xy . (18.15)

1 2 3 4 5 6 7 8 9

Figura 18.3 – Gráfico do Modelo Potência (β > 1).

Os EMV são obtidos a partir da linearização do modelo (18.15), o que resulta na expressão dada por:

xlnlnyln β+α= (18.16)

Fazendo A = ln α, o sistema normal para estimar os parâmetros desconhecidos fica:

( )( )

=β+

=β+

∑∑∑

∑∑

===

==

n

iii

n

ii

n

ii

n

ii

n

ii

ylnxlnxlnˆxlnA

ylnxlnˆnA

11

22

1

11 (18.17)

O coeficiente de correlação para o modelo potência é dado por:

Page 123: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

123

∑ ∑∑∑

∑∑∑

= ===

===

=n

i

n

iii

n

ii

n

ii

n

ii

n

ii

n

iii

ylnylnnxlnxlnn

ylnxlnylnxlnn

r

1

2

1

2

2

11

2

111

))(( . (18.18)

Exemplo 18.7 – O quadro a seguir mostra a evolução das populações masculina e feminina no Brasil, de 1940 a 2000, em milhões de pessoas. Calcular o coeficiente de correlação para o modelo potência e compara-lo com o coeficiente de correlação linear, obtido no exemplo 18.1.

Quadro 18.1 – População Brasileira 1940 – 2000. Ano 1940 1950 1960 1970 1980 1991 2000

População Masculina 20,6 25,9 35,0 46,3 59,1 72,5 83,6 População Feminina 20,6 26,0 35,1 46,8 59,9 74,3 86,2

Fonte: IBGE – Folha de São Paulo (30/09/2003)

X = população masculina Y = população feminina 18.6 – Modelo Logarítmico É dado na forma

xlny β+α= . (18.19)

O coeficiente de correlação para este modelo é dado por:

∑ ∑∑∑

∑∑∑

= ===

===

=n

i

n

iii

n

ii

n

ii

n

ii

n

ii

n

iii

yynxlnxlnn

yxlnyxlnn

r

1

2

1

2

11

2

111

))(( . (18.20)

Os estimadores de máxima verossimilhança são obtidos pela resolução do sistema dado por:

=β+α

=β+α

∑∑∑

∑∑

===

==

n

iii

n

ii

n

ii

n

ii

n

ii

xlnyxlnˆxˆ

yxlnˆnˆ

11

2

1

11 . (18.21)

18.7 – Exercícios 18.7.1) O Quadro 18.4 mostra os totais de transações com cheques e cartões eletrônicos efetuadas no Brasil, no período 1994-2002.

Quadro 18.4 – Totais (× 1000000) de transações com cartões eletrônicos e de cheques compensados no Brasil, no período 1994 – 2002.

Ano 1994 1995 1996 1997 1998 1999 2000 2001 2002

Transações 200 300 380 440 490 580 730 853 937 Cheques 4140 3400 3160 2940 2750 2600 2630 2600 2420

a) Qual o modelo mais adequado para estimar o total de cheques em função do total de transações ? b) Usar o modelo obtido acima para estimar o total de cheques para um total de 2 bilhões de

transações com cartão. c) Qual o modelo mais adequado para estimar o total de transações ao longo do tempo ? d) Usar o modelo encontrado acima para estimar o total de transações para o ano de 2010.

Page 124: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

124

e) Qual o modelo mais adequado para estimar o total de cheques compensados ao longo do tempo ? f) Usar modelo encontrado acima para estimar o total de cheques compensados para o ano de 2010. g) Em que ano o total de cheques compensados será inferior a 1 bilhão ?

18.7.2) O Quadro 18.5 mostra os totais de transações com cheques e cartões eletrônicos efetuadas no Brasil, no período 1994-2002. Qual o modelo mais adequado para estimar o total de cheques compensados em função do total de transações com cartões eletrônicos.

Quadro 18.5 – Totais (× 1000000) de transações com cartões eletrônicos e de cheques compensados no Brasil, no período 1994 – 2002.

Ano 1994 1995 1996 1997 1998 1999 2000 2001 2002

Transações 200 300 380 440 490 580 730 853 937 Cheques 4140 3400 3160 2940 2750 2600 2630 2600 2420

Diagrama de dispersão para os dados do Quadro 18.3

0

1000

2000

3000

4000

5000

0 200 400 600 800 1000

18.7.3) Qual o modelo mais adequado para estimar o total de cheques compensados ao longo do tempo ?

0

1000

2000

3000

4000

5000

1992 1994 1996 1998 2000 2002 2004

18.7.4) Utilizando o modelo encontrado no exemplo anterior, estimar o total de cheques compensados para o ano de 2010. 18.7.5) O quadro a seguir mostra os teores de ácidos palmítico, esteárico, oléico e linoléico observados em uma amostra de óleo de colza.

a) Qual o modelo mais adequado para estimar o teor de ácido palmítico em função do teor de ácido esteárico ?

b) Qual o modelo mais adequado para estimar o teor de ácido palmítico em função do teor de ácido oléico ?

c) Qual o modelo mais adequado para estimar o teor de ácido oléico em função do teor de ácido esteárico ?

Page 125: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

125

Quadro 18.6 Teores de ácidos graxos. Palmítico Esteárico Oléico Linoleico

9,6 3,5 30,3 49,2 9,7 3,9 25,1 54,2 10 4,2 24,9 53,2

10,2 4 23,1 55,1 10,4 4,2 25,9 50,8 10,5 4,2 25,5 52 10,5 4,2 24,4 52,1 10,5 4,3 24,6 53,1 10,9 3,6 26 52,6 10,9 3,8 27,2 49,5 11,9 3,8 25,7 52,7

18.7.6) Um modelo não linear que pode ser de grande utilidade é o Modelo Inverso, dado por:

xy

β+α= .

a) Escrever a expressão para calcular o coeficiente de correlação para o modelo dado. b) Definir o sistema normal para o cálculo dos EMV para os parâmetros.

18.7.7) Calcular o coeficiente de correlação para ajustar um modelo inverso aos dados do problema 18.7.3, isto é, para estimar o total de cheques compensados ao longo do tempo.

Page 126: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

126

P(0 ≤ Z ≤ zc)

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS EXATAS E DA TERRA

DEPARTAMENTO DE ESTATÍSTICA

TABELA 1 - Distribuição Normal Padrão Z~N(0,1)

zc 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359 0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141 0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517 0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879 0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224 0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549 0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852 0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133 0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389 1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621 1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830 1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015 1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177 1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441 1,6 0,4452 0,4463 0,4474 0,4484 0,4495 *0,4505 0,4515 0,4525 0,4535 0,4545 1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633 1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706 1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767 2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817 2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857 2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890 2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916 2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936 2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 *0,4951 0,4952 2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964 2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974 2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981 2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986 3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990 3,10 ou + 0,4999

NOTA: Para valores de Z acima de 3,09, use 0,4999 como área. * Use esses valores comuns resultantes de interpolação:

Escore z Área 1,645 0,4500 2,575 0,4950

Esta tabela foi obtida na página do Departamento de Estatística da UFRN.

Page 127: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

127

ϕ = graus de liberdade

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS EXATAS E DA TERRA

DEPARTAMENTO DE ESTATÍSTICA

TABELA 2 - Distribuição t de Student (Unicaudal e Bicaudal)

α 25% 10% 5% 2,5% 1% 0,5% α 25% 10% 5% 2,5% 1% 0,5% ϕ ϕ 1 1,0000 3,0777 6,3138 12,7062 31,8207 63,6574 46 0,6799 1,3002 1,6787 2,0129 2,4102 2,6870 2 0,8165 1,8856 2,9200 4,3027 6,9646 9,9248 47 0,6797 1,2998 1,6779 2,0117 2,4083 2,6846 3 0,7649 1,6377 2,3534 3,1824 4,5407 5,8409 48 0,6796 1,2994 1,6772 2,0106 2,4066 2,6822 4 0,7407 1,5332 2,1318 2,7764 3,7469 4,6041 49 0,6795 1,2991 1,6766 2,0096 2,4049 2,6800 5 0,7267 1,4759 2,0150 2,5706 3,3649 4,0322 50 0,6794 1,2987 1,6759 2,0086 2,4033 2,6778 6 0,7176 1,4398 1,9432 2,4469 3,1427 3,7074 51 0,6793 1,2984 1,6753 2,0076 2,4017 2,6757 7 0,7111 1,4149 1,8946 2,3646 2,9980 3,4995 52 0,6792 1,2980 1,6747 2,0066 2,4002 2,6737 8 0,7064 1,3968 1,8595 2,3060 2,8965 3,3554 53 0,6791 1,2977 1,6741 2,0057 2,3988 2,6718 9 0,7027 1,3830 1,8331 2,2622 2,8214 3,2498 54 0,6791 1,2974 1,6736 2,0049 2,3974 2,6700 10 0,6998 1,3722 1,8125 2,2281 2,7638 3,1693 55 0,6790 1,2971 1,6730 2,0040 2,3961 2,6682 11 0,6974 1,3634 1,7959 2,2010 2,7181 3,1058 56 0,6789 1,2969 1,6725 2,0032 2,3948 2,6665 12 0,6955 1,3562 1,7823 2,1788 2,6810 3,0545 57 0,6788 1,2966 1,6720 2,0025 2,3936 2,6649 13 0,6938 1,3502 1,7709 2,1604 2,6503 3,0123 58 0,6787 1,2963 1,6716 2,0017 2,3924 2,6633 14 0,6924 1,3450 1,7613 2,1448 2,6245 2,9768 59 0,6787 1,2961 1,6711 2,0010 2,3912 2,6618 15 0,6912 1,3406 1,7531 2,1315 2,6025 2,9467 60 0,6786 1,2958 1,6706 2,0003 2,3901 2,6603 16 0,6901 1,3368 1,7459 2,1199 2,5835 2,9208 61 0,6785 1,2956 1,6702 1,9996 2,3890 2,6589 17 0,6892 1,3334 1,7396 2,1098 2,5669 2,8982 62 0,6785 1,2954 1,6698 1,9990 2,3880 2,6575 18 0,6884 1,3304 1,7341 2,1009 2,5524 2,8784 63 0,6784 1,2951 1,6694 1,9983 2,3870 2,6561 19 0,6876 1,3277 1,7291 2,0930 2,5395 2,8609 64 0,6783 1,2949 1,6690 1,9977 2,3860 2,6549 20 0,6870 1,3253 1,7247 2,0860 2,5280 2,8453 65 0,6783 1,2947 1,6686 1,9971 2,3851 2,6536 21 0,6864 1,3232 1,7207 2,0796 2,5177 2,8314 66 0,6782 1,2945 1,6683 1,9966 2,3842 2,6524 22 0,6858 1,3212 1,7171 2,0739 2,5083 2,8188 67 0,6782 1,2943 1,6679 1,9960 2,3833 2,6512 23 0,6853 1,3195 1,7139 2,0687 2,4999 2,8073 68 0,6781 1,2941 1,6676 1,9955 2,3824 2,6501 24 0,6848 1,3178 1,7109 2,0639 2,4922 2,7969 69 0,6781 1,2939 1,6672 1,9949 2,3816 2,6490 25 0,6844 1,3163 1,7081 2,0595 2,4851 2,7874 70 0,6780 1,2938 1,6669 1,9944 2,3808 2,6479 26 0,6840 1,3150 1,7056 2,0555 2,4786 2,7787 71 0,6780 1,2936 1,6666 1,9939 2,3800 2,6469 27 0,6837 1,3137 1,7033 2,0518 2,4727 2,7707 72 0,6779 1,2934 1,6663 1,9935 2,3793 2,6459 28 0,6834 1,3125 1,7011 2,0484 2,4671 2,7633 73 0,6779 1,2933 1,6660 1,9930 2,3785 2,6449 29 0,6830 1,3114 1,6991 2,0452 2,4620 2,7564 74 0,6778 1,2931 1,6657 1,9925 2,3778 2,6439 30 0,6828 1,3104 1,6973 2,0423 2,4573 2,7500 75 0,6778 1,2929 1,6654 1,9921 2,3771 2,6430 31 0,6825 1,3095 1,6955 2,0395 2,4528 2,7440 76 0,6777 1,2928 1,6652 1,9917 2,3764 2,6421 32 0,6822 1,3086 1,6939 2,0369 2,4487 2,7385 77 0,6777 1,2926 1,6649 1,9913 2,3758 2,6412 33 0,6820 1,3077 1,6924 2,0345 2,4448 2,7333 78 0,6776 1,2925 1,6646 1,9908 2,3751 2,6403 34 0,6818 1,3070 1,6909 2,0322 2,4411 2,7284 79 0,6776 1,2924 1,6644 1,9905 2,3745 2,6395 35 0,6816 1,3062 1,6896 2,0301 2,4377 2,7238 80 0,6776 1,2922 1,6641 1,9901 2,3739 2,6387 36 0,6814 1,3055 1,6883 2,0281 2,4345 2,7195 81 0,6775 1,2921 1,6639 1,9897 2,3733 2,6379 37 0,6812 1,3049 1,6871 2,0262 2,4314 2,7154 82 0,6775 1,2920 1,6636 1,9893 2,3727 2,6371 38 0,6810 1,3042 1,6860 2,0244 2,4286 2,7116 83 0,6775 1,2918 1,6634 1,9890 2,3721 2,6364 39 0,6808 1,3036 1,6849 2,0227 2,4258 2,7079 84 0,6774 1,2917 1,6632 1,9886 2,3716 2,6356 40 0,6807 1,3031 1,6839 2,0211 2,4233 2,7045 85 0,6774 1,2916 1,6630 1,9883 2,3710 2,6349 41 0,6805 1,3025 1,6829 2,0195 2,4208 2,7012 86 0,6774 1,2915 1,6628 1,9879 2,3705 2,6342 42 0,6804 1,3020 1,6820 2,0181 2,4185 2,6981 87 0,6773 1,2914 1,6626 1,9876 2,3700 2,6335 43 0,6802 1,3016 1,6811 2,0167 2,4163 2,6951 88 0,6773 1,2912 1,6624 1,9873 2,3695 2,6329 44 0,6801 1,3011 1,6802 2,0154 2,4141 2,6923 89 0,6773 1,2911 1,6622 1,9870 2,3690 2,6322 45 0,6800 1,3006 1,6794 2,0141 2,4121 2,6896 90 0,6772 1,2910 1,6620 1,9867 2,3685 2,6316 100 0,677 1,290 1,660 1,984 2,364 2,626 120 0,677 1,289 1,658 1,980 2,358 2,617 0,674 1,282 1,645 1,960 2,326 2,576

Esta tabela foi obtida na página do Departamento de Estatística da UFRN.

Page 128: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

128

ϕ = graus de liberdade

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS EXATAS E DA TERRA

DEPARTAMENTO DE ESTATÍSTICA

TABELA 3 - Distribuição Qui-Quadrado

α ϕ

0,995 0,99 0,975 0,95 0,90 0,75 0,50 0,25 0,10 0,05 0,025 0,01 0,005 0,001

1 0,0004 0,002 0,001 0,004 0,016 0,102 0,455 1,323 2,706 3,841 5,024 6,635 7,879 10,828 2 0,010 0,020 0,051 0,103 0,211 0,575 1,386 2,773 4,605 5,991 7,378 9,210 10,597 13,816 3 0,072 0,115 0,216 0,352 0,584 1,213 2,366 4,108 6,251 7,815 9,348 11,345 12,838 16,266 4 0,207 0,297 0,484 0,711 1,064 1,923 3,357 5,385 7,779 9,488 11,143 13,277 14,860 18,467 5 0,412 0,554 0,831 1,145 1,610 2,675 4,351 6,626 9,236 11,071 12,833 15,086 16,750 20,515 6 0,676 0,872 1,237 1,635 2,204 3,455 5,348 7,841 10,645 12,592 14,449 16,812 18,548 22,458 7 0,989 1,239 1,690 2,167 2,833 4,255 6,346 9,037 12,017 14,067 16,013 18,475 20,278 24,322 8 1,344 1,646 2,180 2,733 3,490 5,071 7,344 10,219 13,362 15,507 17,535 20,090 21,955 26,125 9 1,735 2,088 2,700 3,325 4,168 5,899 8,343 11,389 14,684 16,919 19,023 21,666 23,589 27,877 10 2,156 2,558 3,247 3,940 4,865 6,737 9,342 12,549 15,987 18,307 20,483 23,209 25,188 29,588 11 2,603 3,053 3,816 4,575 5,578 7,584 10,341 13,701 17,275 19,675 21,920 24,725 26,757 31,264 12 3,074 3,571 4,404 5,226 6,304 8,438 11,340 14,845 18,549 21,026 23,337 26,217 28,299 32,909 13 3,565 4,107 5,009 5,892 7,042 9,299 12,340 15,984 19,812 22,362 24,736 27,688 29,819 34,528 14 4,075 4,660 5,629 6,571 7,790 10,165 13,339 17,117 21,064 23,685 26,119 29,141 31,319 36,123 15 4,601 5,229 6,262 7,261 8,547 11,036 14,339 18,245 22,307 24,996 27,488 30,578 32,801 37,697 16 5,142 5,812 6,908 7,962 9,312 11,912 15,338 19,369 23,542 26,296 28,845 32,000 34,267 39,252 17 5,697 6,408 7,564 8,672 10,085 12,792 16,338 20,489 24,769 27,587 30,191 33,409 35,718 40,790 18 6,265 7,015 8,231 9,390 10,865 13,675 17,338 21,605 25,989 28,869 31,526 34,805 37,156 43,312 19 6,844 7,633 8,907 10,117 11,651 14,562 18,338 22,718 27,204 30,144 32,852 36,191 38,582 43,820 20 7,434 8,260 9,591 10,851 12,443 15,452 19,337 23,828 28,412 31,410 34,170 37,566 39,997 45,315 21 8,034 8,897 10,283 11,591 13,240 16,344 20,337 24,935 29,615 32,671 35,479 38,932 41,401 46,797 22 8,643 9,542 10,982 12,338 14,042 17,240 21,337 26,039 30,813 33,924 36,781 40,289 42,796 48,268 23 9,260 10,196 11,689 13,091 14,848 18,137 22,337 27,141 32,007 35,172 38,076 41,638 44,181 49,728 24 9,886 10,856 12,401 13,848 15,659 19,037 22,337 28,241 33,196 36,415 39,364 42,980 45,559 51,179 25 10,520 11,524 13,120 14,611 16,473 19,939 24,337 29,339 34,382 37,652 40,646 44,314 46,928 52,620 26 11,160 12,198 13,844 15,379 17,292 20,843 25,336 30,434 35,563 38,885 41,923 45,642 48,290 54,052 27 11,808 12,879 14,573 16,151 18,114 21,749 26,336 31,528 36,741 40,113 43,194 46,963 49,645 55,476 28 12,461 13,565 15,308 16,928 18,939 22,657 27,336 32,620 37,916 41,337 44,461 48,278 50,993 56,892 29 13,121 14,257 16,047 17,708 19,768 23,567 28,336 33,711 39,087 42,557 45,722 49,588 52,336 58,302 30 13,787 14,954 16,791 18,493 20,599 24,478 29,336 34,800 40,256 43,773 46,979 50,892 53,672 59,703 31 14,458 15,655 17,539 19,281 21,434 25,390 30,336 35,887 41,422 44,985 48,232 52,191 55,003 61,098 32 15,134 16,362 18,291 20,072 22,271 26,304 31,336 36,973 42,585 46,194 49,480 53,486 56,328 62,487 33 15,815 17,074 19,047 20,867 23,110 27,219 32,336 38,058 43,745 47,400 50,725 54,776 57,648 63,870 34 16,501 17,789 19,806 21,664 23,952 28,136 33,336 39,141 44,903 48,602 51,966 56,061 58,964 65,247 35 17,192 18,509 20,569 22,465 24,797 29,054 34,336 40,223 46,059 49,802 53,203 57,342 60,275 66,619 36 17,887 19,233 21,336 23,269 25,643 29,973 35,336 41,304 47,212 50,998 54,437 58,619 61,581 67,985 37 18,586 19,960 22,106 24,075 26,492 30,893 36,336 42,383 48,363 52,192 55,668 59,892 62,883 69,346 38 19,289 20,691 22,878 24,884 27,343 31,815 37,335 43,462 49,513 53,384 56,896 61,162 64,181 70,701 39 19,996 21,426 23,654 25,695 28,196 32,737 38,335 44,539 50,660 54,572 58,120 62,428 65,476 72,055 40 20,707 22,164 24,433 26,509 29,051 33,660 39,335 45,616 51,805 55,758 59,342 63,691 66,766 73,402 41 21,421 22,906 25,215 27,326 29,907 34,585 40,335 46,692 52,949 56,942 60,561 64,950 68,053 74,745 42 22,138 23,650 25,999 28,144 30,765 35,510 41,335 47,766 54,090 58,124 61,777 66,206 69,336 76,084 43 22,859 24,398 26,785 28,965 31,625 36,436 42,335 48,840 55,230 59,304 62,990 67,459 70,616 77,419 44 23,584 25,148 27,575 29,787 32,487 37,363 43,335 49,913 56,369 60,481 64,201 68,710 71,893 78,750 45 24,311 25,901 28,366 30,612 33,350 38,291 44,335 50,985 57,505 61,656 65,410 69,957 73,166 80,077 50 27,991 29,707 32,357 34,764 37,689 42,942 49,335 56,334 63,167 67,505 71,420 76,154 79,490 86,661 60 35,534 37,485 40,482 43,188 46,459 52,294 59,335 66,981 74,397 79,082 83,298 88,379 91,952 99,607 70 43,275 45,442 48,758 51,739 55,329 61,698 69,335 77,577 85,527 90,531 95,023 100,425 104,215 112,317 80 51,172 53,540 57,153 60,391 64,278 71,145 79,335 88,130 96,578 101,879 106,629 112,329 116,321 124,839 90 59,196 61,754 65,647 69,126 73,291 80,625 89,335 98,650 107,565 113,145 118,136 124,116 128,299 137,208 100 67,328 70,065 74,222 77,929 82,358 90,133 99,335 109,141 118,498 124,342 129,561 135,807 140,169 149,449

Page 129: Apostila de estatistica

Estatística – Notas de Aulas

Professor Inácio Andruski Guimarães, DSc.

129

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE CENTRO DE CIÊNCIAS EXATAS E DA TERRA

DEPARTAMENTO DE ESTATÍSTICA

TABELA 4 - Distribuição F de Fisher αααα = 5%

Graus de liberdade para o numerador

φ1 φ2

1 2 3 4 5 6 7 8 9 10 12 14 15 16 18 20 24 30 40 60 120 ∞

1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,9 245,4 245,9 246,5 247,3 248,0 249,1 250,1 251,1 252,2 253,3 254,3 2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,42 19,43 19,43 19,44 19,45 19,45 19,46 19,47 19,48 19,49 19,50 3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,72 8,70 8,69 8,67 8,66 8,64 8,62 8,59 8,57 8,55 8,53 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,87 5,86 5,84 5,82 5,80 5,77 5,75 5,72 5,69 5,66 5,63 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4,64 4,62 4,60 4,58 4,56 4,53 4,50 4,46 4,43 4,40 4,36

6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,96 3,94 3,92 3,90 3,87 3,84 3,81 3,77 3,74 3,70 3,67 7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,53 3,51 3,49 3,47 3,44 3,41 3,38 3,34 3,30 3,27 3,23 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,24 3,22 3,20 3,17 3,15 3,12 3,08 3,04 3,01 2,97 2,93 9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,07 3,03 3,01 2,99 2,96 2,94 2,90 2,86 2,83 2,79 2,75 2,71

10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,87 2,85 2,83 2,80 2,77 2,74 2,70 2,66 2,62 2,58 2,54

11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,74 2,72 2,70 2,67 2,65 2,61 2,57 2,53 2,49 2,45 2,40 12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,64 2,62 2,60 2,57 2,54 2,51 2,47 2,43 2,38 2,34 2,30 13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,55 2,53 2,52 2,48 2,46 2,42 2,38 2,34 2,30 2,25 2,21 14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,48 2,46 2,44 2,41 2,39 2,35 2,31 2,27 2,22 2,18 2,13 15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,48 2,42 2,40 2,39 2,35 2,33 2,29 2,25 2,20 2,16 2,11 2,07

16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,37 2,35 2,33 2,30 2,28 2,24 2,19 2,15 2,11 2,06 2,01 17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,34 2,31 2,29 2,26 2,23 2,19 2,15 2,10 2,06 2,01 1,96 18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,29 2,27 2,25 2,22 2,19 2,15 2,11 2,06 2,02 1,97 1,92 19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,26 2,23 2,22 2,18 2,16 2,11 2,07 2,03 1,98 1,93 1,88 20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,22 2,20 2,18 2,15 2,12 2,08 2,04 1,99 1,95 1,90 1,84

21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,25 2,20 2,18 2,16 2,12 2,10 2,05 2,01 1,96 1,92 1,87 1,81 22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,23 2,17 2,15 2,13 2,10 2,07 2,03 1,98 1,94 1,89 1,84 1,78 23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,20 2,15 2,13 2,11 2,08 2,05 2,01 1,96 1,91 1,86 1,81 1,76 24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,18 2,13 2,11 2,09 2,05 2,03 1,98 1,94 1,89 1,84 1,79 1,73 25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,11 2,09 2,07 2,04 2,01 1,96 1,92 1,87 1,82 1,77 1,71

26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,15 2,09 2,07 2,05 2,02 1,99 1,95 1,90 1,85 1,80 1,75 1,69 27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,13 2,08 2,06 2,04 2,00 1,97 1,93 1,88 1,84 1,79 1,73 1,67 28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,12 2,06 2,04 2,02 1,99 1,96 1,91 1,87 1,82 1,77 1,71 1,65 29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,10 2,05 2,03 2,01 1,97 1,94 1,90 1,85 1,81 1,75 1,70 1,64 30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,04 2,01 1,99 1,96 1,93 1,89 1,84 1,79 1,74 1,68 1,62

40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,95 1,92 1,90 1,87 1,84 1,79 1,74 1,69 1,64 1,58 1,51 60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,86 1,84 1,81 1,78 1,75 1,70 1,65 1,59 1,53 1,47 1,39 120 3,92 3,07 2,68 2,45 2,29 2,17 2,09 2,02 1,96 1,91 1,83 1,77 1,75 1,72 1,69 1,66 1,61 1,55 1,50 1,43 1,35 1,25

Gra

us d

e lib

erda

de p

ara

o de

nom

inad

or

∞ 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,75 1,69 1,67 1,63 1,60 1,57 1,52 1,46 1,39 1,32 1,22 1,00