apostila estatistica 2 - ...::: cefet-mg - decom / home do ... · esta apostila é uma tentativa de...
TRANSCRIPT
2
ÍNDICE
Introdução................................................................................................................... 3
Software R .................................................................................................................. 4
Software SPSS ........................................................................................................... 5
Distribuição normal de probabilidade ......................................................................... 6
Testes de Hipótese paramêtrico ................................................................................11
Testes Não-Paramétrico ............................................................................................25
Distribuição Amostral .................................................................................................31
Regressão Múltipla ....................................................................................................52
Experimentos Multinomiais ........................................................................................65
Tabela de Contingência .............................................................................................71
Introdução a Séries Temporais ..................................................................................78
Bibliografia .................................................................................................................87
Anexo 1 .....................................................................................................................88
3
Introdução
Esta apostila é uma tentativa de compor parte do conteúdo da disciplina Estatística 2 do CEFET – MG. Esta disciplina é ministrada no curso de Administração. Seu conteúdo é de acordo com o plano de ensino do curso citados acima. Na verdade é um material complementar para os alunos. Ele não os isenta da necessidade de consultar outras bibliografias. A disciplina de Estatística é abordada com o auxílio de vários softwares para tratamento de dados, entre eles o R e o SPSS. Os exemplos e exercícios foram montados com o objetivo de contextualizar o conteúdo dentro dos vários cursos. Não buscamos priorizar nenhum desses cursos para que o aluno possa perceber a utilização da Estatística em cada área do conhecimento.
4
Software R
O software R é um software livre utilizado para análise de dados, cálculo e construão de gráficos. Sua construção foi feita utilizando vários colaboradores. Para sua utilização é necessário conhecimento de sua linguagem própria, ou seja, seus comandos. Algumas tarefas podem facilmente serem realizadas apenas utilizando seus comandos e outras são necessárias a construção de algoritmos. O R tem um help que os ajuda na execução das tarefas. No decorrer do curso iremos utilizá-lo para análise de vários dados e para a construção de alguns gráficos específicos. Os comandos necessários bem como a utilização do software serão apresentados no decorrer das aulas. A utilização deste software é uma tentativa de demonstrar como utilizar a tecnologia computacional na análise de dados.
No anexo 2 encontra-se alguns comandos úteis.
5
Software SPSS
O software SPSS é um software não-livre utilizado para análise Estatística em geral. Por não ser um software livre muitas pessoas preferem a utilização do software R. No entanto ele é muito utilizado no meio empresarial. Ao contrário do R o SPSS é bem simples de utilizar. Neste caso não é necessário conhecimento dos comandos. O SPSS tem um help que os ajuda na execução das tarefas. No decorrer do curso iremos utilizá-lo para análise de vários dados e para a construção de alguns gráficos específicos. A utilização deste software também é uma tentativa de demonstrar como utilizar a tecnologia computacional na análise de dados.
6
Distribuição normal de probabilidade
Uma variável aleatória X tem distribuição normal se seu histograma tem a
forma de um sino.
Definição
Dados os parâmetros µ e 0>σ reais, a função densidade de probabilidade
da normal é dada por:
2)(2
1
.2.
1)( σ
µ
πσ
−−
=x
exf
Onde µ=)(XE e σ=)(XVar .
Podemos perceber que o cálculo de probabilidade usando a distribuição
normal é muito difícil devido ao tipo de função. Uma forma de contornarmos este
problema é utilizar a distribuição normal padronizada.
A distribuição normal padronizada tem este nome pois sua média é 0 e a
variância é um. Com isso os cálculos ficam muito mais práticos pois podemos utilizar
as tabelas de probabilidade normal padronizada.
Uma conseqüência importante do fato de uma distribuição Normal ser
completamente caracterizada por sua média e desvio-padrão é que a área sob a
curva entre um ponto qualquer e a média é função somente do número de desvios-
padrões que o ponto está distante da média.
Vendas de auto peças
6000,0
5500,0
5000,0
4500,0
4000,0
3500,0
3000,0
2500,0
2000,0
1500,0
1000,0
500,00,0
200
100
0
Std. Dev = 994,59
Mean = 2516,6
N = 1488,00
7
Como existem uma infinidade de distribuições normais (uma para cada média
e desvio-padrão), transformamos a unidade estudada seja ela qual for (peso,
espessura, tempo, etc.) na unidade Z, que indica o número de desvios-padrão a
contar da média.
Para padronizar um conjunto de dados que tem distribuição normal é só
aplicar a fórmula
σ
µ−=
Xz
Utilização da tabela da normal padronizada
A tabela nos dá a área sobre o gráfico, ou seja, a probabilidade.
Mais a frente veremos que o desvio-padrão é alterado quando vamos
padronizar a média de um conjunto de dados. Este resultado é encontrado em um
teorema denominado “Teorema Central do Limite”.
Propriedades da distribuição normal
1) a curva é simétrica em torno da média;
2) ( ) 0xflimx
=∞→
3) a área total sob a curva é igual a 1;
área=1
área=0,5 área=0,5
8
Exemplo 1: A resistência à tração do papel usado em sacolas de super-mercado é
uma característica de qualidade importante.
Sabe-se que essa resistência segue um modelo Normal com média 40 psi e
desvio padrão 2 psi.
Se a especificação estabelece que a resistência deve ser maior que 35 psi,
qual a probabilidade que uma sacola produzida com este material satisfaça a
especificação?
{ } { }35XP135XP ≤−=≥
{ } { }5,22
403535 −≤=
−
≤=≤ zPzPXP
Pela tabela da normal padronizada temos probabilidade de 0,0062.
Logo a resposta é 1-0,0062 = 99,38%.
Comparação entre média e variância
A
C
B
x
f(x)
9
a) da distribuição A para B muda a tendência central, mas a variabilidade é
constante;
b) da distribuição A para C muda a variabilidade, mas a tendência central é
constante;
c) da distribuição B para C muda a tendência central e a variabilidade.
Exercícios
1) Utilizando a tabela da distribuição normal padronizada calcule:
a) ( )42,0zP <
b) ( )75,0zP <
c) ( )30,0zP −<
d) ( )56,0zP >
e) ( )72,0z25,0P <<
f) ( )20,0z25,0P <<−
g) o valor de z tal que ( ) 90,0zZzP =<<− .
2) Suponha que a absorção de água(%) em certo tipo de piso cerâmico tenha
distribuição normal com média 2,5 e desvio-padrão 0,6. Selecionando,
aleatoriamente, uma unidade desse piso, qual é a probabilidade de ele acusar
absorção de água entre 2% e 3,5%?
10
3) Uma fábrica de chocolates comercializa barras que pesam em média 200g. Os
pesos são normalmente distribuídos. Sabe-se que o desvio padrão é igual a 40g.
Calcule a probabilidade de uma barra de chocolate, escolhida aleatoriamente, pesar
a) entre 200 e 250g;
b) mais de 230g;
c) menos que 150g.
4) Suponha que uma variável aleatória X tenha distribuição normal com média 5 e desvio-padrão 4. Calcule:
( )8X2P <≤
11
Testes de Hipótese paramêtrico
Teste de Hipótese
Em Estatística, uma hipótese é uma afirmação sobre uma propriedade de
uma população.
Podemos estar interessados em saber informações sobre a média, a
proporção ou a variância.
Componentes de um teste de hipótese
1) Hipótese nula - 0H : é uma afirmação sobre o valor de um parâmetro
populacional. Deve conter o sinal de igualdade e deve escrever-se como ≥≤= ,, .
2) Hipótese alternativa - 1H : é a afirmação que deve ser verdadeira se a hipótese
nula for falsa. Não deve conter o sinal de igualdade.
Exemplos:
a) Testar a afirmação de que a média populacional é 75.
Solução: Neste caso temos 75:0 =µH e 75:1 ≠µH .
b) Testar a afirmação de que a média é no máximo 2,50.
Solução: Neste caso temos 50,2:0 ≤µH e 50,2:1 >µH .
3) Erro tipo I: Consiste em rejeitar a hipótese nula quando ela é verdadeira.
0H verdadeira 0H falsa
Rejeita 0H Erro tipo I Acerto
Não rejeita 0H Acerto Erro tipo II
4) Nível de significância - α : A probabilidade do erro tipo I ocorrer.
12
5) Erro tipo II: Consiste em não rejeitar a hipótese nula quando ela é falsa.
6) A probabilidade de ocorrer o erro tipo II é β .
7) Estatística de teste: É uma estatística amostral baseado nos dados amostrais.
8) Região crítica: É o conjunto de todos os valores da estatística de teste que
levam à rejeição da hipótese nula.
9) Valor Crítico: É o valor, ou valores, que separa(m) a região crítica dos valores
da estatística de teste que não levam à rejeição da hipótese nula.
Conclusões no teste de hipótese
Em um teste de hipótese concluímos por:
• rejeitar a hipótese nula ou
• não rejeitar a hipótese nula.
Tipos de teste
• Bilateral (sinal de 1H : ≠ ): a região crítica está situada nas duas regiões.
Neste caso cada área tem valor 2
α.
13
• Unilateral esquerdo (sinal de 1H : <): a região crítica está situada na parte
esquerda. Neste caso ( ) α=ItipoErroP .
• Unilateral direito (sinal de 1H : >): a região crítica está situada na parte direita.
( ) α=ItipoErroP .
14
Teste de uma afirmação sobre uma média: grandes amostras
Considere uma amostra razoavelmente grande ( 30≥n ) para valer o teorema
central do limite, ou que os dados provenham de uma distribuição aproximadamente
normal. Para testarmos alguma informação com respeito à média populacional
utilizamos a estatística de teste dada por:
Estatística de teste
n
xz x
σ
µ−=
Os valores críticos são encontrados na Tabela A – 2
Obs.: Caso σ seja desconhecido podemos substituí-lo por s .
Notação
x : média amostral;
xµ : média populacional.
σ : desvio-padrão populacional;
n : tamanho da amostra;
Exemplo:
O tempo médio entre falhas de um rádio da Telektronic Companhy para
aviões de pequeno porte é 420 horas. Após terem sido modificados 35 aparelhos de
rádio, em uma tentativa de melhorar sua confiabilidade, os testes acusaram um
tempo médio de 385 horas para esta amostra, com desvio-padrão de 24 horas. Ao
nível de significância de 0,05, teste a afirmação de que o tempo médio, após as
modificações, é menor que 420 horas .
Solução:
a) As hipóteses são:
<
≥
420:
420:
1
0
µ
µ
H
H
15
b) O teste é unilateral esquerdo, pois o sinal de 1H é <.
c) O nível de significância é 05,0=α ;
d) Os valores críticos são 645,1=αz ; Logo temos:
e) Os dados amostrais são: 385=x e 24=s ;
f) Como n=35 ( 30≥n ), a estatística de teste é dada por:
63,8
35
24
420385−=
−=
−=
n
xz x
σ
µ
g) Conclusão: Como a estatística de teste está na dentro da região crítica, então
rejeitamos 0H .
Exercícios
1) O gerente de uma empresa de transporte suspeita da afirmação de um
vendedor de pneus de que o seu produto tem uma vida média de, ao menos,
28 000 milhas. Para verificar a afirmação, a firma instala 40 desses pneus em
seus caminhões, obtendo uma vida média de 27 563 milhas, com desvio-
padrão de 1 348 milhas. Qual a conclusão do gerente, se a probabilidade de
um erro tipo I deve ser 0.01?
2) A vida média de uma amostra de 100 lâmpadas de certa marca é 1615 horas.
Por similaridade com outros processos de fabricação, supomos o desvio-
padrão igual a 120 horas. Utilizando um nível de significância de 2 %, teste a
afirmação de que a duração média de todas as lâmpadas dessa marca é igual
a 1600 horas.
16
Teste de uma afirmação sobre uma média: pequenas amostras
Considere uma amostra pequena ( 30<n ). Suponha que:
a) os dados provenham de uma distribuição normal
b) o desvio-padrão populacional σ é desconhecido.
Para testarmos alguma informação com respeito à média populacional
utilizamos a estatística de teste dada por:
Estatística de teste
n
s
xt x
µ−=
Os valores críticos são encontrados na Tabela A – 3
O número de Graus de liberdade = n – 1
Obs.: Caso a variância populacional σ seja conhecida então devemos utilizar a
distribuição normal, independentemente do tamanho da amostra.
n
xz x
σ
µ−=
Exemplo:
Os sete valores relacionados a seguir são cargas axiais (em libras) da
primeira amostra de sete latas de alumínio de 12oz. A carga axial de uma lata é o
peso máximo que seus lados podem suportar, e deve ser superior a 165 libras,
porque esta é a pressão máxima aplicada quando se fixa a tampa no lugar. Ao nível
de significância de 0,01, teste a afirmação do engenheiro supervisor de que esta
amostra provém de uma população com média superior a 165 libras.
270 273 258 204 254 228 282
Solução:
17
a) As hipóteses são:
>
≤
165:
165:
1
0
µ
µ
H
H
b) O teste é unilateral direito, pois o sinal de 1H é >;
c) O nível de significância é 01,0=α ;
d) O valor do grau de liberdade é de 7-1 = 6. Logo o valor crítico é 143,3=αt ;
Logo temos:
e) Os dados amostrais são: 7,252=x e 6,27=s ;
Como n = 7 ( 30<n ), a estatística de teste é dada por:
407,8
7
6,27
1657,252=
−=
−=
n
s
xt x
µ
f) Conclusão: Como a estatística de teste está na dentro da região crítica, então
rejeitamos 0H .
Exercícios
1) Admitindo que a pressão sanguínea arterial em homens siga o modelo
Normal, 7 pacientes foram sorteados e tiveram sua pressão medida obtendo
os seguintes resultados:
82 - 84 - 78 - 85 - 69 - 80 - 75
18
Utilizando um nível de significância de 0,02 , teste a afirmação de a média da
pressão sanguínea é de 82.
2) O inspetor de qualidade da JF Construções mediu 25 barras de aço e obteve
as seguintes medidas em metros:
4,51 5,38 4,84 5,33 4,74 4,99 5,15 5,52 5,82 5,45
4,68 4,74 5,53 5,40 4,72 4,97 5,24 4,94 4,75 5,50
4,81 5,25 4,86 4,93 4,95
Pode-se afirmar, com com nível de significância de 5%, que tais barras foram
sacadas de um lote cujo comprimento médio é de 5,00 metros?
Teste de uma afirmação sobre variância ou desvio-padrão
Ao testar uma hipótese sobre o desvio-padrão σ ou a variância 2σ de uma
população, admitimos que os valores da população sejam distribuídos normalmente.
Notação
n = tamanho da amostra
2s = variância amostral
2σ = variância populacional
Para testar uma informação sobre desvio-padrão σ ou a variância 2σ a
estatística de teste é dada por:
Estatística de teste
( )2
22 1
σχ
sn ⋅−=
Os valores críticos são encontrados na Tabela A – 4
O número de Graus de liberdade = n – 1
19
Exemplo:
O tempo para transmitir 10 MB em determinada rede de computadores varia
segundo um modelo normal, com média 7,4 segundos e variância 1,3 segundos.
Depois de algumas mudanças na rede, acredita-se numa redução no tempo de
transmissão de dados, Além de uma possível mudança na variabilidade. Foram
realizados 10 ensaios independentes com um arquivo de 10 MB e foram coletados
os tempos de transmissão, em segundos:
6,8 7,1 5,9 7,5 6,3 6,9 7,2 7,3 6,6 6,3
Resolva:
a) Existe evidência suficiente de que as mudanças na rede de computadores
alteraram a variabilidade no tempo de transmissão de dados? Ao nível de
0,05.
b) Existe evidência suficiente de que as mudanças na rede de computadores
alteraram o tempo médio de transmissão de dados? Ao nível de 0,05
Solução da letra a:
a) As hipóteses são:
≠
=
3,1:
3,1:2
2
0
1σ
σ
H
H
b) O teste é bilateral direito, pois o sinal de 1H é ≠ ;
c) O nível de significância é 05,0=α ;
20
d) O valor do grau de liberdade é de 10-1 = 9. Logo os valores críticos são
700,22 =χ e 023,192 =χ ; Logo temos:
e) Os dados amostrais indicam: 261,02 =s ;
f) a estatística de teste é dada por:
807,13,1
261,0)110(2 =⋅−
=χ
g) Conclusão: Como a estatística de teste está na dentro da região crítica, então
rejeitamos 0H .
Exercícios
1) A cofap alega que a variância da vida média de seus amortecedores é de nove
meses. A Chevrolet ensaia 18 peças e encontra variância de um ano para a vida
média das referidas peças. A 5% de significância, isso lhe permite refutar a alegação
da Cofap?
2) Um laboratório fez oito determinações da quantidade de impurezas em porções
de certo composto. Os valores eram (em mg):
12,4 – 12,6 – 12,0 – 12,0 – 12,1 – 12,3 – 12,5 – 12,7
21
Teste a hipótese de que o desvio-padrão é 1, ao nível se significância de 0,05.
3) Uma máquina de enchimento automático é usada para encher garrafas com
detergente líquido. Uma amostra aleatória de 20 garrafas resulta em uma variância
amostral de volume de enchimento de 0,0153 (onça fluida)2. Se a variância do
volume de enchimento exceder 0,01 (onça fluida)2, existirá uma proporção
inaceitável de garrafas cujo enchimento não foi completo e cujo enchimento foi em
demasia.
Há evidência nos dados da amostra que sugira que o fabricante tenha um problema
com garrafas cheias com falta e excesso de detergente? Use nível de significância
de 5%.
Observação:
Quando vamos trabalhar com graus de liberdade cujos valores críticos não são
tabelados podemos aproxima-los utilizando a fórmula a seguir
( )22 12
2
1−+= kzχ
onde
k é o número de graus de liberdade
z é o valor crítico, encontrado na tabela normal padronizada.
Exemplo:
1) Suponha que queiramos fazer o teste
<
≥
21,1:
21,1:2
2
0
1σ
σ
H
H
com 05,0=α e 120=n teremos:
a) 119=k
b) 645,1−=z
c) ( ) ( ) 529,9411192645,12
112
2
1 222 =−×+−=−+= kzχ
22
TESTE DE HIPÓTESE PARA PROPORÇÃO
O teste para proporção é aplicado em situações nas quais queremos verificar
se a proporção de algum atributo na população pode ser igual a certo valor 0p .
SUPOSIÇÕES:
1) São verificadas as condições para um experimento binomial. Isto é, temos um
número fixo de provas independentes com probabilidade constante, e cada
prova comporta dois resultados, que designamos “sucesso” e “falha”.
2) As condições 5≥np e 5≥nq são ambas verificadas, de modo que a
distribuição binomial das proporções amostrais pode ser aproximada por uma
distribuição normal com np=µ e npq=σ . Esta suposição é necessária
devido ao fato de termos uma boa aproximação da estatística de teste, que
neste caso é normal.
NOTAÇÃO:
n : número de provas;
p : proporção populacional (usada na hipótese nula);
n
xp =ˆ : proporção amostral;
pq −=1
A estatística de teste é dada por:
ESTATÍSTICA DE TESTE:
n
pq
ppz
−=
ˆ
Os valores críticos são obtidos na tabela A – 2 (distribuição normal
padronizada).
23
Exemplos:
1) Uma empresa retira periodicamente amostras aleatórias de 500 peças de sua
linha de produção para análise da qualidade. As peças da amostra são
classificadas como defeituosas ou não, sendo que a política da empresa
exige que o processo produtivo seja revisto se houver evidência de mais de
1,5% de peças defeituosas. Na última amostra, foram encontradas nove
peças defeituosas. Usando nível de significância de 1%, o processo precisa
ser revisto?
Solução:
h) As hipóteses são:
>
≤
015,0:
015,0:
1
0
pH
pH
i) O teste é unilateral direito, pois o sinal de 1H é > .
j) O nível de significância é 01,0=α ;
k) O valor crítico é 33,2=αz ; Logo temos:
l) Os dados amostrais são: 018,0500
9ˆ ==p
m) Critérios para a aproximação normal:
5,7015,0500 =⋅=⋅ pn e
5,492985,0500)015,01(500 =⋅=−⋅=⋅ qn
n) Estatística de teste é dada por:
24
552,0005436,0
003,0
500
985,0015,0
015,0018,0ˆ==
⋅
−=
−=
n
pq
ppz
o) Conclusão: Como a estatística de teste está fora da região crítica, então não
rejeitamos 0H .
2) Em um estudo da eficácia do air-bag em automóveis, constatou-se que, em
821 colisões de carros de tamanho médio equipados com air-bag, 46 colisões
resultaram em hospitalização do motorista. Ao nível de significância de 0,01,
teste a afirmação de que a taxa de hospitalização nos casos de air-bag é
inferior à taxa de 7,8% para colisões de carros de tamanho médio equipados
com cintos automáticos de segurança.
3) O controle estatístico de certo processo de fabricação de determinada
lâmpada estabeleceu que pelo menos 94% delas têm que estar sem defeito.
Para verificar a validade desta afirmação, foi coletada uma amostra de 150
lâmpadas das quais 138 estavam sem defeito.
Com 1% de significância, há evidência de que o processo está de acordo com
o esperado?
25
Testes Não-Paramétrico
Os testes não-paramétricos são utilizados quando não temos
informação sobre a distribuição da população.
Vantagens- Menos suposições são necessárias. Em muitos casos, apenas
dados nominais (categóricos) ou ordinais (ranks) são necessários, ao invés de
numéricos (intervalares).
Desvantagens- Freqüentemente preferimos ter um modelo bem definido
com parâmetros importantes tais como média e variância incluídas para melhor
interpretação.
São vários os tipos de testes não-paramétricos:
� Teste dos sinais;
� Teste de postos com sinais de Wilcoxon para duas amostras
dependentes;
� Teste da soma de postos de Wilcoxon para duas amostras
independentes;
� Teste de kruskal-Wallis;
� Correlação por postos;
� Teste de repetições para aleatoriedade;
� Teste do qui-quadrado;
� Teste do qui-quadrado para independência ou associação;
� Teste de Mann-Whitney;
� Teste da mediana;
Não se refere à distribuição da estatística de teste, mas ao fato de que os
métodos podem ser aplicados a amostras de populações de qualquer distribuição.
Esta deve ser especificada apenas em termos gerais (ser continua, simétrica,
26
idêntica) sem precisar pertencer a alguma família (como normal, uniforme,
exponencial, etc).
QUANDO PRECISAMOS DOS MÉTODOS NÃO PARAMÉTRICOS?
Mesmo se o teste paramétrico não depende crucialmente da suposição de
que a amostra vem de uma distribuição particular, se há alguma dúvida quanto a
isso o teste não paramétrico, depende de suposições mais fracas, é preferível.
Métodos não paramétricos são usualmente os únicos disponíveis para dados que
simplesmente especificam ordem ou contagem em várias categorias.
Teste de Correlação por postos
Referência: TRIOLA, Mario F. Introdução à estatística.
O teste de correlação por postos pode ser utilizado para verificar se existe
alguma associação entre duas variáveis.
A taxa de eficiência do teste é de 91%.
Notação:
sr : coeficiente de correlação por postos para dados amostrais emparelhados;
sρ : coeficiente de correlação por postos para todos os dados populacionais
emparelhados;
n : número de pares de dados;
d : diferença entre postos para as duas observações dentro de um par.
O índice s é utilizado em homenagem a Charles Spearman (1863 - 1945).
Ao testar se há ou não correlação, testamos as seguintes hipóteses:
≠
=
0:
0:
1
0
s
s
H
H
ρ
ρ
27
Estatística de teste
A estatística de teste, para o caso em que não há empate entre os postos, é
dada por:
)1(
61
2
2
−−=∑nn
drs
onde cada valor de d é uma diferença entre os postos para um par de dados
amostrais.
Caso haja empate entre os postos então a estatística de teste é dada por:
∑ ∑∑ ∑
∑ ∑ ∑−−
−=
2222)(.)(
))((
yynxxn
yxxynrs
onde x = posto de X e y = posto de Y.
Valores críticos:
Se 30≤n , consulte tabela A – 9.
Se 30>n , use a fórmula
1−
±=
n
zrs
onde o valor de z corresponde ao nível de significância
28
Exemplos
1) A tabela a seguir apresenta 9 dados do volume desgastado do aço e da viscosidade do óleo.
Volume desgastado Y (10-4 mm3)
Viscosidade X
240 1,6 181 9,4 193 15,5 155 20 172 22 110 35,5 113 43 75 40,5 94 33
Há correlação entre as duas variáveis? Use 05,0=α .
Solução:
Passo 1: As hipóteses são
≠
=
0:
0:
1
0
s
s
H
H
ρ
ρ
Passo 2: Nível de significância é 05,0=α
Passo 3: Utilizaremos estatística não-paramétrica pois não temos informação sobre
a população original.
Passo 4: Estatística de teste:
Volume desgastado Y (10-4 mm3)
Viscosidade X Posto Y Posto X d 2d
240 1,6 9 1 8 64 181 9,4 7 2 5 25 193 15,5 8 3 5 25 155 20 5 4 1 1 172 22 6 5 1 1 110 35,5 3 7 4 16 113 43 4 9 5 25 75 40,5 1 8 7 49 94 33 2 6 4 16
Assim temos ∑ = 2222d
29
85,0
85,11
720
13321
)181(9
)222(61
)1(
61
2
2
−=
−=
−=
−−=
−−=∑nn
drs
Passo 5: valores críticos:
Pela tabela A-9, os valores críticos são 683,0± .
Como 85,0−=sr está dentro da região crítica então rejeitamos 0H . Logo existe
correlação.
0
50
100
150
200
250
300
0 10 20 30 40 50
30
2) Os valores a seguir são referentes às vendas de tubos de aço carbono de certa indústria no período especificado.
X = Ano Y = Venda 80 58 81 85 82 123 83 81 84 57 85 118 86 174 87 147 88 190 89 205 90 255 91 223 92 216 93 297 94 184 95 224 96 318
Existe correlação entre as variáveis?
31
Distribuição Amostral
Retirado dos livros: Estatística aplicada á Administração, Stevenson e Introdução á Estatística, Triola. Uma distribuição amostral é uma distribuição de probabilidade que nos mostra como é a variação da estatística amostral ocasionada por variações na amostragem aleatória.
Uma estatística amostral é qualquer função baseada nos dados amostrais
de uma amostra aleatória.
Uma estimativa é um valor específico, ou um intervalo de valores, numérico
de uma estatística amostral.
Um estimador é uma estatística amostral utilizada para obter uma
aproximação de um parâmetro populacional.
Exemplo:
1) Estimador da média populacional µ : ∑=
=n
i
ixn
x
1
1.
2) Estimador da variância populacional 2σ :
−−
=
∑∑ =
=n
x
xn
s
n
i
in
i
i
2
1
1
22
1
1.
Propriedade do estimador:
Um estimador θ é dito não tendencioso para o parâmetro populacional θ , se
( ) θθ =ˆE
Se o estimador θ for tendencioso, então a tendenciosidade é dada por
( ) θθ −ˆE
onde ( ) ∑ ==i
ixXxPXE )( .
32
Para verificar se um estimador é ou não tendencioso deveremos calcular a
esperança. Para o cálculo desta esperança algumas propriedades são
fundamentais:
E1) Se cX = , então ( ) cXE = ;
Prova: X é uma variável aleatória discreta. Então ( ) cccXPcXE ==== 1.)(. .
E2) Se baXY += é uma variável aleatória, então ( ) bXaEYE += )( .
Quando estamos interessados em avaliar qual o melhor estimador entre
vários, utilizamos o erro quadrático médio – EQM. A seguir temos a definição do
EQM
O erro quadrático médio de um estimador θ do parâmetro θ é dado por
( ) ( )2ˆˆ θθθ −= EEQM
Ou
( ) ( ) ( )2ˆˆ idadetendenciosVarEQM += θθ
Algumas propriedades da variância:
V1) Se cX = , então 0)( =XVar ;
V2) )()( XVarbXVar =+
V3) )()( 2 XVarabaXVar =+
V4) )()()( 22 YVarbXVarabYaXVar +=+
Exemplo:(Montgomery) Seja 721 ,,, XXX K uma amostra aleatória de uma
população com média µ e variância 2σ . Considere os seguintes estimadores:
33
7
7211
XXX +++=
Kθ
2
2 4612
XXX +−=θ
Resolva:
a) Verifique se os estimadores são não-tendenciosos.
b) Qual é o melhor estimador?
Solução:
a) A esperança do primeiro estimador é
µ
µµµ
θ
=
+++=
+++=
+++=
7
7
)()()(
7)(
721
7211
K
K
K
XEXEXE
XXXEE
A esperança do segundo estimador é
( )
µ
µµµ
θ
=
+−=
+−=
+−=
2
2
2
)()()(2
2
2
461
4612
XEXEXE
XXXEE
Verificamos que os dois estimadores não são tendenciosos.
b) Variância do estimador 1
2
222
2
721
7211
7
1
49
7
)()()(
7)(
σ
σσσ
θ
=
+++=
+++=
+++=
K
K
K
XVarXVarXVar
XXXVarVar
Variância do estimador 2
34
( )
( )
2
222
461
461
4612
4
6
4
4
4
)()()(4
24
1
2
2
σ
σσσ
θ
=
++=
++=
+−=
+−=
XVarXVarXVar
XXXVar
XXXVarVar
O melhor estimador é aquele que tem menor EQM. Como a tendenciosidade é nula
para ambos estimadores, então
( ) ( ) ( )
( )2
1
211
7
1
ˆ
ˆˆ
σ
θ
θθ
=
=
+=
Var
idadetendenciosVarEQM
e
( ) ( ) ( )
( )2
2
222
4
6
ˆ
ˆˆ
σ
θ
θθ
=
=
+=
Var
idadetendenciosVarEQM
Como ( ) ( )21ˆˆ θθ EQMEQM < , então o melhor estimador é o primeiro.
Para entendermos como é o comportamento da amostra considere o exemplo
a seguir.
Exemplo: considere uma população formada pelos elementos
1 4 2 3
Percebemos que a média populacional é de 2,5.
Vamos então analisar a distribuição amostral. Para isso suponha todas as
amostras de tamanho 2 sem reposição. Temos 62,4 =C amostras representadas no
quadro a seguir
35
Amostras Média
1 e 4 2,5
1 e 2 1,5
1 e 3 2
4 e 2 3
4 e 3 3,5
2 e 3 2,5
Percebemos que em 2 amostras das 6 (33,33%) encontramos o verdadeiro
valor da média populacional. As outras 4 amostras não encontramos a verdadeira
média, no entanto servem como uma aproximação.
Poderíamos, por exemplo, tomar amostras de tamanho 3 sem reposição.
Neste caso teremos 43,4 =C amostras representadas no quadro a seguir
Amostras Média
1, 4 e 2 3
7
1, 4 e 3 3
8
1, 2 e 3 3
6
4, 2 e 3 3
9
Neste caso percebemos que nenhuma amostra tem média igual à média
populacional.
Tipos de estimativa
Uma estimativa pontual é um valor único usado para aproximar um
parâmetro populacional.
Uma estimativa intervalar, ou intervalo de confiança, é uma amplitude de
valores que tem probabilidade de conter o verdadeiro valor do parâmetro
populacional.
36
O grau de confiança é a probabilidade α−1 de o intervalo de confiança
conter o verdadeiro valor do parâmetro populacional.
Um valor crítico é o número na fronteira que separa os valores das
estatísticas amostrais prováveis de ocorrerem, dos valores que têm pouca chance
de ocorrer.
Quando utilizamos dados amostrais para estimar um parâmetro populacional
podemos cometer erros. A margem de erro, denotada por E, é a diferença máxima
provável (com probabilidade α−1 ) entre o valor amostral e o verdadeiro valor
populacional. A margem de erro E é chamada também de erro máximo da
estimativa.
Para entendermos o erro, tomemos o exemplo anterior com amostras de
tamanho 2:
Amostras Média Erro
1 e 4 2,5 0
1 e 2 1,5 1
1 e 3 2 0,5
4 e 2 3 0,5
4 e 3 3,5 1,5
2 e 3 2,5 0
Neste caso o erro máximo foi de 1,5.
37
O quadro a seguir nos mostra como calcular os erros, o intervalo de confiança
e o tamanho da amostra para uma população infinita.
Parâmetro Cálculo do
erro
Intervalo de confiança Tamanho de
amostra
Média
(Grandes
amostras)
nzE
σα ⋅=
2 ExEx +<<− µ 2
2
⋅
=E
z
n
σα
Média
(Pequenas
amostras)
n
stE ⋅=
2α ExEx +<<− µ 2
2
⋅
=E
st
nα
Proporção
n
qpzE
ˆˆ
2⋅= α
EppEp +<<− ˆˆ
2
2
2
ˆˆ
E
qpz
n
=α
ou
2
2
225,0
E
z
n
=α
Variância ( ) ( )2
22
2
2 11
LR
snsn
χσ
χ
−<<
−
Tabelado
38
Quando trabalhamos com populações finitas e a amostragem constitui mais
de 5% da população devemos aplicar o fator de correção. Assim teremos:
Parâmetro Cálculo do erro Intervalo de
confiança
Tamanho de amostra
Média
(Grandes
amostras)
12 −
−⋅=
N
nN
nzE
σα
ExEx +<<− µ
)1(222
2
22
2
−+=
NEz
Nz
nσ
σ
α
α
Média
(Pequenas
amostras)
12 −
−⋅=
N
nN
n
stE α
ExEx +<<− µ
)1(222
2
22
2
−+=
NEst
Nst
n
α
α
Proporção
1
ˆˆ
2 −
−⋅=
N
nN
n
qpzE α
EppEp +<<− ˆˆ
)1(222
2
22
2
−+=
NEz
Nz
nσ
σ
α
α
Exercícios: (Triola)
1) Para as temperatura do corpo humano temos 106=n , Fx º20,98= e
Fs º62,0= . Para um nível de significância de 5% determine:
a) a margem de erro E ;
b) O intervalo de confiança para µ .
2) Um economista deseja estimar a renda média para o primeiro ano de
trabalho de um bacharel por uma faculdade, que teve a feliz idéia de fazer
um curso de estatística. Quantos valores de renda devem ser tomados, se o
economista deseja ter 95% de confiança em que a média amostral esteja a
$500 da verdadeira média populacional? Suponha que saibamos, por um
estudo prévio, que, para tais rendas, 6250$=σ .
39
3) Deseja-se estimar o preço médio de venda de um livro-texto para uma
faculdade. Quantos exemplares devemos selecionar, para termos 95% de
confiança de que a média amostral esteja a menos de $2 da verdadeira
média populacional? (Suponha que os preços variam entre $10 a $90. Use
4/amplitude=σ )
4) Os pesquisadores de opinião são atormentados por uma diversidade de
fatores de confusão, como secretárias eletrônicas. Em uma pesquisa junto a
1068 americanos, 673 informaram ter secretária eletrônica (com base em
dados da International Mass Retail Association, relatado em USA Today).
Com esses resultados amostrais, determine:
a) A estimativa pontual da proporção populacional de todos os americanos
que têm secretária eletrônica;
b) A estimativa intervalar de 95% da proporção populacional de todos os
americanos que têm secretária eletrônica.
5) Selecionados aleatoriamente e pesquisados 500 universitários, verificou-se
que 135 deles têm computadores pessoais (com base em dados da America
Passage Media Corporation).
a) Determine a estimativa pontual da verdadeira proporção de todos os
universitários que têm computador pessoal;
b) Determine um intervalo de 99% de confiança para a verdadeira proporção
de todos os universitários que têm computador pessoal.
6) Um estudo de saúde envolve 1000 mortes selecionadas aleatóriamente,
dentre as quais 331 causadas por doenças cardíacas (com base em dados
do Center for Disease Control).
a) Com os dados mostrais, construa um intervalo de confiança de 99% para
a proporção de todas as mortes causadas por doenças cardíacas;
b) Utilizando os dados amostrais como estudo piloto, determine o tamanho
de amostra necessário para estimar a proporção de todas as mortes
causadas por doenças cardíacas. Admita um nível de confiança de 98%,
em que o erro da estimativa não supere 0.01.
40
7) No caso de estimativa da proporção quando temos uma população
relativamente pequena, de tamanho N, e a amostragem é sem reposição,
modificamos o erro para
1
ˆˆ
2 −
−⋅=
N
nN
n
qpzE α
Mostre que o o tamanho da amostra pode ser encontrada por
( ) 22
2
2
2
1ˆˆ
ˆˆ
ENzqp
zqpN
n
−+
=
α
α
8) Uma amostra consiste de 75 aparelhos de televisão adquiridos há vários
anos. Os tempos de substituição desses aparelhos têm médiia de 8.2 anos e
desvio-padrão de 1.1 anos ( com base em dados de “Getting Things Fixed,”
Consumer Reports). Construa um intervalo de confiança de 90% para o
desvio-padrão dos tempos de substituição de todos os aparelhos de TV
daquela época.
9) Um artigo de jornal inclui um gráfico mostrando que certos dados amostrais
são distribuídos normalmente.
a) Inadvertidamente, omitiu-se o grau de confiança quando foi dado o
intervalo de confiança de 944.35581.7 2 << σ . Determine o grau de
confiança sendo 8.3;2.45;20 === sxn .
b) Dá-se o seguinte intervalo de confiança: 8.451.19 << σ . Determine o
seguinte valor do desvio-padrão, que foi omitido. Use 95% de confiança.
10) (Montgomery) Suponha que 1θ e 2θ sejam dois estimadores do parâmetro
θ . Sabemos que ( ) θθ =1ˆE , ( )
2ˆ2
θθ =E , ( ) 10ˆ
1 =θVar e ( ) 4ˆ2 =θVar . Qual o
melhor estimador?
11) (Montgomery)
a) Mostre que ( )∑=
−=n
i
i XXn
s
1
22 1 é um estimador tendencioso para 2σ .
b) Qual é a tendenciosidade?
41
c) O que acontece com a tendência a medida que o tamanho da amostra
aumenta?
Teorema Central do Limite
Se nXXX ,,, 21 L for uma amostra aleatória de tamanho n, retirada de uma
população (finita ou infinita), com média µ e variância 2σ , e se X for a média
amostral, então a forma limite da distribuição de
n
XZ
σ
µ−=
quando n tende ao infinito, é a distribuição normal padrão.
Ou:
Teorema Central do Limite
Se extrairmos todas as amostras aleatórias possíveis, de tamanho n, de uma
população com média µ e variância 2σ , a média das médias se denota por x
µ ;
assim,
µµ =x
Por sua vez, o desvio-padrão das médias amostrais se denota por x
σ ; então,
nx
σσ =
42
OBS.: (Triola)
1) O teorema central do limite se aplica quando estamos em face de uma
distribuição de médias amostrais. Utilizamos o teorema quando o tamanho da
amostra é maior do que 30 ou quando a população original tem distribuição normal.
2) No caso de amostragem sem reposição, quando o tamanho n da amostra é
superior a 5% do tamanho N da população finita (isto é, Nn 05,0> ), ajustamos o
desvio-padrão da média amostral x
σ multiplicando o pelo fator de correção para
população finita:
1−
−
N
nN
3) (Stevenson) A figura a seguir nos mostra o efeito do tamanho da amostra sobre a
distribuição amostral. A distribuição binomial foi utilizada como parâmetro de
referência. A probabilidade de sucesso foi mantida constante e variou-se o tamanho
da amostra. Percebemos que à medida que o tamanho da amostra cresce a
distribuição amostral das proporções tende a uma distribuição normal. Percebe-se
também que a variabilidade decresce. Observamos que a média da distribuição
amostral é sempre igual a proporção.
44
4) (Stevenson) A próxima figura nos dá uma idéia do comportamento da
distribuição amostral considerando a distribuição da população.
45
Exemplo: Voltando ao exemplo da população formada pelos elementos
1 4 2 3
e considerando todas as amostras possíveis de tamanho 2
Amostras Média
1 e 4 2,5
1 e 2 1,5
1 e 3 2
4 e 2 3
4 e 3 3,5
2 e 3 2,5
podemos observar que:
a) Se calcularmos a média das médias (média entre os elementos)
2,5 1,5 2 3 3,5 2,5
encontramos 5,2=x
µ que corresponde à média populacional µ . Assim temos, de
acordo com o teorema, que µµ =x
.
b) Calculando a variância das médias, dados do item (a), encontramos 2
2=
xσ .
Considerando os dados populacionais (1,4,2,3) encontramos 3
15=σ .
Como o tamanho da amostra é 2=n e o tamanho da população é 4=N ,
verificamos que Nn 05.0> . Assim devemos aplicar o fator de correção,
encontrando 1−
−=
N
nN
nx
σσ . De fato:
47
Exercícios:
1) (Triola) Na engenharia humana e no projeto de produtos, freqüentemente é
importante considerar os pesos das pessoas, de modo que não haja sobrecarga em
aviões ou elevadores, as cadeiras não quebrem, e não ocorram outros
acontecimentos perigosos ou embaraçosos. Dado que a população de homens tem
pesos distribuídos normalmente com média de 173 lb e desvio-padrão de 30 lb (com
base em dados do National Health Survey dos EUA), determine a probabilidade de
que:
a) Um homem escolhido aleatoriamente pese mais de 180 lb;
b) Em 36 homens escolhidos aleatoriamente, o peso médio seja superior a 180
lb.
c) Refaça a letra (b) supondo a população de homens igual a 500=N .
2) Uma companhia eletrônica fabrica resistores que têm uma resistência média de
100 ohms e um desvio-padrão de 10 0hms. A distribuição de resistências é normal.
Encontre a probabilidade de uma amostra aleatória de 25 resistores ter uma
resistência média menor que 95 ohms.
3) Uma população consiste nos valores 2, 3, 6, 8, 11, 18.
a) Determine µ e σ ;
b) Relacione todas as amostras de tamanho 2=n que podem ser obtidas sem
reposição;
c) Determine a população de todos os valores de x achando a média de cada
amostra da parte (b);
d) Ache a média x
µ e o desvio-padrão x
σ ;
e) Verifique que
µµ =x
e 1−
−=
N
nN
nx
σσ
48
4) O calor liberado, em calorias por grama, de uma mistura de cimento tem
distribuição aproximadamente normal. A média deve ser 100 e o desvio-padrão é 2.
Desejamos testar
100:
100:
1
0
≠
=
µ
µ
H
H
com uma amostra de tamanho 9 espécimes.
Suponha que a região de aceitação é definida como 5,1015,98 ≤≤ X . Encontre a
probabilidade do erro tipo 1 ocorrer.
5) (Stevenson) Um fabricante de baterias alega que seu artigo de primeira categoria
tem uma vida média de 50 meses. Sabe-se que o desvio-padrão correspondente é
de 4 meses. Coleta-se uma amostra de tamanho 36. Que porcentagem destas
amostras acusará vida média no intervalo de 1 mês em torno de 50 meses,
admitindo ser 50 meses a verdadeira vida média das baterias?
49
Estimador de Máxima Verossimilhança
Um dos melhores métodos de obter um estimador de um parâmetro é o método da
máxima verossimilhança. Essa técnica foi desenvolvida nos anos de 1920 pelo
famoso estatístico britânico Sir R. A. Fisher. Como o nome implica, o estimador será
o valor do parâmetro que maximiza a função verossimilhança.
Suponha que X seja uma variável aleatória com distribuição de probabilidade
( )θ,xf , em que θ é um único parâmetro desconhecido. Sejam nxxx ,,, 21 K os
valores observados na amostra aleatória de tamanho n . Então, a função
verossimilhança da amostra é
( ) ( ) ( ) ( )θθθθ ,,, 21 nxfxfxfL ⋅⋅⋅= L
O estimador de máxima verossimilhança é aquele que maximiza a função de
verossimilhança.
Passos para se encontrar o estimador de máxima verossimilhança:
1) Encontrar a função de verossimilhança )(θL ;
2) Calcular )(ln)( θθ Ll = ;
3) Calcular )(θθ
ld
d;
4) Igualar 0)( =θθ
ld
d e resolver em relação ao parâmetro escolhido.
Obs.: A função de verossimilhança da amostra ( )θL é apenas a probabilidade
( )nn xXxXP == ,,11 K
50
Exemplo:
Seja X normalmente distribuída, com média µ desconhecida e variância 2σ
conhecida. Qual o estimador de máxima verossimilhança para a média µ
considerando uma amostra de tamanho n ?
Sugestão: Utilize ( )( )
2
2
2
2
1, σ
µ
πσµ
−−
=
x
exf
Exercícios de estimadores
1) Seja X exponencialmente distribuída com parâmetro λ . A função de máxima
verossimilhança de uma amostra aleatória de tamanho n, nxxx ,,, 21 K é ?
Considere a função exponencial como xe λλ −
2) Refaça o exercício da distribuição normal considerando µ conhecido e
encontre o estimador para a variância 2σ .
3) Seja X uma variável aleatória, com a seguinte distribuição de probabilidade
( ) ( )
≤≤+
=contrariocaso
xxxf
,0
10,1,
θθθ
A função de máxima verossimilhança para o estimador θ , considerando uma amostra aleatória de tamanho n, nxxx ,,, 21 K é ?
Exercícios de revisão
1) Uma amostra aleatória de 200 possuidores de cartão de crédito mostra que o
débito médio anual nesses cartões, para contas individuais, é de $1592, com
desvio-padrão de $997. Construa o intervalo de 94% de confiança para o
débito médio anual em cartões de crédito para a população de todas as
contas.
51
2) 470430 << µ é um intervalo de 95% de confiança para as vidas (em minutos)
de pilhas Kodak AA. Suponha que este resultado se baseie em uma amostra
de tamanho 100.
a) Construa o intervalo de 99% de confiança;
b) Qual é o valor da média amostral?
c) Qual é o valor do desvio-padrão amostral?
d) Se se obtém com os mesmos dados o intervalo de confiança
468432 << µ , qual é o grau de confiança?
3) Construa um intervalo de 98% de confiança para a renda média de todos os
empregados de tempo integral que têm grau de bacharel. Uma amostra de 25
desses empregados revelou que a distribuição das rendas é
aproximadamente normal, com média $39.271 e desvio-padrão de $18.933.
4) Uma pesquisa de mercado para a Ford Motor Company revela que uma
amostra de 1220 residências selecionadas aleatoriamente inclui 1054 que
possuem um veículo. Com base nesses resultados, construa um intervalo de
98% de confiança para a porcentagem de todas as residências que possuem
um veículo.
5) Os valores relacionados são tempos de espera (em minutos) de clientes no
Jefferson Bank, onde os clientes entram em uma fila única que é atendida por
três guichês. Construa um intervalo de 95% de confiança para o desvio-
padrão populacional.
6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7
52
Regressão Múltipla
Este material foi retirado do livro: Estatística Aplicada e Probabilidade para
Engenheiros. Douglas C. Montgomery & George C. Runger.
1. Definição:
Uma equação de regressão linear múltipla expressa um relacionamento entre
uma variável dependente ou de resposta, iy , e as variáveis independentes ou
regressoras ( )ikii xxx ,,, 21 K .
O modelo de regressão linear múltiplo com k variáveis é definido por:
iikkiii xxxy εββββ +++++= L22110
i
k
jijji xy εββ ++= ∑
=10
Onde ni ,,2,1 K= e kn >
Notação:
n : tamanho da amostra;
k : número de variáveis independentes;
y : valor predito da variável dependente;
ikii xxx ,,, 21 K : variáveis independentes;
kββββ ,,,, 210 K : coeficientes de regressão;
ε : erro.
O parâmetro jβ representa a variação esperada na resposta y por unidade
de variação unitária em jx quando todos os outros regressores restantes ( )jixi ≠
forem mantidos constantes.
Exemplo:
53
a) 21 01253,074427,226379,2ˆ xxy ++= ;
2. Estimação de Mínimos Quadrados dos Parâmetros
O método dos mínimos quadrados pode ser usado para estimar os
coeficientes de regressão no modelo de regressão múltipla.
O objetivo é minimizar a função
∑ ∑
∑
= =
=
−−=
=
n
i
k
jijji
n
ii
xy
L
1
2
10
1
2
ββ
ε
Queremos minimizar a função L com relação a kββββ ,,,, 210 K . As
estimativas de mínimos quadrados têm de satisfazer
0ˆˆ21 1
00ˆ,,ˆ,ˆ,ˆ
0210
=
−−−=
∂
∂∑ ∑= =
n
i
k
jiji xy
L
k
βββ ββββ K (1)
e
kjxxyL
ij
n
i
k
j
ijij
k,,2,1,0ˆˆ2
1 1
00ˆ,,ˆ,ˆ,ˆ210
KK
==
−−−=
∂
∂∑ ∑= =
βββ ββββ (2)
Simplificando as equações (1) e (2), obtemos as equações normais de
mínimos quadrados:
54
∑=
=∑=
++∑=
+∑=
+
∑=
=∑=
++∑=
+∑=
+
∑=
=∑=
++∑=
+∑=
+
∑
∑
=
=
n
iiyx
n
i
xk
n
iixx
n
i
xxx
n
iiyx
n
iikxxk
n
iixx
n
i
xx
n
iiy
n
iikxk
n
iix
n
iixn
ikikikiik
n
i
ik
iiii
n
i
i
11
ˆ
122
ˆ
11
ˆ0
ˆ
11
ˆ
122
ˆ
11ˆ
0ˆ
11
ˆ
122
ˆ
111
ˆ0
ˆ
21
1
11121
1
1
ββββ
ββββ
ββββ
K
MMMMM
K
K
Note que há 1+= kp equações normais, uma para cada um dos coeficientes
desconhecidos da regressão. A solução para as equações normais serão os
estimadores de mínimos quadrados.
Exemplo 1: Os dados referem-se a resistência à tração de um fio colado, em um
processo de fabricação de semicondutores, do comprimento do fio e da altura da
garra.
Número da
observação
Resistência à
tração
y
Comprimento
do fio
1x
Altura da garra
2x
1 9,95 2 50
2 24,45 8 110
3 31,75 11 120
4 35 10 550
5 25,02 8 295
6 16,86 4 200
7 14,38 2 375
8 9,60 2 52
9 24,35 9 100
10 27,50 8 300
11 17,08 4 412
12 37 11 400
13 41,95 12 500
55
14 11,66 2 360
15 21,65 4 205
16 17,89 4 400
17 69 20 600
18 10,30 1 585
19 34,93 10 540
20 46,59 15 250
21 44,88 15 290
22 54,12 16 510
23 56,63 17 590
24 22,13 6 100
25 21,15 5 400
Ajustaremos o modelo
iii xxy εβββ +++= 22110
De acordo com a tabela temos:
71,816.274;47,008.8;177.77
848.531.3;396.2;294.8
206;82,725;25
25
1
2
25
1
1
25
1
21
25
1
22
25
1
21
25
1
2
25
1
1
25
1
===
===
===
∑∑∑
∑∑∑
∑∑
===
===
==
i
ii
i
ii
i
ii
i
i
i
i
i
i
i
i
i
i
yxyxxx
xxx
xyn
Para o modelo a ser ajustado as equações normais são:
∑=
=∑=
+∑=
+
∑=
=∑=
+∑=
+
∑=
=∑=
+∑=
+
∑
∑
=
=
n
iiyx
n
i
xn
i
xxx
n
iiyx
n
iixx
n
i
xx
n
iiy
n
iix
n
iixn
iiii
n
i
i
iii
n
i
i
112
ˆ
11ˆ
0ˆ
1122
ˆ
11ˆ
0ˆ
1122
ˆ
111
ˆ0
ˆ
22221
1
2
1121
1
1
βββ
βββ
βββ
56
Substituindo as somas temos:
71,816.2742ˆ848.531.31
ˆ177.770ˆ294.8
47,008.82ˆ177.771
ˆ396.20ˆ206
82,7252ˆ294.81
ˆ2060ˆ25
=++
=++
=++
βββ
βββ
βββ
A solução encontrada é:
21 01253,07442,226379,2ˆ xxy ++=
3. Abordagem matricial para a regressão linear múltipla
O modelo de regressão é um sistema de n equações, que pode ser expresso
na notação matricial
εβ += Xy
onde
=
=
=
=
nknknn
k
k
n xxx
xxx
xxx
X
y
y
y
y
ε
ε
ε
ε
β
β
β
βMM
K
MMMM
K
K
M
2
1
1
0
21
22221
11211
2
1
;;
1
1
1
;
As equações normais do modelo são:
yXXX'' ˆ =β
'X representa a transposta da matriz X .
A estimativa de mínimos quadrados é:
( ) yXXX'1'ˆ
−=β
57
4. Estimativa da variância
A estimativa da variância é obtida através do estimador não-tendencioso
pn
SQ
pn
E
n
i
i
−=
−=
∑=1
2
2ˆ
ε
σ
onde
( ) εεε 'ˆ
1 1
22 ==−=∑ ∑= =
n
i
n
i
iiiE yySQ
No denominador temos pn −
que é denominado graus de liberdade do erro
ou do resíduo.
5. Testes de hipóteses para a regressão linear múltipla
5.1. Teste para a significância da regressão
O teste para a significância da regressão é um teste para determinar se existe
uma relação linear entre as variáveis de resposta e as regressoras.
As hipóteses são:
≠
====
jummínimonoparaH
H
j
k
0:
0:
1
210
β
βββ K
A estatística de teste é dada por:
( )E
R
E
R
MQ
MQ
pnSQ
kSQ
F =
−
=0
onde
58
−−
−=
∑∑==
n
y
yXn
y
yySQ
n
i
i
n
i
i
E
2
1
2
1''ˆ' β
n
y
yXSQ
n
i
i
E
2
1''ˆ
−=
∑=β
Podemos também usar o 2R
e o 2R
ajustado como uma estatística global
para avaliar o ajuste do modelo. Assim temos:
( )
( )1
12
−
−−=
nSQ
pnSQ
RT
E
ajustado
5.2. Testes para os coeficientes individuais de regressão e subconjuntos de
coeficientes
As hipóteses para testar se um coeficiente individual de regressão, como jβ,
é igual a um dado valor 0jβ é:
≠
=
01
00
:
:
jj
jj
H
H
ββ
ββ
A estatística de teste é dada por:
jj
jj
C
T2
00
ˆ
σ
ββ −=
59
6. Intervalos de confiança para a regressão linear múltipla
Um intervalo de confiança de ( )%1100 α− para o coeficiente de regressão
kjj ,,2,1,0, K=β no modelo de regressão linear múltipla é dado por:
jjpnjjjjpnj CtCt 2,2
2,2 ˆˆˆˆ σββσβ αα −− +≤≤−
7. Previsão de novas observações
Um intervalo de previsão de ( )%1100 α− para uma futura observação é dado
por:
( )( ) ( )( )01'
02
,20001'
02
,20 '1ˆˆ'1ˆˆ xXXxtyYxXXxty pnpn−
−−
− ++≤≤+− σσ αα
8. Uso computacional
Podemos utilizar vários softwares para fazer a regressão múltipla: R, SPSS,
Excel, Minitab, etc.
A seguir apresentamos os resultados do exemplo 1, inicial, usando o Excel:
RESUMO DOS RESULTADOS
Estatística de regressão
R múltiplo 0,990523843 R-Quadrado 0,981137483
R-quadrado ajustado 0,979422709 Erro padrão 2,288046833
Observações 25
Análise:
� R-quadrado ajustado dá o grau de relacionamento linear múltiplo, 0,979422709.
Ele leva em consideração o tamanho da amostra e o número de variáveis.
61
ANOVA
gl SQ MQ F F de significação
Regressão 2 5990,771221 2995,386 572,1671503 1,07546E-19 Resíduo 22 115,1734828 5,235158
Total 24 6105,944704
Análise:
� A estimativa da variância é dada por
pn
SQ
pn
E
n
i
i
−=
−=
∑=1
2
2ˆ
ε
σ
Na tabela acima esta estimativa é dada por MQ do resíduo, 5,235158. Ele
corresponde a soma dos quadrados, SQ, do resíduo dividido pelo grau de liberdade,
gl, do resíduo.
� No F de significação temos o teste de hipótese para verificar se o modelo
linear múltiplo é bem ajustado. Neste caso basta que seu valor seja menor
que o nível de significância.
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores
Interseção 2,263791434 1,060066238 2,135519 0,04409945 0,065348623 4,462234246
Variável X 1 2,744269643 0,093523844 29,34299 3,90691E-19 2,550313062 2,938226225
Variável X 2 0,012527811 0,002798419 4,476746 0,000188266 0,006724246 0,018331377
Análise:
� Na tabela acima temos vários resultados e testes. Entre eles temos os valores
dos coeficientes da interseção, 2,263791434 , da variável X1, 2,744269643, e da
variável X2, 0,012527811.
� Também testamos se cada coeficiente é significativo, ou seja, se ele será ou
não acrescentado ao modelo. Neste caso é só observar na coluna do valor-P.
Caso este valor seja menor que o nível de significância então o coeficiente é
significativo, isto é, é utilizado no modelo.
Valor-P para Interseção: 0,04409945
Valor-P para variável X1: 3,90691E-19
Valor-P para variável X2: 0,000188266
� Temos também o intervalo de confiança para cada coeficiente. Neste caso é
só observar seus limites inferiores, na coluna 95% inferiores, e limites
62
superiores, na coluna 95% superiores. Estes valor de 95% é definido na hora
de construção do modelo, podendo variar.
Intervalo de confiança para a interseção: [ 0,065348623, 4,462234246]
Intervalo de confiança para a variável X1: [2,550313062, 2,938226225]
Intervalo de confiança para a variável X2: [0,006724246, 0,018331377]
RESULTADOS DE RESÍDUOS
Observação Y previsto Resíduos
1 8,37872129 1,57127871
2 25,59600783 -1,146007833 3 33,95409488 -2,204094876
4 36,59678413 -1,596784129 5 27,91365294 -2,893652939
6 15,74643228 1,113567716 7 12,45025999 1,92974001
8 8,403776913 1,196223087 9 28,21499936 -3,864999362
10 27,976292 -0,476291996 11 18,4023283 -1,322328298
12 37,46188206 -0,461882064 13 41,45893285 0,491067154
14 12,26234282 -0,60234282 15 15,80907134 5,840928659
16 18,25199456 -0,361994562 17 64,66587113 4,334128869
18 12,33683074 -2,036830738 19 36,47150602 -1,541506015
20 46,55978893 0,030211071 21 47,06090138 -2,180901385
22 52,56128953 1,558710467 23 56,30778409 0,322215913
24 19,98219043 2,147809568
25 20,9962642 0,153735795
Análise:
� Na tabela acima temos os resíduos do modelo, yy ˆ−=ε .
63
Exemplo:
1) A energia elétrica consumida mensalmente por uma indústria química está
relacionada à temperatura média ambiente ( )1x , ao número de dias no mês
( )2x , à pureza média do produto ( )3x e às toneladas do produto produzido
( )4x . Os dados históricos do ano passado estão disponíveis e são
apresentados na tabela a seguir:
y 1x 2x 3x 4x
240 25 24 91 100
236 31 21 90 95
270 45 24 88 110
274 60 25 87 88
301 65 25 91 94
316 72 26 94 99
300 80 25 87 97
296 84 25 86 96
267 75 24 88 110
276 60 25 91 105
288 50 25 90 100
261 38 23 89 98
Faça:
a) Encontre a reta de regressão;
b) Calcule a estimativa da variância;
c) Teste a significância da regressão;
d) Teste os coeficientes;
e) Encontre um intervalo de confiança de 95% para o coeficiente 0β e 1β da
regressão;
64
2) Um estudo foi realizado sobre o desgaste de um mancal, y , e sua relação
com 1x a viscosidade do óleo e 2x carga. Os dados são o seguinte:
y 1x 2x
293 1,6 851
230 15,5 816
172 22 1058
91 43 1201
113 33 1357
125 40 1115
Faça:
a) Encontre a reta de regressão;
b) Calcule a estimativa da variância;
c) Teste a significância da regressão;
d) Teste os coeficientes;
e) Encontre um intervalo de confiança de 95% para o coeficiente 0β e 1β da
regressão;
65
Experimentos Multinomiais
Observação: O conteúdo a seguir foi preparado utilizando o livro Introdução à
Estatística. Autor: M. F. Triola.
Neste tópico usaremos a distribuição qui-quadrado, 2χ , como estatística de teste.
Propriedades:
1. Ao contrário das distribuições normal e t de Student, a distribuição qui-
quadrado não é simétrica;
2. Os valores da distribuição qui-quadrado podem ser 0, zero, ou positivos, mas
nunca negativos;
3. Há uma distribuição qui-quadrado diferente para cada número de graus de
liberdade, 1−= nGL .
Definição:
Um experimento multinomial é um experimento que verifica as seguintes
condições:
1. O número de provas é fixo;
2. As provas são independentes;
3. Todos os resultados de cada prova devem ser classificados em
exatamente uma dentre várias categorias;
4. As probabilidades para as diferentes categorias permanecem
constantes (as mesmas) em cada prova.
66
A seguir apresentaremos um teste de aderência. Ele é utilizado para testar a
afirmação de que, em um experimento multinomial, as freqüências observadas nas
diferentes categorias se ajustam a determinada distribuição.
Exemplos:
1) Os confeitos M&M apresentam a seguinte distribuição de cores: 30% marrons,
20% amarelo, 20% vermelho, 10% laranja, 10% verde e 10% azul.
2) É comum a crença de que ocorre um maior número de acidentes fatais com
automóveis em determinados dias da semana, como sexta-feira ou sábado.
3) O gerente de determinado supermercado deve decidir a quantidade de cada
sabor de sorvete que deve estocar a fim de atender à demanda dos
consumidores, sem que haja perda de sabores menos procurados.
Definição:
Utiliza-se um teste de aderência para testar a hipótese de que uma
distribuição de freqüências observadas se ajusta (ou adere) a determinada
distribuição teórica.
Notação:
O : representa a freqüência observada de um resultado;
E : representa a freqüência esperada de um resultado;
k : representa o número de categorias, ou resultados, diferentes;
n : representa o número total de provas.
Em situação típica podemos encontrar a freqüência esperada, E, multiplicando a
probabilidade p de uma categoria pelo número de provas diferentes:
npE =
Suposições:
67
Segue as suposições válidas ao testarmos a proporção populacional alegada para
cada uma das k categorias ( em um experimento multinomial)
1) Os dados constituem uma amostra aleatória;
2) Os dados amostrais consistem em categorias de freqüências para as k
categorias diferentes;
3) Para cada uma das k categorias, a freqüência esperada é, no mínimo, 5.
(Não há qualquer exigência de que cada freqüência observada seja no
mínimo igual a 5.)
Estatística de teste de Aderência
( )∑
−=
E
EO2
2χ
Valores Críticos:
1. Na tabela A – 4 encontram-se os valores críticos, tomando-se 1−k
graus de liberdade;
2. Os testes de hipótese de aderência são sempre unilaterais à direita.
68
Exemplo:
1) Os confeitos M&M apresentam a seguinte distribuição de cores: 30% marrons,
20% amarelo, 20% vermelho, 10% laranja, 10% verde e 10% azul. A seguir
apresentamos os dados amostrais.
Tabela: Frequência dos confeitos M&M
Marron Amarelo Vermelho Laranja Verde Azul
Frequência
Observada 33 26 21 8 7 5
Teste a afirmação de que a distribuição de cores é a afirmada acima. Use nível de
significância 5%.
Solução:
Marron Amarelo Vermelho Laranja Verde Azul
Frequência
Observada 33 26 21 8 7 5
Frequência
esperada 30 20 20 10 10 10
Temos que:
Para os confeitos marron: 3030,0100 =⋅== npE
Analogamente construímos as freqüências esperadas.
O teste a ser feito é:
alegadovalordodiferenteéacimaproporçõesdasumamenospeloH
p
p
p
p
p
pH
azul
verde
laranja
vermelho
amarelo
marron
:
10,0
10,0
10,0
20,0
20,0
30,0:
1
0
=
=
=
=
=
=
Cálculo da estatística de teste:
69
Frequência
observada
Frequência
esperada EO − ( )2EO −
( )E
EO2−
Marron 33 30 3 9 0,3000
Amarelo 26 20 6 36 1,8000
Vermelho 21 20 1 1 0,0500
Laranja 8 10 -2 4 0,4000
Verde 7 10 -3 9 0,9000
Azul 5 10 -5 25 2,5000
Assim
( )9500,5
22 =
−=∑
E
EOχ
O valor crítico é 11,071.
Como a estatística de teste < valor crítico, 5,9500<11,071, então não rejeitamos 0H .
Exercícios:
1) Fez-se um estudo de 147 acidentes industriais que exigiram tratamento
médico. Desses acidentes, 31 ocorreram na segunda-feira, 42 na terça-feira,
18 na quarta-feira, 25 na quinta-feira e 31 na sexta-feira.
Teste a afirmação de que os acidentes ocorrem com a mesma proporção nos
cinco dias da semana.
2) O gerente do Supermercado Gleason deve decidir a quantidade de cada
sabor de sorvete que deve estocar a fim de atender à demanda dos
consumidores, sem que haja perda de sabores menos procurados. O
fornecedor de sorvete afirma que, entre os sabores mais populares, os
clientes têm as seguintes preferências: 62% preferem baunilha, 18% preferem
chocolate, 12% preferem napolitano e 8% preferem baunilha com calda.
Uma amostra de 200 clientes acusou os resultados a seguir. Teste se o
fornecedor identificou corretamente as preferências dos consumidores. Use
nível de significância de 5%.
Sabor Baunilha Chocolate Napolitano Baunilha em calda
Clientes 120 40 18 22
70
3) Com nível de significância de 0,05 e os dados de acidentes industriais do
exercício 1, teste a afirmação de um técnico de segurança de que os
acidentes se distribuem pelos dias úteis como se segue: 30% na segunda-
feira, 15% na terça, 15% na quarta, 20% na quinta e 20% na sexta.
71
Tabela de Contingência
Observação: O conteúdo a seguir foi preparado utilizando o livro Introdução à
Estatística. Autor: M. F. Triola.
Definição:
Uma tabela de contingência (ou tabela de freqüência de dupla entrada) é uma
tabela em que as freqüências correspondem a duas variáveis. (Uma variável
categoriza as linhas, a outra categoriza as colunas)
As tabelas de contingências são de grande importância pois são utilizadas para
analisar resultados de pesquisas.
Usaremos um teste, chamado teste de independência, usado para determinar se
uma variável linha de uma tabela de contingência é independente de sua variável
coluna.
Definição:
Utiliza-se um teste de independência para testar a hipótese nula de que a
variável linha e a variável coluna em uma tabela de contingência não estão
relacionadas, isto é, são independentes.
Obs.: No contexto deste material a palavra contingência se refere a dependência,
mas trata-se apenas de uma dependência estatística, e não pode ser usada para
estabelecer uma ligação direta de causa e efeito entre as duas variáveis.
Hipóteses em um teste de independência
sdependentesãoiáveisasH
tesindependensãoiáveisasH
var:
var:
1
0
72
Suposições:
4) Os dados constituem uma amostra aleatória;
5) Para cada célula na tabela de contingência, a freqüência esperada é, no
mínimo, 5. (Não há qualquer exigência de que cada freqüência observada
seja no mínimo igual a 5.)
Estatística de teste
( )∑
−=
E
EO2
2χ
Valores Críticos:
3. Na tabela A – 4 encontram-se os valores críticos, tomando-se graus de
liberdade
( )( )11 −−= crgl
onde:
r: número de linhas
c: número de colunas.
4. Os testes de hipótese de independência com tabelas de contingência
envolvem apenas regiões críticas unilaterais à direita.
Freqüência esperada para uma tabela de contingência
( )( )geraltotal
colunastotallinhastotalE =
73
Exemplo:
2) (Livro Estatística Aplicada à Gestão Empresarial – Adriano L. Bruni) Os dados
a seguir referem-se ao cruzamento entre as variáveis: possui habilitação e
sexo, de 53 funcionários de um escritório de contabilidade.
Tabela: Sexo versus Habilitação
Habilitado
Sim Não Total
Feminino 9 12 21
Masculino 25 7 32
Total 34 19 53
Teste se as variáveis são independentes. Use nível de significância 5%.
Solução:
O teste a ser feito é:
sdependentesãoiáveisasH
tesindependensãoiáveisasH
var:
var:
1
0
Cálculo das freqüências esperadas.
Habilitado
Sim Não
Feminino 47,1353
3421=
⋅ 53,7
53
1921=
⋅
Masculino 53,2053
3432=
⋅ 47,11
53
1932=
⋅
74
Cálculo da estatística de teste:
Habilitado
Sim Não
Feminino ( )
483,147,13
47,139 2
=−
( )
654,253,7
53,712 2
=−
Masculino ( )
973,053,20
53,2025 2
=−
( )
742,147,11
47,117 2
=−
Assim
( )852,6742,1973,0654,2483,1
22 =+++=
−=∑
E
EOχ
Graus de liberdade: ( )( ) ( )( ) 1121211 =−−=−−= crgl
Valor crítico: 841,32 =χ
Como a estatística de teste > valor crítico, 6,852 > 3,841, então não rejeitamos 0H .
Logo as variáveis são independentes.
Exercícios:
1) A tabela a seguir apresenta os resultados de 1580 dados amostrais entre a
causa de morte e condição da pessoa.
Causa da Morte
Ferimento
acidental Doença
Homicídio
Ou Suicídio
Em zona de combate 115 56 29
Fora da zona de combate 175 94 31
2) (Triola) Fez-se uma pesquisa para determinar se há restrições, quanto ao
sexo, na confiança que o povo deposita na polícia. Os resultados amostrais
constam da tabela a seguir. Com nível de 0,05 de significância, teste a
afirmação de que não há tal restrição.
Confiança na polícia
Muita Alguma Muito pouca ou
75
nenhuma
Homens 115 56 29
Mulheres 175 94 31
Fonte: Ministério da Justiça dos EUA e da Gallup Organization
3) (Triola) A tabela a seguir relaciona resultados de uma pesquisa obtidos de
uma amostra aleatória de vítimas de diferentes crimes. Com nível de 0,05 de
significância, teste a afirmação de que o tipo de crime é independente do fato
de o criminoso ser um estranho.
Tipo de crime
Homicídio Roubo Assalto
Criminoso era um estranho 12 379 727
Criminoso era conhecido ou
parente 39 106 642
76
Resíduos Padronizados
Definição
Os resíduos (diferenças entre freqüência observada e esperada) numa forma
padronizada, ou seja, expressos em unidades de desvios-padrão é dado por
−
−⋅
−=
TG
TL
TG
TCE
EOZres
11
onde:
O: freqüência observada;
E: freqüência esperada;
TC: total de colunas;
TL: total de linhas;
TG: total geral.
Os resíduos padronizados representam valores de relação biunívoca com
probabilidades de ocorrência, valores maiores que 1,96 ou menores que -1,96 têm
pequenas chances de ocorrência, e podem assim instruir pontos de corte para um
nível de significância de excesso ou falta de ocorrências, respectivamente.
Exemplo: Voltando ao exemplo 1, temos:
Tabela: Sexo versus Habilitação
Habilitado
Sim Não Total
Feminino 9 12 21
Masculino 25 7 32
Total 34 19 53
A freqüência esperada é dada por:
Habilitado
Sim Não
Feminino 47,13 53,7
77
Masculino 53,20 47,11
Os resíduos é dado por:
−
−⋅
−=
TG
TL
TG
TCE
EOZres
11
Habilitado
Sim Não
Feminino 62,2
53
211
53
34147,13
47,139−=
−
−
− 62,2
53
211
53
19153,7
53,712=
−
−
−
Masculino 62,2
53
321
53
34153,20
53,2025=
−
−
− 62,2
53
321
53
19147,11
47,117−=
−
−
−
Análises:
1) Verificamos inicialmente que o módulo da diferença entre as freqüências
observadas e esperadas são iguais para todas as células. Neste caso não
podemos dizer qual das células mais influenciou para o resultado da
estatística de teste;
2) Analisando os resíduos vemos também que eles são, em módulos, iguais.
Considerando um nível de significância de 5%, onde o valor crítico seria
±1,96, percebemos que ambos os resíduos são superiores a este valor. Isto
indica que todos os resultados são igualmente pouco prováveis. Sendo assim
elas são significantes. Neste caso não há nenhuma freqüência que causasse
maior impacto, todas tiveram o mesmo impacto.
3) Não podemos dizer o que valor 25, na tabela de contingência, indicasse que o
número de homens habilitados seria de maior impacto.
78
Introdução a Séries Temporais
Definição
Uma série temporal consiste em um conjunto de observações de
variáveis quantitativas coletadas ao longo do tempo.
Exemplos:
1) Vendas mensais de uma fábrica de sorvete;
2) Preço semanal de gasolina;
3) Evolução do preço diário de uma ação ao longo do tempo;
4) Temperatura diária em uma cidade.
As séries temporais podem englobar dados diários, semanais, mensais, etc. Neste
caso a ordem dos dados é fundamental.
Os modelos de análise de séries temporais geralmente preocupam-se em estimar o
comportamento futuro de uma série, com base em seus dados passados.
Genericamente, os modelos de previsão empregados em séries temporais podem
ser apresentados da seguinte forma:
( )K,,,ˆ211 −−+ = tttt YYYfY
Componentes de séries temporais
a) Tendência: descreve um movimento suave, a longo prazo, dos dados, para
cima ou para baixo.
b) Variações cíclicas: correspondem a um certo grau de regularidade a longo
prazo (1 ano, dez anos, 50 anos) no comportamento das séries temporais.
Exemplo: aumento das vendas de bandeira do Brasil em função da copa do
mundo de futebol.
c) Variações sazonais: representam regularidades de variações na série em
períodos curtos de tempo (semanas, dias, quinzenas, meses, etc), geralmente
dentro de um ano. Exemplo: vendas de ovos de páscoa nos meses de março
e abril.
79
d) Variações irregulares ou aleatórias: correspondem a ruídos na série temporal
em decorrência de fatores variados. Como são aleatórios não são previstos
no modelo.
Exemplos:
Uma série é dita estacionária se ela for convergente. Ela flutua em torno de um
ponto.
Uma série é dita não-estacionária se ela for divergente. Neste caso ela tem raiz
unitária. Uma opção para tornar a série estacionária é aplicar o operador diferença.
80
Exemplo:
1) Dados fictícios
Quadrimestre Periodo Y 1998 1 6,7 1998 2 4,4 1998 3 5,8 1998 4 6,2 1999 1 2,1 1999 2 0,1 1999 3 0,8 1999 4 1,5 2000 1 6 2000 2 3,9 2000 3 4,9 2000 4 4,7 2001 1 12,9 2001 2 10,9 2001 3 11,4 2001 4 11,9 2002 1 8,3 2002 2 5,4 2002 3 6,4 2002 4 6,8 2003 1 11,6 2003 2 9,7 2003 3 10,6 2003 4 11,2 2004 1 19,3 2004 2 16,2 2004 3 17,6 2004 4 18,3 2005 1 13,8 2005 2 11,5 2005 3 12,2 2005 4 12,6
81
2) Para ilustrar dados envolvendo sazonalidade considere a venda de
sorvete:
Ano Quadrimestre
1
Quadrimestre
2
Quadrimestre
3
Total
1998 170 250 180 600
1999 174 245 186 605
2000 168 262 168 598
2001 182 260 160 602
2002 154 240 210 604
Total 848 1257 904 3009
1) Para ilustrar dados envolvendo sazonalidade com médias móveis considere a
demanda de calçados
82
Quadrimestre Demanda
2000:1 11
2000:2 12
2000:3 13
2001:1 19
2001:2 18
2001:3 19
2002:1 26
2002:2 24
2002:3 25
Modelos:
1) Médias móveis simples
Os modelos de médias móveis simples sugerem que a estimativa do valor futuro
1ˆ
+tY pode ser feita com base em uma média aritmética simples de k valores passados. Assim,
k
YYYYY ktttt
t121
1ˆ +−−−
+++++
=K
2) Médias móveis ponderados
No modelo de médias móveis ponderadas deve-se atribuir um peso para cada ano
analisado. Assim,
1231211ˆ
+−−−+ ++++= ktktttt YwYwYwYwY K
Onde
iw : pesos
83
Geralmente, dados mais recentes recebem maior ponderação. 3) Alisamento exponencial
A previsão feita para o período posterior 1ˆ
+tY deve ser igual à previsão feita para o
período anterior tY , acrescido de um ajuste ( )[ ]tt YY ˆ−α , função do erro da previsão
efetuada para o período anterior. O valor de α deve estar compreendido entre 0 e 1.
Algebricamente temos:
( )tttt YYYY ˆˆˆ1 −+=+ α
Expandindo a expressão anterior encontramos:
( ) ( ) ( ) ntn
tttt YYYYY −−−+ −++−+−+= ααααααα 111ˆ2
211 K
Para poder aplicar o modelo, assume-se que, no primeiro ano, o valor estimado é o próprio valor realizado.
4) Tendência com modelo de regressão
Neste modelo utiliza-se a regressão linear simples onde
bxay += onde
( ) ( )( )( ) ( )22 ∑∑
∑∑∑−
−=
xxn
yxxynb
n
xbya
∑∑ −=
Análise da qualidade da previsão
1) Desvio médio absoluto: representa a soma dos desvios absolutos,
representados pelo módulo da diferença ou diferença absoluta entre a
demanda real e a prevista.
∑=
−=
n
i
ii
n
YYDMA
1
ˆ
2) Erro quadrático médio: representa a soma dos desvios ao quadrado,
representados pela diferença entre a demanda real e a prevista.
( )∑=
−=
n
i
ii
n
YYEQM
1
2ˆ
Exemplo:
84
1) Considere o histórico de vendas a seguir
Mês Vendas Jan 92 Fev 83 Mar 66 Abr 74 Mai 75 Jun 84 Jul 84 Ago 81 Set 75 Out 63 Nov 91 Dez 84
Calcule, utilizando a média móvel dos últimos 3 meses.
a) a previsão para o mês de janeiro seguinte b) Desvio médio absoluto c) Erro quadrático médio
Solução: a) Considerando a média dos 3 anteriores meses temos
33,79ˆ
3
849163ˆ
3ˆ
=
++=
++=
janeiro
janeiro
deznovoutjaneiro
Y
Y
YYYY
b) Completando a tabela com as previsões temos:
Mês Vendas Y
Previsão Y
YY ˆ−
( )2YY −
Jan 92 Fev 83 Mar 66 Abr 74 80,33 6,33 40,0689 Mai 75 74,33 0,67 0,4489 Jun 84 71,67 12,33 152,0289 Jul 84 77,67 6,33 40,0689 Ago 81 81 0 0 Set 75 83 8 64 Out 63 80 17 289 Nov 91 73 18 324 Dez 84 76,33 7,67 58,8289
Logo
85
481,89
33,76ˆ
1
==−
=∑=
n
i
ii
n
YYDMA
c) O erro quadrático médio será
( )605,107
9
4445,968ˆ
1
2
==−
=∑=
n
i
ii
n
YYEQM
2) Refaça o exemplo anterior utilizando a média móvel ponderada com pesos
0.3, 0.4 e 0.5 para o terceiro, segundo e primeiro mês anterior,
respectivamente.
3) A previsão antiga da demanda do composto RK era de 100 unidades. A última
demanda real foi de 85 unidades. Qual é a previsão exponencialmente
nivelada para o próximo período? Alfa tem valor 0,2.
4) Considere os dados amostrais:
Semana Demanda
1 150
2 159
3 160
4 167
5 173
6 175
7 185
8 188
Utilizando o alisamento exponencial faça as previsões para cada semana e para a
semana 9, sendo:
a) Alfa de 0,2
b) Alfa de 0,3
c) Calcule o desvio médio de cada item anterior, (a) e (b)
d) Com base no desvio médio, qual a melhor previsão?
86
5) O consumo de um componente das Fábricas Tronic os últimos 10 meses foi
igual a: 750, 680, 740, 710, 690, 640, 670, 720, 700 e 660. Calcular, com
base em análise de regressão, a previsão de consumo para o 11º mês.
87
Bibliografia
1. TOLEDO, Geraldo Luciano. OVALLE, Ivo Izidoro. Estatística Básica. 2ª edição. São Paulo: Atlas, 1985. 2. MONTGOMERY, Douglas C., RUNGER, George C.. Estatística aplicada e probabilidade para engenheiros. Rio de Janeiro: LTC, 2009. 3. MILONE, Giuseppe. Estatística: geral e aplicada. São Paulo: Thomson Learning, 2006. 4. BRUNI, Adriano Leal. Estatística aplicada à gestão empresarial. 2ª edição. São Paulo: Atlas, 2008. 5. TRIOLA, Mário F., Introdução à Estatística. Rio de Janeiro. Editora LTC. 7.ª edição, 2008.
88
Anexo 1
Comandos Software R #======================================================= Gerar amostras aleatórias #======================================================= criar vetor de amostras x sort(x)# ordena os valores de x. sample(x,5,T)# gera 5 amostras do vetor x com reposição sample(x,5)# gera 5 amostras do vetor x sem reposição #======================================================= # Mudar diretório #======================================================= Arquivo Mudar diretorio Nome da pasta #======================================================= # Leitura e Preliminares dos Dados #======================================================= Leitura dos dados gasolina <- scan(file="gasolina.txt") frango <- scan(file="frango.txt") alcatra <- scan(file="alcatra.txt") dados<-data.frame(frango,alcatra) # banco de dados juntos frango + alcatra attach(dados)# apresenta os nomes das variáveis names(dados)# apresenta os nomes das variáveis dim(dados) # dimensão dos dados dados[1:15]# apresenta os 15 primeiros resultados
89
#========================================================== # Estatísticas Descritivas #========================================================== summary(gasolina) summary(frango) mean(gasolina) median(gasolina) quantile(gasolina) # retorna os quartis var(gasolina)# variância cov(frango,alcatra) #Covariância cor(frango,alcatra)#correlação #============================================================== # Tabela #=============================================================== table(frango)# apresenta tabela distribuição frequencia simples. #============================================================== # Graficos #=============================================================== boxplot(gasolina,ylab="Preços da Gasolina") boxplot(frango,alcatra,ylab="Preços",xlab="frango X alcatra") hist(frango) plot(alcatra) pairs(cbind(frango,alcatra)) # faz o gráfico de dispersão x1 versus x2 e vice versa t<-ts(frango) # transforma um conjunto de dados frango em uma série temporal plot(t)# faz o gráfico da série temporal par(mfrow=c(2,1))#divide a tela em 2. hist(gasolina)
90
abline(v=mean(gasolina))# faz uma linha na média de x1. abline(v=median(gasolina))# faz uma linha na mediana de x1. abline(v=quantile(gasolina))# faz uma linha nos quantis de x1. #============================================================== Regressão linear #=============================================================== plot(x, y) # gráfico de dispersão. fm <- lm(y ~ x) # regressão entre conjuntos pareados y e x. fm # apresenta os coeficientes da regressão. anova(fm)# apresenta tabela anova do modelo. abline(lm(y~x)) # traça a reta de regressão.