apostila estatistica 2 - ...::: cefet-mg - decom / home do ... · esta apostila é uma tentativa de...

90
1 Apostila Básica de Estatística 2 Silvio Alves de Souza

Upload: lamdien

Post on 06-Nov-2018

216 views

Category:

Documents


1 download

TRANSCRIPT

1

Apostila Básica de Estatística 2

Silvio Alves de Souza

2

ÍNDICE

Introdução................................................................................................................... 3

Software R .................................................................................................................. 4

Software SPSS ........................................................................................................... 5

Distribuição normal de probabilidade ......................................................................... 6

Testes de Hipótese paramêtrico ................................................................................11

Testes Não-Paramétrico ............................................................................................25

Distribuição Amostral .................................................................................................31

Regressão Múltipla ....................................................................................................52

Experimentos Multinomiais ........................................................................................65

Tabela de Contingência .............................................................................................71

Introdução a Séries Temporais ..................................................................................78

Bibliografia .................................................................................................................87

Anexo 1 .....................................................................................................................88

3

Introdução

Esta apostila é uma tentativa de compor parte do conteúdo da disciplina Estatística 2 do CEFET – MG. Esta disciplina é ministrada no curso de Administração. Seu conteúdo é de acordo com o plano de ensino do curso citados acima. Na verdade é um material complementar para os alunos. Ele não os isenta da necessidade de consultar outras bibliografias. A disciplina de Estatística é abordada com o auxílio de vários softwares para tratamento de dados, entre eles o R e o SPSS. Os exemplos e exercícios foram montados com o objetivo de contextualizar o conteúdo dentro dos vários cursos. Não buscamos priorizar nenhum desses cursos para que o aluno possa perceber a utilização da Estatística em cada área do conhecimento.

4

Software R

O software R é um software livre utilizado para análise de dados, cálculo e construão de gráficos. Sua construção foi feita utilizando vários colaboradores. Para sua utilização é necessário conhecimento de sua linguagem própria, ou seja, seus comandos. Algumas tarefas podem facilmente serem realizadas apenas utilizando seus comandos e outras são necessárias a construção de algoritmos. O R tem um help que os ajuda na execução das tarefas. No decorrer do curso iremos utilizá-lo para análise de vários dados e para a construção de alguns gráficos específicos. Os comandos necessários bem como a utilização do software serão apresentados no decorrer das aulas. A utilização deste software é uma tentativa de demonstrar como utilizar a tecnologia computacional na análise de dados.

No anexo 2 encontra-se alguns comandos úteis.

5

Software SPSS

O software SPSS é um software não-livre utilizado para análise Estatística em geral. Por não ser um software livre muitas pessoas preferem a utilização do software R. No entanto ele é muito utilizado no meio empresarial. Ao contrário do R o SPSS é bem simples de utilizar. Neste caso não é necessário conhecimento dos comandos. O SPSS tem um help que os ajuda na execução das tarefas. No decorrer do curso iremos utilizá-lo para análise de vários dados e para a construção de alguns gráficos específicos. A utilização deste software também é uma tentativa de demonstrar como utilizar a tecnologia computacional na análise de dados.

6

Distribuição normal de probabilidade

Uma variável aleatória X tem distribuição normal se seu histograma tem a

forma de um sino.

Definição

Dados os parâmetros µ e 0>σ reais, a função densidade de probabilidade

da normal é dada por:

2)(2

1

.2.

1)( σ

µ

πσ

−−

=x

exf

Onde µ=)(XE e σ=)(XVar .

Podemos perceber que o cálculo de probabilidade usando a distribuição

normal é muito difícil devido ao tipo de função. Uma forma de contornarmos este

problema é utilizar a distribuição normal padronizada.

A distribuição normal padronizada tem este nome pois sua média é 0 e a

variância é um. Com isso os cálculos ficam muito mais práticos pois podemos utilizar

as tabelas de probabilidade normal padronizada.

Uma conseqüência importante do fato de uma distribuição Normal ser

completamente caracterizada por sua média e desvio-padrão é que a área sob a

curva entre um ponto qualquer e a média é função somente do número de desvios-

padrões que o ponto está distante da média.

Vendas de auto peças

6000,0

5500,0

5000,0

4500,0

4000,0

3500,0

3000,0

2500,0

2000,0

1500,0

1000,0

500,00,0

200

100

0

Std. Dev = 994,59

Mean = 2516,6

N = 1488,00

7

Como existem uma infinidade de distribuições normais (uma para cada média

e desvio-padrão), transformamos a unidade estudada seja ela qual for (peso,

espessura, tempo, etc.) na unidade Z, que indica o número de desvios-padrão a

contar da média.

Para padronizar um conjunto de dados que tem distribuição normal é só

aplicar a fórmula

σ

µ−=

Xz

Utilização da tabela da normal padronizada

A tabela nos dá a área sobre o gráfico, ou seja, a probabilidade.

Mais a frente veremos que o desvio-padrão é alterado quando vamos

padronizar a média de um conjunto de dados. Este resultado é encontrado em um

teorema denominado “Teorema Central do Limite”.

Propriedades da distribuição normal

1) a curva é simétrica em torno da média;

2) ( ) 0xflimx

=∞→

3) a área total sob a curva é igual a 1;

área=1

área=0,5 área=0,5

8

Exemplo 1: A resistência à tração do papel usado em sacolas de super-mercado é

uma característica de qualidade importante.

Sabe-se que essa resistência segue um modelo Normal com média 40 psi e

desvio padrão 2 psi.

Se a especificação estabelece que a resistência deve ser maior que 35 psi,

qual a probabilidade que uma sacola produzida com este material satisfaça a

especificação?

{ } { }35XP135XP ≤−=≥

{ } { }5,22

403535 −≤=

≤=≤ zPzPXP

Pela tabela da normal padronizada temos probabilidade de 0,0062.

Logo a resposta é 1-0,0062 = 99,38%.

Comparação entre média e variância

A

C

B

x

f(x)

9

a) da distribuição A para B muda a tendência central, mas a variabilidade é

constante;

b) da distribuição A para C muda a variabilidade, mas a tendência central é

constante;

c) da distribuição B para C muda a tendência central e a variabilidade.

Exercícios

1) Utilizando a tabela da distribuição normal padronizada calcule:

a) ( )42,0zP <

b) ( )75,0zP <

c) ( )30,0zP −<

d) ( )56,0zP >

e) ( )72,0z25,0P <<

f) ( )20,0z25,0P <<−

g) o valor de z tal que ( ) 90,0zZzP =<<− .

2) Suponha que a absorção de água(%) em certo tipo de piso cerâmico tenha

distribuição normal com média 2,5 e desvio-padrão 0,6. Selecionando,

aleatoriamente, uma unidade desse piso, qual é a probabilidade de ele acusar

absorção de água entre 2% e 3,5%?

10

3) Uma fábrica de chocolates comercializa barras que pesam em média 200g. Os

pesos são normalmente distribuídos. Sabe-se que o desvio padrão é igual a 40g.

Calcule a probabilidade de uma barra de chocolate, escolhida aleatoriamente, pesar

a) entre 200 e 250g;

b) mais de 230g;

c) menos que 150g.

4) Suponha que uma variável aleatória X tenha distribuição normal com média 5 e desvio-padrão 4. Calcule:

( )8X2P <≤

11

Testes de Hipótese paramêtrico

Teste de Hipótese

Em Estatística, uma hipótese é uma afirmação sobre uma propriedade de

uma população.

Podemos estar interessados em saber informações sobre a média, a

proporção ou a variância.

Componentes de um teste de hipótese

1) Hipótese nula - 0H : é uma afirmação sobre o valor de um parâmetro

populacional. Deve conter o sinal de igualdade e deve escrever-se como ≥≤= ,, .

2) Hipótese alternativa - 1H : é a afirmação que deve ser verdadeira se a hipótese

nula for falsa. Não deve conter o sinal de igualdade.

Exemplos:

a) Testar a afirmação de que a média populacional é 75.

Solução: Neste caso temos 75:0 =µH e 75:1 ≠µH .

b) Testar a afirmação de que a média é no máximo 2,50.

Solução: Neste caso temos 50,2:0 ≤µH e 50,2:1 >µH .

3) Erro tipo I: Consiste em rejeitar a hipótese nula quando ela é verdadeira.

0H verdadeira 0H falsa

Rejeita 0H Erro tipo I Acerto

Não rejeita 0H Acerto Erro tipo II

4) Nível de significância - α : A probabilidade do erro tipo I ocorrer.

12

5) Erro tipo II: Consiste em não rejeitar a hipótese nula quando ela é falsa.

6) A probabilidade de ocorrer o erro tipo II é β .

7) Estatística de teste: É uma estatística amostral baseado nos dados amostrais.

8) Região crítica: É o conjunto de todos os valores da estatística de teste que

levam à rejeição da hipótese nula.

9) Valor Crítico: É o valor, ou valores, que separa(m) a região crítica dos valores

da estatística de teste que não levam à rejeição da hipótese nula.

Conclusões no teste de hipótese

Em um teste de hipótese concluímos por:

• rejeitar a hipótese nula ou

• não rejeitar a hipótese nula.

Tipos de teste

• Bilateral (sinal de 1H : ≠ ): a região crítica está situada nas duas regiões.

Neste caso cada área tem valor 2

α.

13

• Unilateral esquerdo (sinal de 1H : <): a região crítica está situada na parte

esquerda. Neste caso ( ) α=ItipoErroP .

• Unilateral direito (sinal de 1H : >): a região crítica está situada na parte direita.

( ) α=ItipoErroP .

14

Teste de uma afirmação sobre uma média: grandes amostras

Considere uma amostra razoavelmente grande ( 30≥n ) para valer o teorema

central do limite, ou que os dados provenham de uma distribuição aproximadamente

normal. Para testarmos alguma informação com respeito à média populacional

utilizamos a estatística de teste dada por:

Estatística de teste

n

xz x

σ

µ−=

Os valores críticos são encontrados na Tabela A – 2

Obs.: Caso σ seja desconhecido podemos substituí-lo por s .

Notação

x : média amostral;

xµ : média populacional.

σ : desvio-padrão populacional;

n : tamanho da amostra;

Exemplo:

O tempo médio entre falhas de um rádio da Telektronic Companhy para

aviões de pequeno porte é 420 horas. Após terem sido modificados 35 aparelhos de

rádio, em uma tentativa de melhorar sua confiabilidade, os testes acusaram um

tempo médio de 385 horas para esta amostra, com desvio-padrão de 24 horas. Ao

nível de significância de 0,05, teste a afirmação de que o tempo médio, após as

modificações, é menor que 420 horas .

Solução:

a) As hipóteses são:

<

420:

420:

1

0

µ

µ

H

H

15

b) O teste é unilateral esquerdo, pois o sinal de 1H é <.

c) O nível de significância é 05,0=α ;

d) Os valores críticos são 645,1=αz ; Logo temos:

e) Os dados amostrais são: 385=x e 24=s ;

f) Como n=35 ( 30≥n ), a estatística de teste é dada por:

63,8

35

24

420385−=

−=

−=

n

xz x

σ

µ

g) Conclusão: Como a estatística de teste está na dentro da região crítica, então

rejeitamos 0H .

Exercícios

1) O gerente de uma empresa de transporte suspeita da afirmação de um

vendedor de pneus de que o seu produto tem uma vida média de, ao menos,

28 000 milhas. Para verificar a afirmação, a firma instala 40 desses pneus em

seus caminhões, obtendo uma vida média de 27 563 milhas, com desvio-

padrão de 1 348 milhas. Qual a conclusão do gerente, se a probabilidade de

um erro tipo I deve ser 0.01?

2) A vida média de uma amostra de 100 lâmpadas de certa marca é 1615 horas.

Por similaridade com outros processos de fabricação, supomos o desvio-

padrão igual a 120 horas. Utilizando um nível de significância de 2 %, teste a

afirmação de que a duração média de todas as lâmpadas dessa marca é igual

a 1600 horas.

16

Teste de uma afirmação sobre uma média: pequenas amostras

Considere uma amostra pequena ( 30<n ). Suponha que:

a) os dados provenham de uma distribuição normal

b) o desvio-padrão populacional σ é desconhecido.

Para testarmos alguma informação com respeito à média populacional

utilizamos a estatística de teste dada por:

Estatística de teste

n

s

xt x

µ−=

Os valores críticos são encontrados na Tabela A – 3

O número de Graus de liberdade = n – 1

Obs.: Caso a variância populacional σ seja conhecida então devemos utilizar a

distribuição normal, independentemente do tamanho da amostra.

n

xz x

σ

µ−=

Exemplo:

Os sete valores relacionados a seguir são cargas axiais (em libras) da

primeira amostra de sete latas de alumínio de 12oz. A carga axial de uma lata é o

peso máximo que seus lados podem suportar, e deve ser superior a 165 libras,

porque esta é a pressão máxima aplicada quando se fixa a tampa no lugar. Ao nível

de significância de 0,01, teste a afirmação do engenheiro supervisor de que esta

amostra provém de uma população com média superior a 165 libras.

270 273 258 204 254 228 282

Solução:

17

a) As hipóteses são:

>

165:

165:

1

0

µ

µ

H

H

b) O teste é unilateral direito, pois o sinal de 1H é >;

c) O nível de significância é 01,0=α ;

d) O valor do grau de liberdade é de 7-1 = 6. Logo o valor crítico é 143,3=αt ;

Logo temos:

e) Os dados amostrais são: 7,252=x e 6,27=s ;

Como n = 7 ( 30<n ), a estatística de teste é dada por:

407,8

7

6,27

1657,252=

−=

−=

n

s

xt x

µ

f) Conclusão: Como a estatística de teste está na dentro da região crítica, então

rejeitamos 0H .

Exercícios

1) Admitindo que a pressão sanguínea arterial em homens siga o modelo

Normal, 7 pacientes foram sorteados e tiveram sua pressão medida obtendo

os seguintes resultados:

82 - 84 - 78 - 85 - 69 - 80 - 75

18

Utilizando um nível de significância de 0,02 , teste a afirmação de a média da

pressão sanguínea é de 82.

2) O inspetor de qualidade da JF Construções mediu 25 barras de aço e obteve

as seguintes medidas em metros:

4,51 5,38 4,84 5,33 4,74 4,99 5,15 5,52 5,82 5,45

4,68 4,74 5,53 5,40 4,72 4,97 5,24 4,94 4,75 5,50

4,81 5,25 4,86 4,93 4,95

Pode-se afirmar, com com nível de significância de 5%, que tais barras foram

sacadas de um lote cujo comprimento médio é de 5,00 metros?

Teste de uma afirmação sobre variância ou desvio-padrão

Ao testar uma hipótese sobre o desvio-padrão σ ou a variância 2σ de uma

população, admitimos que os valores da população sejam distribuídos normalmente.

Notação

n = tamanho da amostra

2s = variância amostral

2σ = variância populacional

Para testar uma informação sobre desvio-padrão σ ou a variância 2σ a

estatística de teste é dada por:

Estatística de teste

( )2

22 1

σχ

sn ⋅−=

Os valores críticos são encontrados na Tabela A – 4

O número de Graus de liberdade = n – 1

19

Exemplo:

O tempo para transmitir 10 MB em determinada rede de computadores varia

segundo um modelo normal, com média 7,4 segundos e variância 1,3 segundos.

Depois de algumas mudanças na rede, acredita-se numa redução no tempo de

transmissão de dados, Além de uma possível mudança na variabilidade. Foram

realizados 10 ensaios independentes com um arquivo de 10 MB e foram coletados

os tempos de transmissão, em segundos:

6,8 7,1 5,9 7,5 6,3 6,9 7,2 7,3 6,6 6,3

Resolva:

a) Existe evidência suficiente de que as mudanças na rede de computadores

alteraram a variabilidade no tempo de transmissão de dados? Ao nível de

0,05.

b) Existe evidência suficiente de que as mudanças na rede de computadores

alteraram o tempo médio de transmissão de dados? Ao nível de 0,05

Solução da letra a:

a) As hipóteses são:

=

3,1:

3,1:2

2

0

σ

H

H

b) O teste é bilateral direito, pois o sinal de 1H é ≠ ;

c) O nível de significância é 05,0=α ;

20

d) O valor do grau de liberdade é de 10-1 = 9. Logo os valores críticos são

700,22 =χ e 023,192 =χ ; Logo temos:

e) Os dados amostrais indicam: 261,02 =s ;

f) a estatística de teste é dada por:

807,13,1

261,0)110(2 =⋅−

g) Conclusão: Como a estatística de teste está na dentro da região crítica, então

rejeitamos 0H .

Exercícios

1) A cofap alega que a variância da vida média de seus amortecedores é de nove

meses. A Chevrolet ensaia 18 peças e encontra variância de um ano para a vida

média das referidas peças. A 5% de significância, isso lhe permite refutar a alegação

da Cofap?

2) Um laboratório fez oito determinações da quantidade de impurezas em porções

de certo composto. Os valores eram (em mg):

12,4 – 12,6 – 12,0 – 12,0 – 12,1 – 12,3 – 12,5 – 12,7

21

Teste a hipótese de que o desvio-padrão é 1, ao nível se significância de 0,05.

3) Uma máquina de enchimento automático é usada para encher garrafas com

detergente líquido. Uma amostra aleatória de 20 garrafas resulta em uma variância

amostral de volume de enchimento de 0,0153 (onça fluida)2. Se a variância do

volume de enchimento exceder 0,01 (onça fluida)2, existirá uma proporção

inaceitável de garrafas cujo enchimento não foi completo e cujo enchimento foi em

demasia.

Há evidência nos dados da amostra que sugira que o fabricante tenha um problema

com garrafas cheias com falta e excesso de detergente? Use nível de significância

de 5%.

Observação:

Quando vamos trabalhar com graus de liberdade cujos valores críticos não são

tabelados podemos aproxima-los utilizando a fórmula a seguir

( )22 12

2

1−+= kzχ

onde

k é o número de graus de liberdade

z é o valor crítico, encontrado na tabela normal padronizada.

Exemplo:

1) Suponha que queiramos fazer o teste

<

21,1:

21,1:2

2

0

σ

H

H

com 05,0=α e 120=n teremos:

a) 119=k

b) 645,1−=z

c) ( ) ( ) 529,9411192645,12

112

2

1 222 =−×+−=−+= kzχ

22

TESTE DE HIPÓTESE PARA PROPORÇÃO

O teste para proporção é aplicado em situações nas quais queremos verificar

se a proporção de algum atributo na população pode ser igual a certo valor 0p .

SUPOSIÇÕES:

1) São verificadas as condições para um experimento binomial. Isto é, temos um

número fixo de provas independentes com probabilidade constante, e cada

prova comporta dois resultados, que designamos “sucesso” e “falha”.

2) As condições 5≥np e 5≥nq são ambas verificadas, de modo que a

distribuição binomial das proporções amostrais pode ser aproximada por uma

distribuição normal com np=µ e npq=σ . Esta suposição é necessária

devido ao fato de termos uma boa aproximação da estatística de teste, que

neste caso é normal.

NOTAÇÃO:

n : número de provas;

p : proporção populacional (usada na hipótese nula);

n

xp =ˆ : proporção amostral;

pq −=1

A estatística de teste é dada por:

ESTATÍSTICA DE TESTE:

n

pq

ppz

−=

ˆ

Os valores críticos são obtidos na tabela A – 2 (distribuição normal

padronizada).

23

Exemplos:

1) Uma empresa retira periodicamente amostras aleatórias de 500 peças de sua

linha de produção para análise da qualidade. As peças da amostra são

classificadas como defeituosas ou não, sendo que a política da empresa

exige que o processo produtivo seja revisto se houver evidência de mais de

1,5% de peças defeituosas. Na última amostra, foram encontradas nove

peças defeituosas. Usando nível de significância de 1%, o processo precisa

ser revisto?

Solução:

h) As hipóteses são:

>

015,0:

015,0:

1

0

pH

pH

i) O teste é unilateral direito, pois o sinal de 1H é > .

j) O nível de significância é 01,0=α ;

k) O valor crítico é 33,2=αz ; Logo temos:

l) Os dados amostrais são: 018,0500

9ˆ ==p

m) Critérios para a aproximação normal:

5,7015,0500 =⋅=⋅ pn e

5,492985,0500)015,01(500 =⋅=−⋅=⋅ qn

n) Estatística de teste é dada por:

24

552,0005436,0

003,0

500

985,0015,0

015,0018,0ˆ==

−=

−=

n

pq

ppz

o) Conclusão: Como a estatística de teste está fora da região crítica, então não

rejeitamos 0H .

2) Em um estudo da eficácia do air-bag em automóveis, constatou-se que, em

821 colisões de carros de tamanho médio equipados com air-bag, 46 colisões

resultaram em hospitalização do motorista. Ao nível de significância de 0,01,

teste a afirmação de que a taxa de hospitalização nos casos de air-bag é

inferior à taxa de 7,8% para colisões de carros de tamanho médio equipados

com cintos automáticos de segurança.

3) O controle estatístico de certo processo de fabricação de determinada

lâmpada estabeleceu que pelo menos 94% delas têm que estar sem defeito.

Para verificar a validade desta afirmação, foi coletada uma amostra de 150

lâmpadas das quais 138 estavam sem defeito.

Com 1% de significância, há evidência de que o processo está de acordo com

o esperado?

25

Testes Não-Paramétrico

Os testes não-paramétricos são utilizados quando não temos

informação sobre a distribuição da população.

Vantagens- Menos suposições são necessárias. Em muitos casos, apenas

dados nominais (categóricos) ou ordinais (ranks) são necessários, ao invés de

numéricos (intervalares).

Desvantagens- Freqüentemente preferimos ter um modelo bem definido

com parâmetros importantes tais como média e variância incluídas para melhor

interpretação.

São vários os tipos de testes não-paramétricos:

� Teste dos sinais;

� Teste de postos com sinais de Wilcoxon para duas amostras

dependentes;

� Teste da soma de postos de Wilcoxon para duas amostras

independentes;

� Teste de kruskal-Wallis;

� Correlação por postos;

� Teste de repetições para aleatoriedade;

� Teste do qui-quadrado;

� Teste do qui-quadrado para independência ou associação;

� Teste de Mann-Whitney;

� Teste da mediana;

Não se refere à distribuição da estatística de teste, mas ao fato de que os

métodos podem ser aplicados a amostras de populações de qualquer distribuição.

Esta deve ser especificada apenas em termos gerais (ser continua, simétrica,

26

idêntica) sem precisar pertencer a alguma família (como normal, uniforme,

exponencial, etc).

QUANDO PRECISAMOS DOS MÉTODOS NÃO PARAMÉTRICOS?

Mesmo se o teste paramétrico não depende crucialmente da suposição de

que a amostra vem de uma distribuição particular, se há alguma dúvida quanto a

isso o teste não paramétrico, depende de suposições mais fracas, é preferível.

Métodos não paramétricos são usualmente os únicos disponíveis para dados que

simplesmente especificam ordem ou contagem em várias categorias.

Teste de Correlação por postos

Referência: TRIOLA, Mario F. Introdução à estatística.

O teste de correlação por postos pode ser utilizado para verificar se existe

alguma associação entre duas variáveis.

A taxa de eficiência do teste é de 91%.

Notação:

sr : coeficiente de correlação por postos para dados amostrais emparelhados;

sρ : coeficiente de correlação por postos para todos os dados populacionais

emparelhados;

n : número de pares de dados;

d : diferença entre postos para as duas observações dentro de um par.

O índice s é utilizado em homenagem a Charles Spearman (1863 - 1945).

Ao testar se há ou não correlação, testamos as seguintes hipóteses:

=

0:

0:

1

0

s

s

H

H

ρ

ρ

27

Estatística de teste

A estatística de teste, para o caso em que não há empate entre os postos, é

dada por:

)1(

61

2

2

−−=∑nn

drs

onde cada valor de d é uma diferença entre os postos para um par de dados

amostrais.

Caso haja empate entre os postos então a estatística de teste é dada por:

∑ ∑∑ ∑

∑ ∑ ∑−−

−=

2222)(.)(

))((

yynxxn

yxxynrs

onde x = posto de X e y = posto de Y.

Valores críticos:

Se 30≤n , consulte tabela A – 9.

Se 30>n , use a fórmula

1−

±=

n

zrs

onde o valor de z corresponde ao nível de significância

28

Exemplos

1) A tabela a seguir apresenta 9 dados do volume desgastado do aço e da viscosidade do óleo.

Volume desgastado Y (10-4 mm3)

Viscosidade X

240 1,6 181 9,4 193 15,5 155 20 172 22 110 35,5 113 43 75 40,5 94 33

Há correlação entre as duas variáveis? Use 05,0=α .

Solução:

Passo 1: As hipóteses são

=

0:

0:

1

0

s

s

H

H

ρ

ρ

Passo 2: Nível de significância é 05,0=α

Passo 3: Utilizaremos estatística não-paramétrica pois não temos informação sobre

a população original.

Passo 4: Estatística de teste:

Volume desgastado Y (10-4 mm3)

Viscosidade X Posto Y Posto X d 2d

240 1,6 9 1 8 64 181 9,4 7 2 5 25 193 15,5 8 3 5 25 155 20 5 4 1 1 172 22 6 5 1 1 110 35,5 3 7 4 16 113 43 4 9 5 25 75 40,5 1 8 7 49 94 33 2 6 4 16

Assim temos ∑ = 2222d

29

85,0

85,11

720

13321

)181(9

)222(61

)1(

61

2

2

−=

−=

−=

−−=

−−=∑nn

drs

Passo 5: valores críticos:

Pela tabela A-9, os valores críticos são 683,0± .

Como 85,0−=sr está dentro da região crítica então rejeitamos 0H . Logo existe

correlação.

0

50

100

150

200

250

300

0 10 20 30 40 50

30

2) Os valores a seguir são referentes às vendas de tubos de aço carbono de certa indústria no período especificado.

X = Ano Y = Venda 80 58 81 85 82 123 83 81 84 57 85 118 86 174 87 147 88 190 89 205 90 255 91 223 92 216 93 297 94 184 95 224 96 318

Existe correlação entre as variáveis?

31

Distribuição Amostral

Retirado dos livros: Estatística aplicada á Administração, Stevenson e Introdução á Estatística, Triola. Uma distribuição amostral é uma distribuição de probabilidade que nos mostra como é a variação da estatística amostral ocasionada por variações na amostragem aleatória.

Uma estatística amostral é qualquer função baseada nos dados amostrais

de uma amostra aleatória.

Uma estimativa é um valor específico, ou um intervalo de valores, numérico

de uma estatística amostral.

Um estimador é uma estatística amostral utilizada para obter uma

aproximação de um parâmetro populacional.

Exemplo:

1) Estimador da média populacional µ : ∑=

=n

i

ixn

x

1

1.

2) Estimador da variância populacional 2σ :

−−

=

∑∑ =

=n

x

xn

s

n

i

in

i

i

2

1

1

22

1

1.

Propriedade do estimador:

Um estimador θ é dito não tendencioso para o parâmetro populacional θ , se

( ) θθ =ˆE

Se o estimador θ for tendencioso, então a tendenciosidade é dada por

( ) θθ −ˆE

onde ( ) ∑ ==i

ixXxPXE )( .

32

Para verificar se um estimador é ou não tendencioso deveremos calcular a

esperança. Para o cálculo desta esperança algumas propriedades são

fundamentais:

E1) Se cX = , então ( ) cXE = ;

Prova: X é uma variável aleatória discreta. Então ( ) cccXPcXE ==== 1.)(. .

E2) Se baXY += é uma variável aleatória, então ( ) bXaEYE += )( .

Quando estamos interessados em avaliar qual o melhor estimador entre

vários, utilizamos o erro quadrático médio – EQM. A seguir temos a definição do

EQM

O erro quadrático médio de um estimador θ do parâmetro θ é dado por

( ) ( )2ˆˆ θθθ −= EEQM

Ou

( ) ( ) ( )2ˆˆ idadetendenciosVarEQM += θθ

Algumas propriedades da variância:

V1) Se cX = , então 0)( =XVar ;

V2) )()( XVarbXVar =+

V3) )()( 2 XVarabaXVar =+

V4) )()()( 22 YVarbXVarabYaXVar +=+

Exemplo:(Montgomery) Seja 721 ,,, XXX K uma amostra aleatória de uma

população com média µ e variância 2σ . Considere os seguintes estimadores:

33

7

7211

XXX +++=

2

2 4612

XXX +−=θ

Resolva:

a) Verifique se os estimadores são não-tendenciosos.

b) Qual é o melhor estimador?

Solução:

a) A esperança do primeiro estimador é

µ

µµµ

θ

=

+++=

+++=

+++=

7

7

)()()(

7)(

721

7211

K

K

K

XEXEXE

XXXEE

A esperança do segundo estimador é

( )

µ

µµµ

θ

=

+−=

+−=

+−=

2

2

2

)()()(2

2

2

461

4612

XEXEXE

XXXEE

Verificamos que os dois estimadores não são tendenciosos.

b) Variância do estimador 1

2

222

2

721

7211

7

1

49

7

)()()(

7)(

σ

σσσ

θ

=

+++=

+++=

+++=

K

K

K

XVarXVarXVar

XXXVarVar

Variância do estimador 2

34

( )

( )

2

222

461

461

4612

4

6

4

4

4

)()()(4

24

1

2

2

σ

σσσ

θ

=

++=

++=

+−=

+−=

XVarXVarXVar

XXXVar

XXXVarVar

O melhor estimador é aquele que tem menor EQM. Como a tendenciosidade é nula

para ambos estimadores, então

( ) ( ) ( )

( )2

1

211

7

1

ˆ

ˆˆ

σ

θ

θθ

=

=

+=

Var

idadetendenciosVarEQM

e

( ) ( ) ( )

( )2

2

222

4

6

ˆ

ˆˆ

σ

θ

θθ

=

=

+=

Var

idadetendenciosVarEQM

Como ( ) ( )21ˆˆ θθ EQMEQM < , então o melhor estimador é o primeiro.

Para entendermos como é o comportamento da amostra considere o exemplo

a seguir.

Exemplo: considere uma população formada pelos elementos

1 4 2 3

Percebemos que a média populacional é de 2,5.

Vamos então analisar a distribuição amostral. Para isso suponha todas as

amostras de tamanho 2 sem reposição. Temos 62,4 =C amostras representadas no

quadro a seguir

35

Amostras Média

1 e 4 2,5

1 e 2 1,5

1 e 3 2

4 e 2 3

4 e 3 3,5

2 e 3 2,5

Percebemos que em 2 amostras das 6 (33,33%) encontramos o verdadeiro

valor da média populacional. As outras 4 amostras não encontramos a verdadeira

média, no entanto servem como uma aproximação.

Poderíamos, por exemplo, tomar amostras de tamanho 3 sem reposição.

Neste caso teremos 43,4 =C amostras representadas no quadro a seguir

Amostras Média

1, 4 e 2 3

7

1, 4 e 3 3

8

1, 2 e 3 3

6

4, 2 e 3 3

9

Neste caso percebemos que nenhuma amostra tem média igual à média

populacional.

Tipos de estimativa

Uma estimativa pontual é um valor único usado para aproximar um

parâmetro populacional.

Uma estimativa intervalar, ou intervalo de confiança, é uma amplitude de

valores que tem probabilidade de conter o verdadeiro valor do parâmetro

populacional.

36

O grau de confiança é a probabilidade α−1 de o intervalo de confiança

conter o verdadeiro valor do parâmetro populacional.

Um valor crítico é o número na fronteira que separa os valores das

estatísticas amostrais prováveis de ocorrerem, dos valores que têm pouca chance

de ocorrer.

Quando utilizamos dados amostrais para estimar um parâmetro populacional

podemos cometer erros. A margem de erro, denotada por E, é a diferença máxima

provável (com probabilidade α−1 ) entre o valor amostral e o verdadeiro valor

populacional. A margem de erro E é chamada também de erro máximo da

estimativa.

Para entendermos o erro, tomemos o exemplo anterior com amostras de

tamanho 2:

Amostras Média Erro

1 e 4 2,5 0

1 e 2 1,5 1

1 e 3 2 0,5

4 e 2 3 0,5

4 e 3 3,5 1,5

2 e 3 2,5 0

Neste caso o erro máximo foi de 1,5.

37

O quadro a seguir nos mostra como calcular os erros, o intervalo de confiança

e o tamanho da amostra para uma população infinita.

Parâmetro Cálculo do

erro

Intervalo de confiança Tamanho de

amostra

Média

(Grandes

amostras)

nzE

σα ⋅=

2 ExEx +<<− µ 2

2

=E

z

n

σα

Média

(Pequenas

amostras)

n

stE ⋅=

2α ExEx +<<− µ 2

2

=E

st

Proporção

n

qpzE

ˆˆ

2⋅= α

EppEp +<<− ˆˆ

2

2

2

ˆˆ

E

qpz

n

ou

2

2

225,0

E

z

n

Variância ( ) ( )2

22

2

2 11

LR

snsn

χσ

χ

−<<

Tabelado

38

Quando trabalhamos com populações finitas e a amostragem constitui mais

de 5% da população devemos aplicar o fator de correção. Assim teremos:

Parâmetro Cálculo do erro Intervalo de

confiança

Tamanho de amostra

Média

(Grandes

amostras)

12 −

−⋅=

N

nN

nzE

σα

ExEx +<<− µ

)1(222

2

22

2

−+=

NEz

Nz

σ

α

α

Média

(Pequenas

amostras)

12 −

−⋅=

N

nN

n

stE α

ExEx +<<− µ

)1(222

2

22

2

−+=

NEst

Nst

n

α

α

Proporção

1

ˆˆ

2 −

−⋅=

N

nN

n

qpzE α

EppEp +<<− ˆˆ

)1(222

2

22

2

−+=

NEz

Nz

σ

α

α

Exercícios: (Triola)

1) Para as temperatura do corpo humano temos 106=n , Fx º20,98= e

Fs º62,0= . Para um nível de significância de 5% determine:

a) a margem de erro E ;

b) O intervalo de confiança para µ .

2) Um economista deseja estimar a renda média para o primeiro ano de

trabalho de um bacharel por uma faculdade, que teve a feliz idéia de fazer

um curso de estatística. Quantos valores de renda devem ser tomados, se o

economista deseja ter 95% de confiança em que a média amostral esteja a

$500 da verdadeira média populacional? Suponha que saibamos, por um

estudo prévio, que, para tais rendas, 6250$=σ .

39

3) Deseja-se estimar o preço médio de venda de um livro-texto para uma

faculdade. Quantos exemplares devemos selecionar, para termos 95% de

confiança de que a média amostral esteja a menos de $2 da verdadeira

média populacional? (Suponha que os preços variam entre $10 a $90. Use

4/amplitude=σ )

4) Os pesquisadores de opinião são atormentados por uma diversidade de

fatores de confusão, como secretárias eletrônicas. Em uma pesquisa junto a

1068 americanos, 673 informaram ter secretária eletrônica (com base em

dados da International Mass Retail Association, relatado em USA Today).

Com esses resultados amostrais, determine:

a) A estimativa pontual da proporção populacional de todos os americanos

que têm secretária eletrônica;

b) A estimativa intervalar de 95% da proporção populacional de todos os

americanos que têm secretária eletrônica.

5) Selecionados aleatoriamente e pesquisados 500 universitários, verificou-se

que 135 deles têm computadores pessoais (com base em dados da America

Passage Media Corporation).

a) Determine a estimativa pontual da verdadeira proporção de todos os

universitários que têm computador pessoal;

b) Determine um intervalo de 99% de confiança para a verdadeira proporção

de todos os universitários que têm computador pessoal.

6) Um estudo de saúde envolve 1000 mortes selecionadas aleatóriamente,

dentre as quais 331 causadas por doenças cardíacas (com base em dados

do Center for Disease Control).

a) Com os dados mostrais, construa um intervalo de confiança de 99% para

a proporção de todas as mortes causadas por doenças cardíacas;

b) Utilizando os dados amostrais como estudo piloto, determine o tamanho

de amostra necessário para estimar a proporção de todas as mortes

causadas por doenças cardíacas. Admita um nível de confiança de 98%,

em que o erro da estimativa não supere 0.01.

40

7) No caso de estimativa da proporção quando temos uma população

relativamente pequena, de tamanho N, e a amostragem é sem reposição,

modificamos o erro para

1

ˆˆ

2 −

−⋅=

N

nN

n

qpzE α

Mostre que o o tamanho da amostra pode ser encontrada por

( ) 22

2

2

2

1ˆˆ

ˆˆ

ENzqp

zqpN

n

−+

=

α

α

8) Uma amostra consiste de 75 aparelhos de televisão adquiridos há vários

anos. Os tempos de substituição desses aparelhos têm médiia de 8.2 anos e

desvio-padrão de 1.1 anos ( com base em dados de “Getting Things Fixed,”

Consumer Reports). Construa um intervalo de confiança de 90% para o

desvio-padrão dos tempos de substituição de todos os aparelhos de TV

daquela época.

9) Um artigo de jornal inclui um gráfico mostrando que certos dados amostrais

são distribuídos normalmente.

a) Inadvertidamente, omitiu-se o grau de confiança quando foi dado o

intervalo de confiança de 944.35581.7 2 << σ . Determine o grau de

confiança sendo 8.3;2.45;20 === sxn .

b) Dá-se o seguinte intervalo de confiança: 8.451.19 << σ . Determine o

seguinte valor do desvio-padrão, que foi omitido. Use 95% de confiança.

10) (Montgomery) Suponha que 1θ e 2θ sejam dois estimadores do parâmetro

θ . Sabemos que ( ) θθ =1ˆE , ( )

2ˆ2

θθ =E , ( ) 10ˆ

1 =θVar e ( ) 4ˆ2 =θVar . Qual o

melhor estimador?

11) (Montgomery)

a) Mostre que ( )∑=

−=n

i

i XXn

s

1

22 1 é um estimador tendencioso para 2σ .

b) Qual é a tendenciosidade?

41

c) O que acontece com a tendência a medida que o tamanho da amostra

aumenta?

Teorema Central do Limite

Se nXXX ,,, 21 L for uma amostra aleatória de tamanho n, retirada de uma

população (finita ou infinita), com média µ e variância 2σ , e se X for a média

amostral, então a forma limite da distribuição de

n

XZ

σ

µ−=

quando n tende ao infinito, é a distribuição normal padrão.

Ou:

Teorema Central do Limite

Se extrairmos todas as amostras aleatórias possíveis, de tamanho n, de uma

população com média µ e variância 2σ , a média das médias se denota por x

µ ;

assim,

µµ =x

Por sua vez, o desvio-padrão das médias amostrais se denota por x

σ ; então,

nx

σσ =

42

OBS.: (Triola)

1) O teorema central do limite se aplica quando estamos em face de uma

distribuição de médias amostrais. Utilizamos o teorema quando o tamanho da

amostra é maior do que 30 ou quando a população original tem distribuição normal.

2) No caso de amostragem sem reposição, quando o tamanho n da amostra é

superior a 5% do tamanho N da população finita (isto é, Nn 05,0> ), ajustamos o

desvio-padrão da média amostral x

σ multiplicando o pelo fator de correção para

população finita:

1−

N

nN

3) (Stevenson) A figura a seguir nos mostra o efeito do tamanho da amostra sobre a

distribuição amostral. A distribuição binomial foi utilizada como parâmetro de

referência. A probabilidade de sucesso foi mantida constante e variou-se o tamanho

da amostra. Percebemos que à medida que o tamanho da amostra cresce a

distribuição amostral das proporções tende a uma distribuição normal. Percebe-se

também que a variabilidade decresce. Observamos que a média da distribuição

amostral é sempre igual a proporção.

43

44

4) (Stevenson) A próxima figura nos dá uma idéia do comportamento da

distribuição amostral considerando a distribuição da população.

45

Exemplo: Voltando ao exemplo da população formada pelos elementos

1 4 2 3

e considerando todas as amostras possíveis de tamanho 2

Amostras Média

1 e 4 2,5

1 e 2 1,5

1 e 3 2

4 e 2 3

4 e 3 3,5

2 e 3 2,5

podemos observar que:

a) Se calcularmos a média das médias (média entre os elementos)

2,5 1,5 2 3 3,5 2,5

encontramos 5,2=x

µ que corresponde à média populacional µ . Assim temos, de

acordo com o teorema, que µµ =x

.

b) Calculando a variância das médias, dados do item (a), encontramos 2

2=

xσ .

Considerando os dados populacionais (1,4,2,3) encontramos 3

15=σ .

Como o tamanho da amostra é 2=n e o tamanho da população é 4=N ,

verificamos que Nn 05.0> . Assim devemos aplicar o fator de correção,

encontrando 1−

−=

N

nN

nx

σσ . De fato:

46

σ

σσ

=

=

=

=

=

=

−=

−=

3

5

9

53

333

315

33

15

3

2

2

315

14

24

2

315

1N

nN

nx

47

Exercícios:

1) (Triola) Na engenharia humana e no projeto de produtos, freqüentemente é

importante considerar os pesos das pessoas, de modo que não haja sobrecarga em

aviões ou elevadores, as cadeiras não quebrem, e não ocorram outros

acontecimentos perigosos ou embaraçosos. Dado que a população de homens tem

pesos distribuídos normalmente com média de 173 lb e desvio-padrão de 30 lb (com

base em dados do National Health Survey dos EUA), determine a probabilidade de

que:

a) Um homem escolhido aleatoriamente pese mais de 180 lb;

b) Em 36 homens escolhidos aleatoriamente, o peso médio seja superior a 180

lb.

c) Refaça a letra (b) supondo a população de homens igual a 500=N .

2) Uma companhia eletrônica fabrica resistores que têm uma resistência média de

100 ohms e um desvio-padrão de 10 0hms. A distribuição de resistências é normal.

Encontre a probabilidade de uma amostra aleatória de 25 resistores ter uma

resistência média menor que 95 ohms.

3) Uma população consiste nos valores 2, 3, 6, 8, 11, 18.

a) Determine µ e σ ;

b) Relacione todas as amostras de tamanho 2=n que podem ser obtidas sem

reposição;

c) Determine a população de todos os valores de x achando a média de cada

amostra da parte (b);

d) Ache a média x

µ e o desvio-padrão x

σ ;

e) Verifique que

µµ =x

e 1−

−=

N

nN

nx

σσ

48

4) O calor liberado, em calorias por grama, de uma mistura de cimento tem

distribuição aproximadamente normal. A média deve ser 100 e o desvio-padrão é 2.

Desejamos testar

100:

100:

1

0

=

µ

µ

H

H

com uma amostra de tamanho 9 espécimes.

Suponha que a região de aceitação é definida como 5,1015,98 ≤≤ X . Encontre a

probabilidade do erro tipo 1 ocorrer.

5) (Stevenson) Um fabricante de baterias alega que seu artigo de primeira categoria

tem uma vida média de 50 meses. Sabe-se que o desvio-padrão correspondente é

de 4 meses. Coleta-se uma amostra de tamanho 36. Que porcentagem destas

amostras acusará vida média no intervalo de 1 mês em torno de 50 meses,

admitindo ser 50 meses a verdadeira vida média das baterias?

49

Estimador de Máxima Verossimilhança

Um dos melhores métodos de obter um estimador de um parâmetro é o método da

máxima verossimilhança. Essa técnica foi desenvolvida nos anos de 1920 pelo

famoso estatístico britânico Sir R. A. Fisher. Como o nome implica, o estimador será

o valor do parâmetro que maximiza a função verossimilhança.

Suponha que X seja uma variável aleatória com distribuição de probabilidade

( )θ,xf , em que θ é um único parâmetro desconhecido. Sejam nxxx ,,, 21 K os

valores observados na amostra aleatória de tamanho n . Então, a função

verossimilhança da amostra é

( ) ( ) ( ) ( )θθθθ ,,, 21 nxfxfxfL ⋅⋅⋅= L

O estimador de máxima verossimilhança é aquele que maximiza a função de

verossimilhança.

Passos para se encontrar o estimador de máxima verossimilhança:

1) Encontrar a função de verossimilhança )(θL ;

2) Calcular )(ln)( θθ Ll = ;

3) Calcular )(θθ

ld

d;

4) Igualar 0)( =θθ

ld

d e resolver em relação ao parâmetro escolhido.

Obs.: A função de verossimilhança da amostra ( )θL é apenas a probabilidade

( )nn xXxXP == ,,11 K

50

Exemplo:

Seja X normalmente distribuída, com média µ desconhecida e variância 2σ

conhecida. Qual o estimador de máxima verossimilhança para a média µ

considerando uma amostra de tamanho n ?

Sugestão: Utilize ( )( )

2

2

2

2

1, σ

µ

πσµ

−−

=

x

exf

Exercícios de estimadores

1) Seja X exponencialmente distribuída com parâmetro λ . A função de máxima

verossimilhança de uma amostra aleatória de tamanho n, nxxx ,,, 21 K é ?

Considere a função exponencial como xe λλ −

2) Refaça o exercício da distribuição normal considerando µ conhecido e

encontre o estimador para a variância 2σ .

3) Seja X uma variável aleatória, com a seguinte distribuição de probabilidade

( ) ( )

≤≤+

=contrariocaso

xxxf

,0

10,1,

θθθ

A função de máxima verossimilhança para o estimador θ , considerando uma amostra aleatória de tamanho n, nxxx ,,, 21 K é ?

Exercícios de revisão

1) Uma amostra aleatória de 200 possuidores de cartão de crédito mostra que o

débito médio anual nesses cartões, para contas individuais, é de $1592, com

desvio-padrão de $997. Construa o intervalo de 94% de confiança para o

débito médio anual em cartões de crédito para a população de todas as

contas.

51

2) 470430 << µ é um intervalo de 95% de confiança para as vidas (em minutos)

de pilhas Kodak AA. Suponha que este resultado se baseie em uma amostra

de tamanho 100.

a) Construa o intervalo de 99% de confiança;

b) Qual é o valor da média amostral?

c) Qual é o valor do desvio-padrão amostral?

d) Se se obtém com os mesmos dados o intervalo de confiança

468432 << µ , qual é o grau de confiança?

3) Construa um intervalo de 98% de confiança para a renda média de todos os

empregados de tempo integral que têm grau de bacharel. Uma amostra de 25

desses empregados revelou que a distribuição das rendas é

aproximadamente normal, com média $39.271 e desvio-padrão de $18.933.

4) Uma pesquisa de mercado para a Ford Motor Company revela que uma

amostra de 1220 residências selecionadas aleatoriamente inclui 1054 que

possuem um veículo. Com base nesses resultados, construa um intervalo de

98% de confiança para a porcentagem de todas as residências que possuem

um veículo.

5) Os valores relacionados são tempos de espera (em minutos) de clientes no

Jefferson Bank, onde os clientes entram em uma fila única que é atendida por

três guichês. Construa um intervalo de 95% de confiança para o desvio-

padrão populacional.

6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7

52

Regressão Múltipla

Este material foi retirado do livro: Estatística Aplicada e Probabilidade para

Engenheiros. Douglas C. Montgomery & George C. Runger.

1. Definição:

Uma equação de regressão linear múltipla expressa um relacionamento entre

uma variável dependente ou de resposta, iy , e as variáveis independentes ou

regressoras ( )ikii xxx ,,, 21 K .

O modelo de regressão linear múltiplo com k variáveis é definido por:

iikkiii xxxy εββββ +++++= L22110

i

k

jijji xy εββ ++= ∑

=10

Onde ni ,,2,1 K= e kn >

Notação:

n : tamanho da amostra;

k : número de variáveis independentes;

y : valor predito da variável dependente;

ikii xxx ,,, 21 K : variáveis independentes;

kββββ ,,,, 210 K : coeficientes de regressão;

ε : erro.

O parâmetro jβ representa a variação esperada na resposta y por unidade

de variação unitária em jx quando todos os outros regressores restantes ( )jixi ≠

forem mantidos constantes.

Exemplo:

53

a) 21 01253,074427,226379,2ˆ xxy ++= ;

2. Estimação de Mínimos Quadrados dos Parâmetros

O método dos mínimos quadrados pode ser usado para estimar os

coeficientes de regressão no modelo de regressão múltipla.

O objetivo é minimizar a função

∑ ∑

= =

=

−−=

=

n

i

k

jijji

n

ii

xy

L

1

2

10

1

2

ββ

ε

Queremos minimizar a função L com relação a kββββ ,,,, 210 K . As

estimativas de mínimos quadrados têm de satisfazer

0ˆˆ21 1

00ˆ,,ˆ,ˆ,ˆ

0210

=

−−−=

∂∑ ∑= =

n

i

k

jiji xy

L

k

βββ ββββ K (1)

e

kjxxyL

ij

n

i

k

j

ijij

k,,2,1,0ˆˆ2

1 1

00ˆ,,ˆ,ˆ,ˆ210

KK

==

−−−=

∂∑ ∑= =

βββ ββββ (2)

Simplificando as equações (1) e (2), obtemos as equações normais de

mínimos quadrados:

54

∑=

=∑=

++∑=

+∑=

+

∑=

=∑=

++∑=

+∑=

+

∑=

=∑=

++∑=

+∑=

+

=

=

n

iiyx

n

i

xk

n

iixx

n

i

xxx

n

iiyx

n

iikxxk

n

iixx

n

i

xx

n

iiy

n

iikxk

n

iix

n

iixn

ikikikiik

n

i

ik

iiii

n

i

i

11

ˆ

122

ˆ

11

ˆ0

ˆ

11

ˆ

122

ˆ

11ˆ

11

ˆ

122

ˆ

111

ˆ0

ˆ

21

1

11121

1

1

ββββ

ββββ

ββββ

K

MMMMM

K

K

Note que há 1+= kp equações normais, uma para cada um dos coeficientes

desconhecidos da regressão. A solução para as equações normais serão os

estimadores de mínimos quadrados.

Exemplo 1: Os dados referem-se a resistência à tração de um fio colado, em um

processo de fabricação de semicondutores, do comprimento do fio e da altura da

garra.

Número da

observação

Resistência à

tração

y

Comprimento

do fio

1x

Altura da garra

2x

1 9,95 2 50

2 24,45 8 110

3 31,75 11 120

4 35 10 550

5 25,02 8 295

6 16,86 4 200

7 14,38 2 375

8 9,60 2 52

9 24,35 9 100

10 27,50 8 300

11 17,08 4 412

12 37 11 400

13 41,95 12 500

55

14 11,66 2 360

15 21,65 4 205

16 17,89 4 400

17 69 20 600

18 10,30 1 585

19 34,93 10 540

20 46,59 15 250

21 44,88 15 290

22 54,12 16 510

23 56,63 17 590

24 22,13 6 100

25 21,15 5 400

Ajustaremos o modelo

iii xxy εβββ +++= 22110

De acordo com a tabela temos:

71,816.274;47,008.8;177.77

848.531.3;396.2;294.8

206;82,725;25

25

1

2

25

1

1

25

1

21

25

1

22

25

1

21

25

1

2

25

1

1

25

1

===

===

===

∑∑∑

∑∑∑

∑∑

===

===

==

i

ii

i

ii

i

ii

i

i

i

i

i

i

i

i

i

i

yxyxxx

xxx

xyn

Para o modelo a ser ajustado as equações normais são:

∑=

=∑=

+∑=

+

∑=

=∑=

+∑=

+

∑=

=∑=

+∑=

+

=

=

n

iiyx

n

i

xn

i

xxx

n

iiyx

n

iixx

n

i

xx

n

iiy

n

iix

n

iixn

iiii

n

i

i

iii

n

i

i

112

ˆ

11ˆ

1122

ˆ

11ˆ

1122

ˆ

111

ˆ0

ˆ

22221

1

2

1121

1

1

βββ

βββ

βββ

56

Substituindo as somas temos:

71,816.2742ˆ848.531.31

ˆ177.770ˆ294.8

47,008.82ˆ177.771

ˆ396.20ˆ206

82,7252ˆ294.81

ˆ2060ˆ25

=++

=++

=++

βββ

βββ

βββ

A solução encontrada é:

21 01253,07442,226379,2ˆ xxy ++=

3. Abordagem matricial para a regressão linear múltipla

O modelo de regressão é um sistema de n equações, que pode ser expresso

na notação matricial

εβ += Xy

onde

=

=

=

=

nknknn

k

k

n xxx

xxx

xxx

X

y

y

y

y

ε

ε

ε

ε

β

β

β

βMM

K

MMMM

K

K

M

2

1

1

0

21

22221

11211

2

1

;;

1

1

1

;

As equações normais do modelo são:

yXXX'' ˆ =β

'X representa a transposta da matriz X .

A estimativa de mínimos quadrados é:

( ) yXXX'1'ˆ

−=β

57

4. Estimativa da variância

A estimativa da variância é obtida através do estimador não-tendencioso

pn

SQ

pn

E

n

i

i

−=

−=

∑=1

2

ε

σ

onde

( ) εεε 'ˆ

1 1

22 ==−=∑ ∑= =

n

i

n

i

iiiE yySQ

No denominador temos pn −

que é denominado graus de liberdade do erro

ou do resíduo.

5. Testes de hipóteses para a regressão linear múltipla

5.1. Teste para a significância da regressão

O teste para a significância da regressão é um teste para determinar se existe

uma relação linear entre as variáveis de resposta e as regressoras.

As hipóteses são:

====

jummínimonoparaH

H

j

k

0:

0:

1

210

β

βββ K

A estatística de teste é dada por:

( )E

R

E

R

MQ

MQ

pnSQ

kSQ

F =

=0

onde

58

−−

−=

∑∑==

n

y

yXn

y

yySQ

n

i

i

n

i

i

E

2

1

2

1''ˆ' β

n

y

yXSQ

n

i

i

E

2

1''ˆ

−=

∑=β

Podemos também usar o 2R

e o 2R

ajustado como uma estatística global

para avaliar o ajuste do modelo. Assim temos:

( )

( )1

12

−−=

nSQ

pnSQ

RT

E

ajustado

5.2. Testes para os coeficientes individuais de regressão e subconjuntos de

coeficientes

As hipóteses para testar se um coeficiente individual de regressão, como jβ,

é igual a um dado valor 0jβ é:

=

01

00

:

:

jj

jj

H

H

ββ

ββ

A estatística de teste é dada por:

jj

jj

C

T2

00

ˆ

σ

ββ −=

59

6. Intervalos de confiança para a regressão linear múltipla

Um intervalo de confiança de ( )%1100 α− para o coeficiente de regressão

kjj ,,2,1,0, K=β no modelo de regressão linear múltipla é dado por:

jjpnjjjjpnj CtCt 2,2

2,2 ˆˆˆˆ σββσβ αα −− +≤≤−

7. Previsão de novas observações

Um intervalo de previsão de ( )%1100 α− para uma futura observação é dado

por:

( )( ) ( )( )01'

02

,20001'

02

,20 '1ˆˆ'1ˆˆ xXXxtyYxXXxty pnpn−

−−

− ++≤≤+− σσ αα

8. Uso computacional

Podemos utilizar vários softwares para fazer a regressão múltipla: R, SPSS,

Excel, Minitab, etc.

A seguir apresentamos os resultados do exemplo 1, inicial, usando o Excel:

RESUMO DOS RESULTADOS

Estatística de regressão

R múltiplo 0,990523843 R-Quadrado 0,981137483

R-quadrado ajustado 0,979422709 Erro padrão 2,288046833

Observações 25

Análise:

� R-quadrado ajustado dá o grau de relacionamento linear múltiplo, 0,979422709.

Ele leva em consideração o tamanho da amostra e o número de variáveis.

60

� Observações apresenta o tamanho da amostra, 25.

61

ANOVA

gl SQ MQ F F de significação

Regressão 2 5990,771221 2995,386 572,1671503 1,07546E-19 Resíduo 22 115,1734828 5,235158

Total 24 6105,944704

Análise:

� A estimativa da variância é dada por

pn

SQ

pn

E

n

i

i

−=

−=

∑=1

2

ε

σ

Na tabela acima esta estimativa é dada por MQ do resíduo, 5,235158. Ele

corresponde a soma dos quadrados, SQ, do resíduo dividido pelo grau de liberdade,

gl, do resíduo.

� No F de significação temos o teste de hipótese para verificar se o modelo

linear múltiplo é bem ajustado. Neste caso basta que seu valor seja menor

que o nível de significância.

Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores

Interseção 2,263791434 1,060066238 2,135519 0,04409945 0,065348623 4,462234246

Variável X 1 2,744269643 0,093523844 29,34299 3,90691E-19 2,550313062 2,938226225

Variável X 2 0,012527811 0,002798419 4,476746 0,000188266 0,006724246 0,018331377

Análise:

� Na tabela acima temos vários resultados e testes. Entre eles temos os valores

dos coeficientes da interseção, 2,263791434 , da variável X1, 2,744269643, e da

variável X2, 0,012527811.

� Também testamos se cada coeficiente é significativo, ou seja, se ele será ou

não acrescentado ao modelo. Neste caso é só observar na coluna do valor-P.

Caso este valor seja menor que o nível de significância então o coeficiente é

significativo, isto é, é utilizado no modelo.

Valor-P para Interseção: 0,04409945

Valor-P para variável X1: 3,90691E-19

Valor-P para variável X2: 0,000188266

� Temos também o intervalo de confiança para cada coeficiente. Neste caso é

só observar seus limites inferiores, na coluna 95% inferiores, e limites

62

superiores, na coluna 95% superiores. Estes valor de 95% é definido na hora

de construção do modelo, podendo variar.

Intervalo de confiança para a interseção: [ 0,065348623, 4,462234246]

Intervalo de confiança para a variável X1: [2,550313062, 2,938226225]

Intervalo de confiança para a variável X2: [0,006724246, 0,018331377]

RESULTADOS DE RESÍDUOS

Observação Y previsto Resíduos

1 8,37872129 1,57127871

2 25,59600783 -1,146007833 3 33,95409488 -2,204094876

4 36,59678413 -1,596784129 5 27,91365294 -2,893652939

6 15,74643228 1,113567716 7 12,45025999 1,92974001

8 8,403776913 1,196223087 9 28,21499936 -3,864999362

10 27,976292 -0,476291996 11 18,4023283 -1,322328298

12 37,46188206 -0,461882064 13 41,45893285 0,491067154

14 12,26234282 -0,60234282 15 15,80907134 5,840928659

16 18,25199456 -0,361994562 17 64,66587113 4,334128869

18 12,33683074 -2,036830738 19 36,47150602 -1,541506015

20 46,55978893 0,030211071 21 47,06090138 -2,180901385

22 52,56128953 1,558710467 23 56,30778409 0,322215913

24 19,98219043 2,147809568

25 20,9962642 0,153735795

Análise:

� Na tabela acima temos os resíduos do modelo, yy ˆ−=ε .

63

Exemplo:

1) A energia elétrica consumida mensalmente por uma indústria química está

relacionada à temperatura média ambiente ( )1x , ao número de dias no mês

( )2x , à pureza média do produto ( )3x e às toneladas do produto produzido

( )4x . Os dados históricos do ano passado estão disponíveis e são

apresentados na tabela a seguir:

y 1x 2x 3x 4x

240 25 24 91 100

236 31 21 90 95

270 45 24 88 110

274 60 25 87 88

301 65 25 91 94

316 72 26 94 99

300 80 25 87 97

296 84 25 86 96

267 75 24 88 110

276 60 25 91 105

288 50 25 90 100

261 38 23 89 98

Faça:

a) Encontre a reta de regressão;

b) Calcule a estimativa da variância;

c) Teste a significância da regressão;

d) Teste os coeficientes;

e) Encontre um intervalo de confiança de 95% para o coeficiente 0β e 1β da

regressão;

64

2) Um estudo foi realizado sobre o desgaste de um mancal, y , e sua relação

com 1x a viscosidade do óleo e 2x carga. Os dados são o seguinte:

y 1x 2x

293 1,6 851

230 15,5 816

172 22 1058

91 43 1201

113 33 1357

125 40 1115

Faça:

a) Encontre a reta de regressão;

b) Calcule a estimativa da variância;

c) Teste a significância da regressão;

d) Teste os coeficientes;

e) Encontre um intervalo de confiança de 95% para o coeficiente 0β e 1β da

regressão;

65

Experimentos Multinomiais

Observação: O conteúdo a seguir foi preparado utilizando o livro Introdução à

Estatística. Autor: M. F. Triola.

Neste tópico usaremos a distribuição qui-quadrado, 2χ , como estatística de teste.

Propriedades:

1. Ao contrário das distribuições normal e t de Student, a distribuição qui-

quadrado não é simétrica;

2. Os valores da distribuição qui-quadrado podem ser 0, zero, ou positivos, mas

nunca negativos;

3. Há uma distribuição qui-quadrado diferente para cada número de graus de

liberdade, 1−= nGL .

Definição:

Um experimento multinomial é um experimento que verifica as seguintes

condições:

1. O número de provas é fixo;

2. As provas são independentes;

3. Todos os resultados de cada prova devem ser classificados em

exatamente uma dentre várias categorias;

4. As probabilidades para as diferentes categorias permanecem

constantes (as mesmas) em cada prova.

66

A seguir apresentaremos um teste de aderência. Ele é utilizado para testar a

afirmação de que, em um experimento multinomial, as freqüências observadas nas

diferentes categorias se ajustam a determinada distribuição.

Exemplos:

1) Os confeitos M&M apresentam a seguinte distribuição de cores: 30% marrons,

20% amarelo, 20% vermelho, 10% laranja, 10% verde e 10% azul.

2) É comum a crença de que ocorre um maior número de acidentes fatais com

automóveis em determinados dias da semana, como sexta-feira ou sábado.

3) O gerente de determinado supermercado deve decidir a quantidade de cada

sabor de sorvete que deve estocar a fim de atender à demanda dos

consumidores, sem que haja perda de sabores menos procurados.

Definição:

Utiliza-se um teste de aderência para testar a hipótese de que uma

distribuição de freqüências observadas se ajusta (ou adere) a determinada

distribuição teórica.

Notação:

O : representa a freqüência observada de um resultado;

E : representa a freqüência esperada de um resultado;

k : representa o número de categorias, ou resultados, diferentes;

n : representa o número total de provas.

Em situação típica podemos encontrar a freqüência esperada, E, multiplicando a

probabilidade p de uma categoria pelo número de provas diferentes:

npE =

Suposições:

67

Segue as suposições válidas ao testarmos a proporção populacional alegada para

cada uma das k categorias ( em um experimento multinomial)

1) Os dados constituem uma amostra aleatória;

2) Os dados amostrais consistem em categorias de freqüências para as k

categorias diferentes;

3) Para cada uma das k categorias, a freqüência esperada é, no mínimo, 5.

(Não há qualquer exigência de que cada freqüência observada seja no

mínimo igual a 5.)

Estatística de teste de Aderência

( )∑

−=

E

EO2

Valores Críticos:

1. Na tabela A – 4 encontram-se os valores críticos, tomando-se 1−k

graus de liberdade;

2. Os testes de hipótese de aderência são sempre unilaterais à direita.

68

Exemplo:

1) Os confeitos M&M apresentam a seguinte distribuição de cores: 30% marrons,

20% amarelo, 20% vermelho, 10% laranja, 10% verde e 10% azul. A seguir

apresentamos os dados amostrais.

Tabela: Frequência dos confeitos M&M

Marron Amarelo Vermelho Laranja Verde Azul

Frequência

Observada 33 26 21 8 7 5

Teste a afirmação de que a distribuição de cores é a afirmada acima. Use nível de

significância 5%.

Solução:

Marron Amarelo Vermelho Laranja Verde Azul

Frequência

Observada 33 26 21 8 7 5

Frequência

esperada 30 20 20 10 10 10

Temos que:

Para os confeitos marron: 3030,0100 =⋅== npE

Analogamente construímos as freqüências esperadas.

O teste a ser feito é:

alegadovalordodiferenteéacimaproporçõesdasumamenospeloH

p

p

p

p

p

pH

azul

verde

laranja

vermelho

amarelo

marron

:

10,0

10,0

10,0

20,0

20,0

30,0:

1

0

=

=

=

=

=

=

Cálculo da estatística de teste:

69

Frequência

observada

Frequência

esperada EO − ( )2EO −

( )E

EO2−

Marron 33 30 3 9 0,3000

Amarelo 26 20 6 36 1,8000

Vermelho 21 20 1 1 0,0500

Laranja 8 10 -2 4 0,4000

Verde 7 10 -3 9 0,9000

Azul 5 10 -5 25 2,5000

Assim

( )9500,5

22 =

−=∑

E

EOχ

O valor crítico é 11,071.

Como a estatística de teste < valor crítico, 5,9500<11,071, então não rejeitamos 0H .

Exercícios:

1) Fez-se um estudo de 147 acidentes industriais que exigiram tratamento

médico. Desses acidentes, 31 ocorreram na segunda-feira, 42 na terça-feira,

18 na quarta-feira, 25 na quinta-feira e 31 na sexta-feira.

Teste a afirmação de que os acidentes ocorrem com a mesma proporção nos

cinco dias da semana.

2) O gerente do Supermercado Gleason deve decidir a quantidade de cada

sabor de sorvete que deve estocar a fim de atender à demanda dos

consumidores, sem que haja perda de sabores menos procurados. O

fornecedor de sorvete afirma que, entre os sabores mais populares, os

clientes têm as seguintes preferências: 62% preferem baunilha, 18% preferem

chocolate, 12% preferem napolitano e 8% preferem baunilha com calda.

Uma amostra de 200 clientes acusou os resultados a seguir. Teste se o

fornecedor identificou corretamente as preferências dos consumidores. Use

nível de significância de 5%.

Sabor Baunilha Chocolate Napolitano Baunilha em calda

Clientes 120 40 18 22

70

3) Com nível de significância de 0,05 e os dados de acidentes industriais do

exercício 1, teste a afirmação de um técnico de segurança de que os

acidentes se distribuem pelos dias úteis como se segue: 30% na segunda-

feira, 15% na terça, 15% na quarta, 20% na quinta e 20% na sexta.

71

Tabela de Contingência

Observação: O conteúdo a seguir foi preparado utilizando o livro Introdução à

Estatística. Autor: M. F. Triola.

Definição:

Uma tabela de contingência (ou tabela de freqüência de dupla entrada) é uma

tabela em que as freqüências correspondem a duas variáveis. (Uma variável

categoriza as linhas, a outra categoriza as colunas)

As tabelas de contingências são de grande importância pois são utilizadas para

analisar resultados de pesquisas.

Usaremos um teste, chamado teste de independência, usado para determinar se

uma variável linha de uma tabela de contingência é independente de sua variável

coluna.

Definição:

Utiliza-se um teste de independência para testar a hipótese nula de que a

variável linha e a variável coluna em uma tabela de contingência não estão

relacionadas, isto é, são independentes.

Obs.: No contexto deste material a palavra contingência se refere a dependência,

mas trata-se apenas de uma dependência estatística, e não pode ser usada para

estabelecer uma ligação direta de causa e efeito entre as duas variáveis.

Hipóteses em um teste de independência

sdependentesãoiáveisasH

tesindependensãoiáveisasH

var:

var:

1

0

72

Suposições:

4) Os dados constituem uma amostra aleatória;

5) Para cada célula na tabela de contingência, a freqüência esperada é, no

mínimo, 5. (Não há qualquer exigência de que cada freqüência observada

seja no mínimo igual a 5.)

Estatística de teste

( )∑

−=

E

EO2

Valores Críticos:

3. Na tabela A – 4 encontram-se os valores críticos, tomando-se graus de

liberdade

( )( )11 −−= crgl

onde:

r: número de linhas

c: número de colunas.

4. Os testes de hipótese de independência com tabelas de contingência

envolvem apenas regiões críticas unilaterais à direita.

Freqüência esperada para uma tabela de contingência

( )( )geraltotal

colunastotallinhastotalE =

73

Exemplo:

2) (Livro Estatística Aplicada à Gestão Empresarial – Adriano L. Bruni) Os dados

a seguir referem-se ao cruzamento entre as variáveis: possui habilitação e

sexo, de 53 funcionários de um escritório de contabilidade.

Tabela: Sexo versus Habilitação

Habilitado

Sim Não Total

Feminino 9 12 21

Masculino 25 7 32

Total 34 19 53

Teste se as variáveis são independentes. Use nível de significância 5%.

Solução:

O teste a ser feito é:

sdependentesãoiáveisasH

tesindependensãoiáveisasH

var:

var:

1

0

Cálculo das freqüências esperadas.

Habilitado

Sim Não

Feminino 47,1353

3421=

⋅ 53,7

53

1921=

Masculino 53,2053

3432=

⋅ 47,11

53

1932=

74

Cálculo da estatística de teste:

Habilitado

Sim Não

Feminino ( )

483,147,13

47,139 2

=−

( )

654,253,7

53,712 2

=−

Masculino ( )

973,053,20

53,2025 2

=−

( )

742,147,11

47,117 2

=−

Assim

( )852,6742,1973,0654,2483,1

22 =+++=

−=∑

E

EOχ

Graus de liberdade: ( )( ) ( )( ) 1121211 =−−=−−= crgl

Valor crítico: 841,32 =χ

Como a estatística de teste > valor crítico, 6,852 > 3,841, então não rejeitamos 0H .

Logo as variáveis são independentes.

Exercícios:

1) A tabela a seguir apresenta os resultados de 1580 dados amostrais entre a

causa de morte e condição da pessoa.

Causa da Morte

Ferimento

acidental Doença

Homicídio

Ou Suicídio

Em zona de combate 115 56 29

Fora da zona de combate 175 94 31

2) (Triola) Fez-se uma pesquisa para determinar se há restrições, quanto ao

sexo, na confiança que o povo deposita na polícia. Os resultados amostrais

constam da tabela a seguir. Com nível de 0,05 de significância, teste a

afirmação de que não há tal restrição.

Confiança na polícia

Muita Alguma Muito pouca ou

75

nenhuma

Homens 115 56 29

Mulheres 175 94 31

Fonte: Ministério da Justiça dos EUA e da Gallup Organization

3) (Triola) A tabela a seguir relaciona resultados de uma pesquisa obtidos de

uma amostra aleatória de vítimas de diferentes crimes. Com nível de 0,05 de

significância, teste a afirmação de que o tipo de crime é independente do fato

de o criminoso ser um estranho.

Tipo de crime

Homicídio Roubo Assalto

Criminoso era um estranho 12 379 727

Criminoso era conhecido ou

parente 39 106 642

76

Resíduos Padronizados

Definição

Os resíduos (diferenças entre freqüência observada e esperada) numa forma

padronizada, ou seja, expressos em unidades de desvios-padrão é dado por

−⋅

−=

TG

TL

TG

TCE

EOZres

11

onde:

O: freqüência observada;

E: freqüência esperada;

TC: total de colunas;

TL: total de linhas;

TG: total geral.

Os resíduos padronizados representam valores de relação biunívoca com

probabilidades de ocorrência, valores maiores que 1,96 ou menores que -1,96 têm

pequenas chances de ocorrência, e podem assim instruir pontos de corte para um

nível de significância de excesso ou falta de ocorrências, respectivamente.

Exemplo: Voltando ao exemplo 1, temos:

Tabela: Sexo versus Habilitação

Habilitado

Sim Não Total

Feminino 9 12 21

Masculino 25 7 32

Total 34 19 53

A freqüência esperada é dada por:

Habilitado

Sim Não

Feminino 47,13 53,7

77

Masculino 53,20 47,11

Os resíduos é dado por:

−⋅

−=

TG

TL

TG

TCE

EOZres

11

Habilitado

Sim Não

Feminino 62,2

53

211

53

34147,13

47,139−=

− 62,2

53

211

53

19153,7

53,712=

Masculino 62,2

53

321

53

34153,20

53,2025=

− 62,2

53

321

53

19147,11

47,117−=

Análises:

1) Verificamos inicialmente que o módulo da diferença entre as freqüências

observadas e esperadas são iguais para todas as células. Neste caso não

podemos dizer qual das células mais influenciou para o resultado da

estatística de teste;

2) Analisando os resíduos vemos também que eles são, em módulos, iguais.

Considerando um nível de significância de 5%, onde o valor crítico seria

±1,96, percebemos que ambos os resíduos são superiores a este valor. Isto

indica que todos os resultados são igualmente pouco prováveis. Sendo assim

elas são significantes. Neste caso não há nenhuma freqüência que causasse

maior impacto, todas tiveram o mesmo impacto.

3) Não podemos dizer o que valor 25, na tabela de contingência, indicasse que o

número de homens habilitados seria de maior impacto.

78

Introdução a Séries Temporais

Definição

Uma série temporal consiste em um conjunto de observações de

variáveis quantitativas coletadas ao longo do tempo.

Exemplos:

1) Vendas mensais de uma fábrica de sorvete;

2) Preço semanal de gasolina;

3) Evolução do preço diário de uma ação ao longo do tempo;

4) Temperatura diária em uma cidade.

As séries temporais podem englobar dados diários, semanais, mensais, etc. Neste

caso a ordem dos dados é fundamental.

Os modelos de análise de séries temporais geralmente preocupam-se em estimar o

comportamento futuro de uma série, com base em seus dados passados.

Genericamente, os modelos de previsão empregados em séries temporais podem

ser apresentados da seguinte forma:

( )K,,,ˆ211 −−+ = tttt YYYfY

Componentes de séries temporais

a) Tendência: descreve um movimento suave, a longo prazo, dos dados, para

cima ou para baixo.

b) Variações cíclicas: correspondem a um certo grau de regularidade a longo

prazo (1 ano, dez anos, 50 anos) no comportamento das séries temporais.

Exemplo: aumento das vendas de bandeira do Brasil em função da copa do

mundo de futebol.

c) Variações sazonais: representam regularidades de variações na série em

períodos curtos de tempo (semanas, dias, quinzenas, meses, etc), geralmente

dentro de um ano. Exemplo: vendas de ovos de páscoa nos meses de março

e abril.

79

d) Variações irregulares ou aleatórias: correspondem a ruídos na série temporal

em decorrência de fatores variados. Como são aleatórios não são previstos

no modelo.

Exemplos:

Uma série é dita estacionária se ela for convergente. Ela flutua em torno de um

ponto.

Uma série é dita não-estacionária se ela for divergente. Neste caso ela tem raiz

unitária. Uma opção para tornar a série estacionária é aplicar o operador diferença.

80

Exemplo:

1) Dados fictícios

Quadrimestre Periodo Y 1998 1 6,7 1998 2 4,4 1998 3 5,8 1998 4 6,2 1999 1 2,1 1999 2 0,1 1999 3 0,8 1999 4 1,5 2000 1 6 2000 2 3,9 2000 3 4,9 2000 4 4,7 2001 1 12,9 2001 2 10,9 2001 3 11,4 2001 4 11,9 2002 1 8,3 2002 2 5,4 2002 3 6,4 2002 4 6,8 2003 1 11,6 2003 2 9,7 2003 3 10,6 2003 4 11,2 2004 1 19,3 2004 2 16,2 2004 3 17,6 2004 4 18,3 2005 1 13,8 2005 2 11,5 2005 3 12,2 2005 4 12,6

81

2) Para ilustrar dados envolvendo sazonalidade considere a venda de

sorvete:

Ano Quadrimestre

1

Quadrimestre

2

Quadrimestre

3

Total

1998 170 250 180 600

1999 174 245 186 605

2000 168 262 168 598

2001 182 260 160 602

2002 154 240 210 604

Total 848 1257 904 3009

1) Para ilustrar dados envolvendo sazonalidade com médias móveis considere a

demanda de calçados

82

Quadrimestre Demanda

2000:1 11

2000:2 12

2000:3 13

2001:1 19

2001:2 18

2001:3 19

2002:1 26

2002:2 24

2002:3 25

Modelos:

1) Médias móveis simples

Os modelos de médias móveis simples sugerem que a estimativa do valor futuro

+tY pode ser feita com base em uma média aritmética simples de k valores passados. Assim,

k

YYYYY ktttt

t121

1ˆ +−−−

+++++

=K

2) Médias móveis ponderados

No modelo de médias móveis ponderadas deve-se atribuir um peso para cada ano

analisado. Assim,

1231211ˆ

+−−−+ ++++= ktktttt YwYwYwYwY K

Onde

iw : pesos

83

Geralmente, dados mais recentes recebem maior ponderação. 3) Alisamento exponencial

A previsão feita para o período posterior 1ˆ

+tY deve ser igual à previsão feita para o

período anterior tY , acrescido de um ajuste ( )[ ]tt YY ˆ−α , função do erro da previsão

efetuada para o período anterior. O valor de α deve estar compreendido entre 0 e 1.

Algebricamente temos:

( )tttt YYYY ˆˆˆ1 −+=+ α

Expandindo a expressão anterior encontramos:

( ) ( ) ( ) ntn

tttt YYYYY −−−+ −++−+−+= ααααααα 111ˆ2

211 K

Para poder aplicar o modelo, assume-se que, no primeiro ano, o valor estimado é o próprio valor realizado.

4) Tendência com modelo de regressão

Neste modelo utiliza-se a regressão linear simples onde

bxay += onde

( ) ( )( )( ) ( )22 ∑∑

∑∑∑−

−=

xxn

yxxynb

n

xbya

∑∑ −=

Análise da qualidade da previsão

1) Desvio médio absoluto: representa a soma dos desvios absolutos,

representados pelo módulo da diferença ou diferença absoluta entre a

demanda real e a prevista.

∑=

−=

n

i

ii

n

YYDMA

1

ˆ

2) Erro quadrático médio: representa a soma dos desvios ao quadrado,

representados pela diferença entre a demanda real e a prevista.

( )∑=

−=

n

i

ii

n

YYEQM

1

Exemplo:

84

1) Considere o histórico de vendas a seguir

Mês Vendas Jan 92 Fev 83 Mar 66 Abr 74 Mai 75 Jun 84 Jul 84 Ago 81 Set 75 Out 63 Nov 91 Dez 84

Calcule, utilizando a média móvel dos últimos 3 meses.

a) a previsão para o mês de janeiro seguinte b) Desvio médio absoluto c) Erro quadrático médio

Solução: a) Considerando a média dos 3 anteriores meses temos

33,79ˆ

3

849163ˆ

=

++=

++=

janeiro

janeiro

deznovoutjaneiro

Y

Y

YYYY

b) Completando a tabela com as previsões temos:

Mês Vendas Y

Previsão Y

YY ˆ−

( )2YY −

Jan 92 Fev 83 Mar 66 Abr 74 80,33 6,33 40,0689 Mai 75 74,33 0,67 0,4489 Jun 84 71,67 12,33 152,0289 Jul 84 77,67 6,33 40,0689 Ago 81 81 0 0 Set 75 83 8 64 Out 63 80 17 289 Nov 91 73 18 324 Dez 84 76,33 7,67 58,8289

Logo

85

481,89

33,76ˆ

1

==−

=∑=

n

i

ii

n

YYDMA

c) O erro quadrático médio será

( )605,107

9

4445,968ˆ

1

2

==−

=∑=

n

i

ii

n

YYEQM

2) Refaça o exemplo anterior utilizando a média móvel ponderada com pesos

0.3, 0.4 e 0.5 para o terceiro, segundo e primeiro mês anterior,

respectivamente.

3) A previsão antiga da demanda do composto RK era de 100 unidades. A última

demanda real foi de 85 unidades. Qual é a previsão exponencialmente

nivelada para o próximo período? Alfa tem valor 0,2.

4) Considere os dados amostrais:

Semana Demanda

1 150

2 159

3 160

4 167

5 173

6 175

7 185

8 188

Utilizando o alisamento exponencial faça as previsões para cada semana e para a

semana 9, sendo:

a) Alfa de 0,2

b) Alfa de 0,3

c) Calcule o desvio médio de cada item anterior, (a) e (b)

d) Com base no desvio médio, qual a melhor previsão?

86

5) O consumo de um componente das Fábricas Tronic os últimos 10 meses foi

igual a: 750, 680, 740, 710, 690, 640, 670, 720, 700 e 660. Calcular, com

base em análise de regressão, a previsão de consumo para o 11º mês.

87

Bibliografia

1. TOLEDO, Geraldo Luciano. OVALLE, Ivo Izidoro. Estatística Básica. 2ª edição. São Paulo: Atlas, 1985. 2. MONTGOMERY, Douglas C., RUNGER, George C.. Estatística aplicada e probabilidade para engenheiros. Rio de Janeiro: LTC, 2009. 3. MILONE, Giuseppe. Estatística: geral e aplicada. São Paulo: Thomson Learning, 2006. 4. BRUNI, Adriano Leal. Estatística aplicada à gestão empresarial. 2ª edição. São Paulo: Atlas, 2008. 5. TRIOLA, Mário F., Introdução à Estatística. Rio de Janeiro. Editora LTC. 7.ª edição, 2008.

88

Anexo 1

Comandos Software R #======================================================= Gerar amostras aleatórias #======================================================= criar vetor de amostras x sort(x)# ordena os valores de x. sample(x,5,T)# gera 5 amostras do vetor x com reposição sample(x,5)# gera 5 amostras do vetor x sem reposição #======================================================= # Mudar diretório #======================================================= Arquivo Mudar diretorio Nome da pasta #======================================================= # Leitura e Preliminares dos Dados #======================================================= Leitura dos dados gasolina <- scan(file="gasolina.txt") frango <- scan(file="frango.txt") alcatra <- scan(file="alcatra.txt") dados<-data.frame(frango,alcatra) # banco de dados juntos frango + alcatra attach(dados)# apresenta os nomes das variáveis names(dados)# apresenta os nomes das variáveis dim(dados) # dimensão dos dados dados[1:15]# apresenta os 15 primeiros resultados

89

#========================================================== # Estatísticas Descritivas #========================================================== summary(gasolina) summary(frango) mean(gasolina) median(gasolina) quantile(gasolina) # retorna os quartis var(gasolina)# variância cov(frango,alcatra) #Covariância cor(frango,alcatra)#correlação #============================================================== # Tabela #=============================================================== table(frango)# apresenta tabela distribuição frequencia simples. #============================================================== # Graficos #=============================================================== boxplot(gasolina,ylab="Preços da Gasolina") boxplot(frango,alcatra,ylab="Preços",xlab="frango X alcatra") hist(frango) plot(alcatra) pairs(cbind(frango,alcatra)) # faz o gráfico de dispersão x1 versus x2 e vice versa t<-ts(frango) # transforma um conjunto de dados frango em uma série temporal plot(t)# faz o gráfico da série temporal par(mfrow=c(2,1))#divide a tela em 2. hist(gasolina)

90

abline(v=mean(gasolina))# faz uma linha na média de x1. abline(v=median(gasolina))# faz uma linha na mediana de x1. abline(v=quantile(gasolina))# faz uma linha nos quantis de x1. #============================================================== Regressão linear #=============================================================== plot(x, y) # gráfico de dispersão. fm <- lm(y ~ x) # regressão entre conjuntos pareados y e x. fm # apresenta os coeficientes da regressão. anova(fm)# apresenta tabela anova do modelo. abline(lm(y~x)) # traça a reta de regressão.