intervalos de confianÇa bootstrap para modelos de...

17
Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003 25 INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE REGRESSÃO COM ERROS DE MEDIDA Wellington José da CUNHA 1 Enrico Antônio COLOSIMO 2 RESUMO: As medidas realizadas no dia-a-dia estão sujeitas a erros. Esses erros podem acontecer devido a leitura feita nos instrumentos, no registro dos valores, na precisão dos instrumentos, etc. Nas situações em que se deseja verificar a associação entre uma variável resposta e variáveis explicativas através de um modelo de regressão, os estimadores podem ser viciados se estas últimas estiverem sujeitas a erros de medição. Alguns estimadores foram propostos para reduzir o vício nessas situações. Entre os estimadores propostos, os que nos interessa são os chamados estimadores plug-in. Entretanto, apesar desses estimadores minimizarem o vício e terem uma expressão simples, não existe uma expressão na literatura para a variância assintótica destes. Isso pelo fato de serem necessárias duas etapas no processo de estimação dos parâmetros, gerando grande complexidade na estrutura do modelo. Desse modo se faz necessária a utilização de métodos computacionais de reamostragem capazes de determinar intervalos de confiança. Nos modelos em que não se pode estimar intervalos de confiança pelos métodos usuais, utilizaremos o método de reamostragem bootstrap para construí-los. Entre os intervalos bootstrap, serão utilizados neste artigo os intervalos percentil, BCa e bootstrap-t. Nas simulações de Monte Carlo consideradas neste trabalho, o bootstrap se mostrou eficiente na estimação de intervalos de confiança, destacando-se o intervalo percentil pela sua maior simplicidade com igualdade de performance em relação aos demais. PALAVRAS-CHAVE: Erro de medida; bootstrap; intervalos de confiança; modelos de regressão. 1 Introdução Geralmente as medidas realizadas com utilização ou não de aparelhos estão sujeitas a erros de medição. Ao agravar-se esses erros de medida, a análise estatística produzirá resultados diferentes dos desejados ou com um grau de qualidade inferior ao pretendido. Reconhecendo a existência do erro na medição e considerando todas as incertezas significativas atribuíveis ao equipamento de medição, aos procedimentos pessoais e ao 1 Departamento de Ciências da Computação, Universidade Federal de Minas Gerais - UFMG, CEP: 31270-010, Belo Horizonte, Minas Gerais, Brasil. 2 Departamento de Estatística, Universidade Federal de Minas Gerais - UFMG, CEP: 31270-010, Belo Horizonte, Minas Gerais, Brasil. E-mail: [email protected]

Upload: hahanh

Post on 12-Dec-2018

229 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

25

INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE REGRESSÃO COM ERROS DE MEDIDA

Wellington José da CUNHA1 Enrico Antônio COLOSIMO2

• RESUMO: As medidas realizadas no dia-a-dia estão sujeitas a erros. Esses erros podem acontecer devido a leitura feita nos instrumentos, no registro dos valores, na precisão dos instrumentos, etc. Nas situações em que se deseja verificar a associação entre uma variável resposta e variáveis explicativas através de um modelo de regressão, os estimadores podem ser viciados se estas últimas estiverem sujeitas a erros de medição. Alguns estimadores foram propostos para reduzir o vício nessas situações. Entre os estimadores propostos, os que nos interessa são os chamados estimadores plug-in. Entretanto, apesar desses estimadores minimizarem o vício e terem uma expressão simples, não existe uma expressão na literatura para a variância assintótica destes. Isso pelo fato de serem necessárias duas etapas no processo de estimação dos parâmetros, gerando grande complexidade na estrutura do modelo. Desse modo se faz necessária a utilização de métodos computacionais de reamostragem capazes de determinar intervalos de confiança. Nos modelos em que não se pode estimar intervalos de confiança pelos métodos usuais, utilizaremos o método de reamostragem bootstrap para construí-los. Entre os intervalos bootstrap, serão utilizados neste artigo os intervalos percentil, BCa e bootstrap-t. Nas simulações de Monte Carlo consideradas neste trabalho, o bootstrap se mostrou eficiente na estimação de intervalos de confiança, destacando-se o intervalo percentil pela sua maior simplicidade com igualdade de performance em relação aos demais.

• PALAVRAS-CHAVE: Erro de medida; bootstrap; intervalos de confiança; modelos de regressão.

1 Introdução

Geralmente as medidas realizadas com utilização ou não de aparelhos estão sujeitas a erros de medição. Ao agravar-se esses erros de medida, a análise estatística produzirá resultados diferentes dos desejados ou com um grau de qualidade inferior ao pretendido. Reconhecendo a existência do erro na medição e considerando todas as incertezas significativas atribuíveis ao equipamento de medição, aos procedimentos pessoais e ao

1 Departamento de Ciências da Computação, Universidade Federal de Minas Gerais - UFMG, CEP: 31270-010, Belo Horizonte, Minas Gerais, Brasil. 2 Departamento de Estatística, Universidade Federal de Minas Gerais - UFMG, CEP: 31270-010, Belo Horizonte, Minas Gerais, Brasil. E-mail: [email protected]

Page 2: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

26

ambiente, a norma ISO 10012-1 associada à Série ISO 9000 apresenta requisitos de garantia da qualidade das medições.

Para que possamos tomar ações que minimizem os efeitos desses possíveis erros, é necessário entendê-los melhor. Esses erros podem ocorrer devido a várias circunstâncias, cujas possíveis causas são as seguintes:

• métodos e técnicas de coleta de dados, como entrevista, observação ou questionário. Incluindo erros de resposta por desonestidade, por confusão, por ignorância, por falta de cuidado, todos gerados por falta de treinamento adequado ou pelo método usado para obter a resposta. Incluímos também, nessa possível causa, erros de coleta dos dados por falha nos equipamentos, que podem ser devidos a desgastes dos componentes, falta de calibração ou a condições ambientais, que geram variabilidade em instrumentos de leitura. É muito comum também a confusão na leitura da resposta, em alguns casos até leitura errada da variável ou aparelho com a unidade de medida inadequada para a situação;

• processamento inadequado, como utilização de técnica de análise e processamento de dados de pouca confiança ou não apropriados para o problema estudado;

• armazenamento com pouca confiabilidade, falhas na entrada dos dados para o processamento, ou perda de informações;

• outros problemas que podem ocorrer após a coleta de dados. A análise estatística utilizando modelos de regressão envolve a estimação de

parâmetros de interesse. Os métodos clássicos de estimação supõem um processo de medição sem erro ou com erro desprezível, suposição esta muitas vezes difícil de ser obtida e de elevado custo.

Esquematicamente, podemos descrever o processo de estimação de parâmetros com ou sem erro de medida pelas Figuras 1(a) e 1(b). Na ausência de erro de medida usamos uma função de estimação usual, que pode ser de mínimos quadrados ou máxima verossimilhança, e obtemos uma estimativa do parâmetro de interesse (Figura 1(a)). Na presença de erro de medição, o valor verdadeiro não é observado, pois o valor observado está contaminado com um erro devido ao processo de medição que é usualmente aditivo (Figura 1(b)), e que produz um vício na estimativa (Fuller, 1987). O estimador de regressão desconhecido nesse processo de estimação, que desconsidera a existência de erro, será chamado de usual ( Nβ ) e tende a zero com o aumento do erro.

O prejuízo causado por uma medição incerta pode levar a diagnósticos incorretos. Assim, se faz necessária a utilização de métodos estatísticos, para que os efeitos desse erro de medida, no processo que segue a essa etapa, sejam minimizados. São dois os modelos estatísticos para incorporar o erro de medida: o modelo funcional, que considera xi como sendo fixo e o estrutural, que considera xi como sendo uma variável aleatória. Neste artigo consideremos o modelo estrutural com ui sendo uma variável aleatória normal, ),0(N 2

uσ . Buscando minimizar esse efeito do erro de medida, alguns estimadores foram

propostos na literatura, dentre os quais podemos citar os estimadores desenvolvidos por Carroll e Stefanski (1990), James e Stein (James e Stein, 1961; Whittemore, 1989), Stefanski (1985), Fuller (Fuller,1987; Lyles e Kupper, 1999) e Whittemore e Keller (1988).

Classificamos os estimadores para modelos de regressão com erro nos regressores em dois tipos: estimadores plug-in e de atenuação do vício. Os estimadores plug-in estimam o valor verdadeiro através dos valores observados e, de posse desses valores ajustados,

Page 3: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

27

utilizam a função de estimação usual, no modelo estudado, para estimar o parâmetro de interesse (Figura 2(a)). Já os estimadores que fazem uma atenuação do vício do estimador clássico, corrigem esse vício a partir do estimador usual. A correção é feita através de uma função de ajuste desse parâmetro, como mostrado na Figura 2(b).

FIGURA 1 - Processos de estimação em modelos: (a) sem erro de medição; (b) com erro de medição.

Tipos de correção

(a)

(b)

FIGURA 2 - Esquema da correção, em um modelo de regressão, utilizando um estimador: (a) plug-in e (b) atenuação do vício.

Os estimadores plug-in são mais simples e independem do modelo de regressão

utilizado, motivo pelo qual se tornam extremamente interessantes. Entretanto, nos deparamos

(a)

(b)

Page 4: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

28

com a dificuldade de obter as suas variâncias assintóticas, necessárias à construção de intervalos de confiança. Essa dificuldade se deve ao fato do processo de estimação ser realizado em duas etapas, uma para a função de estimação de x e outra para estimação dos parâmetros do modelo, ou algo semelhante, quando estivermos trabalhando com atenuação do vício.

Devido a essa dificuldade, utilizaremos neste trabalho a técnica de reamostragem bootstrap (Efron e Tibshirani, 1993) para a construção de intervalos de confiança.

2 Estimadores para o modelo de regressão com erro nos regressores

Entre os estimadores propostos na literatura, avaliaremos os estimadores plug-in de James-Stein (Whittemore, 1989) e Carrol e Stefanski (1990)), e os estimadores de atenuação de Fuller (1987) e Stefanski (1985).

2.1 Estimadores plug-in

2.1.1 O estimador de James-Stein

O estimador de Stein foi proposto por Whittemore (1989) para substituir o valor observado z, e em seguida estimar os parâmetros do modelo de regressão da forma usual como se este estimador fosse o valor não observado x. A estimativa que substituirá a co-variável observada z é

,,...,1 ,)ˆ1(ˆ)( nizBBze ii =−+= z

(1)

em que S

nB u

ˆ)3(ˆ

2 −= σ, �

=

−=n

kk zzS

1

2)(ˆ e 2uσ é a variância do erro de medida, u,

(Figura 1). A variância 2

uσ pode ser estimada como apresentado em Gimenez; Bolfarine e Colosimo (1999), quando temos repetidas medidas da variável medida com erro. Dessa

forma, 22

21

ˆˆˆˆ

uz

zxk

σσσ−

=− , sendo que � −−

=1)(

ˆ2

2

nzzi

zσ e 2uσ é estimado por

)1(

)(

ˆ 1 1

2

2

=��

= =

knk

zzn

i

k

jiij

(2)

Page 5: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

29

com i = 1, ..., n e j = 1, ..., k, sabendo-se que n é o tamanho da amostra, k é o número de

repetições de medidas da variável e �=

=k

jiji z

kz

1

1.

2.1.2 O estimador de Carroll-Stefanski

Neste caso estimamos a variável não observada por sua esperança condicional, dado o valor observado z; isto é,

iii zBzBzxE )'ˆ1('ˆ)|(ˆ −+=

(3)

com S

nB u

ˆ)1(

'ˆ2 −= σ

e � −= 2)(ˆ zzS i . Se 2uσ não for conhecido, estimamos 2

uσ como

descrito pela Expressão (2). O estimador proposto por Carroll e Stefanski (1990) difere do apresentado por Whittemore (1989) apenas pela constante n-3 que é substituída por n-1 no

numerador de 'B .

2.2 Estimadores de atenuação do vício

2.2.1 O estimador de Fuller

No contexto de regressão linear simples, o estimador proposto por Fuller (1987) é baseado na determinação do vício produzido pelo erro na medição dos dados. O vício descrito por Fuller (1987) determina o fator

2

221

x

uxxk

σσσ +=−

que é o atenuador de Fuller. Assim, para obter um estimador de menor vício basta que se multiplique o estimador usual pelo atenuador de Fuller, ou seja

1ˆˆ −⋅= xNF kββ

(4)

Caso kx seja conhecido, o parâmetro estimado por Fuller é muito simples de ser obtido. Um dos problemas para se obter kx é devido ao fato de que 2

xσ não é usualmente

conhecido. Mas podemos resolver este problema usando 2zσ que é estimado pelos dados da

medição.

,

.

Page 6: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

30

Observemos que

22

2

22

222

2

221

uz

z

uz

uuz

x

uxxk

σσσ

σσσσσ

σσσ

−=

−+−=+=−

(5)

2.2.2 O estimador de Stefanski

Stefanski (1985) propôs um estimador que é utilizado tanto em modelos lineares quanto em modelos não-lineares, nos casos estrutural e funcional de erro de medida. Considere um modelo em que a sua resposta tem função de densidade dada por ),( zyfβ e

y é a variável resposta. O parâmetro β pode ser estimado pelo método de mínimos quadrados nos modelos lineares, ou nos casos não lineares pela solução da equação

�=

=n

iii zy

1

0),,( βψ

(6)

em que ψ é o componente da função escore

( ))),(ln(),,( iiii zyfzy βββψ

∂∂=

O estimador proposto por Stefanski (1985), chamado de Sβ , que atenua o vício atribuído ao erro de medida é definido por

��

���

��

���

∂∂

��

���

��

���

∂∂

+= ��=

=

n

i i

iin

i

iiuNS

z

zyzy

12

21

1

2 )ˆ,,(ˆ

)ˆ,,(21ˆˆ βψ

ββψσββ

(7)

em que 2uσ é a variância do erro de medida, que se não for conhecido é estimado como

descrito pela Expressão (2), e ψ é dado pela equação (6). Uma justificativa para a expressão (7) pode ser encontrada em Stefanski (1985).

3 Bootstrap

Descreveremos sucintamente o método de reamostragem chamado de bootstrap, introduzido por Efron (1979), e usado para estimar a distribuição das estatísticas de interesse, que muitas vezes são extremamente difíceis de serem obtidas pelos métodos tradicionais (exatos e assintóticos).

O bootstrap pode ser paramétrico ou não-paramétrico. O bootstrap não-paramétrico considera que a função de distribuição F, dos dados, é desconhecida e estimada através da

distribuição empírica F . Já o bootstrap paramétrico considera que a função de distribuição

F pode ser estimada por parF a partir de um modelo paramétrico conhecido para os dados.

,

,

.

.

Page 7: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

31

Suponhamos que seja observada uma amostra aleatória nwww ,...,, 21 de uma

distribuição F estimada pela distribuição F , que pode ser paramétrica ou não. Assim, ),...,,( 21 nwww=w representa o vetor dos dados, para os quais se calcula o estimador

)ˆ(ˆ Fs=β de um parâmetro de interesse )(Fs=β .

Consideraremos que F é a distribuição empírica de w. Então uma amostra bootstrap

( )**2

*1 ,...,, nwww=*w é construída escolhendo-se aleatoriamente, com reposição, n

elementos da amostra ),...,,( 21 nwww=w . Por exemplo, com 6=n , poderíamos pensar

em ),,,,,( 141635 wwwwww=*w . A replicação bootstrap do parâmetro de interesse para

essa amostra bootstrap é denotada por *β . Se forem geradas B amostras bootstrap *B*2*1 www ,...,, , a replicação bootstrap do parâmetro de interesse para a b-ésima

amostra é dada por

)()(ˆ* *bwsb =β (8)

ou seja, é o valor de β para a amostra bootstrap *bw .

3.1 Estimativa do erro-padrão

A expressão para o estimador bootstrap do erro-padrão (Efron e Tibshirani, 1993) é dada por

�= −

� � ⋅−

=B

bboot

b

1

2**

1B

)(ˆ)(ˆˆ

ββσ

(9)

em que �=

=⋅B

b

b

1

**

B)(ˆ

)(ˆ ββ , )(ˆ* bβ é descrita em (8) e B é o número de replicações

bootstrap, ou seja, o estimador bootstrap do erro-padrão amostral é o desvio-padrão de suas replicações.

3.2 Intervalos de Confiança Bootstrap

Através do uso do bootstrap podemos obter intervalos aproximados de 100(1-2α)% de confiança para o parâmetro de interesse β. Descreveremos, nas seções 3.2.1, 3.2.2 e 3.2.3, diferentes métodos para a construção de intervalos de confiança bootstrap chamados de bootstrap-t, percentis bootstrap e BCa.

,

,

Page 8: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

32

3.2.1 Intervalo bootstrap-t

O intervalo de 100(1-2α)% de confiança bootstrap-t é dado por,

( )σβσβ αα ˆˆˆ,ˆˆˆ )()1( ⋅−⋅− − TT em que foram geradas B amostras bootstrap w*1, w*2, ..., w*B. Para cada uma delas calculamos

)(ˆ

ˆ)(ˆ)( *

**

bb

bTσ

ββ −= , com b = 1,2, ..., B,

em que )(ˆ* bβ é o valor de β para a amostra bootstrap w*b dado em (8) e )(ˆ * bσ é o

erro-padrão bootstrap do estimador )(ˆ* bβ com base na amostra w*b, conforme a Expressão

(9). O α -ésimo percentil de T* é estimado pelo valor )(ˆ αT tal que

{ } αα

=≤B

TT )(* ˆ#

3.2.2 Intervalo de confiança baseado nos percentis bootstrap

Um conjunto de dados bootstrap *w é gerado de acordo com *w→F . De posse

desse conjunto de dados são calculadas replicações bootstrap )(ˆ * *ws=β . Considerando

que G é a estimativa da função desconhecida da distribuição acumulada de *β . O intervalo

percentil de 100(1-2α)% de confiança é definido pelos percentis α e 1-α de G :

)]1(ˆ),(ˆ[]ˆ,ˆ[ 11sup%,inf%, ααββ −= −− GG

(10)

Já que pela definição )*(1 ˆ)(ˆ αβα =−G é o (100-α)-ésimo percentil da distribuição

bootstrap de *β , podemos escrever intervalos percentis como

[ ])1*()*(sup%,inf%,

ˆ,ˆ]ˆˆ[ αα ββββ −=

(11)

As expressões (10) e (11) referem-se à situação ideal do bootstrap na qual o número de replicações é infinito.

.

.

.

Page 9: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

33

Na prática devemos usar um número finito B de replicações. Para o processo, geramos

B conjuntos de dados bootstrap *B*2*1 www ,...,, e calculamos as replicações bootstrap

)(s)b(ˆ * *(b)w=β , b = 1, 2, ... , B.

Seja )*(B

ˆ αβ o 100α -ésimo percentil empírico dos valores b)(ˆ *β , ou seja, o valor

( α⋅B )-ésimo na lista ordenada das B replicações de *β . Assim, se 2000B = e 05,0=α , )*(ˆ αβB é o 100-ésimo valor ordenado das 2.000 replicações. Se )B( α⋅ não é um inteiro,

utiliza-se o maior inteiro menor ou igual a α)1B( + . Como a distribuição bootstrap de *β é aproximada, melhores resultados serão obtidos

para amostras de tamanho n grande, e quanto maior for B, melhores serão os intervalos estimados. Assim, o intervalo percentil aproximado de 100 ( )%21 α− de confiança é

[ ])1*()*(sup%,inf%,

ˆ,ˆ]ˆ,ˆ[ αα ββββ −= BB�

Existem duas versões melhoradas do método percentil chamadas de BCa e ABC. O método BCa é a abreviação-padrão de "bias-corrected and acelerated" e o ABC é a abreviação padrão de "approximate bootstrap confidence intervals". Neste artigo não construiremos intervalos pelo método ABC. Maiores informações sobre esse método podem ser encontradas em Efron e Tibshirani (1993, p.188).

3.2.3 Intervalos percentis BCa

O intervalo BCa de cobertura desejada 100 ( )%21 α− é dado por

]ˆ,ˆ[]ˆ,ˆ[ )*()*(sup%,inf%,

21 αα ββββ =

(12)

sendo,

( )����

���

+−++Φ= α

αα

ZzaZz

z0

001 ˆˆ1

ˆˆ

e ( )���

����

+−++Φ= −

)1(0

)1(0

02 ˆˆ1ˆ

ˆ α

αα

ZzaZz

z

em que Φ é a função de distribuição da normal padrão e αZ é o α -ésimo percentil da normal padrão.

Para calcularmos a e 0z utilizamos as expressões:

,

Page 10: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

34

{ }���

����

� <Φ= −

Bb

zββ ˆ)(ˆ#

ˆ*

10 e

( )

( )2/3

1

2)()(

1

3)()(

ˆˆ6

ˆˆ

ˆ

���

���

−=

=⋅

=⋅

n

ii

n

ii

a

ββ

ββ, (13)

em que )(ˆ)()( ii s w=β , com )(iw sendo a amostra original com o i-ésimo valor, iw ,

removido e considerando �=

⋅ =n

iin 1)()(

ˆ1ˆ ββ . Maiores detalhes sobre o cálculo de (13)

podem ser encontrados em Efron e Tibshirani (1993, p.184-6).

3.2.4 Número de replicações bootstrap

Efron e Tibshirani (1993, Capítulo 19), Kendall e Stuart (1977, Capítulo 10) e Efron (1987, Seções 6 e 9) discutem os números de replicações bootstrap necessárias para uma boa estimativa do erro-padrão e do intervalo de confiança. Efron e Tibshirani (1993) afirmam que para obtermos uma boa estimativa do erro-padrão através do bootstrap são necessárias entre 25 e 200 replicações e que para uma boa estimativa dos limites de confiança seriam necessárias mais de 500 replicações. Utilizaremos neste trabalho 2.000 replicações para a construção de intervalos de confiança e 30 para o erro-padrão.

4 Simulações de Monte Carlo

Foram realizadas simulações para os modelos de regressão linear simples e exponencial com amostras de tamanho n e variância do erro de medida 2

uσ . As simulações

foram repetidas 500 vezes para diferentes valores de n e 2uσ .

Nas situações de regressão linear simples, em que temos uma resposta contínua yi, utilizamos o modelo clássico com uma variável regressora

,10 iii exy ++= ββ

(14)

,n...,,1i = em que sxi ' são valores da variável regressora, 0β e 1β os parâmetros do

modelo e sei ' são variáveis aleatórias independentes com distribuição normal, média zero e

variância 2eσ . Nesses problemas usamos o método dos mínimos quadrados para estimar 1β

e consideramos 0β =0. No modelo exponencial, a função de densidade de Y dado x é definida por

Page 11: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

35

yx

xexyf λλ −⋅=)|( 0>y

em que x é um vetor de variáveis explicativas e )|( xYEx =λ . Várias formas de funções

são possíveis para xλ , entretanto consideramos que

xx eβλ =

Assim, temos que

yex x

eexyfβββ −⋅=),|(

que tem como função de verossimilhança

∏=

−=n

i

yex iix

i eeL1

)(βββ

e log-verossimilhança

�=

−=n

ii

xi yexl i

1

)( βββ

(15)

Derivando (15), encontramos a função

�=

−=n

ii

xi yexl i

1

)1()(' ββ

(16)

e, portanto, o estimador de máxima verossimilhança de β é dado pela solução da equação

0)(' =βl , formada a partir de (16). Como essa equação não é linear, β é obtido pelo método de Newton-Rapson.

Deve-se destacar que nessas simulações consideramos que o valor 2uσ é conhecido e

portanto não será estimado. Geramos diferentes amostras aleatórias de tamanho n igual a 25, 50 e 100. Essas amostras foram tomadas como valores verdadeiros x. Logo após, geramos as respostas y para esses valores em cada modelo: exponencial e linear simples. Depois, geramos um erro que foi adicionado à variável verdadeira x, determinando os valores contaminados z. O erro para a contaminação foi gerado por uma amostra aleatória da distribuição ),0(N 2

uσ com 2uσ assumindo os valores 0,1; 0,25; 0,5 e 1. A variável

contaminada foi utilizada para gerar os estimadores dos parâmetros de interesse descritos na Seção 2 e respectivos intervalos de 95% de confiança descritos na Seção 3.

Objetivamos, com isso, comparar e verificar o comportamento dos intervalos de 95% de confiança para os parâmetros de interesse. Assim, calculamos o comprimento médio dos intervalos construídos em 500 repetições, a porcentagem de vezes em que o valor verdadeiro pertence aos intervalos, a porcentagem de vezes em que o valor verdadeiro estava acima do

,

.

,

,

.

,

Page 12: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

36

limite superior desses intervalos, e a porcentagem de vezes em que o valor verdadeiro estava abaixo do limite inferior destes. Para os intervalos construídos pelo bootstrap foram realizadas 2.000 replicações com 30 replicações para a estimação do erro bootstrap que são necessárias apenas para calcular o intervalo de confiança bootstrap-t.

4.1 O modelo de Regressão Linear

Foram construídos os intervalos exato (sem erro de medida); o intervalo usual, que desconsidera a existência de erro de medida; o intervalo proposto por Fuller (1987); e os intervalos bootstrap percentil, BCa e bootstrap-t. Através de comparações poderemos avaliar os intervalos.

Os intervalos exato e usual para 1β foram obtidos através da seguinte expressão (Seber, 1977, p.108)

xx

xyyyn Sn

SSt

)2(

ˆˆ 1

2,11 −−

± −−β

β α

(17)

sendo que 2,1 −− nt α é o )1( α− -ésimo percentil com n-2 graus de liberdade da

distribuição t, e considerando �=

−=n

iixx xxS

1

2;)( �=

−−=n

iiixy xxyyS

1

);)(( e

�=

−=n

iiyy yyS

1

2)( . O intervalo exato usa valores verdadeiros para a variável x e o usual

valores contaminados com erro. O intervalo de Fuller foi determinado pela expressão dada em Lyles e Kupper (1999)

e Fuller (1987),

=

=

−−−−± n

iix

n

iiNi

F

zzk

zzyynZ

1

22

1

21

)2

1(

)(ˆ

)](ˆ[)2(ˆ

ββ

α

(18)

em que kx é dado pela expressão (5), z é o valor contaminado com erro e Fβ é dado pela expressão (4).

Os resultados dessa simulação são apresentados na Tabela 1. Nessa tabela chamaremos de inf. ao número percentual de vezes em que o valor verdadeiro para o parâmetro estimado foi menor do que o extremo inferior do intervalo de confiança encontrado. De modo semelhante, chamaremos de sup. ao número percentual de vezes em que o valor verdadeiro foi maior do que o extremo superior do intervalo de confiança e certo ao número percentual de vezes em que o valor verdadeiro pertenceu a esse intervalo.

Observamos, a partir da Tabela 1, que à medida que aumentamos o erro de medida a cobertura nominal dos intervalos é reduzida. Essa perda de eficiência é minimizada com o

,

Page 13: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

37

Tabela 1 - Probabilidade de cobertura e comprimentos médios dos intervalos de 95% de confiança para o parâmetro 1β no modelo ntexY ttt ,...,3,2,1,1 =+= β utilizando os estimadores Usual, Fuller, James Stein (Stein), Stefanski (Stef.) e Carroll-Stefanski (C.St.)

n=25 n=50 N=100 2uσ Intervalo inf. certo sup. comp. inf. certo sup. comp. inf. certo sup. comp.

Exato 0,028 0,952 0,020 0,859 0,026 0,944 0,030 0,576 0,036 0,928 0,036 0,401 Usual 0,014 0,926 0,060 0,859 0,010 0,886 0,104 0,573 0,002 0,842 0,156 0,399 Fuller 0,044 0,934 0,022 0,909 0,032 0,932 0,036 0,619 0,032 0,936 0,032 0,435

Perc. 0,056 0,914 0,030 0,902 0,034 0,920 0,046 0,614 0,034 0,924 0,042 0,432 Boot-t 0,036 0,930 0,034 1,052 0,030 0,934 0,036 0,677 0,028 0,944 0,028 0,463

Stei

n

BCa 0,052 0,910 0,038 0,905 0,038 0,914 0,048 0,615 0,032 0,924 0,044 0,432 Perc. 0.058 0.916 0.026 0.929 0.040 0.922 0.038 0.622 0.032 0.924 0.044 0.433 Boot-t 0.038 0.939 0.022 1.056 0.032 0.930 0.038 0.678 0.026 0.944 0.030 0.462 St

ef.

BCa 0.050 0.916 0.034 0.928 0.038 0.918 0.044 0.622 0.026 0.926 0.048 0.434 Perc. 0.058 0.914 0.028 0.911 0.036 0.924 0.040 0.617 0.034 0.928 0.038 0.433 Boot-t 0.038 0.938 0.024 1.062 0.032 0.932 0.036 0.680 0.032 0.942 0.026 0.464

0.1

C.S

t.

BCa 0.054 0.920 0.026 0.914 0.040 0.916 0.044 0.618 0.032 0.926 0.042 0.433

Usual 0,000 0,852 0,148 0,848 0,002 0,710 0,288 0,565 0,000 0,442 0,558 0,392 Fuller 0,066 0,906 0,028 1,054 0,038 0,926 0,036 0,701 0,026 0,932 0,042 0,489

Perc. 0,060 0,906 0,034 1,030 0,038 0,914 0,048 0,688 0,026 0,920 0,054 0,482 Boot-t 0,040 0,920 0,040 1,206 0,032 0,922 0,046 0,761 0,022 0,936 0,042 0,516

Stei

n

BCa 0,058 0,902 0,040 1,032 0,040 0,908 0,052 0,691 0,024 0,922 0,054 0,483 Perc. 0.054 0.916 0.030 1.066 0.028 0.918 0.054 0.693 0.016 0.916 0.068 0.477 Boot-t 0.038 0.916 0.046 1.184 0.022 0.930 0.048 0.746 0.018 0.924 0.058 0.505 St

ef.

BCa 0.042 0.918 0.040 1.056 0.022 0.920 0.058 0.691 0.016 0.908 0.076 0.477 Perc. 0.068 0.904 0.028 1.059 0.040 0.922 0.038 0.696 0.030 0.922 0.048 0.485 Boot-t 0.042 0.924 0.034 1.239 0.034 0.920 0.046 0.770 0.024 0.938 0.038 0.519

0.25

C.S

t.

BCa 0.068 0.898 0.034 1.060 0.042 0.920 0.038 0.699 0.028 0.922 0.050 0.486

Usual 0,000 0,630 0,370 0,819 0,000 0,318 0,682 0,544 0,000 0,072 0,928 0,377 Fuller 0,064 0,892 0,044 1,722 0,054 0,904 0,042 0,839 0,042 0,908 0,050 0,572

Perc. 0,062 0,886 0,052 1,288 0,048 0,902 0,050 0,810 0,040 0,890 0,070 0,559 Boot-t 0,042 0,910 0,048 1,512 0,040 0,912 0,048 0,894 0,034 0,906 0,060 0,596

Stei

n

BCa 0,058 0,882 0,060 1,287 0,048 0,892 0,060 0,812 0,040 0,892 0,068 0,560 Perc. 0.030 0.922 0.048 1.200 0.018 0.904 0.078 0.762 0.008 0.832 0.160 0.518 Boot-t 0.018 0.916 0.066 1.311 0.012 0.900 0.088 0.811 0.006 0.832 0.162 0.543 St

ef.

BCa 0.026 0.914 0.060 1.182 0.012 0.900 0.088 0.759 0.004 0.818 0.178 0.517 Perc. 0.078 0.878 0.044 1.623 0.062 0.894 0.044 0.831 0.044 0.896 0.060 0.566 Boot-t 0.058 0.900 0.042 1.607 0.042 0.918 0.040 0.917 0.042 0.898 0.060 0.603

0.5

C.S

t.

BCa 0.086 0.864 0.050 1.893 0.056 0.896 0.048 0.833 0.042 0.896 0.062 .566

Usual 0,000 0,248 0,752 0,754 0,000 0,040 0,960 0,501 0,000 0,002 0,998 0,346 Fuller 0,078 0,852 0,070 2,549 0,078 0,854 0,068 1,311 0,078 0,840 0,082 0,753

Perc. 0,062 0,844 0,094 2,740 0,072 0,842 0,086 1,181 0,058 0,848 0,094 0,715 Boot-t 0,048 0,878 0,074 3,136 0,054 0,868 0,078 1,288 0,064 0,844 0,092 0,760

Stei

n

BCa 0,064 0,834 0,102 2,751 0,070 0,840 0,090 1,185 0,064 0,838 0,098 0,717 Perc. 0.012 0.872 0.116 1.291 0.006 0.772 0.222 0.806 0.002 0.548 0.450 0.539 Boot-t 0.002 0.864 0.134 1.381 0.002 0.774 0.224 0.844 0.002 0.540 0.458 0.561 St

ef.

BCa 0.010 0.834 0.156 1.269 0.004 0.760 0.236 0.800 0.002 0.506 0.492 0.538 Perc. 0.088 0.836 0.076 2.643 0.082 0.850 0.068 1.263 0.086 0.830 0.084 0.746 Boot-t 0.066 0.874 0.060 2.654 0.062 0.880 0.058 1.368 0.072 0.842 0.086 0.792

1.0

C.S

t.

BCa 0.088 0.828 0.084 3.318 0.080 0.846 0.074 1.268 0.082 0.834 0.084 0.748

Page 14: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

38

aumento do tamanho da amostra, exceto para os intervalos Usual e Stefanski, cujo aumento da amostra parece reduzir a eficiência. Esse fato pode ser explicado pela diminuição da variância desses estimadores, com o aumento da amostra, promovendo uma redução no comprimento do intervalo de confiança para esses estimadores. Assim, esses intervalos ficaram mais sensíveis a pequenas perturbações. Percebemos, também, que o intervalo bootstrap-t é geralmente o de maior comprimento e o Usual o de menor. A cobertura de todos os intervalos de confiança fica abaixo da nominal com o aumento do erro de medida. E isso continua ocorrendo mesmo com o aumento do tamanho da amostra. O intervalo de confiança derivado do estimador de Stefanski tem uma cobertura longe da nominal quando o erro de medida cresce muito. Como era esperado, a cobertura do intervalo de confiança

baseado no estimador Usual é muito ruim, mesmo quando 2uσ não é muito grande. Uma

particularidade observada é a de que o comprimento do intervalo de confiança bootstrap-t é usualmente maior do que o do boostrap percentil e do BCa.

4.2 O modelo de Regressão Exponencial

O estimador de Fuller e o intervalo Fuller foram desenvolvidos para o modelo linear, entretanto o avaliamos também no modelo exponencial.

Os intervalos exato e usual foram obtidos através da informação de que )I,(N~ˆ 10−ββ

(Lawless, 1982, p.285), isto é, 1

1

ˆ2)(ˆ−

=

−���

����

�⋅± �

n

i

xi

iexZ βαβ

(19)

em que )(αZ é o α -ésimo percentil da distribuição normal. Os resultados da simulação para este caso são apresentados na Tabela 2. Nessa tabela os valores inf., sup. e certo têm o mesmo significado que na Tabela 1, ou seja, chamaremos de inf. ao número percentual de vezes em que o valor verdadeiro para o parâmetro estimado foi menor do que o extremo inferior do intervalo de confiança encontrado. De modo semelhante, chamaremos de sup. ao número percentual de vezes em que o valor verdadeiro foi maior do que o extremo superior do intervalo de confiança e Certo ao número percentual de vezes em que o valor verdadeiro pertenceu a esse intervalo.

As conclusões são semelhantes às do caso linear, exceto para os intervalos baseados no estimador Fuller. O intervalo de confiança baseado no estimador de Fuller é instável e produz resultados acima dos valores nominais com, conseqüentemente, um comprimento muito grande.

Conclusões

Nos modelos de regressão em que a medição sofreu algum tipo de erro, os métodos tradicionais de estimação, que desconsideram a existência desse erro, produzem estimadores viciados. Quanto maior for o erro de medição, mais próximo de zero será o valor estimado, ou seja, o estimador tende a zero quando o erro de medição aumenta. Este vício produzido pela ingenuidade de considerar que as medições estão livres de erro nos leva à construção de

,

Page 15: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

39

Tabela 2 - Probabilidade de cobertura e comprimentos médios dos intervalos de 95% de confiança para o parâmetro β no modelo de regressão exponencial, com média

ze β− , utilizando os estimadores Usual, Fuller, James Stein (Stein), Stefanski (Stef.) e Carroll-Stefanski (C.St.).

n=25 n=50 n=100 2uσ Intervalo inf. certo sup. comp. inf. certo sup. comp. inf. certo sup. comp.

Exato 0.022 0.944 0.034 0.850 0.020 0.952 0.028 0.579 0.036 0.940 0.024 0.403 Usual 0.016 0.904 0.080 0.805 0.002 0.860 0.138 0.543 0.002 0.830 0.168 0.375 Fuller 0.000 0.990 0.010 2.866 0.000 0.998 0.002 2.073 0.000 1.000 0.000 1.558

Per. 0.042 0.910 0.048 .937 0.022 0.934 0.044 0.640 0.028 0.931 0.040 0.448 Boot-t 0.036 0.922 0.042 1.099 0.016 0.954 0.030 0.725 0.026 0.926 0.048 0.493

Stei

n

BCa 0.040 0.920 0.040 0.940 0.022 0.930 0.048 0.642 0.028 0.930 0.042 0.449 Perc. 0.048 0.914 0.038 1.006 0.024 0.936 0.040 0.663 0.028 0.936 0.036 0.456 Boot-t 0.040 0.924 0.036 1.138 0.018 0.950 0.032 0.735 0.018 0.928 0.054 0.496 St

ef.

BCa 0.038 0.922 0.040 1.006 0.022 0.938 0.040 0.662 0.026 0.928 0.046 0.457 Perc. 0.044 0.910 0.046 0.945 0.024 0.934 0.042 0.643 0.030 0.930 0.040 0.449 Boot-t 0.040 0.920 0.040 1.109 0.020 0.950 0.030 0.728 0.030 0.922 0.048 0.494

0.1

C.S

t.

BCa 0.042 0.920 0.038 0.948 0.022 0.934 0.044 0.644 0.028 0.930 0.042 0.450

Usual 0.010 0.770 0.220 0.746 0.000 0.618 0.382 0.499 0.000 0.400 0.600 0.343 Fuller 0.000 0.990 0.010 3.079 0.000 0.997 0.002 2.195 0.000 1.000 0.000 1.637

Perc. 0.042 0.898 0.060 1.070 0.022 0.934 0.044 0.733 0.034 0.920 0.046 0.515 Boot-t 0.036 0.922 0.042 1.296 0.024 0.936 0.040 0.845 0.040 0.906 0.054 0.576

Stei

n

BCa 0.040 0.904 0.056 1.076 0.026 0.918 0.056 0.736 0.038 0.904 0.058 0.517 Perc. 0.044 0.914 0.042 1.212 0.018 0.932 0.050 0.772 0.024 0.928 0.048 0.527 Boot-t 0.036 0.920 0.044 1.365 0.012 0.952 0.036 0.857 0.018 0.914 0.068 0.577 St

ef.

BCa 0.042 0.914 0.044 1.209 0.012 0.928 0.060 0.770 0.024 0.910 0.066 0.527 Perc. 0.046 0.900 0.054 1.097 0.028 0.930 0.042 0.741 0.034 0.922 0.044 0.518 Boot-t 0.040 0.924 0.036 1.330 0.024 0.938 0.038 0.855 0.040 0.910 0.050 0.580

0.25

C.S

t.

BCa 0.048 0.906 0.046 1.104 0.030 0.914 0.056 0.744 0.038 0.910 0.052 0.520

Usual 0.004 0.460 0.536 0.673 0.000 0.218 0.782 0.446 0.000 0.052 0.948 0.304 Fuller 0.000 0.986 0.014 3.854 0.000 0.998 0.002 2.413 0.000 0.996 0.004 1.768

Perc. 0.040 0.892 0.068 1.292 0.026 0.922 0.052 0.870 0.036 0.888 0.076 0.613 Boot-t 0.036 0.912 0.052 1.634 0.026 0.920 0.054 1.026 0.040 0.890 0.070 0.699

Stei

n

BCa 0.044 0.888 0.068 1.302 0.030 0.898 0.072 0.878 0.044 0.876 0.080 0.618 Perc. 0.034 0.902 0.064 1.451 0.010 0.928 0.062 0.888 0.012 0.888 0.100 0.602 Boot-t 0.030 0.916 0.054 1.641 0.006 0.922 0.072 0.991 0.010 0.860 0.130 0.664 St

ef.

BCa 0.034 0.906 0.060 1.452 0.010 0.898 0.092 0.885 0.014 0.848 0.138 0.601 Perc. 0.050 0.898 0.052 1.365 0.030 0.922 0.048 0.891 0.044 0.890 0.066 0.619 Boot-t 0.046 0.908 0.046 1.736 0.034 0.920 0.046 1.050 0.048 0.894 0.058 0.706

0.5

C.S

t.

BCa 0.056 0.884 0.060 1.375 0.038 0.898 0.064 0.899 0.046 0.880 0.074 0.624

Usual 0.002 0.146 0.852 0.571 0.000 0.020 0.980 0.376 0.000 0.000 1.000 0.254 Fuller 0.000 0.970 0.030 6.396 0.000 0.992 0.008 3.008 0.000 0.990 0.010 2.041

Perc. 0.040 0.858 0.102 1.746 0.038 0.874 0.088 1.135 0.054 0.858 0.088 0.781 Boot-t 0.044 0.858 0.098 2.303 0.046 0.874 0.080 1.376 0.040 0.876 0.084 0.909

Stei

n

BCa 0.056 0.834 0.110 1.768 0.048 0.852 0.100 1.147 0.060 0.846 0.094 0.789 Perc. 0.020 0.876 0.104 1.631 0.002 0.840 0.158 0.981 0.000 0.722 0.278 0.659 Boot-t 0.018 0.882 0.100 1.889 0.002 0.822 0.176 1.098 0.002 0.694 0.304 0.735 St

ef.

BCa 0.022 0.870 0.108 1.647 0.000 0.802 0.198 0.981 0.002 0.672 0.326 0.658 Perc. 0.044 0.864 0.092 1.958 0.046 0.882 0.072 1.204 0.060 0.864 0.076 0.798 Boot-t 0.052 0.870 0.078 2.586 0.050 0.876 0.074 1.458 0.056 0.864 0.080 0.930

1.0

C.S

t.

BCa 0.058 0.854 0.088 1.981 0.060 0.846 0.094 1.216 0.068 0.854 0.078 0.807

Page 16: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

40

intervalos de confiança com menor grau de confiabilidade com centro deslocado na direção do zero.

Entre os intervalos bootstrap o que se destacou em nossas simulações, tanto no modelo linear quanto no modelo exponencial, foi o intervalo percentil, que além de ser mais simples e exigir menos tempo computacional, mostrou-se tão eficiente quanto os demais, sendo o que geralmente apresentou menor comprimento.

O estimador Stein e o Carroll-Stefanski produziram, de modo geral, intervalos de confiança de melhor performance e o estimador Usual, os intervalos de pior performance perante a existência de erro de medida.

De modo geral, os intervalos de confiança bootstrap baseados no estimador de Stefanski e o baseado no estimador Usual têm uma cobertura inferior à nominal e à dos demais intervalos construídos; o comportamento dos intervalos Stein e C. Stefanski são bastante similares; o comportamento dos três intervalos bootstrap são bastantes similares com relação à cobertura, mas o bootstrap-t tem um comprimento sistematicamente maior; os intervalos parecem ser simétricos ou com uma suave assimetria, excetuando os intervalos bootstrap para os estimadores de Stefanski e Usual em que a assimetria é bastante acentuada. À medida que 2

uσ aumenta os intervalos Stefanski e Usual acentuam sua assimetria. No modelo exponencial, o intervalo de confiança para o estimador de Fuller não é

apropriado, pois o seu comprimento é muito grande, com cobertura próxima de 100%, como era esperado, uma vez que foi construído para atenuar o erro de medição em modelos lineares e normais.

CUNHA, W. J. da; COLOSIMO, E. A. Bootstrap confidence intervals in regression models with measurement error. Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003.

• ABSTRACT: Routine measures are subjected to errors. These errors can occur due to instrument precision, wrong values registered, instrument readings etc. It is well known that the estimators of a regression model can get biased in this situation. Some estimators have been proposed to reduce the bias. Plug-in estimators are special case of them. These plug-in estimators are very attractive but there is not an expression available for their asymptotic variance. This happens because of the two steps procedures of these estimators, which generate a sophisticated model structure. Therefore, resample methods are necessary to determine confidence intervals for the plug-in estimators. Bootstrap methods, are used in this paper to make this task. In particular, percentile, BCa e bootstrap-t methods are used to build confidence intervals. The results obtained from Monte Carlo simulations indicate that the resample confidence intervals present nice features. In particular, percentile confidence intervals have same features of the other two but it is less computational intensive.

• KEYWORDS: Measurement error; bootstrap; confidence intervals; regression models.

Referências

CARROLL, R.J.; STEFANSKI, L.A. Approximate quasi-likelihood estimation in model with surrogate predictors. J. Am. Stat. Assoc., v.85, p.652-63, 1990.

EFRON, B. Bootstrap methods: another look at the jackknife. Ann. Stat., v.7, p.1-26, 1979.

Page 17: INTERVALOS DE CONFIANÇA BOOTSTRAP PARA MODELOS DE ...jaguar.fcav.unesp.br/RME/fasciculos/v21/v21_n2/A2_Wellington.pdf · métodos computacionais de reamostragem capazes de determinar

Rev. Mat. Estat., São Paulo, v.21, n.2, p.25-41, 2003

41

_______. Better bootstrap confidence intervals. (With discussion.) J. Am.. Stat. Assoc., v.82, p.171-200, 1987.

EFRON, B.; TIBSHIRANI, R.J. An introduction to the bootstrap. London: Chapman & Hall, 1993. 436p.

FULLER, W.A. Measurement error models. New York: John Wiley, 1987. 440p.

GIMENEZ, P.; BOLFARINE, H.; COLOSIMO, E.A. Estimation in weibull regression model with measurement error. Comm. Stat., Theory Methods, v.28, p.495-510, 1999.

JAMES, W.; STEIN, C. Estimation with quadratic loss. In: BERKELEY SYMPOSIUM ON MATHEMATICS, STATISTICS AND PROBABILITY, 4, 1961, Berkeley. Proceedings... Berkeley: University of California Press, 1961. v.1, p.361-80.

KENDALL, M. G.; STUART, A. The advanced theory of statistics. 4.ed. London: Griffin, 1977. v.1, 483p.

LAWLESS, J.F. Statistical models and methods for lifetime data. New York: John Wiley, 1982. 580p.

LYLES, R. H.; KUPPER, L. A note on confidence interval estimation in measurement error adjustment. Am. Stat., v.53, n.3, p.247-53, 1999.

SEBER, G.A.F. Linear regression analysis. New York: John Wiley, 1977. 465p.

STEFANSKI, L. A. The effect of measurement error on parameter estimation. Biometrika, v.72, p.583-92, 1985.

WHITTEMORE, A.S.; KELLER, J.B. Approximations for error-in-variables regression. J. Am. Stat. Assoc., v.83, p.1057-66, 1988.

WHITTEMORE, A. S. Errors-in-variables regression using Stein estimates. Am. Stat., v.43, n.4, p.226-8, 1989.

Recebido em 12.08.2001.

Aprovado após revisão em 12.12.2002.