intervalos de confianÇa para a mÉdia...

Rev. Mat. Estat., São Paulo, v.21, n.3, p.41-66, 2003 41

INTERVALOS DE CONFIANÇA PARA A MÉDIA POPULACIONAL USANDO AMOSTRAGEM EM CONJUNTOS ORDENADOS

Cesar Augusto TACONELI1 Maria Cecilia Mendes BARRETO1

��RESUMO: A amostragem em conjuntos ordenados convém ser aplicada nas situações em que se pretende inferir sobre uma variável de difícil mensuração, havendo, no entanto, a possibilidade de ordenação das unidades amostrais de maneira simples e eficaz dentro das amostras. Para os diversos estimadores usados em amostragem de conjuntos ordenados, propriedades como vício e eficiência relativa a outros planejamentos amostrais têm sido estudadas. Pouca atenção, entretanto, tem sido dada ao estudo de propriedades assintóticas. Neste trabalho foi feita uma revisão das propriedades do estimador média via amostragem por conjuntos ordenados com o objetivo de estudar através de simulação suas propriedades assintóticas. Considerando a distribuição normal, foi verificada a normalidade do estimador tanto para ordenação perfeita como imperfeita e também a adequabilidade, no caso de ordenação perfeita ou pequenos erros de ordenação, do uso de intervalos de confiança assintóticos usando a distribuição normal. Considerando a distribuição exponencial, verificou-se que a distribuição empírica da média da amostra por conjuntos ordenados é gama, e na obtenção de intervalos assintóticos de confiança a não adequabilidade no uso de distribuição gama.

��PALAVRAS-CHAVE: Amostragem em conjuntos ordenados; intervalos de confiança; propriedades assintóticas; estatísticas de ordem.

1 Introdução

Possíveis restrições à obtenção de uma amostra numerosa, decorrentes de dificuldades de mensuração da variável de interesse, seja pelos altos custos ou difícil acesso a tal medida, tornam necessária a utilização de esquemas amostrais que produzam estimadores mais precisos com um pequeno número de mensurações tomadas. A amostragem por conjuntos ordenados (ranked set sampling - RSS) é uma boa alternativa, cujo desenvolvimento recente tem em vista aplicações em estudos no meio ambiente.

A amostragem por conjuntos ordenados é propícia quando a variável de interesse é de difícil obtenção (por exemplo, altura de árvores numa região densamente arborizada), mas há uma variável concomitante cuja mensuração seja facilmente obtida e seu valor esteja de alguma forma associado ao valor da variável de interesse (neste caso, o diâmetro do tronco a uma determinada distância do solo poderia prover condições de ordenar as árvores amostradas, desde que existam indícios de forte correlação entre as duas variáveis). Essa

1Departamento de Estatística, Universidade Federal de São Carlos - UFSCar, CEP: 13565-905, São Carlos, SP,

Brasil. E-mail: [email protected] / [email protected].

Rev. Mat. Estat., São Pualo, v.21, n.3, p.41-66, 2003 42

variável “ajuda” pode ser também, por exemplo, a própria estimativa do valor pelo qual estamos interessados, fornecida por um especialista, sem que de fato a meçamos. A grande vantagem da amostragem em conjuntos ordenados está no aumento da precisão da média da amostra em conjuntos ordenados em relação a média da amostra aleatória simples (AAS) como estimador da média populacional (Dell e Clutter, 1972).

Outros esquemas amostrais também úteis em estudos ambientais são, por exemplo, amostragem adaptativa e captura-recaptura. A amostragem adaptativa é apropriada quando o objetivo é estimar o tamanho populacional de uma determinada espécie de animais ou plantas que habitam uma certa região. Consiste na divisão da região em N partes de mesma área. Seleciona-se, então, uma amostra de n divisões, nas quais verifica-se a existência de animais ou plantas da espécie de interesse. Caso a existência seja verificada, realiza-se naquela divisão a contagem e, adicionalmente, seleciona-se as divisões ao redor para posterior verificação e possível contagem. O processo de amostragem continua até que nas novas divisões não existam animais ou plantas de interesse. Ao final têm-se nn >′ divisões selecionadas.

Com objetivo semelhante ao da amostragem adaptativa, a amostragem por captura-recaptura tem como primeiro passo a captura de uma amostra de X animais, que são marcados e soltos em seu ambiente. Uma segunda amostra de y animais é extraída posteriormente, na qual verifica-se a presença de x animais marcados. A estimação do total populacional parte do pressuposto de que a proporção de animais marcados na segunda amostra é consistente com a proporção de animais marcados na população, embora possíveis distorções na proporção amostral possam ser identificadas e controladas pelo pesquisador.

Estimadores apropriados para esses tipos de amostragem são apresentados em Thompson (1992).

A amostragem por conjuntos ordenados foi introduzida na década de 50 por McIntyre (1952) e vem sendo desenvolvida desde então por pesquisadores como Stokes (1995), Sinha et al. (1996), Barnett e Moore (1997) e Kaur et al. (1997), Barnett (1999), Barreto (2000), Barnett e Barreto (2001) e Nahhas et al. (2002).

Pouca atenção, entretanto, tem sido dada ao estudo das propriedades assintóticas de estimadores baseado em amostragem em conjuntos ordenados. Uma aplicação imediata é a obtenção de intervalos de confiança.

Por exemplo, Chen (1999) apresenta uma maneira de estimar a função densidade de uma distribuição considerando amostragem por conjuntos ordenados. Um estudo sobre as propriedades dos quantis de amostras em conjuntos ordenados é apresentado em Chen (2000), que demonstra sua consistência forte e a normalidade assintótica. Como uma das aplicações desses resultados, é apresentada a construção de um intervalo de confiança para o quantil p baseado em amostragem por conjuntos ordenados.

No presente trabalho inicia-se um estudo que visa avaliar as propriedades assintóticas e o uso de intervalos de confiança usuais para a média populacional a partir do estimador média amostral em conjuntos ordenados. Para isso, realiza-se um estudo desse estimador considerando ordenação perfeita e imperfeita. Por meio de simulação, procurou-se identificar sua distribuição empírica, para ambos os tipos de ordenação, considerando uma população com distribuição simétrica (normal) e uma outra com distribuição assimétrica (exponencial) e verificar a adequabilidade da utilização de intervalos assintóticos baseados na distribuição Normal e t-Student.


2 Amostragem por conjuntos ordenados (RSS) e alguns estimadores da média populacional

A primeira etapa na obtenção de uma amostra por RSS consiste em selecionar n amostras contendo cada uma n unidades. A seleção das diferentes amostras é feita com reposição.

Num segundo passo, ordenam-se as unidades amostrais, dentro de cada amostra, de acordo com uma informação auxiliar, por exemplo, o valor de uma variável concomitante, ou informação subjetiva de pesquisador da área, agrupando os elementos em ordem crescente do possível valor da variável de interesse. Repare que até aqui nenhuma unidade amostral foi medida quanto à variável de interesse.

Finalmente, mensura-se na primeira amostra a primeira observação, isto é, aquela que, de acordo com o julgamento, apresenta o menor valor quanto à variável de interesse; na segunda, a que tiver a segunda menor medida e assim por diante, até a n-ésima amostra, onde é mensurada aquela que apresenta a n-ésima menor medida, ou seja, a maior. Esses elementos formam a amostra final, representada por:

)()2(2)1(1 ,...,, nnxxx .

Dessa forma, dos 2n elementos amostrados inicialmente, apenas n são de fato mensurados. Note que os elementos da amostra final são não-correlacionados, uma vez que provêm de amostras independentemente escolhidas. Acrescente-se também que esses mesmos elementos não são identicamente distribuídos.

Quando a variável de interesse, x, pertence à família locação-escala de distribuições, )(),( 21

dxF θθ , onde 1θ e 2θ são, respectivamente os parâmetros de locação e de escala, sua

função de distribuição e sua função densidade podem ser expressas na forma:

��

��

� −

2

1)1,0( θ

θxF e ��

�

��

� −=2

1)1,0(

2

),( 1)(21

θθ

θθθ x

fdx

dxdF.

Em conseqüência, se a variável x tem distribuição )(),( 21dxF θθ , então:

2

1

θθ−

=x

y

tem distribuição livre de parâmetros. Sejam )()2()1( ,...,, nxxx estatísticas de ordem de uma amostra de tamanho n e

σµ−

= )()(

rr

XU , nr ,,1 �=

as variáveis reduzidas ordenadas. Então, para nr ,,1 �= ,

rrUE α=)( )( , rrUVar ν=)( )( (1)

dependem apenas do tamanho da amostra, n , da ordem, r , e da função distribuição, )x(f .

Os valores de rα e rν encontram-se tabelados para diversas distribuições em Pearson e Hartley (1976), entre outros.


Usando algumas propriedades de estatísticas de ordem (David, 1981), os valores de rα

e rν podem ser obtidos através de programação em R ou S-Plus. Nesse caso, assumindo que x é uma variável aleatória contínua com função distribuição de probabilidade )x(P , o valor esperado da r-ésima estatística de ordem é dado por:

( ) [ ] dxxfxPxPrnrB

xXE rnrr )()(1)(

)1,(1 1

)(−− −

+−= � . (2)

De maneira análoga obtém-se E( 2)r(X ). A variância da r-ésima estatística de ordem

pode ser obtida, finalmente, fazendo-se Var ( )(rX ) = E( 2)r(X ) – (E( )r(X ))2.

Dentre os estimadores da média populacional mais usados em amostragem por conjuntos ordenados, pode-se destacar o estimador proposto por McIntyre (1952), o estimador BLUE para amostras de conjuntos ordenados (Barnett e Moore, 1997) e o estimador proposto por Kaur et al. (1997).

Um primeiro estimador da média populacional para amostras de conjuntos ordenados é o elaborado por McIntyre (1952), dado por

�=

=n

rrrx

nX

1)(

1

que é não-viciado, sendo n o tamanho da. Sua variância é dada por

��===

=+==n

rrr

n

r

n

rrr

nUVar

nxVar

nXVar

1

22)(

12

1)(2

1)((

1)(

1)( νσσµ (3)

sendo νi definido como em (1) e lembrando que as estatísticas de ordem provêm de amostras selecionadas aleatoriamente, e, portanto, são independentes.

Takahasi e Wakimoto (1968) demonstraram matematicamente a maior eficiência deste estimador, se comparado ao estimador da média via AAS, ou seja,

2),()(11

)(2

12

2

1)(2

1)(2

>=≤==��

��

�= ��

===nXVar

nnXVar

nXVar

nXVar

n

rr

n

rrr

n

rrr

σνσ

em que X é a média obtida via AAS. Desse modo,

1)(

)(),(

1

≥==�=

n

irr

n

XVar

XVarXXe

ν

comprovando o ganho, em eficiência, decorrente do uso de uma RSS. O BLUE (best linear unbiased estimator) para RSS consiste em dar diferentes pesos às

diferentes estatísticas de ordem que compõe a amostra. O estimador da média populacional e sua variância foram obtidos por Barnett e Moore (1997) e seu uso resulta, na prática, em um grande ganho em termos de eficiência ao ser comparado com a média da amostra de conjuntos ordenados.

Um outro estimador é o proposto por Kaur et al. (1997). Este estimador provém de observações únicas, tomadas de )1(1)2(2)1(1 ...,,, −− ttxxx , e q>1 observações de


jttx )( (j=1, 2, ..., q) provenientes de q amostras distintas, onde qtn +−= 1 . Desse modo,

em vez de tomar o valor de uma única unidade amostral que apresenta maior valor quanto à variável de interesse, utiliza-se a média de q unidades, pertencentes a r amostras. Tal medida tende a evitar possíveis distorções do valor do estimador de interesse causadas por outliers.

Stokes (1980) propôs como estimador da variância populacional a variância amostral dada por:

� �= =

−−=m

i

n

rir mnXX

1 1

2)(

2 )1/()(σ̂ (4)

onde m é o número de vezes em que a amostra foi replicada, e nesse caso irX )( representa a

i-ésima replicação da r-ésima estatística de ordem. O resultado obtido em (3) supõe que a ordenação das unidades amostrais é perfeita.

Segundo Nahhas et al. (2002), existem na literatura dois modelos que incorporam erros de ordenação no cálculo da variância da média da amostra por conjuntos ordenados. Dell e Clutter (1972) adotaram o modelo de erros de ordenação por inspeção visual (visual ranked set sampling). Quando a ordenação é baseada em uma variável concomitante altamente relacionada com a variável de interesse, Stokes (1977) elaborou um modelo que leva em consideração a correlação entre as duas varáveis para o cálculo da variância da média da amostra por conjuntos ordenados.

3 Intervalos de confiança para a média populacional usando o estimador X

Para a construção de intervalos de confiança para a média populacional, utiliza-se no presente trabalho o estimador média amostral via RSS em duas situações: ordenação perfeita dos elementos da amostra antes de sua mensuração e ordenação imperfeita por inspeção visual (Dell e Clutter, 1972).

O estudo por simulação apresentado a seguir detalha a distribuição desse estimador a fim de estabelecer se esses intervalos poderão ser obtidos com base em alguma distribuição já conhecida ou não.

Diferentes situações foram consideradas, entre elas, o tipo de distribuição base, ou seja, as amostras são geradas a partir de uma distribuição simétrica (normal) e a partir de outra assimétrica (exponencial). Além disso, foram abordados os casos em que a ordenação dos elementos dentro de cada amostra se dá de forma correta (ordenação perfeita) e incorreta (ordenação imperfeita). Considerou-se também, para a população com distribuição normal, o fato da variância populacional ser conhecida ou não. Diferentes tamanhos de amostras (n) e número de replicações das amostras em cada realização do procedimento de estimação (m) foram analisados. Através da simulação pode-se construir intervalos de confiança para o parâmetro a partir dos quantis obtidos, além de realizar uma análise gráfica da distribuição do estimador em questão.

Considerando que um dos objetivos deste estudo é adotar intervalos usuais, sem a devida correção da variância da média da amostra por conjuntos ordenados quando da ordenação imperfeita, usamos como correta a expressão (3).

Para as amostras simuladas de uma distribuição normal com variância conhecida considerou-se o seguinte intervalo com )%1( α− de confiança:


�± rnm

zX νσα 2

2

2/*

. (5)

Já para o caso em que a variância populacional é desconhecida, considerou-se, inicialmente o seguinte intervalo:

�± rnm

zX νσα 2

2

2/*

ˆ. (6)

sendo 2σ̂ como definido em (4). Uma outra hipótese para o caso de variância populacional desconhecida é a

aproximação com uma distribuição t Student com graus de liberdade b, o que forneceria intervalos de confiança como segue:

�± rbnm

tX νσα 2

2

2/,*

ˆ. (7)

Já para as amostras provenientes de uma população com distribuição exponencial, uma primeira alternativa a ser testada é a construção de intervalos de confiança baseados numa distribuição normal, como visto para a população normal (5).

Outra proposta a ser avaliada é a obtenção de intervalos baseados nos quantis de uma distribuição gama, com parâmetros estimados pelas amostras. Essa idéia é baseada no fato de que a soma de variáveis independentes e exponencialmente distribuídas tem distribuição gama (Mood et al. 1974). Sabemos que na amostra de conjuntos ordenados as variáveis aleatórias são independentes, mas não identicamente distribuídas.

Se uma variável aleatória X tem distribuição gama com parâmetros r e λ, então

E[X]=λr

e Var[X]=2λ

r. (8)

Avaliou-se, então, a conveniência da utilização de intervalos de confiança baseados nos quantis de uma distribuição gama, com parâmetros estimados via amostra, da seguinte maneira:

][ˆˆ

XraV

X=λ e ][ˆ

ˆ2

XraV

Xr = (9)

em que ][ˆ XraV é obtida substituindo (4) em (3).

4 Resultados

Primeiramente estudou-se o caso em que as unidades amostrais são ordenadas sem erros dentro de cada amostra de conjuntos ordenados (ordenação perfeita).

O procedimento utilizado consiste em gerar n amostras de tamanho n de uma distribuição normal (0,1) ou de uma exponencial (1), de acordo com a distribuição de interesse. Usando o mesmo procedimento descrito na seção 2 para obter a amostra de conjuntos ordenados, os elementos em cada amostra foram ordenados em ordem crescente de nossa variável de interesse e, na amostra 1, selecionou-se o menor elemento, na segunda


amostra, o segundo menor elemento e assim por diante. Esse procedimento de geração de amostras de conjuntos ordenados é repetido m vezes, tendo-se então, uma amostra final de nm elementos.

Como existem m replicações de cada estatística de ordem, o estimador da média populacional é dado por:

� �= =

=m

j

n

r

jrr

n

x

mX

1 1

)(1.

No total, foram geradas 5.000 amostras, a partir das quais construiu-se histogramas e gráficos probabilísticos na determinação da distribuição de interesse.

Os valores usados para os tamanhos de amostra foram n = 3, 5 e 10, já que a utilização de amostras maiores acarretaria complicações quanto à ordenação dos elementos. Essa limitação é contornada com a replicação do processo de amostragem. Aqui, foram considerados os números de replicações m = 1, 3, 6 e 10.

Estes gráficos são então julgados para verificar a conveniência da construção de intervalos de confiança para o parâmetro em estudo baseado nas distribuições citadas, tanto para dados vindos de distribuição normal como para a distribuição exponencial.

Quando a distribuição foi adequada, procedeu-se então à simulação de 5000 intervalos de 90, 95 e 99% de confiança, para verificar a probabilidade de cobertura a ser obtida em cada situação. Se a proporção de intervalos que incluem o real valor do parâmetro estiver próxima da confiança utilizada, a construção de intervalos de confiança será considerada satisfatória.

Se a distribuição do estimador média amostral por RSS não se aproxima da distribuição postulada, o procedimento de simulação utilizado para obter a probabilidade de cobertura será deixado de lado para que se busque uma distribuição com a qual seja possível construir intervalos de confiança mais precisos para o parâmetro em estudo.

Quanto ao caso em que a ordenação é imperfeita, o modelo de ordenação visual (Dell e Clutter, 1972) considera que os erros se dão ao escolher aqueles elementos que devem fazer parte da amostra antes de mensuração, ou seja, incorreções na ordenação dos elementos.

Esquematicamente, a geração de amostras de conjuntos ordenados considerando ordenação imperfeita pode ser representada pelo seguinte algoritmo: 1. Geração de uma amostra aleatória simples da distribuição de interesse: n1 XXX ,...,, 2 ;

2. Geração de erros aleatórios segundo uma N( 2,0 εσ ): neee ,...,, 21 ;

3. Soma das duas amostras: nn eXeXeX +++ ,...,, 2211 ; 4. Calculo do posto da soma : nrrr ,...,, 21 , onde jr são números entre 1 e n que não se

repetem; 5. Definição de )1(1X como o valor gerado no passo 1, cujo posto obtido no passo 4 é 1;

6. O passo 5 é repetidos mais 1−n vezes, definindo-se )(iiX como o valor gerado no

primeiro passo cujo posto obtido no passo 4 é i , n,...,i 2= ; 7. Os passos 1 a 6 são repetidos m vezes. A amostra de conjuntos ordenados com m

replicações de cada posição i é formada por ,,,,...,, 2)2(2)1(1)(1)2(1)1( XXXXX n mnmmn XXXX )()2()1(2)( ,...,,,...,

cujo termo geral, jiX )( é uma forma abreviada de jiiX )( .


Note que nesse procedimento os erros são conseqüentes de ordenação, e não de medida. Repetindo esse procedimento 5.000 vezes, procedeu-se da mesma forma adotada para o caso de ordenação perfeita, na busca de uma distribuição adequada.

No caso de ordenação imperfeita, foram atribuídos diversos valores para 2εσ : 0,05,

0,15, 0,30 e 0,50, para os quais se estudou as possíveis combinações destas variâncias com três tamanhos de amostras (n=3,5 e 10) e quatro possíveis replicações (m = 1, 3, 6 e 10).

4.1 Resultados das simulações para população com distribuição normal (0,1)

4.1.1 Ordenação perfeita

A Figura 1 apresenta os gráficos probabilísticos normais para as médias amostrais obtidas em cada situação. Há um forte indício da normalidade do estimador média amostral, sugerindo seu uso na obtenção de intervalos de confiança.

Procedeu-se, então, com o cálculo da probabilidade de cobertura, para intervalos de 90, 95 e 99% de confiança para o parâmetro de locação.

A Tabela 1 apresenta os resultados referentes ao caso em que a variância populacional é conhecida e os intervalos são baseados na expressão (5). A construção de intervalos baseados na distribuição normal se mostra bastante eficaz, já que os valores obtidos via simulação são bem próximos dos valores esperados.

Na Tabela 2, a variância populacional é dada como desconhecida e os intervalos são baseados em (6) que usa a distribuição normal. Verifica-se que os valores obtidos estão bastante próximos dos esperados para as configurações 6*5, 6*10, 10*3, 10*5 e 10*10, ou seja, quando o tamanho final da amostra é igual ou superior a 30. A existência de grandes diferenças para os casos de tamanhos pequenos de amostras finais (menores do que 30) sugere que a utilização da distribuição normal não é adequada.

Tabela 1 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) para as 5.000 amostras por conjuntos ordenados simuladas que contém o verdadeiro valor do parâmetro (distribuição normal (0,1) e variância conhecida), considerando ordenação perfeita

3 5 10 m\n

confiança PC NIC PC NIC PC NIC 90% 90,52 4.526 89,90 4.495 90,02 4.501 95% 95,10 4.755 94,88 4.744 94,82 4.741 1 99% 98,72 4.936 98,86 4.943 98,92 4.946 90% 89,38 4.469 90,36 4.518 90,90 4.545 95% 94,56 4.728 95,04 4.752 95,36 4.768 3 99% 99,04 4.952 98,88 4.944 99,28 4.964 90% 89,98 4.499 90,08 4.504 90,58 4.529 95% 94,88 4.744 95,00 4.750 95,42 4.771 6 99% 98,78 4.939 99,00 4.950 98,96 4.948 90% 89,56 4.478 89,68 4.484 90,42 4.521 95% 94,80 4.740 94,92 4.746 95,30 4.765 10 99% 99,02 4.951 99,00 4.950 99,06 4.953


FIGURA 1 - Gráfico probabilístico normal para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma normal (0,1) para diferentes tamanhos de amostras, replicações e ordenação perfeita.

m=1, n=3

-4 -2 0 2 4

-1.5

0.0

1.0

m=1, n=5

-4 -2 0 2 4-1

.00.

0

m=1, n=10

-4 -2 0 2 4

-0.4

0.0

0.4

m=3, n=3

-4 -2 0 2 4

-0.5

0.5

m=3, n=5

-4 -2 0 2 4

-0.4

0.0

0.4

m=3, n=10

-4 -2 0 2 4-0

.30.

00.

2

m=6, n=3

-4 -2 0 2 4

-0.6

0.0

0.4

m=6, n=5

-4 -2 0 2 4

-0.4

0.0

m=6, n=10

-4 -2 0 2 4

-0.2

0.0

0.2

m=10, n=3

-4 -2 0 2 4

-0.4

0.0

0.4

m=10, n=5

-4 -2 0 2 4

-0.3

0.0

0.2

m=10, n=10

-4 -2 0 2 4

-0.1

50.

00.

15


Tabela 2 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) dentre as 5.000 amostras por conjuntos ordenados simuladas (população com distribuição normal (0,1) e variância populacional desconhecida), considerando ordenação perfeita

3 5 10 m\n


Outra possibilidade a ser averiguada é a conveniência da utilização da distribuição t-

Student na construção de intervalos de confiança. Na Tabela 3 relata-se os resultados obtidos, referentes às probabilidades de cobertura, para intervalos baseados numa t com m*n-1 graus de liberdade. Verifica-se que os valores obtidos para as configurações de tamanhos de amostra final grande, ou seja, maior que 30, são bastante próximos dos valores esperados. Para n=3 e m=1 e 3, o uso da distribuição t produz intervalos mais condizentes com a confiança desejada, se comparado com os resultados obtidos pelo uso da distribuição normal.

Tabela 3 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) dentre as 5.000 amostras por conjuntos ordenados simuladas (distribuição normal (0,1) e variância populacional desconhecida), considerando ordenação perfeita, baseados numa distribuição t-student com m*n-1 graus de liberdade

3 5 10 m\n

confiança PC NIC PC NIC PC NIC 90% 93,80 4.690 94,58 4.729 93,96 4.698 95% 97,14 4857 97,94 4.897 98,08 4.904 1 99% 99,62 4.981 99,86 4.993 99,76 4.988 90% 91,11 4.555 91,96 4.598 91,92 4.596 95% 95,90 4.795 96,42 4.821 96,38 4.819 3 99% 99,38 4.969 99,34 4.967 99,60 4.980 90% 90,64 4.532 91,00 4.550 91,00 4.550 95% 95,44 4.772 95,62 4.781 95,90 4.792 6 99% 98,96 4.948 99,26 4.963 99,10 4.955 90% 90,38 4.519 90,70 4.535 90,56 4.528 95% 94,70 4.735 95,32 4.766 95,44 4.772 10 99% 98,96 4.948 99,20 4.960 99,86 4.953


Esses resultados, análogos aos da Tabela 2, indicam que por questão de simplicidade pode-se usar a aproximação à distribuição normal para tamanhos finais de amostra maior ou igual a 30, uma vez que a distribuição t com mn-1 graus de liberdade é próxima da normal.

4.1.2 Ordenação imperfeita

Utilizando o mesmo procedimento adotado para a população com distribuição normal (0,1) com ordenação perfeita, examinou-se o caso em que há a possibilidade de existência de erros de ordenação.

Com as médias obtidas das amostras simuladas de cada uma das possíveis combinações

de m, n e 2εσ , seguindo o algoritmo apresentado, foram construídos gráficos probabilísticos

normais, que são apresentados nas Figuras 2 e 3. Seu exame ratifica a hipótese de normalidade do estimador.

Desse modo, pelas análises realizadas até então, é possível afirmar que a distribuição empírica de X , quando a população sob estudo tem distribuição normal com média 0 e variância 1, também é normal, seja com ordenação perfeita ou imperfeita das unidades amostrais e, neste último caso, independente do grau de imperfeição presente na ordenação das amostras. Tendo ratificado a conveniência do ajuste da distribuição normal para a variável de interesse, nos casos considerados, prosseguiu-se com o cálculo das probabilidades de cobertura com os diferentes valores da variabilidade dos erros de ordenação. Os resultados estão ilustrados nas Tabelas 4 e 5.

Pode-se observar que os resultados obtidos se afastam dos valores esperados à medida que se aumenta o grau de imperfeição na ordenação das unidades amostrais. Essa característica também é observada para tamanhos de amostras grandes, indicando uma não adequação dos intervalos propostos.

Tabela 4 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) das 5.000 amostras por conjuntos ordenados simuladas (distribuição normal (0,1) e variância populacional conhecida), considerando ordenação imperfeita ( )50,0,0(~ Niε )

3 5 10 m\n



FIGURA 2 - Gráficos probabilísticos normais para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma normal (0,1) para diferentes tamanhos de amostras, replicações e variância dos erros de ordenação ( 2

εσ ) igual a 0,05.

m=1, n=3

-4 -2 0 2 4

-10

1

m=1, n=5

-4 -2 0 2 4

-1.0

0.0

1.0

m=1, n=10

-4 -2 0 2 4

-0.6

0.0

0.4

m=3, n=3

-4 -2 0 2 4

-1.0

0.0

1.0

m=3, n=5

-4 -2 0 2 4

-0.4

0.0

0.4

m=3, n=10

-4 -2 0 2 4

-0.2

0.2

m=6, n=3

-4 -2 0 2 4

-0.6

0.0

0.4

m=6, n=5

-4 -2 0 2 4

-0.4

0.0

0.4

m=6, n=10

-4 -2 0 2 4

-0.2

0.0

0.2

m=10, n=3

-4 -2 0 2 4

-0.4

0.0

0.4

m=10, n=5

-4 -2 0 2 4

-0.2

0.2

m=10, n=10

-4 -2 0 2 4

-0.1

0.1


FIGURA 3 - Gráficos probabilísticos normais para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma normal (0,1) para diferentes tamanhos de amostras, replicações e variância dos erros de ordenação ( 2


m=1, n=3

-4 -2 0 2 4

-10

1

m=1, n=5

-4 -2 0 2 4

-1.0

0.0

1.0

m=1, n=10

-4 -2 0 2 4

-1.0

0.0

m=3, n=3

-4 -2 0 2 4

-1.0

0.0

m=3, n=5

-4 -2 0 2 4

-0.5

0.5

m=3, n=10

-4 -2 0 2 4-0

.40.

00.

4

m=6, n=3

-4 -2 0 2 4

-0.8

-0.2

0.4

m=6, n=5

-4 -2 0 2 4

-0.4

0.0

0.4

m=6, n=10

-4 -2 0 2 4

-0.3

0.0

0.2

m=10, n=3

-4 -2 0 2 4

-0.4

0.2

0.6

m=10, n=5

-4 -2 0 2 4

-0.4

0.0

0.4

m=10, n=10

-4 -2 0 2 4

-0.2

0.0

0.2


Tabela 5 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) das 5.000 amostras por conjuntos ordenados simuladas (distribuição normal (0,1) e variância populacional conhecida), considerando ordenação imperfeita ( )50,0,0(~ Niε )

3 5 10 m\n


Pode-se explicar isso pelo fato de que quanto maior o tamanho das amostras, maior será

a possibilidade de haver erros na ordenação. Quando se tem altas taxas de erros de ordenação, dificilmente será possível ordenar uma amostra de tamanho grande de forma correta. A utilização de amostras de tamanho 10, como visto nas tabelas citadas, não seria benéfica, uma vez que sua utilização não acrescentaria precisão, mas somente aumentaria custos e dificuldades ao processo de amostragem.

É importante verificar se há correspondência entre os quantis α/2 e (1-α/2) da amostra, sendo α o nível de significância dos intervalos e aqueles calculados para uma distribuição normal. Primeiramente, quando se compara os quantis da distribuição empírica padronizada das médias simuladas com os valores previstos de uma distribuição normal.

Dada uma determinada configuração, seja iX a i-ésima média de conjuntos ordenados e

�=

=5000

15000/

jiXX

�=

−−

=5000

1

2)(15000

1)(

ii XXXVar

usadas para obter a variável padronizada z,

)(XVar

XXz i

i−

= .

Como a média via amostragem por conjuntos ordenados tem distribuição normal, pertencente à família locação escala, espera-se que a variável z também seja normal, com média igual a zero e variância um. A Tabela 6 apresenta a comparação dos quantis da


variável z, para cada uma das situações em estudo, com os quantis de uma distribuição normal (0,1).

Tabela 6 - Comparação dos intervalos obtidos através da distribuição empírica padronizada das médias simuladas em cada configuração, usando como parâmetros a média e a variância das 5.000 médias, em relação aos valores previstos de acordo com uma distribuição normal (0,1)

2εσ \(m,n)

prob normal (1 , 3)

(3 , 3)

(1 , 5)

(3 , 5)

(0,05 , 0,95) (-1,64 , 1, 64) (-1,67 , 1,62) (-1,67 , 1,60) (-1,64 , 1,65) (-1,65 , 1,66) (0,025 , 0,975) (-1,96 , 1,96) (-2,00 , 1,92) (-1,97 , 1,91) (-1,95 , 1,99) (-1,98 , 1,94) 0 (0,005 , 0,995) (-2,58 , 2,58) (-2,52 , 2,56) (-2,66 , 2,57) (-2,73 , 2,55) (-2,57 , 2,51) (0,05 , 0,95) (-1,64 , 1, 64) (-1,67 , 1,62) (-1,67 , 1,60) (-1,65 , 1,64) (-1,65 , 1,66) (0,025 , 0,975) (-1,96 , 1,96) (-2,00 , 1,92) (-1,97 , 1,91) (-1,95 , 1,99) (-1,98 , 1,94) 0,05 (0,005 , 0,995) (-2,58 , 2,58) (-2,53 , 2,56) (-2,66 , 2,57) (-2,72 , 2,65) (-2,57 , 2,50) (0,05 , 0,95) (-1,64 , 1, 64) (-1,64 , 1,68) (-1,65 , 1,61) (-1,61 , 1,66) (-1,63 , 1,67) (0,025 , 0,975) (-1,96 , 1,96) (-1,94 , 1,98) (-1,98 , 1,94) (-1,99 , 2,01) (-1,96 , 1,94) 0,50 (0,005 , 0,995) (-2,58 , 2,58) (-2,58 , 2,64) (-2,51 , 2,63) (-2,68 , 2,66) (-2,58 , 2,57)

Uma outra possibilidade a se estudar é a distribuição das médias simuladas

padronizadas, dadas por:

22 / n

Xt

i

ii

�=

νσ

Os quantis de interesse das médias simuladas padronizadas, bem como aqueles fornecidos por uma distribuição normal padronizada, encontram-se na Tabela 7, para efeito de comparação.

Tabela 7 - Comparação dos intervalos obtidos através da distribuição empírica das médias simuladas padronizadas, em cada configuração, em relação aos valores previstos de acordo com uma distribuição normal

2εσ \(m,n) prob normal

(1,3) (3,3) (1,5) (3,5)

(0,05 , 0,95) (-1,64 , 1, 64) (-1,65 , 1,64) (-1,61 , 1,62) (-1,63 , 1,63) (-1,66 , 1,61) (0,025 , 0,975) (-1,96 , 1,96) (-1,90 , 1,94) (-1,94 , 1,97) (-1,99 , 1,95) (-1,99 , 1,94) 0 (0,05 , 0,95) (-2,58 , 2,58) (-2,51 , 2,44) (-2,63 , 2,52) (-2,54 , 2,52) (-2,61 , 2,56) (0,05 , 0,95) (-1,64 , 1, 64) (-1,70 , 1,66) (-1,67 , 1,72) (-1,78 , 1,67) (-1,73 , 1,73)

(0,025 , 0,975) (-1,96 , 1,96) (-2,07 , 1,99) (-2,02 , 2,02) (-2,06 , 2,02) (-2,03 , 2,09) 0,05 (0,05 , 0,95) (-2,58 , 2,58) (-2,60 , 2,57) (-2,69 , 2,56) (-2,71 , 2,71) (-2,66 , 2,82) (0,05 , 0,95) (-1,64 , 1, 64) (-1,83 , 1,88) (-1,88 , 1,82) (-2,10 , 2,02) (-2,13 , 2,06)

(0,025 , 0,975) (-1,96 , 1,96) (-2,18 , 2,27) (-2,30 , 2,19) (-2,51 , 2,46) (-2,55 , 2,52) 0,50 (0,05 , 0,95) (-2,58 , 2,58) (-2,91 , 3,07) (-2,92 , 2,92) (-3,21 , 3,27) (-3,35 , 3,32)

Verifica-se que os quantis da distribuição padronizada são praticamente idênticos

àqueles associados a uma distribuição normal, ao contrário do que ocorre com os quantis da distribuição das médias simuladas padronizadas, em que fica nítido o afastamento dos


valores obtidos da distribuição normal à medida que se aumenta a variância dos erros de ordenação.

Os resultados alcançados nas Tabelas de 4 a 7 permitem concluir que apesar de a distribuição do estimador da média populacional via RSS ser normal, independente dos tamanhos de amostras e graus de imperfeição, os intervalos de confiança para a situação de ordenação imperfeita se mostram imprecisos, principalmente para altos valores da variabilidade dos erros. Isso se deve ao fato de que o erro padrão utilizado nos cálculos dos intervalos foi o mesmo do caso de ordenação perfeita. Na prática, no entanto, esses dois valores não são iguais, uma vez que se deve acrescentar à variabilidade o erro decorrente da imperfeição na ordenação das unidades amostrais.

Conclui-se, portanto, que a distribuição normal é a melhor alternativa para a obtenção dos intervalos de confiança, quando a população é normalmente distribuída, necessitando, no entanto, de uma correção do estimador da variância quando há erros de ordenação.

4.2 Resultados das simulações para uma população com distribuição exponencial (1)

4.2.1 Ordenação perfeita

Para averiguar a distribuição da média da amostra de conjuntos ordenados quando a distribuição de base é exponencial, através das amostras simuladas foram construídos gráficos probabilísticos normais apresentados na Figura 4. À medida que aumenta o valor de m*n esta distribuição apresenta uma tendência de normalidade.

É necessário ressaltar, no entanto, que nem mesmo para a combinação do maior tamanho amostral com o maior número de replicações pode-se concluir que o estimador X apresenta de fato distribuição normal.

Como detalhado nas fórmulas (8 e 9), uma segunda alternativa seria avaliar se a distribuição gama, com parâmetros estimados via amostra, é uma boa alternativa de aproximação para a distribuição empírica do estimador. Para isso, procedeu-se com a construção de gráficos probabilísticos gama para as 5.000 médias, com ordenação perfeita, para as diferentes configurações. Os resultados estão expostos na Figura 5.

A distribuição gama fornece um bom ajuste à distribuição empírica de X , independente do tamanho de amostra e do número de replicações. A seguir verificou-se se a distribuição gama forneceria ou não intervalos de confiança precisos para o estimador.

A Tabela 8 traz os resultados do calculo das probabilidades de cobertura. Tais intervalos foram obtidos de uma distribuição gama com parâmetros estimados pelas amostras, como visto em (9).

Apesar de se ter comprovado graficamente o fato de a distribuição do estimador ser uma gama, fica evidente, pela Tabela 8, que o intervalo de confiança proposto, baseado nessa mesma distribuição, não é adequado. A causa mais provável para essa distorção é relativa ao desconhecimento da variância populacional. O uso do estimador 2σ̂ faz com que os limites de confiança sejam deslocados de tal maneira a não mais englobar o valor de µ. Perceba que, assintoticamente, o intervalo proposto mostra-se conveniente, principalmente nas situações onde o tamanho das amostras (n) é igual a 10.


FIGURA 4 - Gráfico probabilístico normal para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma exponencial (1) para diferentes tamanhos de amostras, replicações e ordenação perfeita.

m=1, n=3

-4 -2 0 2 4

0.5

1.5

2.5

m=1, n=5

-4 -2 0 2 4

0.5

1.5

2.5

m=1, n=10

-4 -2 0 2 4

0.6

1.2

1.8

m=3, n=3

-4 -2 0 2 4

0.5

1.5

m=3, n=5

-4 -2 0 2 4

0.4

1.0

1.6

m=3, n=10

-4 -2 0 2 4

0.8

1.2

m=6, n=3

-4 -2 0 2 4

0.5

1.0

1.5

2.0

m=6, n=5

-4 -2 0 2 4

0.8

1.2

m=6, n=10

-4 -2 0 2 4

0.8

1.0

1.2

m=10, n=3

-4 -2 0 2 4

0.6

1.0

1.4

m=10, n=5

-4 -2 0 2 4

0.8

1.2

m=10, n=10

-4 -2 0 2 4

0.8

1.0

1.2


FIGURA 5 - Gráfico probabilístico gama, com parâmetros estimados via resultados obtidos por simulação, para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma exponencial (1) para diferentes tamanhos de amostras, replicações e ordenação perfeita.

m=1, n=3

0 1 2 3

0.5

1.5

2.5

m=1, n=5

0.5 1.0 1.5 2.0 2.5

0.5

1.5

2.5

m=1, n=10

0.6 0.8 1.0 1.2 1.4 1.6 1.8

0.6

1.2

1.8

m=3, n=3

0.5 1.0 1.5 2.0

0.5

1.5

m=3, n=5

0.6 0.8 1.0 1.2 1.4 1.6 1.8

0.4

1.0

1.6

m=3, n=10

0.8 1.0 1.2 1.4

0.8

1.2

m=6, n=3

0.6 0.8 1.0 1.2 1.4 1.6 1.8

0.5

1.0

1.5

2.0

m=6, n=5

0.6 0.8 1.0 1.2 1.4

0.8

1.2

m=6, n=10

0.8 0.9 1.0 1.1 1.2 1.3

0.8

1.0

1.2

m=10, n=3

0.6 0.8 1.0 1.2 1.4 1.6

0.6

1.0

1.4

m=10, n=5

0.8 1.0 1.2 1.4

0.8

1.2

m=10, n=10

0.8 0.9 1.0 1.1 1.2

0.8

1.0

1.2


Tabela 8 - Probabilidade de cobertura e número de intervalos de confiança das 5.000 amostras por conjuntos ordenados simuladas (distribuição exponencial (1) e variância populacional desconhecida), considerando ordenação perfeita, baseados numa distribuição gama

3 5 10 m\n


4.2.2 Ordenação imperfeita

As Figuras 6 e 7 apresentam os gráficos probabilísticos gama para o estimador, quando

a ordenação é imperfeita, para os diferentes valores de 2εσ considerados. Pode-se verificar

aqui também o bom ajuste fornecido pela distribuição gama para os 5.000 valores simulados em cada configuração. Têm-se condições de concluir, portanto, que a distribuição empírica do estimador média amostral via amostragem por conjuntos ordenados, neste caso, é uma gama, tanto para ordenação perfeita quanto para ordenação imperfeita.

Prosseguiu-se com a comparação dos quantis referentes à distribuição empírica com os quantis de uma distribuição gama, com os parâmetros obtidos como visto em (9). Os resultados alcançados são apresentados na Tabela 9. Os quantis da distribuição empírica pouco diferem daqueles previstos de acordo com uma distribuição gama. Fica claro, mais uma vez, o fato de X , em qualquer situação daquelas averiguadas, ter distribuição gama.

Concluídas as análises relativas à distribuição do estimador em estudo, verificou-se, então, se é ou não conveniente a construção de intervalos de confiança para o parâmetro baseados na distribuição gama, quando a ordenação é feita com a presença de erros. Mais uma vez foram obtidos intervalos com 90, 95 e 99% de confiança para as 5.000 médias simuladas em cada uma das combinações em estudo. Os parâmetros da distribuição gama utilizados foram estimados como visto em (8). As Tabelas 10 e 11 apresentam o número de intervalos de confiança que contém o real valor do parâmetro, acompanhado pela respectiva proporção, apresentada na forma percentual.

À medida que a imperfeição na ordenação das amostras aumenta, constata-se um afastamento da proporção de intervalos que contém o real valor do parâmetro em relação à probabilidade de cobertura estipulada. Aumentando a variabilidade do erro, a tendência é que os estimadores se afastem, um maior número de vezes, dos valores dos parâmetros de interesse, fazendo com que, no caso da estimação intervalar, um maior número de intervalos não contenham o valor do parâmetro. Mais uma vez ressalta-se a necessidade de procurar um


fator de correção na significância dos intervalos de confiança, buscando estabelecer os valores para os quais têm-se resultados próximos dos ideais.

FIGURA 6 - Gráfico probabilístico gama, com parâmetros estimados via resultados obtidos por simulação, para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma exponencial (1) para diferentes tamanhos de amostras, replicações e variância dos erros de ordenação ( 2


m=1, n=3

0 1 2 3

0.0

1.0

2.0

3.0

m=1, n=5

0.5 1.0 1.5 2.0 2.5

0.5

1.5

2.5

m=1, n=10

0.6 0.8 1.0 1.2 1.4 1.6 1.8

0.5

1.0

1.5

2.0

m=3, n=3

0.5 1.0 1.5 2.0

0.5

1.5

m=3, n=5

0.6 0.8 1.0 1.2 1.4 1.6 1.8

0.60

000

1.39

998

m=3, n=10

0.8 1.0 1.2 1.4

0.8

1.2

m=6, n=3

0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8

0.6

1.2

1.8

m=6, n=5

0.6 0.8 1.0 1.2 1.4

0.6

1.0

1.4

m=6, n=10

0.8 0.9 1.0 1.1 1.2 1.3

0.8

1.0

1.2

1.4

m=10, n=3

0.6 0.8 1.0 1.2 1.4 1.6

0.6

1.0

1.4

m=10, n=5

0.8 1.0 1.2 1.4

0.8

1.2

m=10, n=10

0.8 0.9 1.0 1.1 1.2

0.9

1.1


FIGURA 7 - Gráfico probabilístico gama, com parâmetros estimados via resultados obtidos por simulação, para as 5.000 médias de amostras de conjuntos ordenados simuladas de uma exponencial (1) para diferentes tamanhos de amostras, replicações e variância dos erros de ordenação ( 2


m=1, n=3

0 1 2 3 4

01

23

m=1, n=5

0.5 1.0 1.5 2.0 2.5

0.5

1.5

2.5

m=1, n=10

0.5 1.0 1.5 2.0

0.5

1.5

m=3, n=3

0.5 1.0 1.5 2.0 2.5

0.5

1.5

2.5

m=3, n=5

0.5 1.0 1.5 2.0

0.5

1.0

1.5

2.0

m=3, n=10

0.6 0.8 1.0 1.2 1.4 1.6

0.6

1.0

1.4

m=6, n=3

0.5 1.0 1.5

0.5

1.5

m=6, n=5

0.6 0.8 1.0 1.2 1.4 1.6

0.6

1.0

1.4

m=6, n=10

0.8 1.0 1.2 1.4

0.8

1.2

m=10, n=3

0.6 0.8 1.0 1.2 1.4 1.6

0.6

1.0

1.4

m=10, n=5

0.6 0.8 1.0 1.2 1.4

0.8

1.2

m=10, n=10

0.8 0.9 1.0 1.1 1.2 1.3

0.8

1.0

1.2


Tabela 9 - Comparação dos quantis das amostras simuladas com os respectivos quantis de uma distribuição gama com parâmetros estimados pelas 5.000 amostras

(m , n) (1 , 3) (3 , 3) (1 , 5) (3 , 5) 2εσ (m,n) prob gama simulado gama simulado gama simulado gama simulado

(0,05 , 0,95) (0,38 , 1,81) (0,40 , 1,83) (0,57 , 1,52) (0,58 , 1,51) (0,62 , 1,45) (0,63 , 1,45) (0,73 , 1,31) (0,74 , 1,31)

(0,025 , 0,975) (0,31 , 2,03) (0,34 , 2,06) (0,51 , 1,64) (0,53 , 1,68) (0,56 , 1,56) (0,58 , 1,55) (0,69 , 1,37) (0,69 , 1,38) 0

(0,005 , 0,995) (0,21 , 2,50) (0,23 , 2,59) (0,40 , 1,90) (0,44 , 2,01) (0,46 , 1,76) (0,48 , 1,82) (0,61 , 1,51) (0,62 , 1,51)

(0,05 , 0,95) (0,38 , 1,90) (0,38 , 1,89) (0,60 , 1,47) (0,60 , 1,47) (0,55 , 1,56) (0,56 , 1,64) (0,72 , 1,31) (0,73 , 1,31)

(0,025 , 0,975) (0,31 , 2,13) (0,31 , 2,13) (0,55 , 1,58) (0,55 , 1,56) (0,48 , 1,69) (0,50 , 1,69) (0,68 , 1,38) (0,68 , 1,38) 0,05

(0,005 , 0,995) (0,20 , 2,64) (0,21 , 2,72) (0,45 , 1,80) (0,46 , 1,85) (0,38 , 1,98) (0,39 , 2,04) (0,60 , 1,52) (0,59 , 1,55)

(0,05 , 0,95) (0,37 , 1,89) (0,37 , 1,89) (0,61 , 1,48) (0,60 , 1,48) (0,53 , 1,60) (0,53 , 1,60) (0,71 , 1,33) (0,71 , 1,33)

(0,025 , 0,975) (0,30 , 2,12) (0,30 , 2,11) (0,55 , 1,59) (0,53 , 1,58) (0,47 , 1,74) (0,46 , 1,74) (0,67 , 1,41) (0,67 , 1,41) 0,15

(0,005 , 0,995) (0,20 , 2,63) (0,17 , 2,67) (0,45 , 1,82) (0,43 , 1,80) (0,36 , 2,05) (0,35 , 2,04 (0,58 , 1,56) (0,59 , 1,67)

(0,05 , 0,95) (0,36 , 1,92) (0,35 , 1,90) (0,58 , 1,52) (0,58 , 1,52) (0,50 , 1,63) (0,49 , 1,62) (0,70 , 1,34) (0,69 , 1,34)

(0,025 , 0,975) (0,29 , 2,16) (0,26 , 2,14) (0,52 , 1,64) (0,51 , 1,62) (0,43 , 1,79) (0,43 , 1,79) (0,66 , 1,42) (0,65 , 1,41) 0,30

(0,005 , 0,995) (0,18 , 2,69) (0,16 , 2,72) (0,42 , 1,90) (0,40 , 1,89) (0,32 , 2,12) (0,31 , 2,14) (0,57 , 1,58) (0,57 , 1,55)

(0,05 , 0,95) (0,34 , 1,98) (0,32 , 1,98) (0,58 , 1,51) (0,57 , 1,49) (0,49 , 1,65) (0,48 , 1,64) (0,68 , 1,37) (0,68 , 1,37)

(0,025 , 0,975) (0,27 , 2,24) (0,25 , 2,23) (0,52 , 1,64) (0,50 , 1,64) (0,42 , 1,81) (0,42 , 1,81) (0,64 , 1,45) (0,63 , 1,44) 0,50

(0,005 , 0,995) (0,17 , 2,81) (0,15 , 2,79) (0,41 , 1,90) (0,40 , 1,89) (0,31 , 2,15) (0,28 , 2,08) (0,55 , 1,62) (0,53 , 1,60)


Tabela 10 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) das 5.000 amostras por conjuntos ordenados simuladas (distribuição exponencial (1) e variância populacional desconhecida) considerando ordenação imperfeita ( )05,0,0(~ Niε ), baseados numa distribuição gama

3 5 10 m\n


Tabela 11 - Probabilidade de cobertura (PC) e número de intervalos de confiança (NIC) dentre os 5.000 simulados, considerando ordenação imperfeita ( )50,0,0(~ Niε ), baseados numa distribuição gama, que contêm o verdadeiro valor do parâmetro (população com distribuição exponencial (1) e variância populacional desconhecida)

3 5 10 m\n

confiança PC NIC PC NIC PC NIC 90% 71,48 3.574 75,12 3.756 74,72 3.736 95% 76,78 3.839 81,30 4.065 82,30 4.115

1

99% 83,72 4.186 88,92 4.446 90,66 4.553 90% 80,14 4.007 80,40 4.020 77,04 3.852 95% 86,30 4.315 86,76 4.338 84,50 4.225

3

99% 93,04 4.652 93,96 4.698 93,04 4.652 90% 83,24 4.162 81,32 4.066 77,62 3.881 95% 89,26 4.463 88,16 4.408 85,08 4.254 6 99% 95,52 4.776 95,00 4.750 94,14 4.707 90% 83,94 4.197 81,32 4.066 77,28 3.864 95% 90,02 4.501 88,58 4.429 84,70 4.235 10 99% 95,88 4.794 96,10 4.805 93,62 4.681


Conclusões

O estudo do estimador média amostral via amostragem por conjuntos ordenados foi realizado a partir da geração de amostras com distribuição normal (0,1) e exponencial (1). Através de gráficos probabilísticos e tabelas comparativas (quantis amostrais vs quantis da distribuição de interesse) conclusões foram extraídas acerca de sua distribuição.

Ficou claro, pelos resultados obtidos, que na situação em que as amostras são geradas com distribuição normal, a distribuição de X também é normal, enquanto para as amostras exponencialmente distribuídas, a distribuição desse estimador é gama. Vale ressaltar que tais conclusões são válidas para os dois tipos de ordenação considerados (perfeita e imperfeita).

Os intervalos de confiança propostos foram avaliados de acordo com as probabilidades de cobertura fornecidas na estimação do parâmetro de interesse. Foi verificada a boa adequação da distribuição normal na obtenção dos limites de confiança quando a população tem distribuição normal, com ordenação perfeita e variância populacional conhecida. Quando 2σ é desconhecido, a distribuição normal só é conveniente quando o tamanho final das amostras (m*n) é igual ou superior a 30. Para amostras pequenas (principalmente para n=3 e m= 1 e 3), a distribuição t-Student apresenta melhores resultados, se comparada com a normal, na construção dos intervalos.

Para o caso de ordenação imperfeita, a distribuição normal não produz intervalos de confiança precisos. Isso se deve à utilização do mesmo estimador do erro padrão da média da amostra por conjuntos ordenados utilizado no caso de ordenação perfeita. Deve-se pesquisar um acréscimo no estimador da variância da média amostral, decorrente do aumento da variabilidade causado pelas falhas de ordenação, adotando-se, como primeiras sugestões, o modelo de inspeção visual (Dell e Clutter, 1972) ou o modelo de variável concomitante (Stokes, 1977).

Quando as amostras têm distribuição exponencial, a distribuição gama não possibilita a construção de intervalos adequados, devido ao uso da estimativa da variância populacional (para tamanhos grandes de amostra, tais intervalos passam a apresentar confiança bastante próxima da desejada). Acrescente-se a isso, no caso de ordenação imperfeita, um problema análogo ao ocorrido com a distribuição normal, ou seja, a sub-estimação da variância de X .

Portanto intervalos de confiança para a média populacional, baseados na distribuição Normal, quando do uso de amostras por conjuntos ordenados, são adequados apenas na situação em que a distribuição da variável de interesse é Normal, a ordenação é perfeita e a variância populacional conhecida, para qualquer tamanho de amostra e replicação. Quando a variância é desconhecida, intervalos baseados na distribuição t-Student são adequados para tamanhos de amostras pequenos, enquanto os intervalos baseados na distribuição Normal são adequados para tamanhos de amostras maiores.

Agradecimentos. À FAPESP, Processo número 01/04862-0, pela bolsa concedida (agosto de 2001 a julho de 2002) para o desenvolvimento deste trabalho. Aos pareceristas, cujos comentários contribuíram para o aperfeiçoamento deste artigo.

TACONELI, C. A.; BARRETO, M. C. M Confidence intervals for population mean using ranked set sampling. Rev. Mat. Estat., São Paulo, v.21, n.3, p. 41-66, 2003.


��ABSTRACT: Ranked set sampling is adequate when the variable of interesting is expensive to measure, but is possible to make some considerations about the order of possible outcomes. For several estimators of the population mean properties like bias or relative precision have been studied. This paper presents a simulation study of the asymptotic properties of the ranked set sample mean estimator and the performance of usual confidence intervals.

��KEYWORDS: ranked set sampling, confidence intervals, asymptotic properties, order statistics.

Referências

BARNETT,V. Ranked set sampling design for environmental investigations. Environ. Ecol. Stat., Nottingham, v.6, p. 59-74, 1999.

BARNETT, V.; MOORE, K. Best linear unbiased estimates in ranked set sampling with particular reference to imperfect ordering. J. Appl. Stat., Abingdom, v.24, p.697-710, 1997.

BARNETT, V.; BARRETO, M.C.M. Estimator for a Poisson parameter using ranked set sampling, J. Appl. Stat., Abingdom, v.28, p.929-941, 2001.

BARRETO, M.C.M. Planejamentos eficientes em pesquisa no meio ambiente usando amostragem em conjuntos ordenados. In: RELATÓRIO técnico do DES/UFSCar, série A: teoria e métodos. São Carlos: UFSCar, 2000.11p.

BREIMAN, L. Statistics with a view toward aplications. 2.ed. Boston: Houghton Mifflin, 1969. p.34-39.

CHEN Z. Density estimation using ranked-set sampling data. Environ. Ecol. Stat., Amsterdam, v.6, p.135-146, 1999.

CHEN Z. On ranked-set sampling quantiles and their applications. J. Stat. Plann. Inf., Amsterdam, v.83, p.125-135, 2000.

DAVID,H. Order statistics. 2.ed. New York: John Wiley, 1981. p.1-49.

DELL, T.R.; CUTTLER, J.L. Ranked set sampling theory whit order statistics background. Biometrics, Washington, v.28, p.545-555, 1972.

KAUR, A.; PATIL, G.P.; TAILLIE, C. Unequal allocation models for ranked set sampling with skew distributions Biometrics, Washington, v.53, p. 123-130,1997.

MCINTYRE, G.A A method for unbiased seletive sampling, using ranked sets. Aust. J. Agric. Res., Victoria, v.3, p.385-390, 1952.

MOOD, A.M.; GRAYBILL, F.A.; BOES, D.C. Introduction of theory of statistics. 3.ed. São Paulo : McGraw-Hill, 1974. 564p.

NAHHAS, R.W.; WOLFE, D.A.; CHEN, H. Ranked set sampling: cost and optimal set size. Biometrics, Washington, v.58, p.964-971, 2002.

PEARSON, E.S.; HARTLEY, H.O. Biometrika tables for statisticians. London: Griffin, 1976. v.2


SINHA, BIMAL K.; SINHA, BIKAS K.; PURKAYASTHA, S. On some aspects of ranked set sampling for estimation of normal and exponential parameters. Stat. Decis., München, v.14, p. 223-240, 1996.

STOKES, S.L. Ranked set sampling with concomitant variables. Commun. Stat. Theory Meth., New York, v.36, p. 35-42, 1977.

STOKES, S.L. Estimation of variance using judgnment ordered ranked set sampling. Biometrics, Washington, v.36, p.35-42, 1980.

STOKES, L. Parametric ranked set sampling. Ann. Inst. Stat. Math., Tokyo, v.47, p. 465-482, 1995.

TAKAHASHI, K.; WAKIMOTO, K. On biased estimates of population mean based on sample stratified by means of ordering. Ann. Inst. Stat. Math., Tokyo, v.20, p.1-31, 1968.

THOMPSON, S.K. Sampling . New York: John Wiley, 1992. 343p.

YU, P.L.H.; LAM,K. Regression estimator in ranked set sampling. Biometrics, Washington, v.53, p.1070-1080, 1997.

Recebido em 10.10.2002.

Aprovado após revisão em 06.06.2003.

intervalos de confianÇa para a mÉdia...

Documents