“relatÓrio tecnologia da amostragem” · (chamado estratos) segundo alguma característica...

44
0 “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” Presidente Prudente 2007 Alunos : Alexandro Vieira Lopes Bruno Pierre Lopes de Vasconcelos Professora : Profª Olga Tarumoto

Upload: truongkhanh

Post on 10-Nov-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

0

“RELATÓRIO TECNOLOGIA DA

AMOSTRAGEM”

Presidente Prudente 2007

Alunos : Alexandro Vieira Lopes

Bruno Pierre Lopes de Vasconcelos

Professora : Profª Olga Tarumoto

Page 2: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

1

Alexandro Vieira Lopes

Bruno Pierre Lopes de Vasconcelos

Relatório da Disciplina Tecnologia da Amostragem

“Estimação de palavras em negrito do Novo

Dicionário da Língua Portuguesa”

Relatório da Disciplina Tecnologia da Amostragem do Curso de Graduação em Estatística da FCT/Unesp – Campus de Presidente Prudente.

Presidente Prudente

2007

Page 3: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

2

SUMÁRIO

INTRODUÇÃO ..........................................................................................................03

OBJETIVO ..................................................................................................................05

METODOLOGIA .........................................................................................................06

1-DICIONÁRIO DA LINGUA PORTUGUESA ......................................................07

1.1-CARACTERÍSTICAS DO DICIONÁRIO..............................................................07

1.2-BIOGRAFIA DO AUTOR ......................................................................................08

2-TIPOS DE AMOSTRAGEM ...................................................................................11

2.1-AMOSTRAGEM ALEATÓRIA SIMPLES............................................................11

2.2-AMOSTRAGEM ESTRATIFICADA .....................................................................14

2.3-AMOSTRAGEM SISTEMÁTICA..........................................................................17

2.4-AMOSTRAGEM POR CONGLOMERADO..........................................................20

2.5-ESTIMADOR TIPO RAZÃO..................................................................................23

2.6-ESTIMADOR TIPO REGRESSÃO ........................................................................27

3-CONSIDERAÇÕES FINAIS ..................................................................................30

REFERÊNCIAS ..........................................................................................................31

APÊNDICE A ...............................................................................................................32

APÊNDICE B ................................................................................................................33

APÊNDICE C ...............................................................................................................37

APÊNDICE D ...............................................................................................................38

APÊNDICE E ................................................................................................................39

APÊNDICE F ................................................................................................................42

Page 4: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

3

INTRODUÇÃO

O objetivo da amostragem é fazer afirmações sobre uma população, baseando-se

num resultado (informação) de uma amostra, utilizando alguns processos. Dentre eles:

� Amostragem aleatória simples;

� Amostragem estratificada;

� Amostragem sistemática;

� Amostragem por conglomerado;

� Estimador de razão;

� Estimador de regressão;

Amostragem aleatória simples (AAS) é o método mais simples para a seleção de

uma amostra. Além de servir como plano próprio, o seu procedimento é usado de modo

repetido em procedimentos de múltiplos estágios. Ele pode ser caracterizado através da

definição operacional: “De uma lista com N unidades elementares, sorteiam-se com igual

probabilidade n unidades”. A AAS pode ser feita com ou sem reposição. Do ponto de vista

prático, deve-se usar amostra sem reposição, pois não estaria sendo incorporada nossa

informação se uma mesma unidade fosse sorteada novamente. Entretanto, do ponto de vista

estatístico, a reposição recompõe o universo tornando-o mais fácil deduzir as propriedades

dos modelos teóricos (independência).

A amostragem estratificada consiste na divisão de uma população em grupos

(chamado estratos) segundo alguma característica conhecida na população sobre estudo, e

de cada um desses estratos são selecionadas amostras em proporções convenientes.

Aumentando-se o tamanho da amostra, o erro padrão diminui. Se a população é muito

heterogênea é difícil definir uma AAS da população com uma precisão razoável. E uma

saída para este problema é dividir a população e sub-populações internamente mais

homogêneas, ou seja, grupos com variâncias pequenas que diminuirão erro amostral global.

Page 5: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

4

Quando o sistema de referência1 não é adequado e o custo de atualizá-los é muito

elevado, a tarefa amostral pode ser facilitada se forem selecionados grupos de unidades

elementares, ou chamados conglomerados. Por exemplo, uma amostra de estudantes pode

ser obtida pelo sorteio de uma escola. O que caracteriza bem o plano amostral de

conglomerados é que a unidade amostral contém mais de um elemento populacional.

A amostragem sistemática pode ser encarada como um esquema de amostragem por

conglomerado onde se sorteia um único conglomerado de tamanho n. Sua vantagem

principal é a facilidade de sua execução.

O uso de afirmações adicionais para melhorar as estimativas é muito empregado em

amostragem. Entretanto, essa informação às vezes é usada para melhorar os estimadores, e

não o plano amostral. Neste relatório, serão analisado dois tipos de estimadores que

incorporam informações adicionais através de variáveis auxiliares: estimador de razão e

estimador de regressão.

Então, neste relatório será usado os conceitos destes processos para aplicação num

conjunto de dados reais, que é explicado no objetivo.

1Também denominado de frame, é uma lista ou descrição das unidades amostrais da população, por meio da qual é possível selecionar a amostra.

Page 6: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

5

OBJETIVOS

O objetivo deste relatório é aplicar os conceitos aprendidos na disciplina

Tecnologia da Amostragem num conjunto de dados real (Novo Dicionário da Língua

Portuguesa).

O objetivo específico é:

Estimar o total de palavras em negrito2 no dicionário: Novo Dicionário da Língua

Portuguesa (1ªed.), utilizando os seguintes processos de amostragem sem reposição:

• Amostragem Aleatória Simples (AAS);

• Amostragem Estratificada (AE);

• Amostragem Sistemática (AS);

• Amostragem por Conglomerado (AC);

• Estimador de Razão;

• Estimador de Regressão;

2 Palavras em negrito: incluem palavras principais e palavras derivadas delas como nomes, adjetivos e verbos.

Page 7: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

6

METODOLOGIA

Para alcançar o objetivo deste trabalho, todo embasamento teórico necessário para o

desenvolvimento do relatório foi adquirido pelas anotações das aulas da disciplina

Tecnologia de Amostragem e leitura dos livros que são encontrados na referência. As

aplicações da teoria são apresentadas em cada tópico do respectivo processo de

amostragem.

Os softwares usados foram:

• SAS : utilizado para gerar páginas selecionadas de cada processo amostral.

• Excel: usado para calcular as médias, variâncias e intervalos de confiança de

cada processo de amostragem.

Nos apêndices, encontram-se os comandos e saídas do software SAS de cada

processo.

Page 8: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

7

1 – DICIONÁRIO DA LÍNGUA PORTUGUESA

1.1-CARACTERÍSTICAS DO DICIONÁRIO.

Organizado por Antenor Nascentes, o Dicionário da Língua Portuguesa

concretizou, ao menos temporariamente, o projeto da Academia Brasileira de Letras: um

dicionário da Língua Portuguesa. Vários planos de dicionários haviam sido apresentados à

Academia, entre eles, o projeto organizado por Laudelino Freire do Grande e Novíssimo

Dicionário da Língua Portuguesa que, após alguns anos de discussões na Academia, foi

publicado independentemente dessa instituição. Depois de ser dissolvida a comissão do

dicionário de Freire, a Academia solicita a um “técnico externo” para a confecção de um

dicionário, cabendo assim a Antenor Nascentes um novo projeto de dicionário da

Academia.

O dicionário de Nascentes (Dicionário da Língua Portuguesa, 1ª edição) é

apresentado em quatro volumes e contém 83.263 entradas. Embora a descrição dos verbetes

tenha sido finalizada em 1943, esse dicionário foi publicado somente em 1961-1967 pela

Imprensa Nacional.

Cada entrada do Dicionário da Língua Portuguesa apresenta transcrição fonética

(até a década de 1940, segundo Nascentes, somente as palavras inglesas possuíam esse tipo

de transcrição). Algumas dessas palavras são acompanhadas de suas etimologias e também

de exemplos, esses criados pelo autor do dicionário e não abonados de autores consagrados:

“Uma Academia não cita autores. Ela tem autoridade” (Nascentes, 1961-1967,

“exposição”).

O dicionário inclui também alguns “brasileirismos, de caráter regional, no entanto,

foram omitidos barbarismos, estrangeirismos inúteis, palavras chulas, de gíria ou pouco

descentes”. (Athayde, 1961-1967, prefácio). Já na 2ª edição, esse dicionário apresenta

algumas modificações em relação à 1ª edição. Publicado em 1988, pela editora Bloch, a 2ª

edição é apresentada em um único volume e contém 88.818 entradas. Nessa edição as

entradas não apresentam mais sua transcrição fonética.

Page 9: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

8

No Vocabulário Ortográfico da Língua Portuguesa (1999) a Academia Brasileira de

Letras expõe o projeto de ampliar o Dicionário da Língua Portuguesa. Esse dicionário

apresenta, segundo o prefácio, 150 mil verbetes.

1.2 – BIOGRAFIA DO AUTOR

Crítico, lexicógrafo, filólogo, professor, tradutor e ensaísta brasileiro, Aurélio

Buarque de Holanda Ferreira nasceu em Passo de Camaragibe, Alagoas, em 3 de maio de

1910 e faleceu em 28 de fevereiro de 1989 na cidade do Rio de Janeiro. Em 1923, mudou-

se para Maceió (AL), onde, aos 14 anos de idade, começou a dar aulas particulares de

português. Aos 15, ingressou efetivamente no magistério: foi convidado pelo Ginásio

Primeiro de Março a lecionar em seu curso primário. Já naquela época passou a se

interessar por língua e literatura portuguesas. Formou-se em Direito pela Faculdade de

Direito do Recife em 1936. Nesse mesmo ano, tornou-se professor de Língua Portuguesa e

Francesa e de Literatura no Colégio Estadual de Alagoas. Em 1937 e 1938, assumiu o cargo

de diretor da Biblioteca Municipal de Maceió.

Em 1938, mudou-se para o Rio de Janeiro, onde continuou sua carreira de

magistério ensinando Língua Portuguesa e Literatura Brasileira no Colégio Pedro II e no

então Colégio Anglo-Americano.

Aurélio Buarque de Holanda também publicou artigos, contos e crônicas na

imprensa carioca. Em 1939 publica o ensaio "Linguagem e Estilo de Machado de Assis".

De 1939 a 1943, atuou como secretário da Revista do Brasil. Em 1941, deu início a seu

trabalho de lexicógrafo, colaborando com o Pequeno Dicionário da Língua Portuguesa.

Em 1942, lançou o livro de contos Dois Mundos, que foi premiado dois anos depois pela

Academia Brasileira de Letras. No ano seguinte, trabalhou no Dicionário Enciclopédico do

Instituto Nacional do Livro. Em 1945, publicou o ensaio “Linguagem e Estilo de Eça de

Queirós”. Nesse mesmo ano, participou do I Congresso Brasileiro de Escritores, em São

Paulo, e lançou, juntamente com Paulo Rónai, o primeiro dos cinco volumes da coleção

Mar de Histórias, uma antologia de contos da literatura universal. Ainda em 1945, casou-se

com Marina Baird, com quem teve dois filhos, Aurélio e Marisa Luísa, e cinco netos. Entre

Page 10: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

9

1947 e 1960, produziu textos para a seção O Conto da Semana, do suplemento literário do

Diário de Notícias.

A partir de 1950, começou a escrever para a revista Seleções, do Reader’s Digest, na

seção Enriqueça o Seu Vocabulário. Oito anos depois, reuniu todos os artigos que produziu

para essa seção, publicando-os em um livro com o mesmo título.

De 1954 a 1955, lecionou Estudos Brasileiros na Universidade Autônoma do

México, contratado pelo Ministério das Relações Exteriores.

Em 1961, foi eleito para a cadeira n.º 30 da Academia Brasileira de Letras,

anteriormente ocupada por Antônio Austregésilo.

A preocupação com a língua portuguesa e o amor pelas palavras levou-o a estudar e

pesquisar o idioma durante muitos anos com o objetivo de lançar seu próprio dicionário.

Finalmente, em 1975, foi publicado o Novo Dicionário da Língua Portuguesa, conhecido

como Dicionário Aurélio ou somente Aurelião. Em 1977, publicou o Minidicionário da

Língua Portuguesa, que também é chamado de Miniaurélio. Em 1980, o Médio Dicionário

da Língua Portuguesa, que também foi chamado de Médio Dicionário Aurélio. Em 1989,

lançou o Dicionário Aurélio Infantil da Língua Portuguesa, com ilustrações do Ziraldo. O

autor também traduziu várias obras, como Poemas de Amor, de Amaru; Pequenos Poemas

em Prova, de Charles Baudelaire; e os contos para a coleção Mar de Histórias.

Aurélio Buarque de Holanda foi membro da Associação Brasileira de Escritores na

seção do Rio de Janeiro (de 1944 a 1949), da Academia Brasileira de Filologia, do Pen

Clube do Brasil (centro brasileiro da Associação Internacional dos Escritores), da Comissão

Nacional do Folclore, da Academia Alagoana de Letras, do Instituto Histórico e Geográfico

de Alagoas e da Hispanic Society of América.

Obra: Dois Mundos (contos, 1942); ensaios "Linguagem e estilo de Machado de

Assis" (1939), “Linguagem e estilo de Eça de Queirós”, publicado no Livro do Centenário

de Eça de Queirós (1945); Mar de Histórias [antologia de contos da literatura universal, em

colaboração com Paulo Rónai — volume I (1945), volume II (1951), volume III (1958),

volume IV (1963) e volume V (1981)]; Contos Gauchescos e Lendas do Sul (edição

comentada do texto de Simões Lopes Neto, acrescida de glossário de termos gauchos, em

1949); O Romance Brasileiro de 1752 a 1930 (1952); Roteiro Literário do Brasil e de

Page 11: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

10

Portugal (antologia literária da língua portuguesa, em colaboração com Álvaro Lins, 1956);

Território Lírico (ensaios, 1958); Enriqueça o Seu Vocabulário, Filologia (1958);

Vocabulário Ortográfico Brasileiro (1969); O Chapéu de Meu Pai (edição revista e

reduzida de Dois Mundos, 1974); Novo Dicionário da Língua Portuguesa (1975);

Minidicionário da Língua Portuguesa (1977), Médio Dicionário da Língua Portuguesa

(1980) e Dicionário Aurélio Infantil da Língua Portuguesa (1989).

Figura 1. Foto de Aurélio Albuquerque de Holanda.

Page 12: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

11

2-TIPOS DE AMOSTRAGEM

2.1-AMOSTRAGEM ALEATÓRIA SIMPLES

No Novo Dicionário da Língua Portuguesa, considera-se como unidade amostral

uma página do dicionário. Neste dicionário, existem 1488 páginas formam o sistema de

referência. A variável (Y) em estudo é número de palavras em negrito em cada página.

Utilizando o processo de amostragem aleatória simples, foi estimado o total de

palavras em negrito do dicionário. Para isso, foi gerada3 uma amostra aleatória de 60

páginas pelo software SAS. E para cada página foi contado o número total de palavras em

negrito.

Tabela 1. Números de palavras em negrito em cada página selecionada.

Nº da pág. selecionada Y 16 101 44 70 47 98 50 83 55 83 72 80

129 89 149 75 218 81 221 82 244 82 250 82 331 87 341 92 355 72 371 74 375 91 385 104 417 66 443 81 444 82 500 77 517 87 533 81 535 61 559 109 576 85

3 Encontra-se no APÊNDICE A.

Page 13: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

12

581 95 582 63 645 59 668 85 677 98 697 89 716 100 720 99 743 82 763 85 773 92 785 95 808 88 824 77 890 73 904 79 958 84 969 94 986 70 987 84 1019 84 1020 112 1066 97 1093 96 1135 73 1138 80 1143 62 1159 87 1185 88 1215 64 1235 70 1244 82 1251 75

TOTAL 5016

O estimador da média amostral é:

6,8360

5016

n

yy

n

1ii

==∑

= = , ou seja, em média tem-se aproximadamente 84 palavras

em negrito por página.

O estimador do total populacional é:

8,1243966,83.1488y.NY ===

Page 14: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

13

Portanto, pela AAS tem-se aproximadamente 124400 palavras em negrito no Novo

Dicionário Aurélio.

A variância do estimador do total populacional é:

1763,13859

4,8152

1n

)yy(sonde,

n

s.

N

nN.N)Y(V

n

1i

2i

22

2 ==−

∑ −=

−= =

Então:

489343060

1763,138.

1488

601488.1488)Y(V 2 =

−=

Considerando um intervalo de confiança de 95%, para α = 0,05 (Zα/2 = 1,96), têm-

se:

IC (95%) = [ ])Y(V.zy.N;)Y(V.zy.N 2/2/ αα +−

IC (95%) = [ ]4893430.96,16,83.1488;4893430.96,16,83.1488 +−

IC (95%) = [ ,128732;1,120061 5]

Observe que o erro de estimação:

4335,7354893430.96,1)ˆ(ˆ2/ === YVzB α

Isso significa que a margem de erro é de 4335 palavras em negrito. Caso B = 1000,

ou seja, um erro de 1000 palavras, e Zα/2 = 1,96 (95% de confiança) um novo tamanho para

amostra é dado por:

656488138,1763.1.96,11000

488138,1763.1.96,12

2

22/

2

222/ ≈

+=

+=

NszB

Nszn

α

α

Então diminuindo o erro de 4335 para 1000 palavras, ou seja, diminuindo o erro 4

vezes, é necessário aumentar o tamanho da amostra em 10 vezes.

Page 15: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

14

2.2-AMOSTRAGEM ESTRATIFICADA

No o processo de amostragem estratificada, é necessário dividir o tamanho da

amostra em estratos. Utilizando alocação proporcional para obter o tamanho de cada estrato

(nh = n.Wh = n.Nh/N ) foi gerada4 uma amostra aleatória para cada estrato h, totalizando 60

páginas pelo software SAS. E para cada página foi contado o número total de palavras em

negrito.

Tabela 2. Divisão da amostra em estratos.

Estrato Nh nh A 170 7 B 67 3 C 179 7 D 79 3 E 108 4 F 63 3 G 45 2 H 24 1 I 56 2 L 48 2 M 101 4 N 25 1 O 29 1 P 149 6 R 76 3 S 90 4 T 79 3 V 39 2

J,K,Q,U,W,X,Y,Z 61 2 Total 1488 60

Tabela 3. Número de palavras em negrito para cada estrato.

LETRA PAG Y A 92 82 A 104 101 A 107 79 A 112 87 A 124 107 A 139 96 A 165 81 B 172 111 B 179 76

4 Encontra-se no APÊNDICE A.

Page 16: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

15

B 230 92 C 335 109 C 347 83 C 351 103 C 356 57 C 369 57 C 384 92 C 412 69 D 419 63 D 428 72 D 488 97 E 562 91 E 567 94 E 584 81 E 601 83 F 605 79 F 613 101 F 661 82 G 696 89 G 703 92 H 712 52 I 781 78 I 773 111 L 8121 87 L 818 31 M 920 77 M 925 81 M 941 99 M 957 105 N 960 48 O 1008 98 P 1018 65 P 1035 94 P 1080 87 P 1085 90 P 1120 70 P 1149 80 R 1228 83 R 1240 84 R 1252 82 S 1256 78 S 1267 77 S 1297 87 S 1335 68 T 1396 87 T 1408 101 T 1420 89 V 1437 76

Page 17: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

16

V 1441 82 U 1428 99 X 1476 58

Para estimar a média estratificada, é preciso calcular a média em cada estrato. Na

Tabela 3 encontra-se principais medidas que serão necessárias: média e variância de cada

estrato.

Tabela 4. Média, Variância de cada estrato h .

Estrato hy Wh hh yW . 2hs Nh Nh.sh

2

A 90,42857 0,11424731 10,33122 119,952381 170 20391,9 B 93 0,04502688 4,1875 307 67 20569 C 81,42857 0,1202957 9,795507 447,952381 179 80183,48 D 77,33333 0,0530914 4,105735 310,3333333 79 24516,33 E 87,25 0,07258065 6,332661 38,91666667 108 4203 F 87,33333 0,04233871 3,697581 142,3333333 63 8967 G 90,5 0,03024194 2,736895 4,5 45 202,5 H 52 0,01612903 0,83871 0 24 I 94,5 0,03763441 3,556452 544,5 56 30492 L 59 0,03225806 1,903226 1568 48 75264 M 90,5 0,06787634 6,142809 185 101 18685 N 48 0,01680108 0,806452 0 25 O 98 0,01948925 1,909946 0 29 P 81 0,10013441 8,110887 132,8 149 19787,2 R 83 0,05107527 4,239247 1 76 76 S 77,5 0,06048387 4,6875 60,33333333 90 5430 T 92,33333 0,0530914 4,902106 57,33333333 79 4529,333 V 79 0,02620968 2,070565 18 39 702

J,K,Q,U,W,X,Y,Z 78,5 0,04099462 3,218078 840,5 61 51270,5 Total 83,57308 365269,2

Em que:

h

n

ih

h n

yy

h

i∑== 1 e

1

)(1

2

2

−=∑

=

h

n

ihh

hn

yys

h

i

Logo , o estimador da média estratificada populacional é:

∑=

==L

hhhes ywy

1

57308,83.

Page 18: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

17

E o estimador do total estratificado populacional é:

124356,757308,83.1488.ˆ === eses yNY , ou seja, o dicionário tem

aproximadamente 124357 palavras em negrito.

Cálculo da variância do estimador do total estratificado populacional:

86934082,365269.60

601488)ˆ(ˆ

1

2 =−=−= ∑=

L

hhhes sN

n

nNYV

Construindo um intervalo de confiança de 95%, para α = 0,05 (Zα/2 = 1,96), têm-se:

IC (95%) =

+− )ˆ(ˆ.ˆ;)ˆ(ˆ.ˆ

2/2/ eseseses YVzYYVzY αα

IC (95%) = [ ]8693408.96,17,1243563;8693408.96,17,1243563 +−

IC (95%) = [ 130135,7118577,8; 5]

2.3-AMOSTRAGEM SISTEMÁTICA

Utilizando o processo de amostragem sistemática, foi estimado o total de palavras

em negrito do dicionário. Para isso, foi gerada5 uma amostra aleatória de 60 páginas pelo

software SAS. E para cada página foi contado o número total de palavras em negrito.

Tabela 3. Número de palavras em negrito por página selecionada.

Nº da pág. selecionada Y 49 89 74 94 99 103

124 107 149 75 174 96 199 110 224 95 249 96 274 92 299 111

5 Encontra-se no APÊNDICE C.

Page 19: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

18

324 91 349 64 374 71 399 94 424 86 449 86 474 71 499 88 524 95 549 96 574 57 599 68 624 80 649 109 674 75 699 70 724 107 749 92 774 74 799 84 824 77 849 87 874 87 899 78 924 102 949 92 974 86 999 107 1024 92 1049 89 1074 75 1099 91 1124 79 1149 80 1174 93 1199 74 1224 74 1249 76 1274 81 1299 98 1324 81 1349 79 1374 93 1399 64 1424 101 1449 96 1474 39 Total 4997

Page 20: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

19

O estimador da média amostral é:

2833,8360

49971 ===∑

=

n

yy

n

ii

sis , ou seja, em média tem-se aproximadamente 83

palavras em negrito por página.

O estimador do total populacional é:

123925,62833,83.1488.ˆ === sissis yNY

Portanto, pela AS tem-se aproximadamente 123926 palavras em negrito no Novo

Dicionário Aurélio.

A variância do estimador do média populacional é:

199,355259

11761,957

1

)(,

)1(1)(ˆ 1

2

222 ==−

−=−−

−=∑

=

n

yy

sondesN

nks

N

NyV

n

ii

wsissis

∑∑= =

==−−

=k

i

n

jiijwsis yy

nks

1

2

1.

2 7,97420831)-25(60

11761,957)(

)1(

1

Obs: .iy é a média da i-ésima amostra. Como temos apenas uma amostra, logo

yyi =.

Então:

191,316697,97420831488

)160(253552,199

1488

11488)(ˆ =−−

−=sisyV

Portanto, a variância do estimador do total populacional é:

42360270331669,191.1488)(ˆ.)ˆ(ˆ 22 === sissis yVNYV

Considerando um intervalo de confiança de 95%, para α = 0,05 (Zα/2 = 1,96), têm-

se:

Page 21: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

20

IC (95%) =

+− )ˆ(ˆ..;)ˆ(ˆ.. 2/2/ sissississis YVzyNYVzyN αα

IC (95%) = [ ]423602703.96,12833,83.1488;423602703.96,12833,83.1488 +−

IC (95%) = [ 164265,6;83585,64 ]

2.4-AMOSTRAGEM POR CONGLOMERADO

No processo de amostragem por conglomerado, têm-se as seguintes notações:

N = 1488 (total de páginas no dicionário).

Ni = 6 (número de elementos no i-ésimo conglomerado, i = 1,2,..., M).

M = 1488/6 = 248 (número de conglomerados possíveis).

m = 10 (número de conglomerados selecionados na amostra).

n = 60 (tamanho da amostra).

ni = 6(número de elementos amostrados no i-ésimo conglomerado, i = 1,2,..., m).

Note que o tamanho dos conglomerados são iguais (6).

Assim foi possível estimar o total de palavras em negrito do dicionário. Para isso,

foi gerada6 uma amostra aleatória de 60 páginas pelo software SAS. E para cada página foi

contado o número total de palavras em negrito.

Tabela 4. Número de palavras em negrito por página selecionada.

Nº da pág. selecionada Y 42 104 43 93 44 70 45 63 46 67 47 98

216 77 217 94 218 81 219 84 220 88 221 82

6 Encontra-se no APÊNDICE D.

Page 22: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

21

414 95 415 91 416 10 417 68 418 81 419 63 576 86 577 69 578 78 579 57 580 100 581 95 666 63 667 71 668 87 669 82 670 74 671 93 714 75 715 88 716 100 717 112 718 120 719 97 1062 79 1063 69 1064 86 1065 81 1066 96 1067 59 1158 93 1159 88 1160 67 1161 76 1162 20 1163 56 1182 112 1183 77 1184 108 1185 89 1186 92 1187 84 1344 66 1345 83 1346 80 1347 82 1348 101 1349 79

Page 23: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

22

Total 4879

O estimador da média amostral é:

3166,8160

4879

1

1 ===∑

=

=m

ii

m

ii

c

n

yy

, ou seja, em média tem-se aproximadamente 81 palavras em negrito por página.

O estimador do total populacional é:

120999,23166,81.1488.ˆ === cc yNY

Portanto, pela AC tem-se aproximadamente 121000 palavras em negrito no Novo

Dicionário Aurélio.

A variância do estimador do média populacional é:

4355,88107359

320996,9833

1

)()(ˆ 1

2

222

==−

−=

−=∑

=

n

yysondes

nMm

mMyV

n

ii

c e

610

601 ===∑

=

m

nn

m

ii

Então:

65,692183834355,8810736.10.248

10248)(ˆ

2=

−=cyV

Portanto, a variância do estimador do total populacional é:

912603314,665,69218383.1488)(ˆ.)ˆ(ˆ 22 === cc yVNYV

Considerando um intervalo de confiança de 95%, para α = 0,05 (Zα/2 = 1,96), têm-

se:

Page 24: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

23

IC (95%) =

+− )ˆ(ˆ..;)ˆ(ˆ.. 2/2/ sissississis YVzyNYVzyN αα

IC (95%) = [ ]912603314,6.96,13166,81.1488;912603314,6.96,13166,81.1488 +−

IC (95%) = [ 9127957,424;1114040,975 ]

Se a pesquisa for feita 100 vezes, em 95 delas o número total de palavras em negrito

estará dentro deste intervalo.

2.5-ESTIMADOR TIPO RAZÃO

O estimador de razão necessita de uma variável auxiliar (X), número de palavras

principais em negrito por página, e de uma variável Y, número de palavras em negrito.

Para estimar o total de palavras em negrito do dicionário, foi utilizada a mesma

amostra aleatória da AAS de 60 páginas pelo software SAS, encontrada no APÊNDICE A.

E para cada página foi contado o número total de palavras em negrito e também o número

de palavras principais.

Tabela 5. Número de palavras em negrito principais (X) e palavras em negrito (Y) por

página selecionada.

Nº da pág. Selecionada X Y (yi-Rxi)2

16 99 101 59,0664 44 69 70 33,06799 47 98 98 91,92273 50 66 83 111,1553 55 66 83 111,1553 72 74 80 1,536712 129 79 89 5,158318 149 70 75 3,41625 218 75 81 1,788839 221 66 82 91,06927 244 80 82 33,94973 250 81 82 47,94833 331 80 87 0,683334 341 80 92 17,41693 355 65 72 0,410695 371 59 74 85,15327 375 89 91 44,98569

Page 25: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

24

385 103 104 82,38828 417 61 66 0,936662 443 75 81 1,788839 444 82 82 64,35739 500 76 77 41,41319 517 86 87 54,96203 533 72 81 3,82603 535 58 61 7,151955 559 103 109 16,62029 576 79 85 2,988774 581 94 95 67,17937 582 45 63 184,8924 645 35 59 423,3654 668 82 85 25,22356 677 77 98 181,3563 697 89 89 75,81423 716 98 100 57,57219 720 97 99 56,09712 743 81 82 47,94833 763 80 85 7,989894 773 72 92 167,8586 785 94 95 67,17937 808 82 88 4,089722 824 73 77 9,870964 890 73 73 51,00544 904 59 79 202,4318 958 83 84 50,69638 969 94 94 84,57197 986 62 70 3,741725 987 53 84 666,4065

1019 64 84 188,7515 1020 95 112 59,38036 1066 96 97 70,42513 1093 96 96 88,20906 1135 57 73 108,6497 1138 66 80 56,89718 1143 55 62 2,62176 1159 75 87 21,73914 1185 78 88 5,612284 1215 61 64 8,807914 1235 63 70 0,699767 1244 74 82 0,578144 1251 75 75 53,83854 Total 4569 5016 4117,82

Page 26: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

25

y

50

60

70

80

90

100

110

120

x

0 10 20 30 40 50 60 70 80 90 100 110 120

Perceba que se uma reta for ajustada, não passará pela origem. Assim, o estimador

de regressão é o mais apropriado para estimar a característica de interesse. Os comandos

utilizados para gerar este gráfico estão no APÊNDICE F.

Calculando a estimativa da razão:

1,09783376,15

83,6ˆ

1

1

====∑

=

=

x

y

n

x

n

y

Rn

ii

n

ii

Isso significa que a cada 1,10 palavras em negrito, têm-se uma palavra principal.

Figura 2. Gráfico de dispersão X por Y.

Page 27: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

26

Para calcular o estimador da razão do total populacional, é necessário uma variável

auxiliar X. Cada uma das 10 duplas7 teve que gerar uma outra amostra para contar o

número de palavras principais. Depois, juntou-se as 10 informações para obtenção de X

populacional. Assim, a amostra representativa de 600 páginas chegou-se ao total de 43999

palavras principais. Deste modo, pode-se estimar:

109117,573,33167.1488.ˆ === xNX , onde 33167,73600/43999 ==x

ou seja, aproximadamente existem 109117 palavras principais no dicionário.

Finalmente, o estimador da razão do total populaciona é:

119792,85,109117.097833,1ˆ.ˆˆ === XRYR

Portanto, pelo estimador de razão tem-se aproximadamente 119793 palavras em

negrito no Novo Dicionário Aurélio.

A variância do estimador do total populacional é:

69,7935759

4117,82

1

)ˆ(,

)1()ˆ(ˆ 1

2

222

==−

−=−=∑

=

n

xRysondes

n

fNYV

n

iii

RRR e

0,0403231488

60 ===N

nf

Então:

2471697.69,7935760

040323,011488)ˆ(ˆ 2 =

−=RYV

Considerando um intervalo de confiança de 95%, para α = 0,05 (Zα/2 = 1,96), têm-

se:

IC (95%) =

+− )ˆ(ˆ.ˆ;)ˆ(ˆ.ˆ

2/2/ RRRR YVzYYVzY αα

IC (95%) = [ ]2471697.96,1119792,8;2471697.96,1119792,8 +−

IC (95%) = [ 122874,3;116711,4 ]

7 No caso desta dupla, a amostra obtida encontra-se no APÊNDICE E.

Page 28: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

27

2.6-ESTIMADOR TIPO REGRESSÃO

O estimador de regressão também necessita da variável auxiliar (X) e da variável de

interesse (Y). Para estimar o total de palavras em negrito do dicionário, foi utilizada a

mesma amostra aleatória da AAS de 60 páginas pelo software SAS, encontrada no

APÊNDICE A. O procedimento de contagem e as variáveis utilizadas são de forma análoga

ao estimador de razão.

Tabela 6. Número de palavras em negrito principais (X) e palavras em negrito (Y) por

página selecionada.

Nº da pág.selecionada X Y yyi − xxi − ( yyi − )( xxi − ) ( xxi − )2

16 99 101 17,4 22,85 397,59 522,1225 44 69 70 -13,6 -7,15 97,24 51,1225 47 98 98 14,4 21,85 314,64 477,4225 50 66 83 -0,6 -10,15 6,09 103,0225 55 66 83 -0,6 -10,15 6,09 103,0225 72 74 80 -3,6 -2,15 7,74 4,6225 129 79 89 5,4 2,85 15,39 8,1225 149 70 75 -8,6 -6,15 52,89 37,8225 218 75 81 -2,6 -1,15 2,99 1,3225 221 66 82 -1,6 -10,15 16,24 103,0225 244 80 82 -1,6 3,85 -6,16 14,8225 250 81 82 -1,6 4,85 -7,76 23,5225 331 80 87 3,4 3,85 13,09 14,8225 341 80 92 8,4 3,85 32,34 14,8225 355 65 72 -11,6 -11,15 129,34 124,3225 371 59 74 -9,6 -17,15 164,64 294,1225 375 89 91 7,4 12,85 95,09 165,1225 385 103 104 20,4 26,85 547,74 720,9225 417 61 66 -17,6 -15,15 266,64 229,5225 443 75 81 -2,6 -1,15 2,99 1,3225 444 82 82 -1,6 5,85 -9,36 34,2225 500 76 77 -6,6 -0,15 0,99 0,0225 517 86 87 3,4 9,85 33,49 97,0225 533 72 81 -2,6 -4,15 10,79 17,2225 535 58 61 -22,6 -18,15 410,19 329,4225 559 103 109 25,4 26,85 681,99 720,9225 576 79 85 1,4 2,85 3,99 8,1225 581 94 95 11,4 17,85 203,49 318,6225 582 45 63 -20,6 -31,15 641,69 970,3225 645 35 59 -24,6 -41,15 1012,29 1693,3225 668 82 85 1,4 5,85 8,19 34,2225 677 77 98 14,4 0,85 12,24 0,7225 697 89 89 5,4 12,85 69,39 165,1225

Page 29: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

28

716 98 100 16,4 21,85 358,34 477,4225 720 97 99 15,4 20,85 321,09 434,7225 743 81 82 -1,6 4,85 -7,76 23,5225 763 80 85 1,4 3,85 5,39 14,8225 773 72 92 8,4 -4,15 -34,86 17,2225 785 94 95 11,4 17,85 203,49 318,6225 808 82 88 4,4 5,85 25,74 34,2225 824 73 77 -6,6 -3,15 20,79 9,9225 890 73 73 -10,6 -3,15 33,39 9,9225 904 59 79 -4,6 -17,15 78,89 294,1225 958 83 84 0,4 6,85 2,74 46,9225 969 94 94 10,4 17,85 185,64 318,6225 986 62 70 -13,6 -14,15 192,44 200,2225 987 53 84 0,4 -23,15 -9,26 535,9225

1019 64 84 0,4 -12,15 -4,86 147,6225 1020 95 112 28,4 18,85 535,34 355,3225 1066 96 97 13,4 19,85 265,99 394,0225 1093 96 96 12,4 19,85 246,14 394,0225 1135 57 73 -10,6 -19,15 202,99 366,7225 1138 66 80 -3,6 -10,15 36,54 103,0225 1143 55 62 -21,6 -21,15 456,84 447,3225 1159 75 87 3,4 -1,15 -3,91 1,3225 1185 78 88 4,4 1,85 8,14 3,4225 1215 61 64 -19,6 -15,15 296,94 229,5225 1235 63 70 -13,6 -13,15 178,84 172,9225 1244 74 82 -1,6 -2,15 3,44 4,6225 1251 75 75 -8,6 -1,15 9,89 1,3225

TOTAL 4569 5016 3,41061E-13 -3,41061E-13 8842,6 12761,65

No estimador de regressão, a média amostral é estimada por:

)( xXbyyreg −+=

Em que:

b é obtido da amostra: 0,69290465,12761

6,8842

)(

))((

1

2

1 ==−

−−=

=

=n

ii

n

iii

xx

xxyyb

33167,73600

43999==X e 15,7660

4569==x e 16,8360

5016==y

Page 30: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

29

Assim: )( xXbyyreg −+= → )16,7633,73(6929,016,83 −+=regy → 64,81=regy , ou seja,

em média tem-se aproximadamente 82 palavras em negrito por página.

De modo que o estimador de regressão do total populacional é igual a:

12149164,81.1488.ˆ === regreg yNY

Portanto, pelo estimador de regressão tem-se aproximadamente 121500 palavras em

negrito no Novo Dicionário Aurélio.

A variância do estimador do média populacional é:

138,176359

8152,4

1

)()1(

2

11)(ˆ 1

2

222 ==−

−=−

−−−≈

∑=

n

yy

sondesn

n

n

fyV

n

ii

yyreg ρ e

866929587,0)().(

))((ˆ

1 1

1 =−−

−−==∑ ∑

= =

=n

i

n

iii

i

n

ii

yx

xy

yyxx

xxyy

ss

Então:

0,558522970,86692958-1138,1763.(260

160

60

04,01)(ˆ =

−−−≈regyV

Portanto, a variância do estimador de regressão do total populacional é:

12366505585229,0.1488)(ˆ.)ˆ(ˆ 22 === regreg yVNYV

Considerando um intervalo de confiança de 95%, para α = 0,05 (Zα/2 = 1,96), têm-

se:

IC (95%) =

+− )ˆ(ˆ.ˆ;)ˆ(ˆ.ˆ

2/2/ regregregreg YVzYYVzY αα

IC (95%) = [ ]1236650.96,1121491;1236650.96,1121491 +−

IC (95%) = [ 123670,6;119311,4 ]

Page 31: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

30

3- CONSIDERAÇÕES FINAIS

O interessante neste trabalho foi a comparação dos diversos tipos de amostragem,

com suas respectivas formas de aplicação e cálculos das características de interesse. O

método de aplicação mais demorado foi a Amostragem Estratificada. Primeiramente, foi

preciso calcular o tamanho de cada estrato. Depois, para cada estrato, geramos uma amostra

aleatória do tamanho deste. O seguinte passo foi verificar a página inicial e final de cada

letra (estrato). Após a contagem normalmente das palavras em cada estrato, um problema

foi encontrado no último estrato (J, K, Q, U, X,Y, Z), pois entre uma letra e outra existia

um outro estrato. Para resolver este problema, numerou-se este estrato de 1 a 61 e colocou o

equivalente a cada página. Por exemplo: a letra Q inicia-se na página 1163, que equivale a

vigésima página do estrato. A letra U começa na página 1423 que equivale a trigésima

quinta página do estrato. E assim por diante. O tamanho deste estrato foi 2, assim gerou-se

dois números aleatórios e foi contado o número de palavras em negrito.

Tabela 7. Comparação dos diferentes processos de amostragem.

Processo de amostragem Y total Variância Erro padrão IC (95%) Lim inf Lim sup

AAS 124397 4893430 4336 120061 128733 AE 124357 8693408 5779 118578 130136 AS 123926 423602701 40340 83586 164266 AC 120999 12603315 6958 114041 127957

Razão 119793 2471697 3081 116711 122874 Regressão 121491 1236650 2180 119311 123671

A estimativa do total de palavras para todos procedimentos foram semelhantes.

Porém, as variâncias foram diferentes. O processo que teve a menor variância foi o

estimador de regressão, conseqüentemente, o seu erro foi o menor. Ao contrário da AC, a

AS a variância foi muito grande e sua desvantagem é que não se consegue calcular a

precisão do estimador. Este relatório foi bastante proveitoso para aplicação de toda teoria

vista na disciplina Tecnologia da Amostragem, pois cada processo tem uma metodologia

diferente. Assim com a prática, os conceitos foram melhores fixados e conseqüentemente

quando houver uma situação real, haverá condições de se aplicar o melhor processo de

amostragem.

Page 32: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

31

REFERÊNCIAS

AURÉLIO POSITIVO. Biografia do Autor . Disponível em http://www.aureliopositivo.com.br/aurelio/biografia.asp <Acesso em 05/dez/2007>.

BOLFARINE, H., BUSSAB, W. O. Elementos de Amostragem. São Paulo: Edgard Blücher, 2005. 274p.

COCHRAN, W.G. Sampling Techniques. 3ªed. New york: John Wiley & Sons, 1977. 428p.

FERREIRA, A.B.H. Novo Dicionáro da Língua Portuguesa . Disponível em http://www.ibilce.unesp.br/~horta/dicionario/verbete%20dicionario%20da%20lingua%20portuguesa%20nascentes.htm>. Acesso em: 05 dez. 2007.

SCHEAFFER, R.L. Elementary Survey Sampling. 5ªed. Duxbury Press, 1996. 501p.

Page 33: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

32

APÊNDICE A: AMOSTRAGEM ALEATÓRIA SIMPLES Semente utilizada: 530 – Alexandro Programa SAS options ls=100 ps=200 nodate nonumber; data amostra; do i=1 to 70; y=int(1488*ranuni(530)); output; end; proc sort; by y; proc print; run; quit;

Figura 3. Saída do programa SAS: páginas selecionadas.

Page 34: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

33

APÊNDICE B: AMOSTRAGEM ESTRATIFICADA Sementes usadas: 145 – Bruno Pierre 530 – Alexandro Programa SAS data a; do i=1 to 7; a=int(170*ranuni(145)); output; end; proc sort; by a; proc print; run; data b; do i=1 to 3; b=170+int(67*ranuni(530)); output; end; proc sort; by b; proc print; run; data c; do i=1 to 7; c=238+int(179*ranuni(145)); output; end; proc sort; by c; proc print; run; data d; do i=1 to 3; d=417+int(79*ranuni(530)); output; end; proc sort; by d;

proc print; run; data e; do i=1 to 4; e=496+int(108*ranuni(145)); output; end; proc sort; by e; proc print; run; data f; do i=1 to 3; f=604+int(63*ranuni(530)); output; end; proc sort; by f; proc print; run; data g; do i=1 to 2; g=667+int(45*ranuni(145)); output; end; proc sort; by g; proc print; run; data h; do i=1 to 1; h=712+int(24*ranuni(530)); output;

Page 35: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

34

end; proc sort; by h; proc print; run; data i; do j=1 to 2; i=736+int(56*ranuni(145)); output; end; proc sort; by i; proc print; run; data l; do i=1 to 2; l=811+int(48*ranuni(530)); output; end; proc sort; by l; proc print; run; data m; do i=1 to 4; m=859+int(101*ranuni(145)); output; end; proc sort; by m; proc print; run; data n; do i=1 to 1; n=960+int(25*ranuni(530)); output; end; proc sort; by n; proc print; run; data o;

do i=1 to 1; o=985+int(29*ranuni(145)); output; end; proc sort; by o; proc print; run; data p; do i=1 to 6; p=1014+int(149*ranuni(530)); output; end; proc sort; by p; proc print; run; data r; do i=1 to 3; r=1178+int(76*ranuni(145)); output; end; proc sort; by r; proc print; run; data s; do i=1 to 4; s=1254+int(90*ranuni(530)); output; end; proc sort; by s; proc print; run; data t; do i=1 to 3; t=1344+int(79*ranuni(145)); output; end; proc sort; by t; proc print;

Page 36: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

35

run; data v; do i=1 to 2; v=1436+int(39*ranuni(530)); output; end; proc sort; by v; proc print; run; data outros; do i=1 to 2; outros=int(61*ranuni(145)); output; end; proc sort; by outros; proc print; run;

Page 37: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

36

Como observado no programa, para cada letra há uma semente diferente.

Facilitando a visualização, todas as saídas estão na Figura 2.

O programa data outros, refere-se ao estrato (J,K,Q,U,W,X,Y,Z), na Figura 2, note

que na saída deste programa aparece as páginas 40 e 49. Que correspondem

respectivamente as páginas 1428 (X) e 1476 (U).

Tabela 8. Distribuição de letras do estrato outros.

Letra Página do Dicionário

Enumeração equivalente

Nº de págs. Página selecionada

J 792-809 1-18 18 K 810 19 1 Q 1163-1177 20-34 15 U 1423-1435 35-47 13 1428 W 1475 48 1 X 1476-1480 49-53 5 1476 Y 1481 54 1 Z 1482-1488 55-61 7

Figura 4. Saída do programa SAS: páginas selecionadas para diferentes estratos.

Page 38: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

37

APÊNDICE C: AMOSTRAGEM SISTEMÁTICA Semente utilizada: 145 – Bruno Pierre Programa SAS options ls=100 ps=150 nodate nonumber; data sistematica; y=int(60*ranuni(145)); sist=49; do i=1 to 70; sist=sist+(25); output; end; proc print; run; quit;

Figura 5 Saída do SAS: Páginas selecionadas.

Page 39: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

38

APÊNDICE D: AMOSTRAGEM POR CONGLOMERADO Semente utilizada: 530 – Alexandro options nodate nonumber ls = 100 ps =150; data conglomerado; do i=1 to 10; y=int(248*ranuni(530)); x=y*6; output; end; proc sort; by y; proc print; run; quit;

Note que x é a variável n° da página selecionada. São selecionados 10 de 248

conglomerados, cada conglomerado tem 6 páginas.

Figura 6 Páginas selecionadas (X) da amostragem por conglomerado.

Page 40: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

39

APÊNDICE E: VARIÁVEL AUXILIAR X

Cada dupla teve que contar o número de palavras principais para obter X. No caso

desta dupla, o procedimento segue abaixo:

Semente utilizada:

145- Bruno Pierre

Programa SAS data amostra1; do i=1 to 70; x=int(1488*ranuni(145)); output; end; proc sort; by x; proc print; run;

Figura 7 Saída do SAS: página selecionadas para variável X.

Page 41: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

40

Tabela 9. Número de palavras principais por página.

Nº da pág. Selecionada X (Palavras Principais) 8 80 38 71 59 92 88 71 117 79 138 67 141 91 144 89 209 107 217 83 235 90 273 78 327 80 436 82 455 79 461 77 482 51 522 89 548 107 551 85 554 54 595 83 640 59 680 90 704 86 705 99 745 74 747 55 778 70 786 87 790 114 796 80 811 45 845 79 897 60 911 70 938 59 940 97 963 90 970 69 982 50

Page 42: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

41

986 62 992 50 995 74 1039 65 1043 53 1074 75 1089 60 1103 88 1104 55 1109 87 1124 69 1143 55 1149 77 1172 64 1181 82 1192 79 1212 68 1219 64 1255 73 Total 4518

Page 43: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

42

APÊNDICE F: ESTIMADOR DE REGRESSÃO Programa SAS data graf; input x y; datalines; 99 101 69 70 98 98 66 83 66 83 74 80 79 89 70 75 75 81 66 82 80 82 81 82 80 87 80 92 65 72 59 74 89 91 103 104 61 66 75 81 82 82 76 77 86 87 72 81 58 61 103 109 79 85 94 95 45 63 35 59 82 85 77 98 89 89 98 100 97 99 81 82 80 85 72 92 94 95

Page 44: “RELATÓRIO TECNOLOGIA DA AMOSTRAGEM” · (chamado estratos) segundo alguma característica conhecida na população sobre estudo, e de cada um desses estratos são selecionadas

43

82 88 73 77 73 73 59 79 83 84 94 94 62 70 53 84 64 84 95 112 96 97 96 96 57 73 66 80 55 62 75 87 78 88 61 64 63 70 74 82 75 75 ; run; proc gplot; plot y*x/ haxis=0 to 125 by 10 vaxis=50 to 125 by 10; /*hminor=1 regeqn;*/ run;