breve história da estatística

116
Embrapa Informação Tecnológica Brasília, DF 2004 José Maria Pompeu Memória Breve História da Estatística Empresa Brasileira de Pesquisa Agropecuária Secretaria de Gestão e Estratégia Ministério da Agricultura, Pecuária e Abastecimento ISSN 1677-5473 Texto para Discussão 21

Upload: universidade-federal-fluminense

Post on 01-Jul-2015

686 views

Category:

Education


4 download

DESCRIPTION

Material de apoio - desenvolvido por terceiros - ao curso de Ciências Atuariais

TRANSCRIPT

Page 1: Breve história da estatística

1

Embrapa Informação TecnológicaBrasília, DF

2004

José Maria Pompeu Memória

Breve História da Estatística

Empresa Brasileira de Pesquisa AgropecuáriaSecretaria de Gestão e Estratégia

Ministério da Agricultura, Pecuária e Abastecimento

ISSN 1677-5473

Texto para Discussão 21

Page 2: Breve história da estatística

2

© Embrapa 2004

Memória, José Maria Pompeu.Breve história da estatística / José Maria Pompeu Memória. – Brasília, DF :

Embrapa Informação Tecnológica, 2004.111 p. ; 21 cm. – (Texto para discussão, ISSN 1677-5473 ; 21).

1. Estatística. I. Título. III. Série.

CDD 519.5 (21a ed.)

Todos os direitos reservados.A reprodução não autorizada desta publicação, no todo ou em parte,

constitui violação dos direitos autorais (Lei no 9.610).

Dados Internacionais de Catalogação na Publicação – CIPEmbrapa Informação Tecnológica

Exemplares desta publicação podem ser adquiridos na:

Empresa Brasileira de Pesquisa Agropecuária

Edifício-Sede da EmbrapaSecretaria de Gestão e EstratégiaParque Estação Biológica – PqEB – Av. W3 Norte (final)CEP 70770-901 – Brasília, DFFone (61) 448-4449Fax: (61) 448-4319

Editor desta sérieAntônio Jorge de Oliveira

Coordenador editorialVicente G. F. Guedes

Corpo editorialAntônio Flávio Dias ÁvilaAntônio Jorge de OliveiraAntônio Raphael Teixeira FilhoIvan Sérgio Freire de SousaLevon Yeganiantz

Produção editorial e gráficaEmbrapa Informação Tecnológica

Revisão de texto e tratamento editorialFrancisco C. Martins

Normalização bibliográficaDauí Antunes Corrêa

Editoração eletrônicaJúlio César da Silva Delfino

Projeto gráficoTênisson Waldow de Souza

1ª edição1ª impressão (2004): 500 exemplares

Page 3: Breve história da estatística

3

Apresentação

Texto para Discussão é um veículo utilizado pelaSecretaria de Gestão e Estratégia, da Empresa Brasi-leira de Pesquisa Agropecuária – Embrapa –, para di-namizar a circulação de idéias novas e a prática de re-flexão e de debate sobre aspectos relacionados à ciên-cia, à tecnologia, ao desenvolvimento agrícola e aoagronegócio.

O objetivo desta série é fazer com que uma co-munidade mais ampla, composta de profissionais dasdiferentes áreas científicas, debata os textos apresenta-dos, contribuindo para o seu aperfeiçoamento.

O leitor poderá apresentar comentários e suges-tões, assim como debater diretamente com os autores,em seminários especialmente programados, ou utilizan-do qualquer um dos endereços fornecidos: eletrônico,fax ou postal.

Os trabalhos para esta coleção devem ser envia-dos à Embrapa, Secretaria de Gestão e Estratégia,Edifício-Sede, Parque Estação Biológica – PqEB –,Av. W3 Norte (Final), CEP 70770-901 – Brasília, DF.Contatos com a Editoria devem ser feitos pelo fone(61) 448-4449 ou pelo fax (61) 448-4319.

Os usuários da Internet podem acessar as publi-cações pelo endereço http://www.embrapa.br/unidades/uc/sge/textdiscussao.htm/. Para os usuários do SistemaEmbrapa, basta clicar em novidades, na Intranet.

O Editor

Page 4: Breve história da estatística

4

Page 5: Breve história da estatística

5

Sumário

Introdução ................................................................ 9

Primórdios ............................................................... 11

A Escola Biométrica ................................................ 26

A Fase da Experimentação ...................................... 36

Desenvolvimento dosLevantamentos por Amostragem .............................. 68

A Era Atual ............................................................. 81

Referências ............................................................. 92

Page 6: Breve história da estatística

6

Page 7: Breve história da estatística

7

Breve História da Estatística

José Maria Pompeu Memória1

TextOD Oiscussã

para21

1Pesquisador aposentado da Empresa Brasileira de PesquisaAgropecuária – Embrapa – Parque Estação Biológica – PqEBAv. W3 Norte (final), CEP 70770-900 Brasília, DF, Brasil

Page 8: Breve história da estatística

8

Page 9: Breve história da estatística

9

Introdução

Auguste Comte1

“Não se conhece completamente uma ciência,a menos que se saiba sua história”.

esta Breve História da Estatística, o assunto está expostodidaticamente em cinco seções, a saber:

• Primórdios, dividida em três partes: Contribuiçãoda Astronomia, A Influência de Quételet, e AsIdéias de Galton.

• A Escola Biométrica.

• A Fase da Experimentação, também divididaem três partes: Fundamentos Teóricos daEstatística, Análise de Variância e DelineamentosExperimentais, e Teste de Hipóteses Estatísticas.

• Desenvolvimento dos Levantamentos porAmostragem e, finalmente.

• A Era Atual, onde é enfatizada a revolução cau-sada pelos computadores.

1Do Cours de Philosophie Positive. Citação extraída do livro Histoire de laDémographie de Jacques et Michel Dupâquier – Paris: Librairie AcademiquePerrin, 1985. p. 17.

.N

Page 10: Breve história da estatística

10

Contudo, a exposição não tem caráter puramentedescritivo das descobertas cronologicamente acumuladas,mas procura salientar as influências recíprocas entre aspersonalidades mais representativas e suas idéias sobre aorigem e o desenvolvimento dos métodos e técnicas maisimportantes, que contribuíram na formação da Estatísticacomo disciplina autônoma, numa perspectiva integrada àprópria história da ciência.

Não é tarefa fácil saber quando se originou a históriade qualquer ramo do conhecimento, pois isso vai dependerdo conceito que fizermos dele e que, naturalmente, evoluiráno decorrer do tempo. A história da Estatística bemconfirma esta asserção.

Ainda hoje, no conceito popular a palavra estatísticaevoca dados numéricos apresentados em quadros ougráficos, publicados por agências governamentais,referentes a fatos demográficos ou econômicos. A etimo-logia da palavra, do latim status (estado), usada aqui paradesignar a coleta e a apresentação de dados quantitativosde interesse do Estado, bem reflete essa origem.Entretanto, a mera coleta de dados assim apresentadosestá longe de ser o que entendemos, hoje, por Estatística.Na verdade, sua feição essencial é a de ser um conjuntode métodos (métodos estatísticos), especialmenteapropriado, no dizer de George Udny Yule (1871 – 1951),ao tratamento de dados numéricos afetados por umamultiplicidade de causas. Esses métodos fazem uso daMatemática, particularmente do cálculo de probabilidades,na coleta, apresentação, análise e interpretação de dadosquantitativos.

Page 11: Breve história da estatística

11

Primórdios

esde remota antigüidade, os governos têm se interessadopor informações sobre suas populações e riquezas, tendoem vista, principalmente, fins militares e tributários. Oregistro de informações perde-se no tempo. Confúciorelatou levantamentos feitos na China, há mais de 2000anos antes da era cristã. No antigo Egito, os faraós fizeramuso sistemático de informações de caráter estatístico,conforme evidenciaram pesquisas arqueológicas. Dessesregistros também se utilizaram as civilizações pré-colombianas dos maias, astecas e incas. É conhecido detodos os cristãos o recenseamento dos judeus, ordenadopelo Imperador Augusto.

Os balancetes do império romano, o inventário dasposses de Carlos Magno, o Doomsday Book, registroque Guilherme, o Conquistador, invasor normando daInglaterra, no século 11, mandou levantar das propriedadesrurais dos conquistados anglo-saxões para se inteirar desuas riquezas, são alguns exemplos anteriores à emergênciada estatística descritiva no século 16, na Itália.

Essa prática tem sido continuada nos temposmodernos, por meio dos recenseamentos, dos quais temosum exemplo naquele que se efetua a cada decênio, emnosso País, pela Fundação IBGE, órgão responsável pornossas estatísticas (dados estatísticos) oficiais.

Com o Renascimento, foi despertado o interessepela coleta de dados estatísticos, principalmente por suasaplicações na administração pública. A obra pioneira deFrancesco Sansovini (1521 – 1586), representante da

.D

Page 12: Breve história da estatística

12

orientação descritiva dos estatísticos italianos, publicadaem 1561, é um exemplo dessa época. Deve ser mencionadoainda o reconhecimento por parte da Igreja CatólicaRomana da importância dos registros de batismos, casa-mentos e óbitos, tornados compulsórios a partir do Concíliode Trento (1545 – 1563).

Entretanto, mais amplos e gerais foram os estudosfeitos pelos alemães, especialmente por GottfriedAchenwall (1719 – 1772), professor da Universidade deGöttingen, a quem se atribui ter criado o vocábulo estatís-tica, em 1746. Contudo, nada mais fizeram do que darmelhor sistematização e definição da mesma orientaçãodescritiva dos estatísticos italianos.

Acreditar nessas atividades como o começo dahistória da estatística é deixar de compreender o verdadeirosignificado da Estatística. Podemos dizer que o desenvolvi-mento da estatística teve origem nas aplicações, poisnenhuma disciplina tem interagido tanto com as demaisdisciplinas em suas atividades do que ela, dado que é porsua natureza a ciência do significado e do uso dos dados.Daí, sua importância como instrumento auxiliar na pesquisacientífica.

A primeira tentativa para se tirar conclusões a partirde dados numéricos foi feita somente no século 17, naInglaterra, com o que foi denominado Aritmética Política,que evoluiu para o que se chama hoje de demografia.Contudo, só começou realmente a existir como disciplinaautônoma no raiar do século 20, o verdadeiro início daestatística moderna.

A tentativa acima referida foi feita por John Graunt(1620 – 1674), um próspero negociante londrino detecidos que em 1662, publicou um pequeno livro intitulado

Page 13: Breve história da estatística

13

Natural and Political Observations Mentioned in aFollowing Index and Made upon the Bills of Mortality.Sua análise foi baseada sobre razões e proporções defatos vitais, nos quais ele observou uma regularidadeestatística num grande número de dados. Por seu trabalhofoi eleito Fellow of the Royal Society (F. R. S.), sociedadecientífica fundada em 1660, por Carlos II.

Os dados usados por Graunt compreendiam umaserie anual de 1604 a 1660, coletados nas paróquias deLondres, de onde ele tirou as seguintes conclusões: quehavia maior nascimento de crianças do sexo masculino,mas havia distribuição aproximadamente igual de ambosos sexos na população geral; alta mortalidade nos primei-ros anos de vida; maior mortalidade nas zonas urbanasem relação às zonas rurais.

Graunt era cônscio de ser leigo no assunto, poisnão era médico, nem matemático, nem político, mas ape-nas uma mente curiosa que utilizou com lógica uma análi-se, pode-se dizer “científica”, dos registros disponíveissobre mortalidade. Com seus dados, elaborou uma tábuade vida rudimentar, baseada apenas na sobrevivência nasidades de 6 a 76 anos.

Foi William Petty (1623 – 1683), contemporâneoe continuador de Graunt, quem denominou de AritméticaPolítica à nova arte de raciocinar por meio de dados so-bre fatos relacionados com o governo. Em 1683, ele pu-blicou sua obra Five Essays on Political Arithmetic esugeriu que fosse criada uma repartição de registro deestatísticas vitais, mas isso só se consolidou no século 19,com o Dr. William Farr (1807 – 1883), contribuidor ori-ginal da estatística médica. Note-se que a denominação

Page 14: Breve história da estatística

14

posterior de estatística acabou por incluir a EstatísticaDescritiva e a Aritmética Política.

Dos trabalhos desse período, sem dúvida, o maisimportante foi o do astrônomo inglês Edmond Halley (1656– 1742), que em 1693 construiu a primeira tábua de so-brevivência, elaborada com os registros vitais da cidadealemã de Bresláu (atual Wroclaw, Polônia), referentes aoperíodo de 1687 a 1691, elemento básico para o cálculode seguros de vida. Embora o seguro comercial tivessesido praticado pelos babilônios e fosse conhecido dosgregos e dos romanos, Halley é, com justiça, consideradoo criador do cálculo atuarial. Deve ser ainda mencionadoo nome de Richard Price (1723 – 1791), o fundador daatuária, na Inglaterra.

Contemporâneo desse período em que as idéiasestatísticas tiveram inicio, desenvolveu-se o cálculo deprobabilidades, mas independentemente dessas idéias,vindo entretanto a influenciá-las posteriormente. O cálcu-lo de probabilidades originou-se da correspondência en-tre dois grandes matemáticos do século 17: Blaise Pascal(1623 – 1662) e Pierre de Fermat (1601 – 1665), parasolucionar problemas relacionados com jogos de azar, emmoda nos salões da França, sustentados pelo lazer de umaaristocracia. Desses problemas, os mais célebres forampropostos a Pascal em 1654, pelo nobre francês Chevalierde Méré, jogador de grande experiência e perspicácia.

Na verdade, antes de Pascal e Fermat, já algunsmatemáticos italianos como Niccolò Fontana Tartaglia(1499 – 1557), Girolamo Cardano (1501 – 1576), se-guidos por Galileu Galilei (1564 – 1642) interessaram-sepor problemas de probabilidades relacionados com jo-gos de dados.

Page 15: Breve história da estatística

15

Os primeiros problemas sobre probabilidades re-fletiram o desenvolvimento da análise combinatória emjogos de azar. Em todos eles eram examinados os dife-rentes modos em que arranjos e combinações podiam serempregados na enumeração dos casos favoráveis. Essesproblemas eram dominados por considerações sobre oscasos igualmente prováveis, com as probabilidades de-terminadas a priori, onde foi utilizado o seguinte tipo deraciocínio: dado uma urna contendo a (bolas pretas) e b(bolas brancas), a probabilidade de se extrair uma bola

preta é igual a .ba

a

+O primeiro matemático a considerar situações em

que não era possível a enumeração de casos igualmentepossíveis foi Jacob Bernoulli (1654 – 1705), professor daUniversidade de Basiléia, Suíça, e primeiro membro deuma numerosa família de matemáticos suíços, que propôsdeterminar a probabilidade de tais casos a posteriori, istoé, pela freqüência relativa do número de casos favoráveisdeterminada empiricamente, em sua obra Ars Conjectandi,publicada postumamente em 1713, por seu sobrinhoNicholas Bernoulli.

A novidade consistia na tentativa de dar um trata-mento formal à noção vaga de quanto maior fosse oacúmulo de evidência sobre uma desconhecida propor-ção de casos, mais próximo estar-se-ia de aceitar essaproporção, isto é, à medida que o número de observa-ções aumenta. Pode-se afirmar que J. Bernoulli abriu ocaminho para a quantificação da incerteza com seu teoremacujo enunciado, na sua forma moderna, é o que se conhe-ce como a lei fraca dos grandes números. Numa desuas formas mais conhecidas, pode ser expresso da se-guinte maneira:

Page 16: Breve história da estatística
Page 17: Breve história da estatística

17

Paralelamente ao trabalho dos probabilistas,desenvolveram-se métodos de grande utilidade notratamento dos dados de observação, em particular daAstronomia e da Geodésia, de onde surgiu a Teoria dosErros. A importância da curva normal e o uso amplo dapalavra erro, bem demonstram o quanto desses conceitosfoi incorporado à teoria estatística, o que justifica a aberturade uma parte sobre essa contribuição.

Contribuição da Astronomia

De há muito tempo que os astrônomos tinhamsoluções praticas para lidar com o problema de conciliarobservações discordantes como, por exemplo, tomandoa media aritmética dessas observações, após descartedaquelas muito discordantes (outliers). Entretanto, foisomente no século 18 que ocorreu nos de mente maismatemática dar um tratamento que conduziu à curva defreqüência dos erros acidentais. Assim, os trabalhos maisimportantes devem-se a dois dos maiores matemáticosde todos os tempos: Pierre Simon, Marquês de Laplace(1749 – 1827) e Carl Friedrich Gauss (1777 – 1855).

A maior contribuição de Laplace, na teoria deprobabilidades, é hoje conhecida por teorema central(fundamental) do limite e pode ser descrita como umageneralização do teorema do limite de De Moivre. Na suaforma clássica, o Teorema Central do Limite enunciaque:

“Qualquer soma ou média de variáveis aleatórias tem,para um grande número de termos, uma distribuiçãoaproximadamente normal”.

Page 18: Breve história da estatística

18

Em 1810, Laplace publicou Mémoire sur lesformules qui sont function de très-grands nombres.Vários eminentes matemáticos contribuíram,posteriormente, para seu desenvolvimento, emprestando-o maior rigor. Atualmente, podemos enunciá-lo em suaforma clássica, do seguinte modo: se uma população tem

variância finita 2σ e média µ, a distribuição da médiaaritmética de n observações aproxima-se de uma

distribuição normal com variância 2

n

σ e média µ , à medida

que o tamanho n da amostra aumenta. O fato notável éque nenhuma restrição é feita sobre a função de densidadeda população original. Daí, a grande importância dadistribuição normal na teoria e aplicações da Estatística.As contribuições de Laplace foram sintetizadas na sua obramonumental Théorie Analytique des Probabilités,publicada em 1812.

Independentemente, Gausschegou à curva dos erroscom espírito empírico, adotando como axioma o princípiode que o valor mais provável de uma quantidadedesconhecida, observada com igual precisão várias vezessob as mesmas circunstâncias, é a média aritmética dasobservações.

Após várias considerações gerais a priori sobre afunção de freqüência dos erros f (x), como a de ter ummáximo para x = 0, de ser simética e admitir valor nulo forado limite dos erros possíveis, obteve a curva dos erros,que ficou conhecida como a curva de Gauss. Seu trabalhofoi publicado em 1809, com o título latino Theoria MotusCorporum Coelestium in Sectionibus Conicis SolumAmbientium, com uma seção final sobre combinações

Page 19: Breve história da estatística

19

das observações e a curva dos erros. Esses estudoslevaram-no a enunciar o Princípio dos MínimosQuadrados.

Com efeito, numa distribuição normal, aprobabilidade dos erros x1x2,...,xn ocorrerem simultanea-mente é máxima, quando a soma dos quadrados dosdesvios ou erros for mínima. O valor obtido para que essacondição se verifique é a média aritmética das observações,que fica assim justificada como o melhor meio de secombinar as observações, se os erros seguem uma distri-buição normal. O argumento de Gauss pode ser acusadode circular.

Posteriormente, Gauss melhorou sua argumentação,publicando em 1823, a obra Theoria CombinationisObservationum Erroribus Minimis Obnoxiae .Entretanto, justiça deve ser feita ao matemático francêsAndré Marie Legendre (1752 – 1833), que em 1805 jáhavia proposto o método dos mínimos quadrados comoaplicável para combinar observações astronômicas egeodésicas, baseado em critério intuitivo. Gauss, noentanto, considerou ter prioridade na idéia, pois já vinhase preocupando com ela desde 1795. A obra de Legendre,chamada Nouvelles Méthodes pour la Determinationdes Orbites des Comètes” continha o apêndice Sur laméthode des moindres quarrés.

A curva normal ficou mais conhecida como curvade Gauss e o princípio dos mínimos quadrados foi atribuídoa Gauss, que o utilizou como método de estimação deparâmetros. Pode-se invocar aqui, a Lei de Eponímia deStigler, citada em Stigler (1980, p. 147), “Nenhumadescoberta científica é conhecida pelo nome do seu inventororiginal”.

Page 20: Breve história da estatística

20

Em seguida, serão vistas outras influências naformação da Estatística, a corrente social e a correntebiológica, representadas respectivamente pelos grandesvultos de Quételet e Galton.

A influência de Quételet

Adolphe Quételet foi quem primeiro percebeu quea Estatística deveria ser baseada na noção deprobabilidade. Ninguém, melhor do que ele, representa anova influência oriunda das ciências sociais (chamadas,na época, de “morais”), trazendo de volta a preocupaçãocom o social originada pela Escola de Aritmética Política.

De cultura universal, Quételet foi matemático,astrônomo, físico, estatístico, poeta, escritor e até artista.Lambert Adolphe Jacques Quételet (1796 –1874) nasceuem Gand e faleceu em Bruxelas, Bélgica. Com justiça, éconsiderado o “pai das estatísticas públicas”, e o iniciadorda colaboração internacional. Suas duas maiorescontribuições na análise estatística dos dados sociais foramo conceito de homem médio e o ajustamento dadistribuição normal, conjugados com a interpretação daregularidade estatística. Sua principal obra, Essai dePhysique Sociale, publicada em 1835, é dividida emquatro volumes. Os dois primeiros são consagrados àsqualidades físicas do homem, o terceiro às qualidadesmorais e intelectuais, e o quarto sobre as propriedades dohomem médio e o sistema social. Seu conceito de homemmédio é uma ficção estatística destinada a facilitar ascomparações no espaço e no tempo. Neste conceito, aoriginalidade de Quételet não é ter calculado as médiasaritméticas das medidas, mas em ter considerado suas

Page 21: Breve história da estatística

21

dispersões e descoberto que a curva normal (este nomefoi dado, posteriormente, por Galton e Pearson à curvados erros, como era então conhecida) podia ser ajustadasatisfatoriamente às medidas de peso, estatura e perímetrotorácico por ele feitas em recrutas franceses. Coletou,também, dados sobre criminalidade e delinqüência, agru-pando-os de acordo com o sexo, a idade, a escolaridadee o tipo de delito, introduzindo a idéia de predisposiçãoao crime.

Quételet foi um organizador eficiente e hábil. Sãoexemplos desse traço de sua personalidade, a construçãodo Observatório Astronômico de Bruxelas, a criação daComission Centrale de Statistique, em 1841, e a organi-zação do Congresso Internacional de Meteorologia, em1873, em Viena, pouco antes de falecer. Sua grande idéiaera a constituição de uma rede internacional de observa-ções meteorológicas, segundo métodos uniformes. Plane-jou um recenseamento do Reino dos Países Baixos para1829 (que então compreendia Bélgica, Holanda eLuxemburgo), tendo pensado em utilizar o método daestimativa da razão para estimar a população, conhecidopor método do multiplicador, devido a Laplace, que oempregou em 1802, determinando o número denascimentos na França e multiplicando esse número pelarazão da população para os nascimentos. Essa razão foraestimada tomando-se o censo em algumas comunidadesselecionadas, escolhidas em 30 departamentos (distritos)espalhados por todo o país, e o número de nascimentosnessas comunidades baseado na média dos 3 anos 1800,1801 e 1802.

Laplace não tinha idéia de amostra aleatória, masusou um processo que se aproximou dela, tendo obtidopara a mencionada razão, o valor 28,35282, usado como

Page 22: Breve história da estatística

22

multiplicador. Entretanto, Quételet não se utilizou dessecritério, por achar que havia muita variação nos PaísesBaixos, o que demandaria um grande número de regiõesa serem escolhidas para sua determinação, sendo tãodispendioso quanto se fosse feita a enumeração total. Essaenumeração acabou sendo feita em 1846, no recensea-mento geral da população, agricultura e indústria para aBélgica, já então independente desde 1830.

As atividades internacionais de Quételet não forammenos notáveis. Assim, em 1853, organizou o primeiroCongresso Internacional de Estatística, em Bruxelas,iniciativa que em 1885, levou à criação do InstitutoInternacional de Estatística, em Londres. A sede atual desseInstituto é em Haia, na Holanda. Quételet foi tambémresponsável pela fundação da Statistical Society of London,em 1834, posteriormente denominada Royal StatisticalSociety.

As idéias de Galton

Sir Francis Galton (1822 – 1911) é consideradopor Stigler (1986), um personagem romântico na Históriada Estatística e talvez o último dos cientistas fidalgos.

Foi a leitura do livro de Charles Darwin (de quemera meio primo em primeiro grau) sobre Origin of Species(1859), responsável em transformá-lo de geógrafo amadorem antropólogo e eugenista (a palavra eugenia foi cunhadapor ele, em 1883).

Sob o ponto de vista estatístico, seu livro NaturalInheritance, publicado em 1889, é provavelmente suaobra mais importante. Ele elaborou a sugestão de que adistribuição normal é completamente determinada pela

Page 23: Breve história da estatística
Page 24: Breve história da estatística

24

declividade da linha de regressão dos filhos em relaçãoaos pais, uma vez que o meio-pai era a média de duasalturas não correlacionadas, cada uma com a mesmadispersão populacional.

Os conhecimentos matemáticos de Galton não eramsuficientes para lidar com o problema e então ele apeloupara seu amigo J. D. Hamilton Dickson, professor deMatemática na Universidade de Cambridge, para achar afórmula da superfície encontrada, que nos tempos atuaiscorresponde à da função normal bidimensional.

Ainda não havia ocorrido a Galton a expressão exatada correlação, pois desconhecia seu sinal. Ele expressou-se sobre a co-relação (só depois escrita correlação), comoconseqüência das variações devidas a causas comuns.A letra r foi inspirada na letra inicialmente usada paradesignar a reversão. Os efeitos de posição e de escaladas observações das variáveis foram eliminados com apadronização das variáveis por meio da centragem sobrea mediana e pela eliminação do efeito escala pela divisãopelo desvio semiquartílico. Contudo, essa padronizaçãotrazia a inconveniência de produzir valores de r maioresque a unidade.

A fórmula por ele proposta foi modificada porWalter Frank Raphael Weldon (1860 – 1906), professorde Zoologia em Cambridge, muito ligado a Galton, quechegou à necessidade de se atribuir um sinal positivo ounegativo ao examinar as dimensões de 22 pares de órgãosde várias espécies de camarões. Entretanto, a fórmula docoeficiente de correlação, como é hoje conhecida, só foideterminada em 1896, por Karl Pearson.

Galton interessou-se, também, pela utilização dosmétodos estatísticos em Psicologia. Conjuntamente com

Page 25: Breve história da estatística

25

o psicólogo americano James McKeen Cattell (1860 –1944), pioneiro desses estudos nos Estados Unidos,produziu dados estatísticos de distribuição assimétrica quecontrariavam suas concepções teóricas, nas quaispredominavam o conceito de curva normal. Mais uma vez,venceu sua limitação em matemática com a ajuda de seuamigo matemático Donald MacAlister, que sugeriu atransformação dos dados por seus logaritmos, surgindo,daí, a distribuição normal logarítmica, usando a médiageométrica como medida de posição mais apropriada.

Os interesses de Galton foram amplos e variados,bem próprios da versatilidade de seu talento, mas naPsicologia, sua preocupação precípua foi a medida dasdiferenças individuais e a influência desempenhada pelahereditariedade (nature) e pelo meio ambiente (nurture)na manifestação dessas diferenças, tanto nos traços físicoscomo nos mentais, particularmente na inteligência.

Galton foi herdeiro de grande fortuna, tendo deixadofilantropicamente 45 mil libras esterlinas para a fundaçãode uma cátedra de Eugenia, na Universidade de Londrese, 200 libras esterlinas para a publicação de uma revistadestinada às aplicações da Estatística à herança biológica,denominada Biometrika, cujo primeiro número saiu em1901, e é publicada até hoje, sem interrupção, emboracom a finalidade ampliada.

Em 1904, fundou um laboratório de pesquisas sobrea genética humana, que veio a ser denominado GaltonLaboratory of National Eugenics cujo primeiro diretor foiKarl Pearson, que com o próprio Galton e foram osfundadores da Escola Biométrica. Em reconhecimento assuas inúmeras contribuições, foi-lhe concedido o títulohonorífico de Sir, em 1909.

Page 26: Breve história da estatística

26

A Escola Biométrica

Escola Biométrica floresceu na Inglaterra, entre o final doséculo 19 e o começo do século 20, mais precisamenteentre 1890 e 1920. Foi um dos grandes períodos forma-tivos da historia da Estatística, com a predominância dastécnicas de correlação e ajustamento de curvas, denotáveis resultados na descrição das grandes amostras.Seu principal representante foi Karl Pearson (1857 – 1936),considerado, com justiça, o fundador da Estatística.

Pearson estudou Matemática em Cambridge, auniversidade britânica de maior tradição nesse assunto.Antes de se interessar pela estatística, exerceu variasatividades, entre elas a de lecionar matemática aplicada emecânica no curso de engenharia do University College –nome dado à instituição de ensino superior do antigosistema de educação britânico afiliado à Universidade deLondres. Homem de grande erudição, capacidade detrabalho e forte personalidade, seu pensamento filosóficoinfluenciou suas idéias estatísticas.

Em 1892, publicou sua obra clássica de filosofia,The Grammar of Science, de grande repercussão. Deacordo com Pearson, toda variação se dava numa escalacontínua; as variáveis descontínuas ou discretas seriamvariáveis contínuas com interrupções, e as medidas deassociações entre elas teriam o propósito de, na verdade,estimar a correlação subjacente entre as variáveiscontínuas. Essas pressuposições foram feitas porque eleestava convencido de que a concepção unificada da ciênciaera possível graças ao conceito de correlação no lugar da

.A

Page 27: Breve história da estatística
Page 28: Breve história da estatística

28

Nessa fórmula, usou os desvios em relação à mediaaritmética e não à mediana, e o desvio-padrão (termo porele cunhado), em vez do desvio semiquartílico, conformetinha sido usado anteriormente.

Seus estudos subseqüentes levaram-no ao desenvol-vimento da regressão e correlação múltiplas e foram a basede númerosos artigos escritos pelo próprio Pearson e seuscolaboradores, distinguindo-se entre eles George UdnyYule, que foi seu assistente de 1893 a 1912.

Yule é conhecido, especialmente, por seu livro AnIntroduction to the Theory of Statistics, cuja primeiraedição é de 1911 e, a partir da décima-primeira, em 1937,contou com a co-autoria do renomado estatístico MauriceGeorge Kendall (1907 – 1983). Esse livro de Yule &Kendall (1937) foi por muito tempo o texto clássico sobremétodos estatísticos de maior aceitação, principalmenteentre os economistas. Em 1912, Yule transferiu-se paraCambridge, como lecturer (professor-assistente), poste-riormente promovido a reader (professor-adjunto), cargoem que se aposentou precocemente, em 1931.

Em analogia com o coeficiente de correlação comomedida da associação de dados quantitativos, Yuleintroduziu o coeficiente de associação para a medida dograu de associação em tabelas de contingência 2 x 2, quelevou a longa controvérsia quando foi sugerido considerar-se a tabela 2 x 2 como dupla dicotomia de uma superfícienormal bidimensional. Karl Pearson (1901) desenvolveuum método de estimar essa correlação, chamando-a decorrelação tetracórica. Hoje, tanto o coeficiente deassociação como a correlação tetracórica caíram emdesuso, sendo considerados apenas uma curiosidadeestatística. Em seus trabalhos sobre correlação e regressão

Page 29: Breve história da estatística
Page 30: Breve história da estatística

30

diferentes famílias de curvas são obtidas quando seadmitem várias relações entre as constantes a, b

0, b

1 e b

2.

As soluções dessa equação foram classificadas, porPearson, em 12 famílias de curvas, aquelas de determinadafamília, sendo chamadas do Tipo I, as de uma segundafamília do Tipo II, e assim, sucessivamente; a curva normalé do Tipo VII e é obtida pela integração da citada equaçãodiferencial, fazendo b

1 e b

2 = 0. As diversas curvas de

Pearson têm várias formas causadas por um grau maiorou menor de assimetria e achatamento. Foram largamenteusadas nas amostras grandes, mas, atualmente, apresentamapenas interesse acadêmico. O artigo fundamental dePearson (1895) sobre esse assunto foi publicado emContributions to the Matemathical Theory of Evolution.A quem se interessar por maiores detalhes, aconselha-seconsultar o livro de W. P. Elderton (1927).

O conhecimento dos índices de assimetria e deachatamento ou curtose (kurtosis), conforme denominadopor Pearson(cuja preferência pelos termos de origem gregaera notória), requer os conhecimentos de certasquantidades obtidas por meio dos chamados momentosde ordem superior. Pearson tomou o termo momentoemprestado da Física e fez largo uso desse conceito, apartir de 1893, mas já era conhecido antes.

No Sistema de Pearson, o conjunto de funçõescontínuas tem seus parâmetros expressos em termosde momentos; as curvas ficarão determinadas, seconhecermos os quatro primeiros momentos. O momentode ordem k em relação à media µ é o valor esperadoµk = E (x – µ)k. Assim, para k = 2 obtém-se a variânciaµ2 = E(x – µ)2 = σ 2.

Page 31: Breve história da estatística
Page 32: Breve história da estatística

32

significância para comprovar o ajustamento das curvas defreqüência (goodness of fit). Para isso, Pearson (1900)usou a distribuição do qui-quadrado por ele descoberta.Na verdade, foi uma redescoberta, embora Pearson nãotivesse conhecimento, pois o astrônomo alemão F. R.Helmert já a havia descoberto em 1875, mas noutrocontexto, constituindo mais um exemplo da lei de eponímia,de Stigler. Entretanto, nas aplicações do teste do qui-quadrado tanto no teste de aderência (goodness of fit)das curvas de freqüência, como na existência de associaçãonas tabelas de contingência, usou o número errado de grausde liberdade, por não ter percebido corretamente asrestrições impostas e a perda de um grau de liberdadepara cada parâmetro estimado. Assim, é que no teste designificância da existência de associação, numa tabela2 x 2, Pearson usou o teste com três graus de liberdade,em vez de um grau de liberdade. Yule percebeu esse erroe conseguiu mostrar, construindo um grande número detabelas, que para uma tabela de contingência rxc, o númerocorreto de graus de liberdade seria (r–1) (c–1), mas nãoconseguiu provar sua proposição, restando a Fisher(1922a) fazê-la.

Com o aumento de trabalho, Pearson procurouangariar recursos para continuar as atividades doLaboratório de Biometria, obtendo em 1903, a primeirade uma serie de doações. Uma doação de Galton levou àfundação do Laboratório de Eugenia, em 1907. Esseslaboratórios foram combinados em 1911, quando foiestabelecido o Departamento de Estatística Aplicada, ePearson passou a ocupar a cátedra Galton de Eugenia noUniversity College, cargo em que permaneceu até suaaposentadoria, em 1933.

Page 33: Breve história da estatística
Page 34: Breve história da estatística

34

conta a distribuição de n

XXs ä −

=2

2 )( que ele

mostrou, por meio do cálculo dos momentos, serdo Tipo III das curvas de Pearson (em essência uma

distribuição do 2 ) e ademais que Xs e2 eram

independentemente distribuídas, Student derivou a

distribuição de ,X

Zs

µ−= que devido a Fisher passou

mais tarde a ser conhecida por 1,t Z n= − sendo

( )2

( ) ( 1)X X

t X n nµ −= − −

ä

O próprio Student denominou-a t e veio a serconhecida como distribuição t de Student. Deve serconsultado, a esse repeito, o artigo de Churchill Eisenhart(1979). A contribuição de Student não foi devidamenteapreciada na época, pois para Karl Pearson, as pequenasamostras não eram fidedignas, devendo ser evitadas.

Foi Fisher quem reconheceu o mérito desse trabalho,ao qual emprestou seu gênio para desenvolvê-loteoricamente. Gosset publicou ainda vários trabalhos,sempre com o pseudônimo de Student, imposição daCervejaria Guinness, que não permitia a seus técnicosusarem seus próprios nomes em suas publicações. Masisso será assunto para a seção seguinte, A Fase daExperimentação.

No período em que exerceu a cátedra, Pearsondedicou boa parte de seu tempo à construção de tabelasestatísticas, numa época em que predominava o uso das

Page 35: Breve história da estatística

35

máquinas de calcular manuais! Foram então publicadasas seguintes tabelas: Tables for Statisticians andBiometricians (1914 –1931), Tables for the IncompleteGama Function (1922), Tables for the Incomplete BetaFuncion (1934), que se revelaram de grande utilidadeàqueles que pesquisavam em estatística. Além disso, esteveocupado com suas funções editoriais da Biometrika,atividade que exerceu até sua morte, em 1936. Para deixaressa revista livre somente para artigos de Estatística, K.Pearson fundou outra, The Annals of Eugenics, em 1930,dedicando-a exclusivamente à Eugenia e Genética Humana.

Com a aposentadoria de Karl Pearson, seudepartamento foi desdobrado em dois: o Departamentode Eugenia e o Departamento de Estatística. O primeirofoi oferecido a R. A. Fisher, que o ocupou como professorcatedrático Galton de Eugenia, famoso também nesseassunto, com a publicação do seu livro The GeneticalTheory of Natural Selection, Fisher (1930b). Nessecargo, Fisher passou a editor da nova revista The Annalsof Eugenics, que sob sua influência tornou-se rapidamenteimportante em artigos sobre estatística. Somente em 1943,quando Fisher saiu para lecionar na Universidade deCambridge, Inglaterra, seu substituto no LaboratórioGalton, L. S. Penrose, dedicou novamente essa revistainteiramente a assuntos de genética humana, modificandoseu título para Annals of Human Genetics, mantido atéhoje.

O Departamento de Estatística ficou a cargo de seuassistente e filho Egon Sharpe Pearson (1895 – 1980),primeiramente como reader e depois como professor titular.K. Pearson continuou como editor da Biometrika, atésua morte, 3 anos depois.

Page 36: Breve história da estatística

36

A Fase da Experimentação

iferentemente das técnicas estatísticas utilizadas pela EscolaBiométrica, as pesquisas científicas de naturezaexperimental exigiam tratamento adequado às pequenasamostras, com objetivo inferencial, conforme revelaramos trabalhos pioneiros deGosset, que se tornou conhecidopelo seu pseudônimo de Student. Esses trabalhos foramcontinuados no mais alto nível teórico por R. A. Fisher, afigura mais representativa da Fase da Experimentação,considerado o criador dos métodos modernos da Análisee Delineamento de Experimentos.

Ronald Aylmer Fisher (1890 – 1962) nasceu emLondres, no dia 17 de fevereiro de 1890, e faleceu emAdelaide, na Austrália, a 29 de julho de 1962. Apósterminar seus estudos secundários em Harrow, que comEton eram as mais famosas escolas públicas da Inglaterra(que, na verdade, de públicas só têm o nome), matriculou-se, em 1909, no curso de Matemática da Universidadede Cambridge, com uma bolsa de estudos para o Gonvilleand Caius College. Em 1912, bacharelou-se, mascontinuou por mais 1 ano estudando Mecânica Estatísticae Física Quântica com Sir James Jeans, e Teoria dos Erros,com F. M. J. Stratton, ambos renomados astrônomos.Como estudante, interessou-se também pela Genética,tendo lido os trabalhos de Karl Pearson sobreMathematical Contributions to the Theory ofEvolution, e participado ativamente como presidente daSociedade de Eugenia da Universidade de Cambridge.

Durante sua vida profissional, iniciada em 1912,ainda como estudante universitário, e que se estendeu por

.D

Page 37: Breve história da estatística

37

meio século, até sua morte, fez contribuições teóricasfundamentais à Estatística e à análise e delineamento deexperimentos que, por si, já garantiriam sua fama de umdos maiores cientistas do século. Além dessascontribuições, Fisher foi também um eminente geneticista,exemplo raro da combinação de talento matemático e decientista natural no mais elevado sentido, o que bem revelaa versatilidade de seu gênio. Basta mencionar seu célebreartigo publicado em 1918 e o famoso livro em 1930,anteriormente citados. Com John Burdon SandersonHaldane (1892 – 1964) e com o geneticista americanoSewall Wright (1889 – 1988) – conhecido dos estatísticospor sua invenção do path coefficient (coeficiente depercurso) na regressão múltipla – Fisher constituiu otriunvirato que governou os primeiros 25 anos de existênciada Genética de Populações. Não devem ser omitidas,também, suas importantes pesquisas serológicas, queculminaram com a elucidação do mecanismo hereditáriodo sistema Rh de grupos sangüíneos.

Considerado por C. Radhakrishna Rao como ofundador da Estatística Moderna, Fisher foi não somenteo maior estatístico de sua época, mas para muitos queconheceram sua obra monumental, é ainda o maiorestatístico de todos os tempos. Ao longo de sua eminentecarreira, recebeu várias honrarias e distinções acadêmicas,entre outras, o grau de Doutor por sua Alma Mater em1926, o título de Fellow of the Royal Society (F. R. S.)em 1929, e o título honorífico de Sir, em 1952.

Para maiores detalhes de sua vida e de sua obra,recomenda-se a leitura da excelente biografia escrita porsua filha Joan Fisher Box (1978), e dos números da revistaBiometrics 20(2), 1964 (In Memoriam Ronald AylmerFisher 1890 –1962) e Biometrics 46(4) 1990, por ocasião

Page 38: Breve história da estatística

38

do centenário de seu nascimento. Para completar, comopiniões críticas bem valiosas, é aconselhável a leitura deartigo póstumo do conceituado estatístico de tendênciabayesiana, Leonard Jimmie Savage (1917 – 1971),intitulado: On Rereading R. A. Fisher (Savage, 1976),considerado por Oscar Kempthorne a mais requintadalição de estatística que ele já tivera.

Fundamentos teóricos da Estatística

As contribuições de Fisher à estatística começaramcom o artigo (Fisher, 1912) no qual empregou o métododa máxima verossimilhança no ajustamento de curvas defreqüência, mas usou o nome de probabilidade inversa,que o levou a corrigir 10 anos mais tarde, no seu clássicotrabalho Fisher (1922b). Nessa publicação, com Fisher(1925c), ele resolveu essencialmente o problema daestimação pontual, aplicando o método da máximaverossimilhança.

Ainda recém-formado, Fisher entrou em contatocom os trabalhos de Student (1908b), sobre a distribuiçãot e a subseqüente distribuição do coeficiente de correlaçãoem pequenas amostras.

Nesse trabalho, Student usou um processo desimulação, utilizando uma experiência de amostragemsemelhante à que fizera para a verificação empírica dasdistribuições de s2 e Z de seu trabalho anterior. Entretanto,coube a Fisher, a solução da distribuição exata de r para

≠ρ 0 (Fisher,1915), em cujo trabalho chegou à

transformação r = tanh (z) (sendo z sua própriadistribuição), fruto de sua intuição geométrica.

Page 39: Breve história da estatística

39

Fisher continuou seus estudos sobre as distribuiçõesamostrais, tendo produzido várias distribuições exatas edesenvolvido os respectivos testes de significância,incluindo-se a demonstração exata da distribuição deStudent e sua própria distribuição z, dando semprepreferência pela representação hipergeométrica, que olevou a dar soluções singularmente independentes desimbolismo algébrico. Mostrou, também, a relação entreessas distribuições e a do χ 2. Para aplicação nos testesde significância, os diversos valores dessas distribuiçõesforam publicados nas conhecidas tábuas Statistical Tablesfor Biological, Agricultural and Medical Research, deFisher & Yates (1938), com a distribuição da razão devariância, conhecida por F, assim denominada em suahomenagem a Snedecor e relacionada à distribuição z deFisher pela expressão e2Z = F.

O artigo acima mencionado foi o único publicadoem Biometrika. Outro artigo de Fisher (1921) sobre oerro provável do coeficiente de correlação saiu somenteem 1921, na nova revista internacional Metron, editadapor Corrado Gini. Nessa revista, foi também publicadoseu trabalho (Fisher, 1925a), no qual é dada ademonstração matemática da distribuição t de Student,utilizando a representação da amostra num espaço n-dimensional, que o próprio Student recebera de Fisher ehavia remetido a Pearson, na expectativa de que fossepublicado em Biometrika.

Segundo Yates & Mather (1963), em sua biografiasobre Fisher, o método da máxima verossimilhança foi,sem dúvida, uma das maiores contribuições de Fisher àmetodologia estatística. O trabalho relevante sobre esseassunto está contido em seus artigos de 1912, 1922 e

Page 40: Breve história da estatística

40

1925, previamente citados e mais ainda em Fisher (1935a),em cuja discussão A. L. Bowley atribui ao estatístico eeconomista Francis Ysidro Edgeworth (1845 – 1926),prioridade na estimação pela máxima verossimilhança,corroborada, de certo modo, por Savage (1976), no seuartigo On Rereading R. A. Fisher, ao declarar queEdgeworth antecipara importantes idéias sobre averossimilhança, embora de modo obscuro. Contudo,segundo Edwards (1974), Edgeworth não se antecipou aFisher, uma vez que ele fora bem explícito ao usar aProbabilidade Inversa. Semelhante ponto de vista éesposado por Rao (1962), ao argumentar contra idênticaalegação de Neyman (1951), em dar preferência aEdgeworth. Entretanto, a verdade é que coube a Fisher, omérito de ter criado o conceito de verossimilhança,diferente de probabilidade, e desenvolvido o Método deMáxima Verossimilhança, aplicando-o na estimação deparâmetros, inclusive na Genética, onde encontrou campofértil de aplicação.

Os conceitos de consistência, eficiência e suficiênciaforam claramente definidos. Os estimadores suficientes sãoconsiderados os mais desejáveis, mas nem todos osparâmetros têm estimadores suficientes, mas quando estesexistem, o estimador de máxima verosimilhança é umestimador suficiente, conforme mostrou Fisher, ao revelara superioridade de seu método de estimação em relaçãoao método dos momentos, anteriormente usado,desenvolvido por Karl Pearson. O método dos mínimosquadrados, de Gauss, é equivalente ao método da máximaverossimilhança, quando a distribuição é normal. No dizerde Fisher, “um estimador suficiente é aquele que contémtoda a informação contida na amostra, sendo desneces-sário considerar qualquer outro estimador”. Matematica-

Page 41: Breve história da estatística
Page 42: Breve história da estatística
Page 43: Breve história da estatística
Page 44: Breve história da estatística

44

• Nenhum subconjunto relevante pode serreconhecido.

Se, a partir da informação disponível, podem serreconhecidos subconjuntos com diferentes probabilidades,então o subconjunto ao qual o assunto em questãopertence deve ser considerado o conjunto referencial.Nesse caso, nenhuma probabilidade referente ao assuntobaseado no inteiro conjunto é correta, conforme explicaYates (1964a).

No dizer de C. R. Rao, Fisher foi, sem dúvida, o“arquiteto da análise multidimensional”. Nesse assunto, seusestudos pioneiros foram uma fonte de inspiração de váriostrabalhos. Assim, a distribuição de Wishart, deduzida em1928, foi uma extensão multidimensional do métodogeométrico usado por Fisher, para o caso bidimensional.Sua função discriminante, utilizada para resolver problemastaxonômicos é, em muitos aspectos, semelhante às linhasdesenvolvidas por Harold Hotelling (1895 – 1973), em1931, na distribuição T² da razão de Student, e porMahalanobis, na Índia, para a estimação da diferença entrepopulações pela distância D², um aperfeiçoamento docoeficiente de semelhança racial usado por K. Pearson eseus associados em pesquisas antropométricas de cranio-metria. Pode-se incluir, também, o critério Λ de SamuelStanley Wilks (1906 – 1964), uma generalizaçãomultidimensional do teste F (exceto que a contribuição doresíduo é no numerador).

Menção deve ser feita, ainda, às contribuições naanálise de correspondência simples e na análise decorrespondência múltipla por meio dos seus escores ótimose das tabelas de contingência bidirecionais com dadoscategóricos, conforme salienta Gower (1990). Outro

Page 45: Breve história da estatística

45

exemplo de teste não-paramétrico é o teste de Fisher deprobabilidade exata, aplicado em tabelas de contingência2 x 2, cuja prática restringe-se às situações em que onúmero nas células é pequeno, pois, de outro modo, oscálculos tornam-se laboriosos.

Análise de Variância e delineamentos experimentais

A Análise de Variância (Anova) é, provavelmente,o método estatístico de maior repercussão na pesquisacientífica, especialmente na experimentação agrícola, deonde surgiu como uma das muitas provas do gênio deFisher. Em se tratando de uma exposição histórica, énatural que a análise de variância e os delineamentosexperimentais, vistos por ele como dois aspectos domesmo todo, sejam tratados conjuntamente. Seudesenvolvimento e muito de suas aplicações originaram-se no período em que Fisher trabalhou na EstaçãoExperimental de Rothamsted, de 1919 a 1933, a maior emais antiga das instituições britânicas de pesquisa agrícolaonde eram conduzidos ensaios com fertilizantes químicosdesde sua fundação, em 1843. A terminologia por elecriada bem reflete essa influência. Suas idéias sobre esseassunto encontram-se em suas duas obras: StatisticalMethods for Research Workers, (1925b) e The Designof Experiments, (1935c), as quais são consideradassuas maiores contribuições à Estatística. Embora destinadasaos pesquisadores das áreas biológica e agronômica, nãosão de fácil leitura. Entretanto, graças à sua disseminaçãoforam devidamente interpretadas, especialmente porGeorge Waddel Snedecor (1881 – 1974), autor do livro(Snedecor, 1937), que já vai para a sétima edição, tendoW. G. Cochran como co-autor.

Page 46: Breve história da estatística

46

Os princípios essenciais do planejamento deexperimentos enunciados por Fisher estão representadosno diagrama abaixo, afixado na parede do seu laboratórioem Rothamsted:

IRepetição

IICasualização

IIIControle local

Estimativa do erroexperimental

Redução do erroexperimental

Validez da estimativado erro experimental

A novidade introduzida por Fisher foi o princípioda casualização, uma brilhante inspiração, inteiramente sua,segundo Yates (1964b). Segundo ele, a casualizaçãogarantiria a validez da estimativa do erro e possibilitaria aaplicação dos testes de significância para se verificar oefeito dos tratamentos. Para ele, pela casualização (porum mecanismo objetivo de sorteio) nenhum tratamentoseria continuamente favorecido ou desfavorecido nassucessivas repetições por alguma fonte estranha devariação. Ela se fazia necessária para que as variaçõesque contribuem para o erro experimental fossemconvertidas em variáveis aleatórias.

Page 47: Breve história da estatística

47

Ainda de acordo com Fisher, a análise de variânciapode ser considerada um método estatístico, mas não umteorema matemático, sendo nada mais que um modoconveniente de arranging the arithmetic, segundo suaspalavras. Naturalmente, como outras invenções lógicas, ébaseada em teoremas matemáticos, previamentedemonstrados. Um tratamento matemático elementarencontra-se em Irwin (1931), e uma prova formal maiscompleta foi dada por Cochran (1934).

A título de rigor histórico, deve ser mencionado quea idéia de comparar a variação entre grupos com a variaçãodentro de grupos como teste de homogeneidade foiprimeiramente estudada por Wilhelm Lexis (1837 – 1914)na Alemanha, no final do século 19, com relação àamostragem de atributos homógrados. Para isso, Lexiscriou um critério de dispersão (o termo variância não eraconhecido na época), também chamado razão de Lexis,

L., ligado ao 2χ pela relação /2χ = L2, onde é o

número de graus de liberdade. Contudo, somente graçasaos trabalhos de Fisher, essas idéias tiveram maior avançoe pleno desenvolvimento.

O termo variância foi cunhado por Fisher, em 1918,em artigo já mencionado, no qual mostra que ascorrelações encontradas entre parentes podem serexplicadas pelo mecanismo da herança mendeliana. Nestetrabalho foi apresentada uma decomposição percentualda variância total em suas respectivas causas, mas nãopode ser considerada uma análise de variância como essaveio a ser conhecida.

O primeiro artigo sobre esse tópico apareceu numartigo de Fisher, com sua assistente Miss Winifred A.Mackenzie (Fisher & Mackenzie, 1923). Trata-se da

Page 48: Breve história da estatística

48

análise estatística de um experimento realizado emRothamsted em 1922, utilizando um delineamento do tiposplit plot (subparcela). De acordo com Cochran (1980),em seu artigo póstumo Fisher and the Analysis ofVariance, Fisher ainda não havia dominado completamenteas normas da análise de variância. Na verdade, sua análisedenominada Analysis of Variation e não variance, continhaerros, pois foi usada apenas uma única estimativa do erroexperimental para todas as comparações. É interessanteobservar que Fisher empregou primeiramente o modelomultiplicativo como mais apropriado. Nesse mesmo artigo,usou também o modelo aditivo, que continuou preferindoem trabalhos posteriores, provavelmente pela maiorfacilidade de manipulação. Entretanto, 2 anos depois, em1925, ao publicar Statistical Methods for ResearchWorkers, Fisher havia percebido seu erro e apresentouentão uma análise estatística correta no parágrafo 42,Ex. 41. Naquela época, ele tinha completo domínio sobreo assunto. Esse exemplo serve para comprovar, mais umavez, que, na abertura de novos caminhos, os primeirospassos são oscilantes. As idéias nunca surgem de modopronto e definitivo, obedecendo antes a um processo dedesenvolvimento que se aperfeiçoa de maneira tentativa,com hesitações, pois que o processo criativo é formadode conjeturas da imaginação e não uma dedução lógicados conhecimentos anteriores. Cabe, aqui, a frase doescritor Arthur Koestler The history of ideas is filled withbarren truths and fertile errors. (A história das idéias estácheia de verdades estéreis e erros férteis).

Anteriormente, os delineamentos sistemáticos eramos mais populares entre os agrônomos na experimentaçãode campo, que acreditavam podiam obter maior precisãodesse modo. Um exemplo são os quadrados Knut-Vik,

Page 49: Breve história da estatística

49

que imitam o movimento da peça do cavalo no jogo dexadrez, uma espécie de quadrado latino. Abaixo, figuraum quadrado Knut-Vik 5 x 5,

A B C D E

D E A B C

B C D E A

E A B C D

C D E A B

Quadrado Knut-Vik

onde se vê que nenhum tratamento aparece mais de umavez numa diagonal. Esse tipo de arranjo era conhecido naDinamarca desde 1872, mas é atribuído ao norueguêsKnut-Vik.

Deve ser dito, que o próprio Student, ao se envolverem experimentação de campo, principalmente nacompetição de variedades de cevada em larga escala, pormotivos de trabalho na Cervejaria Guinness, deupreferência aos arranjos balanceados sistemáticos,argumentando que a casualização causa um aumento davariabilidade. Isso constituiu ponto de discórdia entreStudent e Fisher, embora não tenha causado qualquerinimizade entre ambos, que permaneceram amigos até amorte de Student, em 1937. Independentemente de Fisher,ele chegara à estimativa do erro para a comparação devariedades, utilizando, como sempre, sua originalidade,

Page 50: Breve história da estatística

50

que Fisher mostrou ser algebricamente equivalente à análisede variância. Em 1923, em sua correspondência comGosset, Fisher mostrou, também, a derivação doprocedimento usado na análise de variância em blocoscasualizados por meio do ajustamento de constantes parablocos e para tratamentos pelo método clássico dosmínimos quadrados.

Embora essa tenha sido a primeira abordagem daanálise de variância, Fisher deu preferência à apresentaçãoda análise aritmética da decomposição da soma dosquadrados, cuja simplicidade tornou-a acessível aospesquisadores menos versados em teoria estatística. Issorepresentou um ganho prático enorme, desde que não fosseelevado a um ritual cego, nas palavras de MauriceStevenson Bartlett (1910 – 2002), conhecido por seu testede homogeneidade de variâncias (Bartlett, 1965).Entretanto, essa simplicidade de cálculos depende do fatode o experimento ter sido delineado para ser ortogonal,i.e., permitir que os efeitos sejam capazes de uma estimaçãodireta e separada, pois, em caso contrário, tornar-se-ánecessário usar o princípio clássico dos mínimos quadradospara se estimarem os parâmetros. As técnicas deestimação de parcelas perdidas (missing plot), iniciadascom Allan & Wishart (1930), nada mais são que recursospara restaurar a ortogonalidade, tornando assim possívela análise de variância, segundo padrão simples.

O primeiro reconhecimento ostensivo de que ummodelo linear analisado pelo método dos mínimosquadrados era mais fundamental do que uma análise intuitivabaseada no desdobramento da soma dos quadradosdeve-se a Yates (1933). Naquela época, Yates ainda nãotinha conhecimento da correspondência entre Fisher eGosset, acima referida. Não demorou para que esse

Page 51: Breve história da estatística

51

método fosse utilizado em delineamentos não balanceadose estendido a problemas de regressão múltipla. É penaque a Anova seja estudada atualmente apenas dentro dateoria dos modelos lineares, pela sedução de sua elegância,completamente desligada de sua origem histórica.

As idéias de Fisher foram finalmente vitoriosas e, apartir de 1925, a casualização foi usada como rotina emtodos os planos experimentais realizados em Rothamsted.A análise de variância, com a análise de covariância,também por ele desenvolvida, passaram a constituir oinstrumental básico para a interpretação dos resultadosdos experimentos controlados.

Em seu artigo, Fisher (1926), considerado oprecursor de seu livro The Design of Experiments,declara, peremptoriamente, que não se deve levar em contao aforismo de se perguntar à natureza apenas uma questãode cada vez, pois muitas vezes ela se recusa a responderaté que outro fator seja acrescentado, advogando, assim,o uso de experimentos fatoriais e suas vantagens. Contudo,ele percebeu as dificuldades práticas para um grandenúmero de fatores, tendo mostrado que essas dificuldadespoderiam ser evitadas incluindo-se num bloco apenas umaparte de todas as combinações possíveis.Assim, cadabloco não seria mais uma repetição completa, sacrificando-se deliberadamente a informação de certas interações,consideradas pouco importantes, confundindo-as com asdiferenças entre blocos. Esse artifício técnico foidenominado confundimento (confouding), que pode sertotal ou parcial, conforme as interações estejamcompletamente confundidas ou apenas em parte,permitindo, assim, a recuperação da informação sobre asinterações confundidas. No supracitado artigo, Fishermostra, pela primeira vez, sua preferência por um nível de

Page 52: Breve história da estatística

52

significância de 5% revelando que talvez outros preferissemum nível mais rigoroso, como 2% ou 1%. Os experimentosfatoriais e as técnicas de confundimento foramposteriormente desenvolvidos por Frank Yates (1902 –1994) e estão expostos em sua monografia The Designand Analysis of Factorial Experiments (1937), à qualdeve ser acrescentada sua extensa lista de trabalhos sobreblocos incompletos, em geral.

Em 1931, Yates foi para Rothamsted, em substituiçãoa John Wishart (1898 – 1956), assistente de Fisher desde1928, que saíra naquele ano para lecionar na Universidadede Cambridge, onde foi responsável pela formaçãoacadêmica de mais de uma geração de ilustres estatísticos.Um exemplo de sua cooperação com Fisher, naqueleperíodo, é a publicação de Fisher & Wishart (1930), quemostra a preocupação de ambos em divulgar os novosmétodos ao alcance dos pesquisadores. Yates trouxeconsigo sua vasta experiência em aplicações do métododos mínimos quadrados de Gauss em levantamentosgeodésicos, na antiga colônia britânica da Costa do Ouro(atual Gana); conhecimentos esses que vieram a se tornarde grande utilidade na sua nova função. Foi ativo e eficientecolaborador de Fisher, substituindo-o na chefia doDepartamento de Estatística de Rothamsted, quando estese retirou para assumir a cátedra na Universidade deLondres, em 1933, tendo permanecido nesse posto atésua aposentadoria. É fruto dessa colaboração asconhecidas tábuas estatísticas de Fisher e Yates, publicadasem 1938. A elaboração dessas tábuas contou com aeficiente assistência de Wilfred Leslie Stevens (1911 –1958), conhecido dos brasileiros por suas atividadesprofissionais neste País, onde faleceu prematuramente comoprofessor da Universidade de São Paulo, cargo que vinhaexercendo desde 1948.

Page 53: Breve história da estatística

53

Além desses nomes, deve ser lembrado, também,William Gemmell Cochran (1909 – 1980), assistente deYates por 5 anos, de 1934 a 1939, ano em que emigroupara os Estados Unidos da América, e foi substituído porDavid John Finney (1917–) ex-assistente de Fisher noLaboratório Galton. Nos Estados Unidos, Cochranexerceu primeiramente o magistério na UniversidadeEstadual de Iowa, em Ames, onde cooperou com G. W.Snedecor no estabelecimento do Laboratório deEstatística, que ficou famoso como pioneiro das atividadesde ensino e pesquisa, sob a direção de Snedecor. Anosdepois, Cochran aceitou convite de Gertrude Mary Cox(1900 – 1978) para participar do corpo docente daUniversidade Estadual da Carolina do Norte, em Raleigh,de onde saiu para a Universidade John Hopkins efinalmente para Harvard. É preciosa lembrança de suacolaboração com Gertrude Cox a obra de Cochran &Cox (1950), cujo trabalho havia iniciado quando ambosfaziam parte do corpo docente de Iowa, de relevantesserviços aos que se dedicam à estatística experimental.Posteriormente, em 1947, veio para Ames, fazer parte doquadro profissional, também procedente da Inglaterra,onde estudara em Cambridge com Wishart e trabalharaalguns anos com Yates em Rothamsted, OscarKempthorne (1919 – 2000), outro estatístico de renome.Em seu livro Kempthorne (1952), ele reconhece nasprimeiras páginas do prefácio seu débito a Fisher e Yates,cujas contribuições considera como os fundamentos doassunto.

Uma vez estendida a experimentos mais complexos,além de fornecer as estimativas dos erros e os testes designificância dos vários efeitos, a Anova permitiu estimaras componentes de variância atribuídas às diferentes

Page 54: Breve história da estatística

54

classes de efeito. Aliás, em Statistical Methods forResearch Workers, o leitor é introduzido à Análise deVariância nesse contexto, como alternativa à correlaçãointra-classe e que, segundo o autor, esse método constituíagrande simplificação. Fisher achou que a distribuição docoeficiente de correlação intra-classe era essencialmenteequivalente à da razão de variâncias. Ele nunca sepreocupou de tratar a correlação intra-classeseparadamente da análise de variância, nas sucessivasedições de seu livro. Certamente, a forma da análise devariância apropriada à correlação intra-classe ou aqualquer classificação hierárquica requer ampliação paraser usada nas classificações cruzadas da análise deexperimentos.

A Anova difundiu-se rapidamente entre os pesquisa-dores. Para muitos deles, a estimação das componentesde variância era irrelevante, mas em muitos casos essasestimativas tornavam-se necessárias. Tudo isso era bemconhecido até o fim da 2a Guerra Mundial. Entretanto,depois desse período surgiu novo conceito introduzido porChurchill Eisenhart (1913 – 1994) em artigo sobrepressuposições em que se baseia a análise de variância,Eisenhart (1947). Nesse artigo, ele distingue o Modelo Iou de efeitos fixos, e o Modelo II ou de efeitos aleatórios,tendo sido depois acrescentado o modelo misto, em quealguns efeitos são fixos e outros aleatórios. A análiseestatística é a mesma nos diferentes modelos, mas os testesde significância diferem, de acordo com a expectância dosquadrados médios. Na prática, um modelo é de efeitosfixos, se os tratamentos são deliberadamente escolhidos,ou é de efeitos aleatórios (também chamado decomponentes de variância) se é feita uma seleção aleatóriados tratamentos, mas o interesse do pesquisador não se

Page 55: Breve história da estatística

55

restringe apenas a eles. Esse último é a forma original daanálise de variância.

Fisher fez ainda notáveis contribuições emfascinantes problemas combinatórios relacionados com aenumeração dos quadrados latinos e greco-latinos, ondemais uma vez revelou seu gênio. Algumas históriasinteressantes relacionadas com esse trabalho são relatadaspor Yates (1975). Segundo Finney, em nenhum lugar aelegância da matemática de Fisher é mais evidente do quenos seus artigos sobre esse assunto, publicados no Annalsof Eugenics de 1940 a 1945. Grande número das soluçõesencontradas encontram-se nas Tábuas Estatísticas deFisher e Yates. O próprio Finney (1945) publicounoAnnals of Eugenics, seu artigo no qual discute o usode apenas parte de uma repetição num experimentofatorial, quando o número de fatores é grande. Essa técnicaficou conhecida por repetição fracionada, para cujodesenvolvimento contribuiu também Kempthorne (1947).Nesse assunto, é particularmente interessante a leitura doCapítulo V do livro de Fisher The Design of Experiments(1935c), na parte referente aos quadrados latinosortogonais, quadrados greco-latinos e de ordem superior.

Esses resultados estimularam as investigações deum grupo brilhante de matemáticos indianos, sob a liderançade Raj Chandra Bose (1901 – 1987) do Instituto deEstatística de Calcutá, fundado por Prasanta ChandraMahalanobis (1893 – 1972), em 1931. Conta Bose, queem dezembro de 1937, durante um seminário realizadono Instituto, Fisher, então em visita à Índia, conjeturouque seria possível construir um quadrado hiper-greco-latinopara todo o valor de p, que é um número primo ou potênciade um primo. Foi objetivo de seu primeiro artigo provarque a suposição de Fisher era correta, o que Bose

Page 56: Breve história da estatística

56

conseguiu usando as propriedades dos Corpos de Galoise das Geometrias Projetivas Finitas com eles relacionadas.Em seu artigo Bose (1938) desenvolve um método deconstruir os quadrados hiper-greco-latinos. Na mesmaépoca W. L. Stevens (1938) publicou seu artigo TheCompletely Orthogonalized Latin Square. Bosecontinuou esses estudos e fez muitas contribuições sobreo assunto, tendo confirmado a conjectura de Euler de quenão existe um quadrado latino 6 x 6 ortogonal, e mostrounum artigo com Shrikvande (1959), a falsidade da conjeturaque generalizava a não-existência de quadrado greco-latinoda ordem 4t+2 para todo t > 1. Leonard Euler (1707 –1783) foi o primeiro matemático a se interessar pelosquadrados latinos, denominados “mágicos” naquela épocaem que fora publicado seu artigo Recherches sur unenouvelle éspecie de quarrés magiques, em 1782. Naépoca daquele artigo, Bose já havia emigrado para osEstados Unidos, onde em 1949, passou a integrar o corpodocente da Universidade da Carolina do Norte, em ChapelHill. Após sua aposentadoria naquela Universidade,continuou suas atividades de pesquisa e ensino naUniversidade Estadual do Colorado até sua morte, em1987.

Uma das figuras mais eminentes do grupo dematemáticos do Instituto de Calcutá foi CalyampudiRadhakrishna Rao (1920 – ), conhecido dos estatísticospor seus inúmeros artigos e pelos livros: AdvancedStatistical Methods in Biometric Research (1952) e aversão mais teórica dele Linear Statistical Inference andits Applications (1973). Além da influência inicial deMahalanobis em sua carreira, Rao obteve seu Ph.D. emCambridge, sob a orientação de Fisher e Wishart,influências estas que explicam a escola a que pertence.

Page 57: Breve história da estatística

57

São exemplos de sua contribuição no assunto dedelineamentos experimentais seus trabalhos emcooperação com K. R. Nair, e seu artigo GeneralMethods of Analysis for Incomplete Block Designs(1947), quando era ainda estudante em Cambridge. Raoesteve mais de uma vez no Brasil, sendo a última em 1999,quando recebeu o grau de Doutor Honoris Causa pelaUniversidade de Brasília, em concorrida solenidade.

Para completar o quadro de diferentes influênciasestatísticas na India, é oportuno mencionar outro grupoliderado principalmente por Pandurang Vasudeo Sukhatme(1911 – 1997), cujos trabalhos tiveram início em 1940,no Indian Council of Agricultural Research – Icar, em NovaDelhi, Índia. Começando como uma seção de Estatísticado Icar, em 1959 passou a constituir o Institute ofAgricultural Research Statistics, de reconhecidaimportância por suas funções de pesquisa e atividades detreinamento em nível de pós-graduação. Na esferainternacional, P. V. Sukhatme tornou-se conhecido por suasatividades na Food and Agriculture Organization – FAO–, órgão das Nações Unidas, onde a partir de 1951,exerceu o cargo de diretor da Divisão de Estatística nasede, em Roma, por mais de 20 anos.

As necessidades da experimentação industrial, ondesão pesquisados vários fatores representados por variáveisquantitativas, levaram ao desenvolvimento de delinea-mentos especiais, conhecidos na literatura pelo nome deDelineamentos de Box, em homenagem ao estatístico inglêsGeorge Edward Pelham Box (1919–), residente nosEstados Unidos desde 1956, o maior responsável por seudesenvolvimento. Inicialmente, seu trabalho foi aplicadona determinação das condições ótimas em processosquímicos, mas pode ser estendido a situações em que a

Page 58: Breve história da estatística

58

experimentação é seqüencial e os erros envolvidos são depequena magnitude. O interesse era o de ajustar umasuperfície de resposta descrita aproximadamente por umpolinômio do 2o grau e, sendo assim, não haveria razãoespecial para se usar um arranjo fatorial completo. Osnovos delineamentos, tais como os delineamentoscompostos e os rotacionais, permitem testar grandenúmero de fatores em poucas unidades experimentais.Essas idéias estão expostas nos seguintes artigos: Box &Wilson (1951) e Box (1954). Assim, os polinômiosajustados podem ser usados como funções de produçãopara calcular a combinação ótima dos insumos a seremutilizados.

Teste de hipóteses estatísticas

A teoria clássica do teste de hipóteses foi fruto dacolaboração entre dois eminentes estatísticos JerzyNeyman e Egon Sharpe Pearson, iniciada quando Neymanestagiava no University College para onde fora estudarcom Karl Pearson no outono de 1925. Esta colaboraçãoé relatada por Pearson (1970) em The Neyman-PearsonStory (1926 – 1934).

Jerzy Neyman (1894 – 1981) foi, indubitavelmente,um dos gigantes da Estatística. Nasceu em Bendery, naregião da Bessarábia, então parte da Rússia Czarista, quepertenceu posteriormente à Romênia e finalmente àRepública Socialista da Moldávia, atual Moldava, da ex-União Soviética, de ascendentes poloneses de credocatólico, pertencentes à pequena aristocracia rural, cujasterras haviam sido confiscadas na Revolta de 1863. Note-se que a Polônia não existia como estado soberano desde

Page 59: Breve história da estatística

59

1795, quando houve sua partilha entre a Áustria, a Prússiae a Rússia. No verão de 1921, Neyman, pela primeiravez foi à Polônia, que havia ressurgido como paísindependente ao terminar a 1a Guerra Mundial, já no postode assistente de Matemática no Instituto de Tecnologia deKharkov, na Ucrânia, em cuja universidade se graduaraem Matemática, segundo relata sua biógrafa ConstanceReid (1982), autora do livro Neyman-from Life, queiniciou a escrever quando ele ainda vivia. Em 1924,Neyman já havia obtido o grau de Doutor com a tese cujotítulo em inglês é On the Application of ProbabilityTheory to Agricultural Experiments, fora preparada noperíodo em que trabalhou no Instituto Nacional deAgricultura, em Bydgoszcz (anteriormente, Bromberg).Essa tese, cujo original é em polonês, com sumário emalemão, acha-se parcialmente reproduzida por Neyman(1990). Contudo, sua exposição mais conhecida encontra-se no artigo de Neyman (1935).

O interesse de Neyman em se aperfeiçoar emEstatística levou-o a obter uma bolsa de estudos paraestudar com Karl Pearson, mas cedo percebeu que o nívelteórico ensinado não era o que ele esperava, o que o levoua prosseguir seus estudos em Paris, onde assistiu às aulasde Félix Êdouard Justin Émile Borel (1871 – 1956), HenriLéon Lebesgue (1875 – 1941) e de outros matemáticoseminentes como Paul Pierre Lévy (1886 – 1971) e JacquesSalomon Hadamard (1865 –1963) sobre assuntos de seumaior interesse, relacionados com a teoria deprobabilidades, medida e integração, que já o haviamentusiasmado quando estudante do grande probabilistarusso Sergey Natanovich Bernstein (1880 – 1968) naUniversidade de Kharkov. É oportuno registrar que nessa

Page 60: Breve história da estatística
Page 61: Breve história da estatística
Page 62: Breve história da estatística
Page 63: Breve história da estatística

63

de estimação intervalar, assunto que o havia ocupadodesde 1930. Foi quando surgiu sua teoria de intervalos deconfiança, publicada no apêndice de seu famoso artigoOn the Two Different Aspects of the RepresentativeMethod: the Method of Stratified Sampling and theMethod of Purposive Selection (Neyman, 1934). Aidentidade numérica dos limites fiduciais de Fisher e oslimites de confiança sugeriram a Neyman que suas teoriaseram essencialmente a mesma, levando-o a considerar seutrabalho como uma extensão e aperfeiçoamento das idéiasde Fisher. Alguns autores chegaram a usar as expressõeslimites fiduciais e limites confidenciais como sinônimas.Posteriormente, Fisher (1935b), declara que Neymantentou desenvolver o argumento da probabilidade fiducialde um modo que, lamentavelmente, ignorava os resultadosda teoria da estimação à luz do que fora originalmentelançada. Assim, no chamado teste de Behrens, estudadopor Fisher nesse artigo, a diferença entre as duas teorias éacentuada. O teste de Behrens, primeiramente estudadopor W. V. Behrens (1929), consiste no teste da diferençade duas médias, cujas variâncias podem ser diferentes.Esse teste requer o uso de tábuas especiais, construídaspor Sukhatme e apresentadas nas Tabelas Estatísticas deFisher e Yates, anteriormente citadas. Para esse teste, nãohá solução na teoria de Neyman. Para a compreensãocompleta dessas diferenças, é aconselhavel a leitura doartigo de Neyman (1941), no qual ele elucida, de formadidática, a diferença entre as duas teorias, conceitualmentediversas.

Para Fisher, a teoria de Neyman e Pearson serviabem de modelo para a inspecção de qualidade poramostragem, mas não para a pesquisa científica. A regiãode aceitação e de rejeição de lotes, com as idéias de riscos

Page 64: Breve história da estatística

64

do consumidor e do produtor, têm origem nos dois tiposde erros. O erro do tipo I corresponderia ao risco doprodutor, i.e., à probabilidade de que uma partida de boaqualidade venha a ser rejeitada, enquanto o erro do tipo IIseria a probabilidade de uma partida de má qualidade seraceita na inspecção, que é o risco do consumidor. SegundoFisher, deve-se pensar nos problemas científicos emlinguagem diferente da exigida na eficiência tecnológica.Por isso, ele não concordou com Wald, ao considerar otratamento do delineamento experimental como parte doproblema geral da decisão. Para Fisher, a decisão estárelacionada com a ação prática, enquanto a inferência como conhecimento científico. Um exemplo familiar da primeiraé o controle estatístico de qualidade industrial. Para ele,os intervalos de confiança de Neyman nada afirmam sobrea probabilidade do parâmetro em relação ao resultadoobtido numa amostra particular, mas sobre o intervalocalculado sobre hipotéticas amostras que não foramrealmente obtidas. Apesar dessas críticas, a inferênciaestatística foi conduzida de modo consistente com a teoriade Neyman-Pearson, usando testes estatísticosintroduzidos por K. Pearson e Fisher.

Abraham Wald (1902 – 1950) em seu artigo (Wald,1939), apesar de escrito antes de ele conhecerpormenorizadamente a moderna teoria estatística, já estãopresentes as noções mais importantes de sua teoria dadecisão. Posteriormente, ele colaborou na formalizaçãoda análise e experimentação seqüencial, que vinha sendousada de modo informal, na inspeção por amostragem nocontrole de qualidade na indústria. Wald vinha trabalhandonesse assunto desde 1943, condensando os resultadosno seu livro Sequential Analysis, (Wald, 1947). Nesselivro, é apresentado seu teste seqüencial da razão de

Page 65: Breve história da estatística
Page 66: Breve história da estatística

66

O desempenho de δ é medido pela perda média incorrida,denominada função risco R(θ ,δ)=E[ l(θ ,δ(x) ]. Note-se que Laplace e Gauss consideraram os erros de obser-vação como perdas e o método dos mínimos quadradostinha sua justificativa na base de minimizar tais perdas. Oproblema de selecionar os melhores procedimentos dedecisão tem sido atacado de vários modos. Um deles épelo critério minimax, ao invés de usar o valor médio dorisco. Por esse critério, oriundo da teoria dos jogos desen-volvida de modo determinístico na obra do célebre mate-mático John von Neumann (1903 – 1957) e do economistaOskar Morgenstern (1902 – 1977) (Neumann &Morgenstern (1944), é minimizado o risco máximo, daí onome minimax. Esse critério tem por fim maximizar aproteção contra o pior que possa acontecer, sendo porisso considerado muito conservador. Além da vantagemde conservador, o critério minimax é independente dadistribuição a priori do parâmetro e tem risco constante,sob certas condições. Wald esteve à procura de outroscritérios, mas sem resultado satisfatório. Ele deu aindamuitas contribuições à Estatística, mas infelizmente faleceuaos 48 anos num acidente aéreo na Índia, de onderegressava após lecionar sobre os temas de seu recém-publicado livro. Esta fatalidade privou a comunidadecientífica de um possante intelecto, no auge de sua carreira,tendo muito ainda para contribuir para o desenvolvimentoda estatística matemática.

Por iniciativa de William Edwards Deming (1900-1993), o Departamento de Agricultura dos Estados Unidosconvidou Neyman a fazer uma série de palestras na Escolade Pós-Graduação em Washington, no verão de 1937.Foi nesta oportunidade que ele aceitou o convite paraorganizar e dirigir um Laboratório de Estatística noDepartamento de Matemática da Universidade da

Page 67: Breve história da estatística

67

Califórnia, no campus de Berkeley, na posição de professortitular (full professor). Essa nova atividade teve início emagosto de 1938, tendo continuado ao longo dos anos,mesmo depois da aposentadoria, em 1961, comoprofessor emérito, até sua morte em 1981. Já em 1955,fora criado o Departamento de Estatística ao qual ficouagregado o mencionado laboratório. Nesse período,Neyman conseguiu fazer o que veio a ser considerado omaior e melhor centro mundial de ensino e pesquisa daestatística, tendo atraído para Berkeley, sob sua liderança,uma plêiade de profissionais da mais alta categoria, taiscomo: Erich Leo Lehmann (1917 – ), autor do livro TestingStatistical Hypotheses (1959) e, mais recentemente,Theory of Point Estimation (1983), Lucien Le Cam(1924 –), Henry Scheffé (1907 – 1977), conhecido peloteste estatístico que tem seu nome e pelo livro The Analysisof Variance (1959), David Blackwell (1919 – ), MichelLoève (1907 – 1979), conhecido probabilista, e muitosoutros. Ficaram famosos os simpósios promovidosqüinqüenalmente, a partir de 1945, nos quais participaramos mais ilustres colaboradores, cujos trabalhos forampublicados posteriormente, anualmente, comoProceedings of the Berkeley Symposium onMathematical Statistics and Probability.

Nessa fase, a última de sua carreira profissional,Neyman continuou ocupado com suas pesquisas anterioresrelacionadas com a inferência estatística, como atestamsuas publicações sobre os melhores estimadoresassintoticamente normais (best asymptotically normal –BAN) e sobre os testes ótimos de hipóteses compostas,os chamados C-alfa testes, sendo C em homenagem aHarald Cramér (1893 – 1985). Entretanto, sua maiorprodução foi em trabalhos aplicados nas áreas deastronomia, meteorologia e medicina, merecendo destaque

Page 68: Breve história da estatística

68

seus artigos com Elizabeth Leonard Scott (1917 – 1988)referentes à distribuição espacial de galáxias e do enfoqueestatístico aos problemas da cosmologia, e os seus própriossobre análise estatística dos resultados dos ensaios paraprovocar chuvas artificiais que deram origem ao artigo deNeyman (1967). Na última área, os melhores trabalhosforam condensados em Probability Models and Cancerde Neyman & Le Cam (1982).

A influência de Neyman em Berkeley, ao lado dade Wald, na Universidade de Columbia, foramresponsáveis pela maior formalização matemática daestatística nos Estados Unidos, dando assim início àseparação da origem inglesa, de predominância fisheriana.Ele fez também estudos pioneiros sobre levantamentos poramostragens, onde introduziu novos métodos, mas esseassunto será visto na próxima seção.

Desenvolvimento dos Levantamentos por Amostragem

esta seção, será tratada a coleta de informações na formacomo se apresentam, sem controle das fontes de variaçãopor parte do pesquisador, i.e., dados de natureza nãoexperimental. Cronologicamente, tiveram origem de certomodo desde os primórdios da Estatística, mas na verdadesó se desenvolveram após as contribuições provenientesda teoria da estatística, que se desenvolveu principalmentena fase de experimentação, vista na seção anterior. Valesalientar que enquanto nos experimentos lidam-se compopulações imaginárias e infinitas, nos levantamentos aspopulações são reais e finitas.

.N

Page 69: Breve história da estatística

69

O estudo das populações finitas é bem mais recente,a teoria é mais difícil e as fórmulas são mais complicadas.A esse respeito, é interessante a leitura do artigo de Hansen& Hurvitz (1943). As necessidades práticas daamostragem em levantamentos incentivarem estudosteóricos dos quais surgiu uma grande variedade de planosde amostragem, que não teriam ocorrido se a questão daamostragem tivesse ficado restrita unicamente àspopulações infinitas. Os levantamentos por amostragemsão praticamente o único método de pesquisa nas ciênciaseconômicas e sociais. Um relato histórico das aplicaçõesda amostragem em levantamentos é encontrado nosseguintes artigos: Stephan (1949), Seng (1951) e Hansen& Madow (1976). Uma visão geral resumida sobre oassunto pode ser vista no Capítulo IV Les Sondages, dolivro de Droesbeke & Tassi (1990).

Quem primeiro advogou o uso da amostragem emlevantamentos (sample surveys) foi Kiaer, com seu métodode representatividade, na reunião do Instituto Internacionalde Estatística (criado 10 anos antes, em Londres) em1895, em Berna, Suíça. Andres Nicolas Kiaer (1838 –1919) era então Diretor do Bureau Central de Estatísticaem Cristiania, como era chamada a capital da Noruega,que em 1925 passou a se chamar Oslo. A idéia de Kiaersobre amostra representativa era a de ser uma miniaturaaproximada da população. O método que ele propöscorrespondia ao que, atualmente, seria um bem trabalhadométodo de estratificação, levando-se em conta fatoresgeográficos, sociais e econômicos. Além disso, eleintroduziu uma seleção proporcional em cada estrato,baseada em detalhes do prévio censo demográfico. Kiaerdefendeu sua idéia nas várias reuniões do InstitutoInternacional de Estatística, realizadas em São Petersburgo,

Page 70: Breve história da estatística
Page 71: Breve história da estatística

71

representativa foi feita pelos estatísticos italianos CorradoGini (1884 – 1965) e seu assistente Luigi Galvani, paraobterem uma amostra dos dados do censo de 1921 em1926/1927. Na época, Gini era o maior estatístico italiano,editor da revista Metron, internacionalmente reconhecida,e de grande influência na direção do Escritório Central deEstatística de seu país. Eles decidiram retirar os dados de29 das 214 unidades administrativas (circondari) em quea Itália estava dividida. Essas 29 unidades eram tais queseus valores médios de sete importantes característicaseram próximos das médias do país inteiro. Entretanto,quando outras características foram consideradas, ouquando outros aspectos que não apenas as médias, porexemplo a variabilidade ou as associações das setecaracterísticas foram levados em conta, Gini e Galvaniencontraram grandes discrepâncias entre os dados daamostra e do país como um todo. Gini (1928) concluiuem seu artigo sobre tal método de amostragem que oscontroles eram ineficientes, crítica identicamente repetidano artigo de Gini & Galvani (1929).

Essa era a situação quando foi publicado o famosoartigo de Neyman (1934), citado na sessão anterior. Nessetrabalho, considerado uma contribuição pioneira, umverdadeiro divisor de aguas, no dizer de Kruskal eMosteller no artigo anteriormente citado, Neyman mostroua superioridade da amostragem aleatória estratificada sobrea seleção intencional, então aconselhada como métodorepresentativo da amostragem e severamente criticada porGini e Galvani, cuja aplicação no censo italiano é citada,detalhadamente, em seu artigo. A descrença no métodorepresentativo, argumentou Neyman, devia ser naamostragem intencional e não na amostragemprobabilística, que ele recomendava como a do método

Page 72: Breve história da estatística

72

representativo. Na verdade, não há processo seguro parase saber se determinada amostra é representativa de umapopulação. Operacionalmente, define-se comorepresentativa uma amostra selecionada ao acaso, de modoque cada unidade de amostragem tenha uma probabilidadeconhecida, e diferente de zero, de participar na amostra.

O artigo de Neyman é repleto de boas idéias. Nele,é apresentada uma discussão sobre a inferência empopulações finitas na base da casualização introduzidapelos procedimentos de seleção. Pela primeira vez, eminglês, é tratada a estimação intervalar pelos intervalos deconfiança, conforme já foi visto na seção anterior. É penaque a discussão sobre esse assunto, tratado no apêndicedo artigo, tivesse tirado de certo modo o brilho daapresentação da parte principal do trabalho sobre métodosde amostragem. Nesta sessão, que contou com a presençade Bowley, Fisher e E. S. Pearson, entre outros membrosda sociedade, houve apenas pequenas discordânciassalientadas por Pearson que os dois métodos não eramexatamente iguais, e reforçadas por Fisher, ao declararque o argumento fiducial era utilizado somente nos casosde existir uma estatística suficiente, publicadasposteriormente em seu artigo sobre o assunto, conformefoi citado na seção anterior.

Foi na apresentação do trabalho de Neyman (1935),sobre Statistical Problems in Agricultural Experimenta-tion, com a colaboração de K. Iwaskiewicz e St.Kolodzieczyk, apresentado em memorável sessão em 28de março de 1935, que teve início a desavença com Fisher.Essa e outras discordâncias resultaram em polêmicas entreFisher e Neyman que culminaram, lamentavelmente, como desentendimento entre ambos. O procedimento adotadonessas apresentações era o de circular o manuscrito com

Page 73: Breve história da estatística

73

antecedência entre os membros convidados para participarna discussão, para que pudessem preparar seuscomentários na discussão que se seguia após aapresentação formal do trabalho. As discussões,juntamente com a resposta do autor do trabalho, eramfinalmente incorporadas ao texto do artigo publicado,tornando possível sua reprodução em futuras citações doshistoriadores da ciência para elucidar eventuais dúvidas.

Neyman tratou, também, da amostragem estratifica-da, que antes havia sido considerada por Bowley, tendodiscutido e deduzido a partilha ótima (optimum allocation)das unidades da amostra nos diferentes estratos. Esseassunto fora antes estudado pelo russo AlexanderAlexandrovitch Tchuprov (1874 – 1926) no seu artigo(1923), mas não era do conhecimento de Neyman, nemteve repercussão prática nos levantamentos por amostra-gem. Contudo, Neyman (1952), reconheceu publicamentea prioridade de Tchuprov tão cedo tomou conhecimento.Nessa área, outra importante contribuição de Neyman foiseu artigo sobre amostragem dupla, ou em duas fases,Neyman (1938) cujo título é: Contributions to the Theoryof Sampling Human Populations. Esse artigo, ao ladode seu famoso artigo acima mencionado, seriam suficientespara garantir a Neyman o reconhecimento de sua preemi-nência na teoria dos levantamentos por amostragem.

A noção intuitiva de miniatura da população deuorigem a processos de escolha das amostras por conveni-ência ou de amostras intencionais, por apreciação subjetiva.Um exemplo do tipo mencionado é a amostragem porquotas, que é um método de amostragem estratificada,em que a seleção dentro dos estratos não é ao acaso.Essas quotas (estratos) são em número tal que sua

Page 74: Breve história da estatística

74

proporção na amostra é aproximadamente a mesma quena população. O argumento contrário ao seu uso é quenão se pode calcular o erro de amostragem. É aconselhávela leitura do artigo: An experimental study of quotasampling de Moser & Stuart (1953). Contudo, aamostragem por quotas foi largamente utilizada empesquisas de mercado e de opinião pública, como nasintenções de voto em pesquisas eleitorais. A prevista vitóriade Thomas Dewey na disputa com Harry Truman naseleições de 1948, para a presidência dos Estados Unidos,desacreditou publicamente o método de amostragem porquotas, usado por George Gallup, jornalista a cargo dapesquisa. Apresentadas as causas do fracasso, Gallupabandonou o método de amostragem por quotas, decaráter não probabilístico, e passou a utilizar um plano deamostragem onde em todas as suas etapas prevalecia oconceito de aleatorização, conforme escreve Jorge deSouza (1990), professor titular de Estatística daUniversidade de Brasília aposentado, em sua obraPesquisa Eleitoral Críticas e Técnicas, cuja leitura érecomendada aos interessados neste assunto.

Na prática, pelo menos em levantamentos sociais eeconômicos, raramente uma amostra é selecionada demodo estritamente aleatório. Geralmente dispõe-se de umalista de unidades de amostragem e usa-se algum tipo deseleção, como por exemplo, cada décima unidade da listaou outra forma de seleção sistemática.

A amostra obtida pelo emprego de um método deseleção que consiste em sortear apenas a primeira unidade,sendo as demais selecionadas segundo um planosistemático, é conhecida, também, pela denominação deamostra quase-aleatória (quasi-random sample). Essetermo é citado em Buckland (1951) e em Moser (1961),

Page 75: Breve história da estatística

75

na pág. 76, sendo também mencionado por Yates (1946).Um estudo teórico da amostragem sistemática encontra-se em: Madow & Madow (1944).

Os levantamentos por amostragem tiveramposteriormente desenvolvimento em diversos países,principalmente nos Estados Unidos, nas atividade exercidaspelo Bureau of the Census, órgão de longa história, comtrabalho pioneiro no desenvolvimento, construção eaplicação do equipamento de processamento de dadosem cartões perfurados, conhecidos como cartões Hollerith,nome de seu inventor Herman Hollerith (1860 –1929).Atualmente, esse processamento é feito por computaçãoeletrônica. Uma relação das atividades do Bureau of theCensus encontra-se no artigo de Morris Howard Hansen(1910 – 1990) Some History and Reminiscenses onSurvey Sampling (1987), que participou por vários anosdo quadro profissional do Bureau. Sua experiência, coma de William Hurwitz e William Madow, é refletida no livroem dois volumes de Hansen et al., (1953). O último dessesautores lecionou na Universidade de São Paulo, em 1946e 1947, tendo ministrado durante o período de fériasacadêmicas, de dezembro de 1946 a fevereiro de 1947,um curso intensivo sobre a Teoria dos Levantamentos porAmostragem, no Rio de Janeiro, a técnicos brasileiros deestatística, a convite do IBGE. As notas de aula deramorigem ao livro Teoria dos Levantamentos porAmostragem (Madow,1951). Ao lado da ediçãobrasileira, foi publicada pelo Instituto Nacional daEstatística de Portugal, a edição portuguesa da mesmaobra.

Embora muitas idéias usadas na teoria doslevantamentos por amostragem sejam oriundas dostrabalhos de Fisher, como casualização e controle local

Page 76: Breve história da estatística

76

(estratificação), ele pessoalmente não escreveu qualquerlivro sobre técnicas de amostragem, especialmente nasaplicações em levantamentos. Entretanto, enquanto estavaem Rothamsted, Fisher estudou o uso da amostragem emparcelas experimentais, com conseqüências nodesenvolvimento e melhoramento das estimativas deprodução agrícola e das áreas cultivadas. Depois daSegunda Guerra Mundial, Fisher foi membro daSubcomissão das Nações Unidas sobre AmostragemEstatística onde, ao lado de Mahalanobis e Yates, tevegrande influência nos trabalhos publicados pelaSubcomissão, especialmente na terminologia recém-criada. O próprio livro de Yates, Sampling Methods forCensuses and Surveys (1949), surgiu da solicitação daSubcomissão na sua primeira sessão, em Lake Success,em Long Island, New York, em setembro de 1947, paraque fosse preparado um manual para auxiliar o projetadoCenso Mundial da População e da Agricultura, em 1950.Esse livro, o primeiro sobre o assunto, e cuja quarta eúltima edição foi publicada em 1981, preencheuplenamente as necessidades previstas pela Subcomissãodas Nações Unidas e é recomendável ser consultado,especialmente em problemas práticos relacionados como planejamento e a execução dos levantamentos poramostragem.

Na Grã-Bretanha, a necessidade de obtenção dedados por meio de levantamentos não foi tão urgente comonos Estados Unidos. A população do país é relativamentemenor e muito mais concentrada. Muitos dados sobre apopulação são obtidos como subproduto daadministração, não necessitando de levantamentosespeciais. O primeiro uso de técnicas de amostragem nopaís foi feito por Bowley, num levantamento em Reading,

Page 77: Breve história da estatística

77

em 1912, no qual ele tomou aproximadamente cada 20ºdomicílio da classe operária, com atenção no cálculo doserros de amostragem e na possibilidade de viés (bias) pelaintrodução de substituições e recusas, conforme publicadoem seu artigo (Bowley,1913). Contudo, na Inglaterra, aamostragem nunca alcançou a aceitação que teve nosEstados Unidos, segundo Moser (1949, 1955), cujosartigos tratam, minuciosamente, desse assunto.

A Índia é exemplo de outro país que contribuiu parao desenvolvimento e aplicação dos levantamentos poramostragem com finalidade especialmente para oplanejamento econômico na década de 1930, sob aorientação do Instituto Indiano de Estatística organizadopor P. C. Mahalanobis. Essas atividades deram origem aseus artigos Mahalanobis (1944, 1946). Entre outrasatividades, Mahalanobis introduziu a técnica de sub-amostras interpenetrantes para controlar e avaliar acontribuição de erros alheios à amostragem, didaticamenteexplicada no livro texto de Cochran (1953), no Capítulo13 Sources of Error in Surveys. Uma lista de erros alheiosà amostragem é citada por Deming (1950), e algumasmedidas para controlar esse erros em levantamentosrealizados em populações humanas são estudadas porHansen & Steinberg (1956). Note-se que o erro deamostragem é apenas uma pequena porção do erro total.

No Indian Council of Agricultural Research – Icar–, P. V. Sukhatme fez importantes trabalhos emlevantamentos agrícolas, para estimar a produção numasérie de crop-cutting surveys. Foi quando surgiramcontrovérsias entre ele e Mahalanobis sobre o tamanhodas parcelas. Para Sukhatme, as parcelas pequenas, usadascomo unidade de amostragem, eram sujeitas a vieses(biases), devido à tendência de serem nelas incluídas as

Page 78: Breve história da estatística

78

plantas limítrofes da parcela, havendo assim umasuperestimativa da produção inversamente proporcionalao tamanho da parcela, conforme mostrou em Sukhatme(1946, 1947). Posteriormente, Sukhatme foi para aOrganização das Nações Unidas para Agricultura eAlimentação – FAO, em Roma, onde, como diretor dadivisão de Estatística, continuou a estender os métodos ea teoria da amostragem e erros nos levantamentos,incorporando a experiência dessa instituição nos paísesem desenvolvimento na promoção dos censosagropecuários mundiais, na segunda edição de seu livroSampling Theory of Surveys with Applications(Sukhatme & Sukhatme, 1970). Essa nova edição contoucom a colaboração de seu irmão B. V. Sukhatme comoco-autor, e contém vários exemplos de erros alheios àamostragem.

Já em 1938, nos Estados Unidos, o Departamentode Agricultura e o Laboratório de Estatística daUniversidade Estadual de Iowa estabeleceram umprograma cooperativo de pesquisa sobre amostragem,dirigido por Arnold J. King e Raymond J. Jessen, queestimulou consideravelmente o desenvolvimento delevantamentos agrícolas. Desses estudos merecem sercitados a clássica publicação de Jessen (1942) e o artigode King & Jessen (1945) The Master Sample ofAgriculture. Nesse artigo, é estudado um método queveio a ser conhecido como amostragem por área, a serusado em levantamentos onde as unidades de amostragemsão visitadas, pessoalmente, pelos recenseadores. OBureau of the Census interessou-se em utilizá-lo emconexão com o Censo Agrícola de 1945, quando ele foiutilizado em larga escala. A extensão desse método às áreasurbanas foi feita em seguida. O Bureau of the Census jáhavia considerado o uso da amostragem como parte do

Page 79: Breve história da estatística

79

censo demográfico decenal, o que teve início no Censode 1940, com a finalidade de coletar informaçõessuplementares a custo razoável. No Brasil, a amostragemcomeçou a ser usada a partir do Censo Demográfico de1950, na avaliação das tabulações avançadas, que sefizeram necessárias, dada a demora da publicação dosresultados obtidos no censo completo.

Devem ser mensionadas, também, as atividades doSurvey Research Center, que depois se tornou o Institutefor Social Research, na Universidade de Michigan, EstadosUnidos. Aí, foram treinados no Summer Program forForeign Statisticians, de 1961 a 1981, mais de 400estudantes provenientes de 94 países, sob a orientaçãode Leslie Kish (1910 – 2000), conforme ele própriodeclara na entrevista dada a Frankel & King (1996), AConversation with Leslie Kish. Kish publicou váriostrabalhos, entre eles um dos primeiros com seu chefe RoeGoodman (Goodman & Kish, 1950). Ele executoulevantamentos por amostragem em vários países,principalmente na América do Sul, por sua fluência emespanhol, língua que aprendera durante sua participaçãona Guerra Civil Espanhola. O livro de Kish (1965) SurveySampling foi editado também em espanhol e traduzidoaté em chinês, segundo consta.

O Bureau of the Census estendeu suas atividadesnos levantamentos por amostragem em várias áreas,aumentando para isso seu quadro profissional de modoconsiderável, tornando-se mundialmente a instituição maisforte nessas atividades. Como conseqüência, o LaborForce Survey passou a ser efetuado em base deamostragem probabilística com o nome de CurrentPopulation Survey (Levantamento Periódico daPopulação), incluindo maior número de informações sobrea população.

Page 80: Breve história da estatística

80

Com o tempo, o Levantamento Periódico daPopulação, passou a servir a várias necessidades,tornando-se um modelo para o planejamento delevantamentos por amostragem a ser usado no mundointeiro, ao qual foram incorporados os resultados de váriostrabalhos teóricos sobre o assunto, tais como: amostragemestratificada multietápica de conglomerados,probabilidades de seleção proporcionais ao tamanho comreposição e sem reposição, uso de informação auxiliar nosestimadores, controle adequado dos erros alheios àamostragem, e dos erros de amostragem. Entre essestrabalhos, destacam-se os de Horvitz & Thompson (1952),Yates & Grundy (1953), Sampford (1962) e outros,citados por Tore Dalenius (1962).

No Brasil, um exemplo dessas atividades é aPesquisa Nacional por Amostra de Domicílios – Pnad –,implantada progressivamente a partir de 1967, para aobtenção de informações básicas necessárias para o estudodo desenvolvimento socioeconômico do País. A Pnad teveinício no segundo trimestre de 1967, sendo os resultadosapresentados com periodicidade trimestral até o primeirotrimestre de 1970. A partir de 1971, os levantamentospassaram a ser anuais, com realização no último trimestre.A pesquisa foi interrompida para a realização dos censosdemográficos de 1970, 1980, 1991 e 2000. Na décadade 70, os principais temas investigados, além dascaracterísticas gerais da população, da educação, dotrabalho, do rendimento e da habitação, foram migraçãoe fecundidade. Em 1974/1975, foi efetuada uma pesquisaespecial denominada Estudo Nacional da Despesa Familiar,que, além dos temas anteriores, investigou dados sobreconsumo alimentar e orçamentos familiares.

Page 81: Breve história da estatística

81

A Pnad é realizada por meio de uma amostraprobabilística de domicílios, obtida em três etapas deseleção: unidades primárias – municípios: unidadessecundárias – setores censitários; e unidades terciárias –unidades domiciliares. Na primeira etapa, os municípiossão classificados em dois conjuntos. No primeiro, sãoselecionados os municípios que, em decorrência dotamanho da sua população ou de alguma característica eimportância, participam necessariamente da amostra. Nosegundo conjunto os municípios passam por um processode estratificação e, em cada estrato, são selecionados comreposição e com probabilidade proporcional à populaçãoresidente, obtida no censo demográfico mais recente. Nasegunda etapa, os setores censitários são selecionados emcada município da amostra, também com probabilidadeproporcional ao tamanho e com reposição, sendo o númerode unidades domiciliares existentes por ocasião do últimocenso demográfico usadas como medida do tamanho.Finalmente, na última etapa, os domicílios são selecionadoscom eqüiprobabilidade, em cada setor censitário daamostra, para investigação das características dosmoradores e da habitação. Maiores detalhes em relaçãoà Pnad podem ser obtidos nas publicações do IBGE, sobreo assunto.

A Era Atual

era atual caracteriza-se pelo aumento gradativo dematematização da estatística e da influência crescente douso dos computadores. Na década de 40, a estatísticateórica podia ser compreendida por alguém com

.A

Page 82: Breve história da estatística

82

conhecimento razoavelmente, bom em Matemática. Asituação mudou muito, a ponto de a maioria dos estatísticosnão conseguir, atualmente, ler os artigos publicados, dadoseu alto grau de sofisticação matemática, mesmo nasrevistas supostamente de caráter aplicado. Entretanto,deve ser dito que a Estatística não é propriamenteMatemática, nem mesmo matemática aplicada. Como lidacom a coleta, a análise e a interpretação de dados, inclui,naturalmente, muita conjetura sagaz, diferente do rigor dademonstração matemática, para não mencionar o raciocínioindutivo envolvido na inferência estatística. Evidentemente,saber Matemática é importante para um estatístico e quantomais melhor, pois a teoria estatística não envolve apenasconceitos, necessitando também ser formalizada. Contudo,conhecer Matemática, embora necessário, não é suficientepara formar um estatístico.

Segundo Cox (1997), em seu artigo The CurrentPosition of Statistics: A Personal View, os anos de 1925a 1960 podem se considerados a época áurea dopensamento estatístico. Este período abrangeu a maiorparte dos trabalhos sobre inferência de Fisher, Neyman,Egon Pearson e Wald, além do desenvolvimento dosdelineamentos experimentais e levantamentos poramostragem, assim como as idéias fundamentais sobreséries temporais e análise multidimensional, e ascontribuições bayesianas objetivas de Sir Harold Jeffreys(1891 – 1989) e as subjetivas de Bruno de Finetti (1906– 1985) e L. J. Savage. O controle estatístico da qualidadee os ensaios clínicos casualizados também já estavamfirmemente estabelecidos. Embora tenham sido publicadosimportantes trabalhos entre 1960 e 1985, esse períodofoi primariamente de consolidação das idéias anteriormente

Page 83: Breve história da estatística

83

desenvolvidas. No início deste período, a maioria dosestatísticos já tinha acesso aos computadores eletrônicos,mas a obtenção dos resultados era ainda tarefa demorada.O expressivo aumento subseqüente dos recursos decomputação e de sua disponibilidade proporcionaramnovos desenvolvimentos e facilitaram sobremodo aimplementação dos métodos correntes. Visto num prazomais longo, houve uma verdadeira explosão do assunto,como mostra a quantidade de trabalhos publicados, osurgimento de novas revistas e a quantidade de profissionaiscomprometidos na área. Se os estatísticos como um todocontinuarem envolvidos em importantes atividadescientíficas, tecnológicas e de negócios públicos, se novasidéias forem encorajadas e, especialmente, se asalarmantes tendências de fragmentação do assuntopuderem ser evitadas, conforme declara Cox, são fortesas perspectivas de um novo período de grandes inovações.

David Roxbee Cox (1924 – ) é um dos maisprolíferos estatísticos da era atual, conforme mostra o artigoA Conversation with Sir David Cox, de Nancy Reid(1994), co-autora de seu último livro The Theory of theDesign of Experiments (Cox & Reid, 2000). Uma versãonão-matemática desse assunto já havia saído intituladaPlanning of Experiments (Cox, 1958c), muito apreciadapelos estudiosos das ciências experimentais. Ele é autor ecoautor de mais de 200 artigos e mais de 15 livros. Alémdos mencionados, merecem ser citados: Cox & Miller(1965), cujo assunto, como é sabido foi iniciado porAndrey Andreyvich Markov (1856 – 1922), nas chamadascadeias de Markov; Cox (1970), Cox & Hinkley (1974)e Cox & Oakes (1980), entre outros. Dos artigospublicados, salientam-se os de Cox (1958a; 1958b;1972),para citar apenas os de maior repercussão.

Page 84: Breve história da estatística

84

David Cox graduou-se em Matemática na Universi-dade de Cambridge, Inglaterra, e obteve seu Ph.D naUniversidade de Leeds, em 1949, quando trabalhava naWool Industries Research Association, em Leeds, tambémna Inglaterra. De 1950 a 1955, foi assistente emCambridge, no Statistical Laboratory, dirigido por Wishart,e em seguida lecionou por 15 meses na Universidade daCarolina do Norte, em Chapel Hill, Estados Unidos. Aoregressar à Inglaterra, foi professor adjunto de Estatísticano Birkbeck College e, a partir de 1966 até 1988, foiprofessor titular no Imperial College, ambos na Universi-dade de Londres. Em 1988 mudou-se para Oxford, ondefoi diretor do Nuffield College, posto no qual se aposentouem 1994, sendo, atualmente, membro honorário domesmo e professor emérito de Estatística na Universidadede Oxford. Em 1973, foi eleito Fellow da Royal Society(F. R. S.) e em 1985, recebeu o título honorífico de Sir.Entre suas honrarias, Sir David recebeu mais de dezdoutorados, sendo o último de Doutor Honoris Causaoutorgado pela Universidade Federal do Rio de Janeiro,em 28 de julho de 2000. Finalmente, menção deve serfeita ao seu exercício de editor da Biometrika de 1966 a1991, cargo que desempenhou com sua costumeiradedicação e eficiência por 25 anos.

Em seu artigo Computers – The SecondRevolution in Statistics, Yates (1966) revela que, paraele, a primeira revolução na Estatística veio com aintrodução das máquinas de calcular. De fato, tanto ascontribuições de Karl Pearson como as de R. A. Fisher,no desenvolvimento teórico da Estatística, não teriamocorrido não fosse o precioso auxílio prestado pelasmáquinas de calcular. Ambos certamente esposam essereconhecimento, como mostram as fotos por eles tiradas

Page 85: Breve história da estatística

85

ao lado de suas calculadoras. Nas décadas de 40 e de50, as máquinas de calcular manuais e elétricas tornaram-se comuns. O cálculo da soma dos quadrados de usocorrente na Anova era facilmente obtido, bem como asoma de produtos que facilita, também, a análise deregressão. Entretanto, faltava qualquer capacidade deprogramação, só trazida pelos computadores eletrônicosque acarretaram grande economia de tempo e de mão-de-obra. Imagine fazer a inversão de uma matriz de ordemelevada ou o ajustamento de uma regressão múltipla commuitas variáveis, com uma máquina de calcular!Atualmente, um estatístico que não usa o computador écomo uma espécie em extinção, cada vez mais raro de serencontrado. Contudo, a realização de qualquer operaçãocom um computador requer a existência de um programaapropriado, como por exemplo, o Statistical AnalysisSystem – SAS) –, o Statistical Package for Social Siences– SPSS –, o Genstat, poderoso programa orientadoprimariamente para a análise de dados de experimentosplanejados e para técnicas de análise multidimensional, evários outros conhecidos pelas respectivas siglas. Oscomputadores são providos por uma ou mais linguagens,tais como a Fortran (Formula Translator), desenvolvidapela International Business Machines Corporation – IBM–, apropriada para trabalhos de natureza científica, e aCobol (Common Business Oriented Language), maisusada no mundo dos negócios, por exemplo. Maioresdetalhes sobre computadores podem ser vistos nos artigosde Herman Otto Hartley (1912 – 1980) em Hartley(1976), e de Nelder (1984), bem como no Capítulo 10,Computer Programs for Survey Analysis da 4ª ediçãodo livro de Yates (1981). Entre outros assuntos, Hartleytrata da simulação de processos estocásticos pela geraçãode números aleatórios, conhecida por métodos Monte

Page 86: Breve história da estatística

86

Carlo, de importante impacto na construção de modelosmatemáticos. O leitor ineressado nesse tema deve ler olivro de Meyer (1954).

Os “cérebros eletrônicos” – como foram chamadosinicialmente os computadores – têm feito verdadeirasmaravilhas, a ponto dos entusiastas da Inteligência Artificialacreditarem que, com o tempo, será possível duplicarqualquer atividade da mente humana, já que esta é tambémuma máquina. Entretanto, outros argumentam que oprocesso criativo da mente humana é de natureza diferentee jamais será reproduzido numa máquina. O uso intensivodos computadores afastou o estatístico do escrutíniointeligente dos dados, com conseqüências maléficas, senão forem utilizados com sabedoria, pois como diz Yates“os computadores são bons serventes, mas maus mestres”.Um exemplo dado por Hartley ilustra a inspeção dos errosresiduais, isto é, das divergências entre dados observadose os valores ajustados pela regressão, que é altamentevantajosa para o pesquisador aprender algo sobre seusdados. Por exemplo, o gráfico dos resíduos contra osvalores calculados pela regressão linear pode indicar afalta de um termo quadrático ou de ordem superior.

Quando usados judiciosamente, os pacotesestatísticos têm ajudado de modo extraordinário tanto osestatísticos como os pesquisadores. A lição aprendida foinão se intimidar em tratar grandes massas de dados, oque levou a uma nova onda de atividades conhecida poranálise exploratória de dados, cujo expoente máximo foiJohn Wilder Tukey (1915 – 2000). Suas contribuiçõessobre o assunto encontram-se principalmente no artigode Tukey (1962) e no seu livro, Tukey (1977). ParaTukey, os problemas da ciência e suas aplicações tecnoló-gicas, incluindo entre estas a engenharia, a agricultura e a

Page 87: Breve história da estatística

87

medicina, não iniciam nem terminam com respostasordenadas, daí a reabilitação da estatística descritiva,começando com análises gráficas e visuais.

A análise exploratória, com ênfase nos aspectosdescritivos, não elimina a análise confirmatória, de cunhoinferencial, mas se completam, como escreve Tukey(1980). Para os estatísticos aplicados, Tukey é conhecidopor seu teste para comparar todo e qualquer contrasteentre duas médias, baseado na amplitude total “estudenti-zada” (studentized range), chamada na literatura, de testede Tukey, cuja aplicação requer tabela especial, encontradano livro de Snedecor (1937), citado na Seção 3, a partirda quinta edição.

O processo de procurar valiosas informações emenormes massas de dados é conhecido por mineração dedados (data mining), cujo exemplo é o projeto do genomahumano, que já armazenou centenas de gigabytes dedados. A mineração de dados é considerada um assuntointerdisciplinar, que representa a confluência de váriasidéias, inclusive da análise exploratória de dados, entreoutras. Seu objetivo principal é encontrar estrutura nosdados, distinguindo-se da Estatística pela maior ênfase emalgoritmos. Aliás, foi tirando proveito das redes neurais edos algoritmos genéticos que foram desenvolvidos osmétodos de análise de dados baseados no aprendizadode máquinas (machine learning). Sobre esse assunto éaconselhável a consulta ao livro de Hand et al., (2000).Esse e outros assuntos relacionados são também tratadosno artigo de Rao (1999), baseado em sua palestra profe-rida na abertura da Sexta Escola de Modelos de Regres-são, em 8 de fevereiro de 1999, em Brasília, de sumaimportância.

Page 88: Breve história da estatística

88

Segundo Rao, as limitações dos atuais métodosestatísticos em tratar grandes massas de dados, levaramos cientistas da computação, engenheiros e aqueles quetrabalham em pesquisa operacional, a sugerir a utilizaçãoda mineração de dados para esse fim.

A pesquisa operacional teve início na Grã-Bretanha,durante a Segunda Guerra Mundial, num esforço científicointerdisciplinar para resolver problemas militares, masdepois recebeu considerável desenvolvimento nos EstadosUnidos da América. Hoje, a pesquisa operacional édescrita como a aplicação do método científico a problemasde decisão e gerenciamento nas áreas de negócios,indústria e administração. Seus elementos essenciaisincluem o desenvolvimento de um modelo quantitativo daoperação estudada e da verificação e refinamento domodelo por meio de observações quantitativas eexperimentos controlados. Assim, ela proporciona aosadministradores e executivos uma base quantitativa paraa tomada de decisões, lidando muitas vezes com problemasde interesse estatístico. Contudo, enquanto na análiseestatística raciocinam-se fatos observados no mecanismoque os geraram, na pesquisa operacional são usadosmodelos matemáticos que deduzem fenômenos a seremcomparados com os fatos observados. A formulação dosinventários como os problemas de filas (queues) e aavaliação de projetos e revisão de técnicas, conhecidapela sigla Pert (project evaluation and review technique),são exemplos de atividades relacionadas com a pesquisaoperacional.

Em seu artigo, Rao menciona também que nasegunda metade do século passado, houve uma mudançana pesquisa estatística, baseada preponderantemente emmodelos, para a utilização de métodos não-paramétricos,

Page 89: Breve história da estatística

89

aplicáveis em amostras oriundas de qualquer distribuição,e para métodos paramétricos robustos, não influenciadospor valores atípicos (outliers) ou pela contaminação dedados. Embora de rápida implementação, os métodos não-paramétricos, baseados em estatísticas de posto (rank),não tinham a eficiência dos métodos paramétricos.Receberam especial atenção os estimadores robustos daclasse M, assim chamados por serem uma generalizaçãoda máxima verossimilhança, introduzidos por Peter J.Huber. A esse respeito devem ser lidos o artigo de Huber(1964) e seu livro (1981). Os recentes desenvolvimentosdos métodos bootstrap e jackknife têm tido mais êxito doque os métodos de posto, pois não se baseiam em modelose utilizam mais informações. Contudo, sua justificação étambém baseada em resultados assintóticos, para usar aspróprias palavras de Rao.

Os métodos bootstrap e jackknife (essses termossão intraduzíveis), embora tenham uma feição de mineraçãode dados, aproximam-se mais do raciocínio estatístico,nada mais sendo que técnicas de reamostragem, atualmentede uso nos pacotes mais comuns. Para Bradley Efron(1938 – ), professor de Estatística na Universidade deStanford, Estados Unidos – provavelmente quem maisescreveu sobre esse assunto –, o método bootstrap ésimples e direto, para calcular valores aproximados taiscomo, de vieses, erros padrões, intervalos de confiança,em quase todo problema de estimação não-paramétrica eentre os métodos genuinamente não-paramétricos é o demelhor execução. Com R. Tibishirani, ele é autor de umlivro (Efron & Tibishirani, 1993) e de vários artigos sobreo assunto, dos quais serão citados: Efron (1979, 1981);Efron & Gong (1983); Efron & Tibishirani (1986) eDiCiccio & Efron (1996). O estudo do método bootstrap

Page 90: Breve história da estatística
Page 91: Breve história da estatística

91

bayesiano), numa variedade de problemas. Contudo, amaioria das análises estatísticas continua sendo feita pelosmétodos freqüencistas, cujas soluções são relativamentemais simples, segundo Efron (1986). O assunto é tambémtratado por Efron (1998) em R. A. Fisher in the 21stCentury, onde ele afirma que a inferência fiducial de Fisheraproximava-se do bayesianismo objetivo, no qual oelemento subjetivo é removido da escolha da distribuiçãoa priori. Fisher e Jeffreys, autores do livro Theory ofProbability (1961), eram virtualmente idênticos em seuobjetivo, segundo David R. Cox, embora diferissem,naturalmente, em sua matemática. Sobre esse assuntodevem ser lidos os artigos de Cox (1958a; 1978).

Para completar, deve ser incluída a leitura do artigode Cornfield (1969). Jerôme Cornfield (1912 – 1979),conhecido por seus trabalhos aplicados à epidemiologia eensaios clínicos, é bayesiano subjetivista como De Finetti,autor do livro Teoria delle Probabilità (1970), (traduzidopara o inglês e o alemão), famoso subjetivista cujo artigosobre o assunto De Finetti (1974) foi criticado por JosephBerkson em My encounter with neo-Bayesianism,(1977). Nesse artigo, Berkson conclui que os métodosbayesianos podem ser validamente aplicados, quando ainformação a priori baseia-se em premissas de evidênciaobjetiva, mas não a problemas científicos, quando refletemuma idéia subjetiva da probabilidade, caso em que averificação empírica é um requisito fundamental. Parafinalizar, deve ser citada a opinião de Dennis Victor Lindley(1923 – ), uma das maiores autoridades no assunto, autordo livro Introduction to Probability and Statistics froma Bayesian Viewpoint – Part 1. Probability, Part 2.Inference (1965), e de um mais popular, Lindley (1971),que assim se expressa na página 70, da Part 2, Inference:

Page 92: Breve história da estatística

92

“O enfoque Bayesiano e o ortodoxo (freqüencistaclássico) se complementam e juntamente fornecem umentendimento substancialmente melhor da estatísticado que isoladamente”.

Referências

ALLAN, F. E.; WISHART, J. A method of estimating theyield of a missing plot in field experimental work. Journalof Agricultural Science, Cambridge, v. 20, p. 417-439,1930.

ANSCOMBE, F. J. Bayesian statistics. The AmericanStatistician, Washington, DC, v. 15, n. 1, p. 21-24, 1961.

BARNETT, V. Comparative statistical inference. NewYork: Wiley, 1973.

BARTLETT, M. S. R. A. Fisher and the last fifty years ofstatistical methodology. Journal of the AmericanStatistical Association, Washington, DC, v. 60, p. 395-409, 1965.

BAYES, T. An essay towards solving a problem in thedoctrine of chances. Philosophical Transactions of theRoyal Society, v. 53, p. 370-418, 1763. Reproduzidaem Biometrika, London, v. 45, p. 293-315, 1958.

BEHRENS, W. Ein Beitrag zur Fehlerberechnung beiweninger Beobachtungen. LandwirtschaftlicheJahrbucher, Berlin, v. 68, p. 87-837, 1929.

.

Page 93: Breve história da estatística

93

BERKSON, J. My encouter with neo-Bayesianism.International Statistics Review, Voorburg, TheNetherlands, v. 45, p. 1-8, 1977.

BOSE, R. C. On the application of the properties of Galoisfields to the problem of hyper-graeco-latin squares.Sankhyã, Calcutta, v. 3, p. 323-338, 1938.

BOSE, R. C.; SHRIKVANDE, S. S. On the falsity ofEuler’s conjecture about the non-existence of twoorthogonal latin squares of order 4t + 2. Proceedings ofthe National Academy of Sciences of USA, Washing-ton, DC, v. 45, p. 734-737, 1959.

BOWLEY, A. L. Working-class households in Reading.Journal of the Royal Statistical Society, London, 1913.

BOX, G. E. P. The exploration and explotation of responsesurfaces: some considerations and examples. Biometrics,Washington, DC, v. 10, p. 16-60, 1954.

BOX, J. F. R. A. Fisher: the life of a scientist. NewYork: Wiley, 1978.

BOX, G. E. P.; WILSON, K. P. On the experimentalattainment of optimum conditions. Journal of the RoyalStatistical Society, B, London, v. 13, p. 1-45, 1951.

BUCKLAND, W. L. A review of the literature ofsystematic sampling. Journal of the Royal StatisticalSociety, B, London, v. 13, p. 268-215, 1951.

COCHRAN, W. G. The distribution of quadratic forms ina normal system, with applications in the analysis of

Page 94: Breve história da estatística

94

covariance Cambridge Philosophical Society,Cambridge, v. 30, n. 2, p. 179-191, 1934.

COCHRAN, W. G. Sampling techniques. New York:Wiley, 1953.

COCHRAN, W. G. Fisher and the analysis of variance.In: S. S. FIENBERG, S. S.; HINKLEY, D. V. (Ed.). R.A. Füler. Fisher: an appreciation. New York: SpringerVerlag, 1980. p. 17-34.

COCHRAN, W. G.; COX, G. M. Experimental designs,New York: Wiley, 1950.

CORNFIELD, J. The Bayesian outlook and itsapplications. Biometrics, Washington, DC, v. 25, p. 617-657, 1969.

COX, D. R. Some problems connected with statisticalinference. Annals of Mathematical Statistics, Washing-ton, DC, v. 29, p. 357-372, 1958a.

COX, D. R. The regression analysis of binary sequences.Journal of the Royal Statistical Society, B, London,v. 20, p. 215-242, 1958b.

COX, D. R. Planning of experiments. New York: Wiley,1958c.

COX, D. R. The analysis of binary data1970. London:Methuen, 1970.

COX, D. R. Regression models and life tables. Journalof the Royal Statistical Society, B, London, v. 34, p.187-220, 1972.

Page 95: Breve história da estatística

95

COX, D. R. Foundations of statistical inference: the casefor eclecticism. Australian Journal of Statistics,Canberra, v. 20, p. 43-59, 1978.

COX, D. R. The current position of statistics: a personalview. International Statistics Review, Voorburg, TheNetherlands, v. 65, n. 3, p. 261-290, 1997.

COX, D. R.; HINKLEY, D. V. Theoretical statistics.London: Chapman and Hall, 1974.

COX, D. R.; MILLER, H. D. The theory of stochasticprocesses. London: Methuen, 1965.

COX, D. R.; OAKES, D. Analysis of survival data.London: Chapman and Hall, 1980.

COX, D. R.; REID, N. The theory of the design ofexperiments. London: Chapman and Hall, 2000.

DALENIUS, T. Advances in sample survey theory andmethods. Annals of Mathematical Satistics, Washing-ton, DC, v. 33, p. 325-349, 1962.

DE FINETTI, B. Teoria delle probabilità. Torino:Einaudi, , 1970.

DE FINETTI, B. Bayesianism: its unifying role for boththe foundations and applications of statistics. InternationalStatistics Review, Voorburg, The Netherlands, v. 42, p.117-130, 1974.

DEMING, W. E. Some theory of samplig. New York:Wiley, 1950.

Page 96: Breve história da estatística

96

DICICCIO, T. J.; EFRON, B. Bootstrap confidenceintervals. Statistical Science, Hayward, CA, 11, v. 30,p. 189-228, 1996.

DROESBEKE, J. J.; TASSI, P. Les sondages. Paris:Presses Universitaires de France, 1990. Chap. 4. Histoirede la statistique. Col. Que sais-je?

EDWARDS, A. W. F. The history of likelihood.International Statistics Review, Voorburg, TheNetherlands, v. 42, p. 9-15, 1974.

EFRON, B. Bootstrap methods: another look at thejackknife. The Annals of Statistics, Hayward, CA, v. 7,p. 1-26, 1979.

EFRON, B. Nonparametrics estimates of standard error:the jackknife, the bootstrap and other methods.Biometrika, London, v. 68, p. 589-599, 1981.

EFRON, B. Why isn’t everyone a Bayesian? TheAmerican Statistician, Washington, DC, v. 40 n. 1, p.1-11, 1986b.

EFRON, B. R. A. Fisher in the 21 st century. StatisticalScience, Hayward, CA, v.13 n. 2, p. 95-122, 1998.

EFRON, B.; GONG, G. A leisurely look at the bootstrap,the jackknife and cross-validation. The AmericanStatistician, Washington, DC, v. 37, p. 36-48, 1983.

EFRON, B.; TIBISHIRANI, R. Bootstrap methods forstandard errors, confidence intervals and other methodsof statistical accuracy. Statistical Science, Hayward, CA,v. 1 n. 1, p. 54-77, 1986a.

Page 97: Breve história da estatística

97

EFRON, B; TIBISHIRANI, R. An introduction to thebootstrap. New York: Chapman and Hall, 1993.

EINSENHART, C. The assumptions underlying theanalysis of variance. Biometrics, Washington, DC, v. 3,p. 1-21, 1947.

EINSENHART, C. On the transition from Student’s z toStudent’s t. The American Statistician, Washington, DC,v. 33 n. 1, p. 6-10, 1979.

ELDERTON, W. P. Frequency curves and correlation.2nd ed., London: Charles & Edwin Layton, 1927.

FINNEY, D. J. The fractional replication of factorialarrangements. Annals of Eugenics, London, v. 12, p.291-301, 1945.

FISHER, R. A. On the absolute criterion for fittingfrequency curves. Messenger of Mathematics, London,v. 41, p. 115-160, 1912.

FISHER, R. A. Frequency distribution of the values of thecorrelation coefficient in samples from an indefinitely largepopulation. Biometrika, London, v. 10, p. 507-521,1915.

FISHER, R. A. The correlation between relatives on thesupposition of Mendelian inheritance. Transactions of theRoyal Society of Edinburgh, Edinburgh, v. 52, p. 399-433,1918.

FISHER, R. A. On the probable error of a coefficient ofcorrelation deduced from a small sample. Metron, Roma,v. 1, p. 1-32, 1921.

Page 98: Breve história da estatística

98

FISHER, R. A. On the interpretation of chi-square fromcontingency tables, and the calculatation of P. Journal ofthe Royal Statistical Society, London, v. 85, p. 87-94,1922a.

FISHER, R. A. On the mathematical foundations oftheoretical statistics. Philosophical Transactions of theRoyal Society of London, A, London, v. 222, p. 309-368, 1922b.

FISHER, R. A. The distribution of the partial correlationcoefficient. Metron, Roma, v. 3, p. 329-332, 1924.

FISHER, R. A. Application of Student’s distribution.Metron, Roma, v. 5, p. 90-104, 1925a.

FISHER, R. A. Statistical methods for researchworkers. Edinburgh: Oliver & Boyd, 1925b.

FISHER, R. A. The theory of statistical estimation.Proceedings of the Cambridge Philosophical Society,Cambridge, v. 22, p. 701-725, 1925c.

FISHER, R. A. The arrangement of field experiments.Journal of the Ministry of Agriculture, London, v. 33,p. 503-513, 1926.

FISHER, R. A. Inverse probability. Proceedings of theCambridge Philosophical Society, Cambridge, v. 26,p. 528-535, 1930a.

FISHER, R. A. The genetical theory of naturalselection. Oxford: Clarendon Press, 1930b.

Page 99: Breve história da estatística

99

FISHER, R. A. The logic of inductive inference. Journalof the Royal Statistical Society, London, v. 98, p. 39-82, 1935a.

FISHER, R. A. The fiducial argument in statistical inference.Annals of Eugenics, London, v. 6, p. 391-398, 1935b.

FISHER, R. A. The design of expreriments. Edinburgh:Oliver and Boyd, 1935c.

FISHER, R. A. Statistical methods and scientific induction.Journal of the Royal Statistical Society, B, London,v.17, p. 69-78, 1955.

FISHER, R. A. Statistical methods and scientificinference. Edinburgh: Oliver and Boyd, 1956.

FISHER, R. A.; MACKENZIE, W. A. Studies in cropveriation II. The manurial response of different potatovarieties. Journal of Agricultural Science, Cambridge,v. 13, p. 311-320, 1923.

FISHER, R. A.; WISHART, J. The arrangement of fieldexperiments and the statistical reduction of theresults. Harpenden: Imperial Bureau of Soil Science.,1930. (Technical Communication, 10).

FISHER, R. A.; YATES, F. Statistical tables forbiological, agricultural and medical research.Edinburgh: Oliver and Boyd, 1938.

FRANKEL, M.; KING, B. A conversation with LeslieKish. Statistical Science, Hayward, CA, v. 11, n. 1, p.65-87, 1996.

Page 100: Breve história da estatística

100

GINI, C. Une application de la méthode représentativeaux materiaux du dernier recensement italienne (1er

decémbre 1921) Bulletin of the International StatisticalInstitute, Voorburg, The Netherlands, v. 23, Liv. 2, p.198-215, 1928.

GINI, C.; GALVANI, L. Di una applicazione del metodorappresentativo all’ultimo censimento italiano dellapopolazione (1º dicembre 1921). Annali di Statistica,Roma, Series 6, v. 4, p. 1-107, 1929.

GOODMAN, R.; KISH, L. Controlled selection: atechnique in probability sampling. Journal of theAmerican Statistical Association, Washington, DC, v.45, p. 350-372, 1950.

GOWER, J. C. Fisher’s optimal scores and multiplecorrespondence analysis. Biometrics, Washington, DC,v. 46, p. 947-968, 1990.

HAND, D. J.; MANILA, H.; SMITH, P. Principles ofdata mining. Cambridge, MA: MIT Press, 2000.

HANSEN, M. H. Some history and reminiscenses onsurvey sampling. Statistical Science, Hayward, CA, v.2, n. 2, p. 180-190, 1987.

HANSEN, M. H.; HURVITZ, W. N. On the theory ofsampling from finite populations. Annals of MathematicalStatistics, Washington, DC, v. 14, p. 332-362, 1943.

HANSEN, M. H.; HURVITZ, W. N.; MADOW, W. G.Sample survey methods and theory. New York: Wiley,1953. 2 v.

Page 101: Breve história da estatística

101

HANSEN, M. H.; MADOW, W. G. Some importantevents in the historical development of sampling surveys.In: OWEN, D. B. (Ed.). On the history of statisticsand probability. New York: Marcel Dekker, 1976. p.75-102.

HANSEN, M. H.; STEINBERG, J. Control of errors insurveys. Biometrics, Washington, DC, v. 12, p. 462-474,1956.

HARTLEY, H. O. The impact of computers on statistics.In: OWEN, D. B. (Ed.). On the history of statisticsand probability. New York: Marcel Dekker, 1976. p.421-442.

HORVITZ, D. G.; THOMPSON, D. J. A generalizationof sampling without replacement from a finite population.Journal of the American Statistical Association, Wa-shington, DC, v. 47, p. 663-685, 1952.

HUBER, P. J. Estimation of location parameters. Annalsof Mathematical Statistics, Washington, DC, v. 25, p.73-101, 1964.

HUBER, P. J. Robust estimation. New York: Wiley,1981.

IRWIN, J. O. Mathematical theorems involved in theanalysis of variance. Journal of the Royal StatisticalSociety, A, London, v. 94, p. 284-300, 1931.

JEFFREYS, H. Theory of probability. 3rd ed. Oxford:Clarendon Press, 1961.

Page 102: Breve história da estatística

102

JESSEN, R. J. Statistical investigation of a sample surveyfor obtaining farm facts. Iowa Agricultural ExperimentStation Research Bulletin, Ames, IA, v. 304, p. 1-104,1942.

KEMPTHORNE, O. A simple approach to confoundingand fractional replication in factorial experiments.Biometrika, London, v. 34, p. 225-272, 1947.

KEMPTHORNE, O. The design and analysis ofexperiments. New York: Wiley, 1952.

KING, A. J.; JESSEN, R. J. The master sample ofagriculture. Journal of the American StatisticalAssociation, Washington, DC, v. 40, p. 38-56, 1945.

KISH, L. Survey sampling. New York: Wiley, 1965.

KRUSKAL, W.; MOSTELLER, F. Representativesampling, IV. The history of the concept in statistics, 1895-1939. International Statistics Review, Voorburg, TheNetherlands, v. 48, p. 169-185, 1980.

LEHMANN, E. L. Testing statistical hypotheses. NewYork: Wiley, 1959.

LEHMANN, E. L. Theory of point estimation. NewYork: Wiley, 1983.

LINDLEY, D. V. Introduction to probability andstatistics from a Bayesian viewpoint. Part I.Probability Part II Inference. Cambridge UniversityPress, 1965.

Page 103: Breve história da estatística

103

LINDLEY, D. V. Making decisions. New York: Wiley,1971.

MADOW, W. G. Teoria dos levantamentos poramostragem. Rio de Janeiro: IBGE: Conselho Nacionalde Estatística, 1951.

MADOW, W. G.; MADOW, L. H. On the history ofsystematic sampling. Annals of Mathematical Statistics,Washington, DC, v. 15, p. 1-24, 1944.

MAHALANOBIS, P. C. On large-scale sample surveys.Philosophical Transactions of the Royal Society ofLondon, B, London, v. 231, p. 329-451, 1944.

MAHALANOBIS, P. C. Recent experiments in statisticalsampling in the Indian Statistical Institute. Journal of theRoyal Statistical Institute, A, Calcutta, v. 109, p. 326-370, 1946.

MEYER, H. A. Symposium on Monte Carlo methods.New York: Wiley, 1954.

MILLER, R. G. The jackknife. Biometrika, London, v.61, p. 1-15, 1974.

MOSER, C. A. The use of sampling in Great Britain.Journal of the American Statistical Association, Wa-shington, DC, v. 44, p. 231-259, 1949.

MOSER, C. A.; STUART, A. An experimental study ofquota sampling. Journal of the Royal StatisticalSociety, A, London, v. 116, p. 349-405, 1953.

Page 104: Breve história da estatística

104

MOSER, C. A. Recent developments in the sampling ofhuman populations in Great Britain. Journal of theAmerican Statistical Association, Washington, DC, v.50, p. 1195-1214, 1955.

MOSER, C. A. Survey methods in socialinvestigation. London: Heineman, 1961.

NELDER, J. A. Present position and potencialdevelopments: some personal views – statistical computing.Journal of the Royal Statistics Society, A, London, v.147, p. 151-160, 1984.

NEUMANN, J. von; MORGENSTERN, O. Theory ofgames and economic behavior. Princeton, NJ: PrincetonUniversity Press, 1944

NEYMAN, J. On the two different aspects of therepresentative method: the method of stratified samplingand the method of purposive selection. Journal of theRoyal Statistical Society, A, London, v. 97, p. 558-625, 1934.

NEYMAN, J. Statistical problems in agriculturalexperimentation, with the collaboration of K. Iwaskiewicze St. Kolodzieczyk Suppl. Journal of the RoyalStatistical Society, London, v. 2 n. 2, p. 107-180, 1935.

NEYMAN, J. Contributions to the theory of samplinghuman pupulations. Journal of the American StatisticalAssociaton, Washington, DC, v. 33, p. 101-116, 1938.

NEYMAN, J. Fiducial argument and the theory ofconfidence intervals. Biometrika, London, v. 32, p. 128-150, 1941.

Page 105: Breve história da estatística

105

NEYMAN, J. Fisher’s collected papers. The ScientificMonthly, Washington, DC, v. 72, p. 406-408, 1951.

NEYMAN, J. Current notes. Journal of to RoyalStatistical Society, A, London, v. 115, p. 602, 1952 .

NEYMAN, J. Experimentation with weather control.Journal of the Royal Statistical Society, A, London, v.130, p. 285-325, 1967.

NEYMAN, J. On the application of probability theory inagricultural experiments. Statistical Science, Hayward,CA, v. 5 n. 4, p. 463-480, 1990.

NEYMAN, J.; LE CAM, L. Probability models andcancer. New York: Elsevier, 1982.

NEYMAN, J.; PEARSON, E. S. On the use andinterpretation of centain test criterion for purposes ofstatistical inference. Biometrika, London, v. 20, Parte 1,p. 175-240; Part 2, p. 260-294, 1928.

NEYMAN, J.; PEARSON, E. S. On the problem of themost efficient test of statistical hypotheses. PhilosophicalTransactions of the Royal Society, A, London, v. 231,p. 289-317, 1933a.

NEYMAN, J.; PEARSON, E. S. The testing of statisticalhypotheses in relation to probabilities a priori. Proceedingsof the Cambridge Philosophical Society, Cambridge,v. 29, p. 492-510, 1933b.

NEYMAN, J.; PEARSON, E.S. Contributions to thetheory of testing statistical hypotheses. I. Unbiased critical

Page 106: Breve história da estatística

106

regions of type A and type A1, Statistical ResearchMemoirs, London, v. 1, p. 1-37, 1936.

PEARSON, E. S. Student as a statistician, Biometrika,London, v. 30, p. 211, 1938.

PEARSON, E. S. The Neyman-Pearson story (1926-1934). In: PEARSON, E. S.; KENDALL, M. G. Studiesin the history of statistics and probability. London:Charles Griffin, 1970. p. 455-477.

PEARSON, K. Contributions to the mathematical theoryof evolution. II. Skew variation in homogeneous material.Philosophical Transactions of the Royal Society ofLondon, A, London, v. 186, p. 356-360, 1895.

PEARSON, K. Regression, heredity and panmixia.Philosophical Transactions of the Royal Society ofLondon, A, London, v. 187, p. 253-318, 1896.

PEARSON, K. On the criterion that a given system ofdeviation from the possible in the case of a correlatedsystem of variables is such that it can be reasonablysupposed to have arisen from random sampling.Philosophical Magazine, London, 5th Series, v. 50, p.157-175, 1900.

PEARSON, K. On the correlation of characters notquantitatively measurable. Philosophical Transactions ofthe Royal Society of London, A, London, v. 195, 1901.

PLACKETT, R. L. Current trends in statistical inference.Journal of the Royal Statistical Society, A, London, v.129, p. 249-267, 1966.

Page 107: Breve história da estatística

107

QUENOUILLE, M. H. Approximate tests of correlationin time series. Journal of the Royal Statistical Society,B, London, v. 11, p. 68-84, 1949.

RAO, C. R. General methods of analysis for incompleteblock designs. Journal the American StatisticalAssociation, Washington, DC, v. 42, p. 541-561, 1947.

RAO, C. R. Advanced statistical methods in biometricresearch. New York: Wiley, 1952.

RAO, C. R. Apparent anomalies and irregularities inmaximum likelihood estimation. Sankhyã, A, Calcutta, v.24, p. 73-162, 1962.

RAO, C. R. Linear statistical inference and itsapplications. New York: Wiley, 1973.

RAO, C. R. Statistics: A technology for the millenium.International Journal of Mathematical and StatisticsSciences, Brasília, v. 8, n. 1, p. 5-25, 1999.

REID, C. Neyman-from life. New York: Springer-Verlag,1982.

REID, N. A conversation with Sir David Cox. StatisticalScience, Hayward, CA, v. 9, n. 3, p. 439-455, 1994.

SAMPFORD, M. R. Methods of cluster sampling withand without replacement for clusters of unequal sizes.Biometrika, London, v. 49, p. 27-40, 1962.

SAVAGE, L. J. On rereading R. A Fisher. The Annals ofStatistics, Hayward, CA, v. 4, p. 441-500, 1976.

Page 108: Breve história da estatística

108

SCHEFFÉ, H. The analysis of variance. New York:Wiley, 1959.

SENG, Y. P. Historical survey of the development ofsampling theory and practice. Journal of the RoyalStatistical Society, A, London, v. 114, p. 214-231, 1951.

SNEDECOR, G. W. Statistical methods applied toexperiments in agriculture and biology. Ames: TheIowa State College Press, 1937.

SOUZA, G. da S e. Introdução aos modelos de re-gressão linear e não-linear. Brasília: Embrapa-SEA:Embrapa-SPI, 1998. 489 p.

SOUZA, J. Pesquisa eleitoral-críticas e técnicas.Brasília: Centro Gráfico do Senado Federal, 1990.

STEPHAN, F. F. History of the uses of modern samplingprocedures. Journal of the American StatisticalAssociation, Washington, DC, v. 45, p. 12-32, 1949.

STEVENS, W. L. The completely orthogonalized latinsquares. Annals of Eugenics, London, v. 9, p. 82-93,1938.

STIGLER, S. M. Stigler’s law of eponomy. Transactionsof the New York Academy of Sciences, New York,2nd Series, v. 39, p. 147-157, 1980.

STIGLER, S. M. The history of statistics: themeasurement of uncertainty before 1900. Cambridge, MA:Harvard University Press, 1986.

Page 109: Breve história da estatística

109

STUDENT. The probable error of a mean. Biometrika,London, v. 6, p. 1-25, 1908a.

STUDENT. Probable error of a correlation coefficient.Biometrika, London, v. 6, p. 302-310, 1908b.

SUKHATME, P. V. Bias in the use of small-size plots insample surveys for yield. Nature, London, v. 157, n. 3393,p. 630, 1946.

SUKHATME, P. V. The problem of plot-size in large-scale field surveys. Journal of the American StatisticalAssociation, Washington, DC, v. 42, p. 297-310, 1947.

SUKHATME, P. V.; SUKHATME, B. V. Samplingtheory of surveys with applications. 2nd ed. Rome:Food and Agriculture Organization of the United Nations,1970.

TCHUPROV, A. A. On the mathematical expectation ofthe moments of frequency distributions in the case ofcorrelated observations. Metron, Roma, v. 2, p. 646-683, 1923.

TUKEY, J. W. Bias and confidence in not-quite largesamples (abstrat) Annals of Mathematical Statistics,Baltimore, MD, v. 29, p. 614, 1958.

TUKEY, J. W. The future of data analysis. Annals ofMathematical Statistics, Baltimore, MD, v. 33, p. 1-67, 1962.

TUKEY, J. W. Exploratory data analysis. Reading:Addison–Wesley, 1977.

Page 110: Breve história da estatística

110

TUKEY, J. W. We need both exploratory andconfirmatory. The American Statistician, Washington,DC, v. 34, n. 1, p. 23-25, 1980.

WALD, A. Contributions to the theory of statisticalestimation and testing hypotheses. Annals ofMathematical Statistics, Washington, DC, v. 10, p.299-326, 1939.

WALD, A. Sequential analysis. New York: Wiley, 1947.

WALD, A. Statistical decision functions. New York:Wiley, 1950.

YATES, F. The principles of orthogonality and confoundingin replicated experiments. Journal of AgriculturalScience, Cambridge, v. 23, p. 108-145, 1933.

YATES, F. The design and analysis of factorialexperiments. Harpenden: Imperial Bureau of SoilScience, 1937. (Technical Communication, n. 35).

YATES, F. A review of recent statistical developments insampling and sampling surveys. Journal of the RoyalStatistical Society, A, London, v. 139, p. 12-43, 1946.

YATES, F. Sampling methods for censuses, andsurveys. London: Charles Griffin, 1949.

YATES, F. The early history of experimental designs. In:SRIVASTAVA, J. N. (Ed.). A survey of statisticaldesigns on linear models. Amsterdan: North Holland,1975. p. 581-592.

Page 111: Breve história da estatística

111

YATES, F. Fiducial probability, recognizable sub-sets andBehrent’s test. Biometrics, Washington, DC, v. 20, p.343-360, 1964a.

YATES, F. Sir Ronald Fisher and the design ofexperiments. Biometrics, Washington, DC, v. 20, p. 312,1964b.

YATES, F. Computers-the second revolution in statistics.Biometrics, Washington, DC, v. 22, p. 223-251, 1966.

YATES, F. Computer programs for survey analysis. In:SAMPLING methods for censuses and surverys. 4th ed.London: Charles Griffin, 1981. Cap. 10.

YATES, F.; GRUNDY, P. M. Selection withoutreplacement from within strata with probability proportinalto size. Journal of the Royal Statistical Society, B,London, v. 15, p. 253-261, 1953.

YATES, F.; MATHER, K. Ronald Aylmer Fisher.Biographical Memoirs of Fellows of the RoyalSociety of London, London, v. 9, p. 91-120, 1963.

YULE, G. U.; KENDALL, M. G. An introduction tothe theory of statistics. London: Charles Griffin, 1937.

ZELLNER, A. An introduction to Bayesian inferenceto econometrics. New York: Wiley, 1971.

Page 112: Breve história da estatística

112

Page 113: Breve história da estatística

113

Títulos Lançados

No 1 – A pesquisa e o problema de pesquisa: quem os determina?Ivan Sergio Freire de Sousa

No 2 – Projeção da demanda regional de grãos no Brasil: 1996 a 2005Yoshihiko Sugai, Antonio Raphael Teixeira Filho, Rita de CássiaMilagres Teixeira Vieira e Antonio Jorge de Oliveira

No 3 – Impacto das cultivares de soja da Embrapa e rentabilidade dosinvestimentos em melhoramentoFábio Afonso de Almeida, Clóvis Terra Wetzel e Antonio Flávio DiasÁvila

No 4 – Análise e gestão de sistemas de inovação em organizaçõespúblicas de P&D no agronegócioMaria Lúcia D’Apice Paez

No 5 – Política nacional de C&T e o programa de biotecnologia doMCTRonaldo Mota Sardenberg

No 6 – Populações indígenas e resgate de tradições agrícolasJosé Pereira da Silva

No 7 – Seleção de áreas adaptativas ao desenvolvimento agrícola,usando-se algoritmos genéticosJaime Hidehiko Tsuruta, Takashi Hoshi e Yoshihiko Sugai

No 8 – O papel da soja com referência à oferta de alimento e demandaglobalHideki Ozeki, Yoshihiko Sugai e Antonio Raphael Teixeira Filho

No 9 – Agricultura familiar: prioridade da EmbrapaEliseu Alves

No 10 – Classificação e padronização de produtos, com ênfase naagropecuária: uma análise histórico-conceitualIvan Sergio Freire de Sousa

No 11 – A Embrapa e a aqüicultura: demandas e prioridades depesquisaJúlio Ferraz de Queiroz, José Nestor de Paula Lourençoe Paulo Choji Kitamura (eds.)

Page 114: Breve história da estatística

114

No 12 – Adição de derivados da mandioca à farinha de trigo: algumasreflexõesCarlos Estevão Leite Cardoso e Augusto Hauber Gameiro

No 13 – Avaliação de impacto social de pesquisa agropecuária: a buscade uma metodologia baseada em indicadoresLevon Yeganiantz e Manoel Moacir Costa Macêdo

No 14 – Qualidade e certificação de produtos agropecuáriosMaria Conceição Peres Young Pessoa, Aderaldo de Souza Silva eCilas Pacheco Camargo

No 15 – Considerações estatísticas sobre a lei dos julgamentoscategóricosGeraldo da Silva e Souza

No 16 – Comércio internacional, Brasil e agronegócioLuiz Jésus d’Ávila Magalhães

No 17 – Funções de produção – uma abordagem estatística com o usode modelos de encapsulamento de dadosGeraldo da Silva e Souza

No 18 – Benefícios e estratégias de utilização sustentável da AmazôniaAfonso Celso Candeira Valois

No 19 – Possibilidades de uso de genótipos modificados e seusbenefíciosAfonso Celso Candeira Valois

No 20 – Impacto de exportação do café na economia do Brasil – análiseda matriz de insumo-produtoYoshihiko Sugai, Antônio R. Teixeira Filho e Elisio Contini

Page 115: Breve história da estatística

115

Impressão e acabamentoEmbrapa Informação Tecnológica

Page 116: Breve história da estatística

116

República Federativa do Brasil

Luiz Inácio Lula da SilvaPresidente

Ministério da Agricultura, Pecuária e Abastecimento

Roberto RodriguesMinistro

Empresa Brasileira de Pesquisa Agropecuária

Conselho de Administração

José Amauri DimárzioPresidente

Clayton CampanholaVice-Presidente

Alexandre Kalil PiresHélio Tollini

Ernesto PaternianiLuis Fernando Rigato Vasconcellos

Membros

Diretoria-Executiva

Clayton CampanholaDiretor-Presidente

Gustavo Kauark ChiancaHerbert Cavalcante de Lima

Mariza Marilena T. Luz BarbosaDiretores-Executivos

Secretaria de Gestão e Estratégia

Maria Luiza Falcão SilvaChefe

Embrapa Informação Tecnológica

Fernando do Amaral PereiraGerente-Geral