a epoca de ouro — 1970/1980´ -...

1
A ´ Epoca de Ouro — 1970/1980 Rui Santos [email protected], Escola Superior de Tecnologia e Gest˜ ao do Instituto Polit´ ecnico de Leiria, CEAUL — Centro de Estat´ ıstica e Aplica¸ oes da Universidade de Lisboa Trabalho financiado por Fundos Nacionais atrav´ es da Funda¸ ao para a Ciˆ encia e a Tecnologia, no ˆ ambito do projeto PEst-OE/MAT/UI0006/2011. O r´ apido incremento do poder computacional verificado a partir da segunda metade do s´ eculo XX, sobretudo com o aparecimento dos computadores pessoais na ecada de 1970, acompanhado pelo desenvolvimento de diversos programas espec´ ıficos de aplica¸c˜ ao da Estat´ ıstica, teve um impacto substancial na evolu¸ ao da Estat´ ıstica, tornando as suas aplica¸c˜ oes mais acess´ ıveis, c´ eleres e eficazes, bem como permitindo o desenvolvimento (e o reaparecimento) de metodologias que, sem o computador, s˜ao impratic´aveis. Deste modo, verificou-se um aumento significativo na investiga¸c˜ ao realizada nesta ´ area e, por conseguinte, na quantidade de trabalhos publicados, no aparecimento de novas revistas cient´ ıficas, bem como na diversifica¸c˜ ao de ´ areas com metodologias espec´ ıficas para a aplica¸c˜ ao da Estat´ ıstica. A evolu¸ ao dos computadores e dos programas de Estat´ ıstica A aplica¸ ao de muitas t´ ecnicas de Estat´ ıstica, que hoje rotineiramente utilizamos, seriam imposs´ ıveis ou, pelo menos, bastante morosas de concretizar caso n˜ ao pud´ essemos recorrer `a capaci- dade de c´ alculo dos computadores. Por este motivo, a evolu¸ ao dos computadores teve um impacto significativo na evolu¸ ao da Estat´ ıstica ao ponto de Frank Yates, j´ a em 1966, considerar que os computadores s˜ao os respons´ aveis pela “Second Revolution in Statistics ” (considerando que a primeira revolu¸ ao, realizada principalmente por Karl Pearson e Fisher, deveu-se ao uso da m´aquina de calcular). Por exemplo, na determina¸ ao dos valores dos coeficientes de uma regress˜ ao linear aplicando o m´ etodo dos m´ ınimos quadrados, t´ ecnica que j´ a era aplicada no s´ eculo XIX, ´ e necess´ ario determinar a inversa de matrizes que, se n˜ ao tiverem uma dimens˜ao diminuta, ´ e uma tarefa ´ ardua se for efetuada sem o recurso a um computador. Deste modo, as t´ ecnicas de an´ alise multivariada, apesar de algumas j´ a existirem antes do aparecimento dos computadores, tinham uma aplica¸ ao quase nula e, por este motivo, eram praticamente desconhecidas. Por conseguinte, a an´ alise estat´ ıstica era quase restrita ao caso univariado e, mesmo neste caso, as metodologias aplicadas eram muitas vezes restritas a modelos simplificados, pass´ ıveis de serem aplicados (sem o recurso ao computador). Desta forma, a utiliza¸ ao do computador ´ e indispens´ avel nas aplica¸ oes da Estat´ ıstica, quer se o n´ umero de observa¸ oes for razo´ avel, quer na aplica¸ ao de algumas metodologias que s˜ao impratic´aveis sem o recurso ` as suas capacidades de c´ alculo. Na d´ ecada de 1970 assistiu-se a uma enorme evolu¸ ao dos computa- dores, nomeadamente com a cria¸ ao dos primeiros computadores pessoais, pois al´ em de se tornarem cada vez mais pequenos, em tamanho e peso, bem como acess´ ıveis (monetariamente), verificou-se um aumento significa- tivo da sua capacidade computacional bem como de armazenamento de informa¸ ao (grandes quantidades de dados). Para a Estat´ ıstica beneficiar da evolu¸ ao dos computadores era imprescind´ ıvel o desenvolvi- mento de programas que possibilitassem a utiliza¸ ao das principais metodologias de aplica¸ ao da Es- tat´ ıstica. Os primeiros programas de Estat´ ıstica a serem desenvolvidos foram o BMDP (BioMeD- ical Package ), que come¸ cou a ser desenvolvido em 1957 na Universidade da Calif´ornia, Los Angeles, na ´ area das aplica¸ oes em sa´ ude, sendo a sua vers˜ao original distribu´ ıda a partir de 1961. Em 1968 surge a primeira vers˜ ao do SPSS (inicialmente denominado Statistical Package for the Social Sciences ), desenvolvido na Universidade de Chicago para aplica¸ oes ` as ciˆ encias sociais. Quase si- multaneamente surge o SAS (Statistical Analysis System ) na Universidade da Carolina do Norte, sendo destinado para aplica¸ oes na ´ area da agronomia. Na d´ ecada de 70 surgem diversos progra- mas, tais como o SUDAAN, desenvolvido em 1970, o SOUPAC em 1971, o Minitab eo SAP em 1972, o S em 1976, entre muitos outros. Atualmente h´ a uma enorme variedade de programas dispon´ ıveis, gratuitos ou pagos, que permitem a aplica¸ c˜ao das principais t´ ecnicas estat´ ısticas. O desenvolvimento das aplica¸ c˜oes Calyampudi Rao Entre 1940 e 1970 verificaram-se avan¸ cos fundamentais na Estat´ ıstica Matem´ atica, destacando-se o papel de Calyampudi Rao, como ilustra a desigualdade de Cram´ er-Rao, o teorema de Rao-Blackwell ou o teste de scores de Rao. Outros investigadores influentes nestas d´ ecadas foram Maurice Bartlett, David Blackwell, Harold Cram ´ er, Erich Lehmann, Dennis Lindley, Henry Scheff ´ e, entre muitos outros. No in´ ıcio da d´ ecada de 1970 as bases da Estat´ ıstica Matem´ atica estavam praticamente as- sentes. Deste modo, assistiu-se sobretudo a uma grande evolu¸ ao das aplica¸ oes da Estat´ ıstica, com a introdu¸ ao de novas metodologias com o objetivo de resolu¸ ao de problemas concretos. John Tukey destaca a importˆ ancia da an´ alise explorat´ oria dos dados em 1977, introduzindo, por exemplo, o diagrama de extremos e quartis que hoje ensinamos no ensino b´ asico. Na d´ ecada de 1980 publica, com David Hoaglin e Frederik Mosteler, duas obras influentes que di- vulgaram a utiliza¸c˜ ao da an´ alise explorat´ oria de dados bem como da an´ alise robusta (uma ´area que teve um grande desenvolvimento a partir da d´ ecada de 1970). Com o crescente n´ umero de publica¸c˜ oes baseadas em an´ alises de dados houve a necessidade de desenvolver t´ ecnicas que permitam analisar simultaneamente um conjunto de estudos independentes, para sintetizar e combinar as conclus˜oes individuais, bem como obter resultados mais cred´ ıveis. K. Pearson, Fisher, Yates, Cochran e Finney a tinham realizado estudos com objetivos an´ alogos, mas somente em 1976 surge o termo meta-an´ alise numa aplica¸ ao ` a psicologia de Gene Glass. Em 1974 Peter Elwood e Archie Cochrane realizam o primeiro ensaio cl´ ınico aleat´ orio para avaliar se a aspirina diminui a mortalidade ap´ os infarto do mioc´ ardio, n˜ ao tendo obtido resultados significativos, pelo que integraram novos dados na investiga¸ ao utilizando t´ ecnicas de meta-an´ alise. A publica¸c˜ ao dos resultados em 1980 difundiu estas metodologias na Medicina. David Cox A an´ alise de sobrevivˆ encia, com origem no s´ eculo XVII na demografia e ciˆ encias atuariais, trabalha sobretudo com dados censurados com o obje- tivo de analisar o tempo que decorre at´ e a ocorrˆ encia de um determinado acontecimento de interesse, podendo ser aplicada em medicina, biologia, demografia, controlo de qualidade, entre muitas outras ´ areas. Sir David Cox, c´ elebre pela transforma¸c˜ ao Box-Cox definida em 1964 com o obje- tivo de estabilizar a variˆ ancia em estudos econom´ etricos e em sucess˜ oes cronol´ ogicas, introduz em 1972 o modelo de riscos proporcionais (tamb´ em denominado modelo de Cox) para avaliar o efeito das covari´ aveis. George Box, de quem ´ e famosa a frase “Essentially all models are wrong, but some are useful ”, e Gwilym Jenkins prop˜oem em 1970 uma metodologia para a aplica¸ ao do modelo ARIMA (auto-regressivo integrado de m´ edia m´ovel) na modela¸ ao de s´ eries cronol´ ogicas. A metodologia de Box- -Jenkins permite estabilizar a s´ erie e estimar os parˆ ametros do modelo com base nos coeficientes de autocorrela¸ ao e autocorrela¸ c˜aoparcial. Em 1982 Robert Engle prop˜oe o modelo ARCH (auto-regressivo com heterocedas- ticidade condicional) e em 1986 Tim Bollerslev prop˜oe o modelo ARCH generalizado (GARCH) para modelar a volatilidade dos mercados financeiros. George Box Em 1972 John Nelder e Robert Wedderburn apresentam os Modelos Lineares Ge- neralizados (GLM), uma generaliza¸c˜ ao da regress˜ ao linear, permitindo obter um algoritmo para a obten¸c˜ ao da estimativa de m´axima verosimilhan¸ ca de diversos modelos de regress˜ ao, tais como a regress˜ ao linear ou a log´ ıstica. Em 1986 surgem os Modelos Aditivos Generalizados (GAM) pro- postos por Trevor Hartie e Robert Tibshirani, uma extens˜ ao dos GLM permitindo que algumas covari´aveis tenham um efeito n˜ ao linear no preditor associado ` a vari´ avel resposta. Atual- mente estas metodologias desempenham um papel capital em muitas aplica¸ oes da Estat´ ıstica. Robert Wedderburn define em 1974 o m´ etodo de estima¸c˜ ao por quasi-verossimilhan¸ca aplic´ avel em situa¸ oes de sobredispers˜ao. Em 1977 Arthur Dempster, Nan Laird e Don- ald Rubin prop˜oem o algoritmo EM (expectation-maximization ), um m´ etodo iterativo para determinar o estimador de m´axima verossimilhan¸ca ou de m´ axima densidade a posteriori quando o modelo depende de vari´aveis latentes (n˜ ao observadas de forma direta) ou existem dados omissos. No mesmo ano Kimiko Bowman e Leonard Shenton investigam a aplica¸ ao do m´ etodo da m´axima verossimilhan¸ca em pequenas amostras. Em 1949 Maurice Quenouille cria a metodologia de reamostragem Jackknife, sendo de- senvolvido por Tukey em 1958. Em 1979 Bradley Efron prop˜oe a utiliza¸ ao da metodologia de reamostragem Bootstrap, com o objetivo de deduzir “what Jackknife is an approximation to”. Em 1984 os irm˜ aos Donald Geman e Stuart Geman desenvolvem o m´ etodo de amostragem de Gibbs que est´a na base dos m´ etodos de Monte Carlo via Cadeias de Markov (MCMC) cujo uso intensivo pela comunidade estat´ ıstica se deve ao seminal artigo de Alan Gelfand e Adrian Smith de 1990. No mesmo ano surge a metodologia Data Mining (Minera¸c˜ ao de Dados) com a necessidade de an´ alise de grandes quantidades de dados, com o objetivo de detetar padr˜oes ou estruturas nos dados, outra ´area na qual o computador´ e imprescind´ ıvel. De facto, a evolu¸ ao do computador tornou a aplica¸ ao da Estat´ ıstica bastante acess´ ıvel, de tal modo que na atualidade a Estat´ ıstica desempenha um papel fundamental em praticamente todas as ´areas do conhecimento, sendo o seu dom´ ınio indispens´ avel em muitas profiss˜oes. Por conseguinte, o desenvolvimento da literacia estat´ ıstica ´ e considerado fundamental e, por este motivo, os conceitos basilares de Estat´ ıstica j´ a ocupam um lugar de destaque no ensino b´ asico e secund´ario. 11/13

Upload: others

Post on 08-Feb-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

  • A Época de Ouro — 1970/1980Rui Santos [email protected], Escola Superior de Tecnologia e Gestão do Instituto Politécnico de Leiria, CEAUL — Centro de Estat́ıstica e Aplicações da Universidade de Lisboa

    Trabalho financiado por Fundos Nacionais através da Fundação para a Ciência e a Tecnologia, no âmbito do projeto PEst-OE/MAT/UI0006/2011.

    O rápido incremento do poder computacional verificado a partir da segunda metade do século XX, sobretudo com o aparecimento dos computadores pessoais na

    década de 1970, acompanhado pelo desenvolvimento de diversos programas espećıficos de aplicação da Estat́ıstica, teve um impacto substancial na evolução da Estat́ıstica,

    tornando as suas aplicações mais acesśıveis, céleres e eficazes, bem como permitindo o desenvolvimento (e o reaparecimento) de metodologias que, sem o computador,

    são impraticáveis. Deste modo, verificou-se um aumento significativo na investigação realizada nesta área e, por conseguinte, na quantidade de trabalhos publicados, no

    aparecimento de novas revistas cient́ıficas, bem como na diversificação de áreas com metodologias espećıficas para a aplicação da Estat́ıstica.

    A evolução dos computadores e dos programas de Estat́ıstica

    A aplicação de muitas técnicas de Estat́ıstica, que hoje rotineiramente utilizamos, seriam

    imposśıveis ou, pelo menos, bastante morosas de concretizar caso não pudéssemos recorrer à capaci-

    dade de cálculo dos computadores. Por este motivo, a evolução dos computadores teve um impacto

    significativo na evolução da Estat́ıstica ao ponto de Frank Yates, já em 1966, considerar que

    os computadores são os responsáveis pela “Second Revolution in Statistics” (considerando que a

    primeira revolução, realizada principalmente por Karl Pearson e Fisher, deveu-se ao uso da

    máquina de calcular). Por exemplo, na determinação dos valores dos coeficientes de uma regressão

    linear aplicando o método dos mı́nimos quadrados, técnica que já era aplicada no século XIX, é

    necessário determinar a inversa de matrizes que, se não tiverem uma dimensão diminuta, é uma

    tarefa árdua se for efetuada sem o recurso a um computador. Deste modo, as técnicas de análise

    multivariada, apesar de algumas já existirem antes do aparecimento dos computadores, tinham

    uma aplicação quase nula e, por este motivo, eram praticamente desconhecidas. Por conseguinte,

    a análise estat́ıstica era quase restrita ao caso univariado e, mesmo neste caso, as metodologias

    aplicadas eram muitas vezes restritas a modelos simplificados, pasśıveis de serem aplicados (sem o

    recurso ao computador). Desta forma, a utilização do computador é indispensável nas aplicações da

    Estat́ıstica, quer se o número de observações for razoável, quer na aplicação de algumas metodologias

    que são impraticáveis sem o recurso às suas capacidades de cálculo.

    Na década de 1970 assistiu-se a uma enorme evolução dos computa-

    dores, nomeadamente com a criação dos primeiros computadores pessoais,

    pois além de se tornarem cada vez mais pequenos, em tamanho e peso,

    bem como acesśıveis (monetariamente), verificou-se um aumento significa-

    tivo da sua capacidade computacional bem como de armazenamento de

    informação (grandes quantidades de dados).

    Para a Estat́ıstica beneficiar da evolução dos computadores era imprescind́ıvel o desenvolvi-

    mento de programas que possibilitassem a utilização das principais metodologias de aplicação da Es-

    tat́ıstica. Os primeiros programas de Estat́ıstica a serem desenvolvidos foram o BMDP (BioMeD-

    ical Package), que começou a ser desenvolvido em 1957 na Universidade da Califórnia, Los Angeles,

    na área das aplicações em saúde, sendo a sua versão original distribúıda a partir de 1961. Em 1968

    surge a primeira versão do SPSS (inicialmente denominado Statistical Package for the Social

    Sciences), desenvolvido na Universidade de Chicago para aplicações às ciências sociais. Quase si-

    multaneamente surge o SAS (Statistical Analysis System) na Universidade da Carolina do Norte,

    sendo destinado para aplicações na área da agronomia. Na década de 70 surgem diversos progra-

    mas, tais como o SUDAAN, desenvolvido em 1970, o SOUPAC em 1971, o Minitab e o SAP

    em 1972, o S em 1976, entre muitos outros. Atualmente há uma enorme variedade de programas

    dispońıveis, gratuitos ou pagos, que permitem a aplicação das principais técnicas estat́ısticas.

    O desenvolvimento das aplicações

    Calyampudi Rao

    Entre 1940 e 1970 verificaram-se avanços fundamentais na Estat́ıstica

    Matemática, destacando-se o papel de Calyampudi Rao, como ilustra

    a desigualdade de Cramér-Rao, o teorema de Rao-Blackwell ou o teste

    de scores de Rao. Outros investigadores influentes nestas décadas foram

    Maurice Bartlett,David Blackwell,Harold Cramér, Erich

    Lehmann, Dennis Lindley, Henry Scheffé, entre muitos outros.

    No ińıcio da década de 1970 as bases da Estat́ıstica Matemática estavam praticamente as-

    sentes. Deste modo, assistiu-se sobretudo a uma grande evolução das aplicações da Estat́ıstica, com

    a introdução de novas metodologias com o objetivo de resolução de problemas concretos.

    John Tukey destaca a importância da análise exploratória dos dados em 1977, introduzindo,

    por exemplo, o diagrama de extremos e quartis que hoje ensinamos no ensino básico. Na década

    de 1980 publica, com David Hoaglin e Frederik Mosteler, duas obras influentes que di-

    vulgaram a utilização da análise exploratória de dados bem como da análise robusta (uma área que

    teve um grande desenvolvimento a partir da década de 1970).

    Com o crescente número de publicações baseadas em análises de dados houve a necessidade de

    desenvolver técnicas que permitam analisar simultaneamente um conjunto de estudos independentes,

    para sintetizar e combinar as conclusões individuais, bem como obter resultados mais cred́ıveis. K.

    Pearson, Fisher, Yates, Cochran e Finney já tinham realizado estudos com objetivos

    análogos, mas somente em 1976 surge o termo meta-análise numa aplicação à psicologia de Gene

    Glass. Em 1974 Peter Elwood e Archie Cochrane realizam o primeiro ensaio cĺınico

    aleatório para avaliar se a aspirina diminui a mortalidade após infarto do miocárdio, não tendo

    obtido resultados significativos, pelo que integraram novos dados na investigação utilizando técnicas

    de meta-análise. A publicação dos resultados em 1980 difundiu estas metodologias na Medicina.

    David Cox

    A análise de sobrevivência, com origem no séculoXVII na demografia

    e ciências atuariais, trabalha sobretudo com dados censurados com o obje-

    tivo de analisar o tempo que decorre até a ocorrência de um determinado

    acontecimento de interesse, podendo ser aplicada em medicina, biologia,

    demografia, controlo de qualidade, entre muitas outras áreas. Sir David

    Cox, célebre pela transformação Box-Cox definida em 1964 com o obje-

    tivo de estabilizar a variância em estudos econométricos e em sucessões

    cronológicas, introduz em 1972 o modelo de riscos proporcionais (também

    denominado modelo de Cox) para avaliar o efeito das covariáveis.

    George Box, de quem é famosa a frase “Essentially all models are

    wrong, but some are useful”, e Gwilym Jenkins propõem em 1970 uma

    metodologia para a aplicação do modelo ARIMA (auto-regressivo integrado

    de média móvel) na modelação de séries cronológicas. A metodologia de Box-

    -Jenkins permite estabilizar a série e estimar os parâmetros do modelo com

    base nos coeficientes de autocorrelação e autocorrelação parcial. Em 1982

    Robert Engle propõe o modelo ARCH (auto-regressivo com heterocedas-

    ticidade condicional) e em 1986 Tim Bollerslev propõe o modelo ARCH

    generalizado (GARCH) para modelar a volatilidade dos mercados financeiros. George Box

    Em 1972 John Nelder e Robert Wedderburn apresentam os Modelos Lineares Ge-

    neralizados (GLM), uma generalização da regressão linear, permitindo obter um algoritmo para a

    obtenção da estimativa de máxima verosimilhança de diversos modelos de regressão, tais como a

    regressão linear ou a loǵıstica. Em 1986 surgem os Modelos Aditivos Generalizados (GAM) pro-

    postos por Trevor Hartie e Robert Tibshirani, uma extensão dos GLM permitindo que

    algumas covariáveis tenham um efeito não linear no preditor associado à variável resposta. Atual-

    mente estas metodologias desempenham um papel capital em muitas aplicações da Estat́ıstica.

    Robert Wedderburn define em 1974 o método de estimação por quasi-verossimilhança

    aplicável em situações de sobredispersão. Em 1977 Arthur Dempster, Nan Laird e Don-

    ald Rubin propõem o algoritmo EM (expectation-maximization), um método iterativo para

    determinar o estimador de máxima verossimilhança ou de máxima densidade a posteriori quando

    o modelo depende de variáveis latentes (não observadas de forma direta) ou existem dados omissos.

    No mesmo ano Kimiko Bowman e Leonard Shenton investigam a aplicação do método da

    máxima verossimilhança em pequenas amostras.

    Em 1949 Maurice Quenouille cria a metodologia de reamostragem Jackknife, sendo de-

    senvolvido por Tukey em 1958. Em 1979 Bradley Efron propõe a utilização da metodologia

    de reamostragem Bootstrap, com o objetivo de deduzir “what Jackknife is an approximation to”.

    Em 1984 os irmãos Donald Geman e Stuart Geman desenvolvem o método de amostragem

    de Gibbs que está na base dos métodos de Monte Carlo via Cadeias de Markov (MCMC) cujo uso

    intensivo pela comunidade estat́ıstica se deve ao seminal artigo de Alan Gelfand e Adrian

    Smith de 1990. No mesmo ano surge a metodologia Data Mining (Mineração de Dados) com

    a necessidade de análise de grandes quantidades de dados, com o objetivo de detetar padrões ou

    estruturas nos dados, outra área na qual o computador é imprescind́ıvel.

    De facto, a evolução do computador tornou a aplicação da Estat́ıstica bastante acesśıvel, de tal

    modo que na atualidade a Estat́ıstica desempenha um papel fundamental em praticamente todas as

    áreas do conhecimento, sendo o seu domı́nio indispensável em muitas profissões. Por conseguinte, o

    desenvolvimento da literacia estat́ıstica é considerado fundamental e, por este motivo, os conceitos

    basilares de Estat́ıstica já ocupam um lugar de destaque no ensino básico e secundário. 11/13