por dentro da estatística -...

3
einstein: Educ Contin Saúde. 2011;9(3 Pt 2): 125-7 Por dentro da estatística Que programa estatístico utilizar? Ângela Tavares Paes 1 , Alexandre Biasi Cavalcanti 2 , Elivane da Silva Victor 2 , Thais Cocarelli 3 1 Setor de Estatística Aplicada da Pró-reitoria de Pós-Graduação e Pesquisa da Universidade Federal de São Paulo – UNIFESP, São Paulo (SP), Brasil. 2 Instituto de Ensino e Pesquisa do Hospital do Coração, Hospital das Clínicas, Faculdade de Medicina, Universidade de São Paulo – USP, São Paulo (SP), Brasil. 3 Sthats Consultoria Estatística Ltda, São Paulo (SP), Brasil. INTRODUÇÃO Há algum tempo, a análise dos dados de uma pesqui- sa era tarefa quase que exclusivamente de estatísticos, matemáticos, engenheiros ou áreas afins. Em particular na área médica, pesquisadores contratavam estatísti- cos para auxiliá-los na análise dos dados de sua tese ou artigo. Hoje em dia, com a popularidade dos métodos estatísticos e o desenvolvimento de programas com in- terfaces mais amigáveis, muitos médicos e profissionais da saúde optam por realizar as próprias análises. Para quem está iniciando na pesquisa quantitativa e deseja analisar dados, é comum ficar em dúvida sobre a escolha do programa estatístico. A ideia do presente texto é descrever brevemente alguns dos programas es- tatísticos mais utilizados na área da saúde, de modo a auxiliar aqueles que queiram se aventurar nas análises de dados. ALGUNS PROGRAMAS PARA ANÁLISE DE DADOS Excel Um programa que permite fazer análises estatísticas não precisa ser necessariamente um pacote estatís- tico. O Excel, por exemplo, possui a opção “Análise de Dados” no menu “Ferramentas” que inclui, en- tre outros, estatísticas descritivas, histogramas, tes- te t, ANOVA e regressão linear. Normalmente, essa opção não está ativa e não aparece no menu. Para ativá-la, basta clicar em Ferramentas Suplementos Ferramentas de análise. Uma opção ainda dentro do Excel é utilizar planilhas com macros prontas como, por exemplo, as desenvolvidas por Rodney Carr, da Deakin University (http://www.deakin.edu.au/~rodneyc/), que podem ser baixadas gratuitamente pela internet. Outra opção também gratuita é o programa Action (http:// portalaction.com.br/), desenvolvido pela empresa Estatcamp, cuja instalação adiciona opções no próprio menu do Excel. Uma vantagem do Excel é que ele está instalado na maioria dos computadores pessoais. Entretanto, ele não tem muita flexibilidade e a execução dos comandos não é simples, seja usando as ferramentas ou os progra- mas integrados. SAS O SAS é um software bastante poderoso e amplamente utilizado na área acadêmica e empresarial. Apesar de contemplar técnicas estatísticas bastante avançadas, exi- ge que o usuário tenha domínio de programação, pois muitas opções de modelagem não estão disponíveis na forma de menus. Outra desvantagem é o alto custo e a necessidade de renovação anual da licença. Assim como para todos os programas, existe muito material na internet sobre o SAS. Para os interessados, o site da empresa Feferraz.net contém informações e di- cas muito interessantes. Vale a pena consultar (http:// www.feferraz.net/br/P/Aprenda_a_usar_o_SAS ). Ângela Tavares Paes Editora da seção O uso de métodos estatísticos vem crescendo vigorosamente em pesquisas da área médica. Com frequência, médicos e profissionais da Saúde são expostos a informações provenientes de análises de dados, nem sempre claras e de fácil interpretação. Esta seção visa familiarizar pesquisadores com conceitos e termos estatísticos comumente presentes em artigos científicos. Com ênfase na discussão conceitual em detrimento a fórmulas matemáticas, o objetivo é esclarecer algumas dúvidas frequentes e contribuir com o desenvolvimento do senso crítico na hora de analisar, descrever e interpretar dados.

Upload: trantu

Post on 18-Nov-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

einstein: Educ Contin Saúde. 2011;9(3 Pt 2): 125-7

Por dentro da estatística

Que programa estatístico utilizar?Ângela Tavares Paes1, Alexandre Biasi Cavalcanti2, Elivane da Silva Victor2, Thais Cocarelli3

1 Setor de Estatística Aplicada da Pró-reitoria de Pós-Graduação e Pesquisa da Universidade Federal de São Paulo – UNIFESP, São Paulo (SP), Brasil. 2 Instituto de Ensino e Pesquisa do Hospital do Coração, Hospital das Clínicas, Faculdade de Medicina, Universidade de São Paulo – USP, São Paulo (SP), Brasil. 3 Sthats Consultoria Estatística Ltda, São Paulo (SP), Brasil.

INTRODUÇÃOHá algum tempo, a análise dos dados de uma pesqui-sa era tarefa quase que exclusivamente de estatísticos, matemáticos, engenheiros ou áreas afins. Em particular na área médica, pesquisadores contratavam estatísti-cos para auxiliá-los na análise dos dados de sua tese ou artigo. Hoje em dia, com a popularidade dos métodos estatísticos e o desenvolvimento de programas com in-terfaces mais amigáveis, muitos médicos e profissionais da saúde optam por realizar as próprias análises.

Para quem está iniciando na pesquisa quantitativa e deseja analisar dados, é comum ficar em dúvida sobre a escolha do programa estatístico. A ideia do presente texto é descrever brevemente alguns dos programas es-tatísticos mais utilizados na área da saúde, de modo a auxiliar aqueles que queiram se aventurar nas análises de dados.

ALGUNS PROGRAMAS PARA ANÁLISE DE DADOS

ExcelUm programa que permite fazer análises estatísticas não precisa ser necessariamente um pacote estatís-

tico. O Excel, por exemplo, possui a opção “Análise de Dados” no menu “Ferramentas” que inclui, en-tre outros, estatísticas descritivas, histogramas, tes-te t, ANOVA e regressão linear. Normalmente, essa opção não está ativa e não aparece no menu. Para ativá-la, basta clicar em Ferramentas → Suplementos → Ferramentas de análise.

Uma opção ainda dentro do Excel é utilizar planilhas com macros prontas como, por exemplo, as desenvolvidas por Rodney Carr, da Deakin University (http://www.deakin.edu.au/~rodneyc/), que podem ser baixadas gratuitamente pela internet. Outra opção também gratuita é o programa Action (http://portalaction.com.br/), desenvolvido pela empresa Estatcamp, cuja instalação adiciona opções no próprio menu do Excel.

Uma vantagem do Excel é que ele está instalado na maioria dos computadores pessoais. Entretanto, ele não tem muita flexibilidade e a execução dos comandos não é simples, seja usando as ferramentas ou os progra-mas integrados.

SASO SAS é um software bastante poderoso e amplamente utilizado na área acadêmica e empresarial. Apesar de contemplar técnicas estatísticas bastante avançadas, exi-ge que o usuário tenha domínio de programação, pois muitas opções de modelagem não estão disponíveis na forma de menus. Outra desvantagem é o alto custo e a necessidade de renovação anual da licença.

Assim como para todos os programas, existe muito material na internet sobre o SAS. Para os interessados, o site da empresa Feferraz.net contém informações e di-cas muito interessantes. Vale a pena consultar (http://www.feferraz.net/br/P/Aprenda_a_usar_o_SAS ).

Ângela Tavares PaesEditora da seção

O uso de métodos estatísticos vem crescendo vigorosamente em pesquisas da área médica. Com frequência, médicos e profissionais da Saúde são expostos a informações provenientes de análises de dados, nem sempre claras e de fácil interpretação. Esta seção visa familiarizar pesquisadores com conceitos e termos estatísticos comumente presentes em artigos científicos. Com ênfase na discussão conceitual em detrimento a fórmulas matemáticas, o objetivo é esclarecer algumas dúvidas frequentes e contribuir com o desenvolvimento do senso crítico na hora de analisar, descrever e interpretar dados.

einstein: Educ Contin Saúde. 2011;9(3 Pt 2): 125-7

126

Epi-InfoO Epi-Info é um programa desenvolvido pelo Center for Disease Control and Prevention (CDC) para estudos na área de Epidemiologia. Um diferencial em relação aos demais é a possibilidade de criar um template para alimentação de dados de forma semelhante ao Access. Uma grande vantagem é que ele é gratuito. Por outro lado, pelo fato de ser muito voltado para Epidemiolo-gia, não aborda muitos modelos estatísticos mais com-plexos. Informações sobre o Epi-Info podem ser encon-tradas em http://www.lampada.uerj.br/epiinfo/.

SPSSDevido à sua interface extremamente amigável, o Statistical Package for the Social Sciences (SPSS) é um dos programas mais utilizados na pesquisa médica. Algumas das vantagens desse software em relação a seus concorrentes comerciais são: o licenciamento perpétuo, ou seja, não há cobrança de aluguéis anuais, e a fácil manipulação por meio de menus, o que facilita o entendimento das ferramentas e técnicas disponíveis.

Assim como o SAS, o SPSS é divido em módulos que podem ser comprados separadamente. A principal desvantagem é o custo elevado, porém existem algumas versões simplificadas disponibilizadas para estudantes a um custo mais acessível.

MinitabPor: Thais Cocarelli

Minitab é um software estatístico de análise de dados, de uso bastante simples. Ao abrir o programa, já visu-alizamos duas importantes áreas de trabalho: a janela de dados, chamada de worksheet (semelhante à planilha do Excel) e a session, janela na qual são armazenados todos os passos executados no Minitab e os respectivos resultados. Os gráficos são os únicos itens que não apa-recem diretamente na janela session, pois existe uma área específica para eles (Graphs Folder). Esses podem ser acessados a qualquer momento, por meio de um simples clique num botão localizado na barra de ferra-mentas.

O Minitab, assim como a grande maioria dos softwares estatísticos, têm suas vantagens e desvantagens. As van-tagens do Minitab estão principalmente na simplicidade do uso e na semelhança da janela de dados com a plani-lha do Excel. A primeira linha da worksheet do Minitab é reservada exclusivamente para o nome das variáveis e, portanto, não é numerada. Outra grande vantagem é que os dados categóricos não precisam ser codificados com nú-meros para fazerem parte do banco de dados. O Minitab também reconhece dados com formatos específicos, como data e hora, por exemplo, e, dessa forma, podem ser trazi-dos diretamente de outras planilhas sem problemas.

Uma das desvantagens do Minitab, entretanto, é que, para a aplicação de alguns testes estatísticos, a worksheet precisa de uma transformação. É o caso do teste não paramétrico de Mann-Whitney para a com-paração de dois grupos. Nessa situação, os dois grupos de dados necessariamente têm que estar em colunas di-ferentes para que o teste possa ser aplicado. Mas nada que outro comando muito útil, o Unstack Columns, não possa resolver!

O programa RPor: Elivane da Silva Victor e Ângela Tavares Paes

O pacote estatístico R é resultado de um trabalho con-junto de colaboradores de diversas partes do mundo. Originalmente o R foi escrito por Robert Gentleman e Ross Ihaka do Departamento de Estatística da Uni-versidade de Auckland. Desde 1997, existe um grupo oficial (R Core Team) responsável por atualizações do programa, baseadas em contribuições de pesquisadores usuários.

Apesar de muito utilizado no meio acadêmico, quando comparado aos programas estatísticos comer-ciais, o R não ganhou a mesma popularidade entre os usuários interessados em aplicações na área da saúde. Um dos principais motivos era a interface pouco “ami-gável”. Até poucos anos, todas as análises eram execu-tadas por comandos, o que “assustava” aqueles menos familiarizados com programas computacionais.

Essas dificuldades foram consideravelmente minimizadas em 2005, com o aparecimento do pacote R commander (Rcmdr), desenvolvido por John Fox1. O Rcmdr fornece uma interface gráfica que permite executar procedimentos estatísticos básicos por meio de menus interativos, o que facilita a execução das análises.

O programa R e todos os pacotes vinculados a ele são disponibilizados gratuitamente na internet. A pági-na oficial do R na internet é http://www.r-project.org. Clicando na opção “Download, Packages – CRAN” é possível visualizar diversos links brasileiros para baixar o programa.

Uma grande vantagem do R é que ele está sempre atualizado e é capaz de abranger muitos métodos mais complexos ainda não implementados nos softwares co-merciais.

StataPor: Alexandre Biasi Cavalcanti

Stata é uma opção popular de aplicativo para análi-se estatística. Outros aplicativos populares são o R, SPSS e SAS (há vários outros além destes). Para quem está decidindo qual aplicativo de estatística escolher

einstein: Educ Contin Saúde. 2011;9(3 Pt 2): 125-7

127

ou está considerando agregar outro aplicativo como ferramenta de trabalho, listamos aqui algumas carac-terísticas, vantagens e limitações do Stata em compa-ração a outros aplicativos populares. Um bom artigo para aprender mais sobre esses aplicativos foi escrito por Acock et al.2. É importante lembrar que aplicati-vos para estatísticas estão sempre sendo modificados/aprimorados, de modo que qualquer coisa que se diga a respeito deles pode estar incorreta quanto à próxima versão. Na tabela 1 sumarizamos as características dos diversos aplicativos.

O Stata permite análise por programação ou utili-zando os menus (point-and-click). O aprendizado no Stata é relativamente fácil, sendo superado apenas pelo SPSS. O R é mais difícil e o SAS é o último da lista em dificuldade. O SAS em particular é recomendado ape-nas para profissionais que manipulam conjuntos muito amplos e complexos de dados de modo contínuo.

O Stata é muito completo, sendo muito poderoso para aplicações na área da saúde. É ideal para quem faz pesquisa de ponta, mas não tem as necessidades de gerenciamento de dados oferecidas pelo SAS. O Stata tem uma estrutura de comandos poderosa e com sintaxe simples e extremamente consistente. A possibilidade de expansão é excelente, pois muitos comandos são desenvolvidos por ampla rede de usuários e a busca na internet é facilmente realizada dentro do próprio Stata (por exemplo, excelente conjunto de comandos para meta-análises).

A documentação para o Stata é excelente. Adicionalmente, a disponibilidade de livros para o Stata é muito boa, desde manuais para iniciação a aplicações específicas/avançadas. É muito útil a habilidade do Stata de baixar bases de dados da internet, nas quais o usuário pode repetir os exemplos dos livros.

Finalmente, o Stata é bem mais acessível do que o SPSS e SAS. Nesse quesito, o R é o campeão: é gratui-

to! Enquanto as licenças do SPSS e SAS precisam ser renovadas periodicamente, a do Stata é perpétua.

CONSIDERAÇÕES FINAISNeste texto, descrevemos brevemente alguns progra-mas estatísticos, sem a intenção de fazer um comple-to levantamento sobre o assunto. Existem diversos programas muito utilizados na área da saúde que não foram citados, como, por exemplo, o Statistica (http://www.stata.com/), o Medcalc http://www.medcalc.org/ e o Graphpad (http://www.graphpad.com). Na internet, podemos encontrar uma infinidade de softwares para análise de dados, gratuitos ou não, mais ou menos es-pecíficos.

A resposta para a pergunta título desse artigo é: use o que você tiver mais familiaridade ou facilida-de para aprender. Independentemente do programa que você escolher, é importante salientar que, além das horas e horas de dedicação na frente do compu-tador, é fundamental estudar a teoria para que você entenda o que está fazendo. Mesmo que os progra-mas estatísticos sejam fáceis de usar, é preciso se-gurar a ansiedade e não obedecer a “lei do mínimo esforço” ou buscar a técnica do “aperte o botão e ob-tenha o resultado”. Uma pesquisa séria necessita de uma análise bem feita, sem “atropelos”. A evolução tecnológica veio para nos ajudar e muito, mas não devemos abusar dela e desrespeitar nossa capacidade de pensar.

REFERêNCIAS 1. Fox J. The R commander: a basic-statistics graphical user interface to R.

Journal of Statistical Software [Internet]. 2005 [cited 2011 Jul 25]; 14(9): [about 42 p.]. Available from: http://www.jstatsoft.org/v14/i09/paper.

2. Acock AC. SAS, Stata, SPSS: A comparison. J Marriage Fam. 2005;67:1093-5.

Tabela 1. Comparação de características do STATA, SPSS, SAS e R

Características STATA SPSS SAS RAprendizado Moderado Fácil Muito difícil DifícilInterface com usuário Programação ou uso de menus

(point-and-click). Linguagem simples e consistente

A mais fácil. Se parece com o Excel. Basicamente point-and-click. Linguagem difícil e falta consistência

Programação ou uso de menus (point-and-click). Linguagem difícil (desenvolvida antes do surgimento dos PC ou Mac)

Programação e, mais recentemente, uso de menus (point-and-click)

Gerenciamento de dados Forte Moderado Muito forte ForteAnálise de dados Muito completo. Possivelmente o

mais completo para necessidades em saúde. Limitado para ANOVA

Bom para rotina. Limitado em procedimentos mais sofisticados. Bom em ANOVA

Poderoso e versátil Poderoso e versátil

Gráficos Muito bons Bons. Mas, muito voltado para marketing de empresas

Bons Regulares

Usuários típicos Academia, ciências biológicas, sociais

Ciências sociais, biológicas Governo, negócios Academia, ciências biológicas, sociais, finanças

Custo Acessível (licensas perpétuas) Caro (licensa é longa) Caro (necessita renovação anual) Aberto (gratuito)