do os misterios do coeficiente de pearson

Upload: jvnewman

Post on 07-Jul-2015

179 views

Category:

Documents


0 download

TRANSCRIPT

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)Dalson Britto Figueiredo Filho Universidade Federal de Pernambuco (UFPE) Jos Alexandre da Silva Jnior Universidade Federal de Pernambuco (UFPE)

Resumo: Existe relao entre X e Y? Essa uma pergunta recorrente no cotidiano de qualquer pesquisador. O objetivo desse trabalho discutir o conceito de correlao de Pearson (r) a partir de uma lgica intuitiva. Isso porque muitas vezes os livros de Estatstica e/ou Econometria apresentam esse conceito adotando uma abordagem mais tcnica, o que dificulta a compreenso. O texto apresenta as principais propriedades do coeficiente de correlao de Pearson (r), suas respectivas aplicaes e limites a partir de uma abordagem descritiva. Em termos substantivos, espera-se facilitar a compreenso desse conceito nas cincias sociais em geral e na cincia poltica em particular.

Esse artigo o primeiro resultado do Projeto Political Science Quotation Database desenvolvido conjuntamente pelos autores. Alm disso, esse trabalho se beneficiou dos comentrios dos participantes do V Seminrio de Cincia Poltica e Relaes Internacionais da UFPE. Em especial, gostaramos de agradecer a Giuseppe Lobo (UFMG) pelo apoio logstico, a Natalia Leito pela leitura atenta de diferentes verses anteriores e ao parecerista annimo da Revista Poltica Hoje por importantes sugestes. Assumimos total responsabilidade pelos erros remanescentes. Esse trabalho financiado por duas principais fontes: CAPES e CNPQ. Ambos os autores so doutorandos em Cincia Poltica pela Universidade Federal de Pernambuco (UFPE). Revista Poltica Hoje, Vol. 18, n. 1, 2009

115

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

1. Introduo Existe relao entre X e Y? Essa uma pergunta recorrente na vida de qualquer pesquisador. Por exemplo, ao afirmar que a taxa de suicdio entre protestantes maior do que entre catlicos, Durkheim sugere uma correlao entre denominao religiosa e propenso ao autocdio. Da mesma forma, ao postular que o sistema eleitoral majoritrio tende a produzir sistemas bipartidrios, a Lei de Duverger sugere a existncia de uma correlao entre o tipo de regra eleitoral (majoritria ou proporcional) e a quantidade de partidos. Mas o que significa dizer que duas variveis esto correlacionadas?1 Essa a questo de pesquisa que norteia esse trabalho. Uma motivao adicional que orienta esse artigo a hostilidade em relao aos mtodos quantitativos e estatstica [na cincia social brasileira] (Soares, 2005: 27). Um rpido passeio nos textos de Werneck Vianna et al (1988), Valle e Silva (1999) e Santos e Coutinho (2000) corrobora esse diagnstico. Isso porque os dados levantados por esse autores apontam para uma mesma direo: a utilizao de tcnicas bsicas de estatstica descritiva e inferencial ainda bastante limitada na Cincias Sociais brasileira. De forma mais preocupante, essa anlise se mantm consistente independente do tipo de produo (artigo, dissertaes ou teses). O resultado prtico disso o enfraquecimento metodolgico generalizado, o que por sua vez, influencia negativamente a capacidade das cincias sociais explicarem os fenmenos que elas se propem.1

Esse um debate polmico na Estatstica. Para o leitor interessado em aprofundar seus conhecimentos na rea ver Aldrich (1995), Andres, Tejedor e Mato (1995), Blyht (1994), Carroll (1961), Devlin, Gnanadesikan e Kettering (1975), Kronmal (1993), Muddapur (1988), Niles (1921), OBrien (1979), Pearson, Fisher e Inman (1994), Rodgers e Nicewander (1988), Schield (1995) e Stigler (1989). Para uma aplicao prtica utilizando o SPSS ver Pallant (2007). Para uma aplicao prtica utilizando o STATA ver Pollock (2006).

116

Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

Consideramos que o mtodo funciona como a lente que o pesquisador utiliza para auxiliar a teoria no sentido de interpretar e explicar os fenmenos de seu interesse2. Para King, Keohane e Verba (1994), a substncia da cincia primordialmente os mtodos e as tcnicas (King, Keohane e Verba, 1994: 09). Collier, Seawright e Munck (2004) defendem que a credibilidade dos mtodos empregados deve ser um critrio central para avaliar os resultados de pesquisa (Collier, Seawright e Munck, 2004: 23). Dessa forma, partindo do pressuposto de que o mtodo um componente central do conhecimento cientfico, esse artigo tem dois principais objetivos: (1) discutir o conceito de correlao de Pearson (r) a partir de uma lgica intuitiva. Isso porque muitas vezes os livros de Estatstica e/ou Econometria apresentam esse conceito adotando uma abordagem mais tcnica, o que dificulta a compreenso (Field, 2005); (2) chamar a ateno dos pesquisadores para as aplicaes e os limites dessa medida na formulao dos seus desenhos de pesquisa. Para tanto, o artigo est dividido em cinco sees. A primeira define o conceito e apresenta as principais propriedades do coeficiente de correlao de Pearson (r)3. A segunda seo demonstra, passo a passo, como essa medida calculada. O objetivo oferecer ao leitor a lgica intuitiva do processo. A terceira parte apresenta alguns cuidados bsicos que os pesquisadores devem tomar durante a utilizao dessa estatstica na anlise de seus dados. A quarta seo oferece um exemplo prtico da aplicao e dos limites dessa medida. Por fim, a quinta parte sumariza as concluses desse artigo.2

Para se aprofundar nesse debate sugerimos o seguinte: Almond (1990), Collier, Seawright e Munck (2004), Geddes (2003), Gerring (2001), King, Keohane e Verba (1994), Marsh e Stoker (2002) e Van Evera (1997). 3 Como nosso principal objetivo pedaggico, procuramos minimizar a formalizao algbrica dos conceitos. Para o leitor interessado em um maior grau de detalhamento tcnico sugerimos conferir a bibliografia citada. Revista Poltica Hoje, Vol. 18, n. 1, 2009

117

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

1.1 Definio e Propriedades O coeficiente de correlao de Pearson no tem esse nome por acaso. comum atribuir exclusivamente a Karl Pearson o

desenvolvimento dessa estatstica, no entanto, como bem lembrou Stanton (2001), a origem desse coeficiente remonta o trabalho conjunto de Karl Pearson e Francis Galton (Stanton, 2001: 01). Garson (2009) afirma que correlao uma medida de associao bivariada (fora) do grau de relacionamento entre duas variveis. Para Moore (2007), A correlao mensura a direo e o grau da relao linear entre duas variveis quantitativas (Moore, 2007: 100/101). Em uma frase: o coeficiente de correlao de Pearson (r) uma medida de associao linear entre variveis. Sua frmula a seguinte:

r

1 xi X yi Y ( )( ) n 1 sx sy

Dois conceitos so chaves para entend-la: associao e linearidade. Afinal, o que significa dizer que duas variveis esto associadas? Em termos estatsticos, duas variveis se associam quando elas guardam semelhanas na distribuio dos seus escores. Mais precisamente, elas podem se associar a partir da distribuio das freqncias ou pelo compartilhamento de varincia. No caso da correlao de Pearson (r) vale esse ltimo parmetro, ou seja, ele uma medida da varincia compartilhada entre duas variveis. Por outro lado, o modelo linear supe que o aumento ou decremento de uma unidade na

118

Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

varivel X gera o mesmo impacto em Y4. Em termos grficos, por relao linear entende-se que a melhor forma de ilustrar o padro de relacionamento entre duas variveis atravs de uma linha reta. Portanto, a correlao de Pearson (r) exige um compartilhamento de varincia e que essa variao seja distribuda linearmente5.

1.2 Como interpretar? O coeficiente de correlao Pearson (r) varia de -1 a 1. O sinal indica direo positiva ou negativa do relacionamento e o valor sugere a fora da relao entre as variveis. Uma correlao perfeita (-1 ou 1) indica que o escore de uma varivel pode ser determinado exatamente ao se saber o escore da outra. No outro oposto, uma correlao de valor zero indica que no h relao linear entre as variveis6. Todavia, como valores extremos (0 ou 1) dificilmente so encontrados na prtica importante discutir como os pesquisadores podem interpretar a magnitude dos coeficientes. Para Cohen (1988), valores entre 0,10 e 0,29 podem ser considerados pequenos; escores entre 0,30 e 0,49 podem ser considerados como mdios; e valores entre 0,50 e 1 podem ser interpretados como grandes. Dancey e Reidy (2005) apontam para uma classificao ligeiramente diferente: r = 0,10 at 0,30 (fraco); r = 0,40 at 0,6 (moderado); r = 0,70 at 1 (forte). Seja como for,

4

O modelo linear esta baseado na funo linear, um caso particular da funo afim, que tem domnio de (f: ) definida por f(x) = ax para todo x a R onde a 0. 5 Uma associao entre duas variveis pode ser descrito por outros modelos, como por exemplo, o quadrtico: f: definida f(x) = ax+b+c, onde existem nmeros reais, a, b, c com a 0 para todo x R.6

Para acompanhar o debate ver Aldrich (1995), Haig (2007) e Kozak (2009). Revista Poltica Hoje, Vol. 18, n. 1, 2009

119

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

o certo que quanto mais perto de 1 (independente do sinal) maior o grau de dependncia estatstica linear entre as variveis. No outro oposto, quanto mais prximo de zero, menor a fora dessa relao. O grfico de disperso abaixo apresenta um exemplo de uma relao linear entre duas variveis hipotticas X e Y.Grfico 01 - Correlao linear entre X e Y

Como pode ser observado, h uma correlao linear positiva entre X e Y. Detalhadamente, isso implica que quando um escore est acima da mdia de X espera-se que ele tambm esteja acima da mdia de Y (as linhas pontilhadas representam as mdias das respectivas variveis, sendo 9,20 para X e 13,5 para Y). Por exemplo, ao se considerar o tringulo preto, observa-se que ele est acima da mdia em ambas as variveis (17; 26). No outro oposto, ao saber que o crculo azul est abaixo da mdia de X, observa-se que ele tambm est abaixo da mdia de Y (5; 7). Em quase todas as oportunidades que X assumiu um valor acima da mdia Y tambm o fez. Da mesma forma, quase todas as vezes que X ficou abaixo da mdia Y tambm ficou. A nica exceo fica por conta da cruz120Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

vermelha j que essa observao est acima da mdia em X, mas ficou abaixo do termo mdio em Y (13;12). Se ela fosse excluda da anlise chegaramos a um coeficiente de valor igual a 1, ou seja, haveria uma compartilhamento de 100% da varincia entre X e Y.

1.3 Propriedades: efeitos e desvios

Uma vez definido o conceito e fornecida a sua interpretao importante entender algumas de suas propriedades. Baseado em Moore e McCabe (2004), destacamos as propriedades do coeficiente e as condies que precisam ser satisfeitas para realizar a anlise de correlao de Pearson (r). Portanto, as observaes so as seguintes: 1) O coeficiente de correlao de Pearson no diferencia entre variveis independentes e variveis dependentes. Dessa forma, o valor da correlao entre X e Y o mesmo entre Y e X. Schield (1995) lembra que a correlao no se aplica a distino de causalidades simples ou recursiva. Ou seja, por ela dificilmente pode-se afirmar quem varia em funo de quem. Simplesmente pode-se dizer que h semelhanas entre a distribuio dos escores das variveis7. 2) O valor da correlao no muda ao se alterar a unidade de mensurao das variveis. Por ser tratar de uma medida padronizada, o valor da correlao entre quilos e litros ser o mesmo caso o pesquisador utilize toneladas e mililitros8. Padronizao torna possvel a comparao entre diferentes7

Correlao no deve ser confundida com relao de causa e efeito (causalidade). Para uma anlise mais detalhada ver Asher (1983), Blalock (1971), Holland (1986) e Rubin (1974). 8 Para uma discusso mais detalhada ver Carroll (1961). Revista Poltica Hoje, Vol. 18, n. 1, 2009

121

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

variveis no que diz respeito a sua magnitude e disperso. Para tanto, deve-se subtrair cada observao (X) pela mdia

() e dividir o resultado pelo desvio padro ()9. A mdia

ser

zero

com

desvio

padro

assumindo

valor

1.

Algebricamente,

z

x

3) O coeficiente tem um carter adimensional, ou seja, ele desprovido de unidade fsica que o defina. No faz sentido interpretar uma correlao de 0,3 como sendo 30%, por exemplo. Alm disso, ele no se refere proporo. Logo, uma correlao de 0,4 no pode ser interpretada como representando o dobro de uma correlao de 0,2 (Chen e Popovic, 2002: 09); Para alm das propriedades do coeficiente, algumas condies precisam ser satisfeitas: 4) A correlao exige que as variveis sejam quantitativas (contnuas ou discretas). No faz sentido utilizar a correlao

9

O desvio padro uma medida de disperso dos valores em torno da mdia. Quanto maior o seu valor, maior o grau de heterogeneidade dos casos vis--vis o valor da mdia. Quanto menor, mais homognea a distribuio dos casos em torno do termo mdio.

122

Revista Poltica Hoje, Vol. 18, n. 1, 2009

Desvendando os Mistrios do Coeficiente de Correlao de Pearson (r)

de Pearson (r) para dados categricos j que impossvel calcular o desvio padro da varivel sexo, por exemplo 10. 5) Os valores observados precisam estar normalmente distribudos11. Dessa forma, assume-se que:

N (, )

Esse pressuposto especialmente importante em amostras pequenas (N0,05) indica normalidade. Outros testes de normalidade incluem Anderson-Darling, Cramervon Mises e Shapiro-Wilk. Graficamente, a normalidade pode ser observada a partir de histogramas e Q-Q plots. Agradecemos ao parecerista annimo por nos lembrar desse detalhe. Revista Poltica Hoje, Vol. 18, n. 1, 2009

123

Dalson Britto Figueiredo Filho e Jos Alexandre da Silva Jnior

ocorrncia de outra observao X2. Segundo Schield (1995), a violao desta orientao implica risco de assumir correlaes esprias. Em termos mais tcnicos, o pesquisador pode enfrentar o problema de lurking ou counfouding variables. Para Osborne e Waters (2002), a violao desses pressupostos pode comprometer os resultados, levando o pesquisador a cometer os erros do tipo I ou tipo II (Osborne e Waters, 2002: 01). O erro do tipo I consiste em concluir que a hiptese nula falsa quando ela verdadeira. Logo, no existe relao entre as variveis (Ho verdadeira), mas o pesquisador argumenta que X e Y so estatisticamente dependentes. Ou seja, ele no poderia ter rejeitado a hiptese nula. O erro do tipo II consiste em concluir que a hiptese nula verdadeira quando ela falsa. Logo, existe relao entre X e Y (Ho falsa), mas o pesquisador defende que as variveis so estatisticamente independentes. Ou seja, ele deveria ter rejeitado a hiptese nula12.

1.4 Calculando o coeficiente de correlao de Pearson (r)

Uma vez apresentada a sua definio e compreendida as suas propriedades o prximo passo entender como o coeficiente de correlao calculado. Suponha que um pesquisador esteja interessado

12

Em estatstica a hiptese nula (Ho) descreve o comportamento esperado de um determinado conjunto de dados. No teste de hiptese, o pesquisador procura estimar em que medida as evidncias coletadas permitem rejeitar a hiptese nula em funo da hiptese alternativa Ha (em geral a hiptese de pesquisa) ou no. Por exemplo, suponha que a Ho: =10. A hiptese alternativa (Ha) pode assumir que: Ha >10; Ha 0,05) indica normalidade. Caso o p valor assuma valores abaixo desse patamar (p