(7) bryman and cramer cap 5.pdf

29
Capítulo 5 RESUMIR OS DADOS Quando os investigadores são confrontados com um conjunto de dados refe- ~entes a cada uma das múltiplas variáveis usadas, necessitam de reduzir a in- :vrmação que recolheram. Se pudermos reduzir grandes quantidades de da- .:10S, torna-se possível detectar padrões e tendências que, de outra forma, fica- :-iam ocultos. É bastante simples determinar o padrão de uma variável quan- io temos, por exemplo, dados sobre dez casos. Contudo, se formos além dos --inte casos começa a tornar-se difícil discriminar esses padrões, a menos que -5 dados sejam sintetizados de alguma forma. Além disso, quando queremos ~presentar os dados que recolhemos a outras pessoas, temos que ter consciên- =a de que seria extremamente difícil aos nossos leitores reter a informação re- :e"ante. Este capítulo centra-se nos vários procedimentos que se podem utili- ::ar para resumir uma variável. Distribuições de frequência ~aginemos que dispomos de dados relativos a cinquenta e seis sujeitos que :"'i.dicama que faculdade, de uma determinada Universidade, cada um deles "?-ertence(ver quadro 5.1). A Universidade tem apenas quatro faculdades: '::"lgenharia, Ciências Puras, Arte e Ciências Sociais. Apesar de cinquenta e ~is ser um pequeno número de sujeitos, não é muito fácil ver como esses es- -..:.dantesse distribuem pelas diferentes faculdades. Um p~il~~iro passo que "?0de ser considerado quando se reduzem dados referentes a uma variável :".)minal como esta (uma vez que cada faculdade corresponde a uma catego- :""2 discreta) é a construção de uma distribuição de frequências ou de uma tabela --.=.'Tequências. Uma distribuição de frequências mostra-nos quantos casos ca- :..:m em cada categoria. Por" frequência" entende-se simplesmente o número '::2 \'ezes que algo ocorre. É habitual precisarmos também de calcular percen- :=.~ensque nos indicam qual a proporção de casos que correspondem a cada 81

Upload: marina-venturi

Post on 07-Dec-2015

236 views

Category:

Documents


7 download

TRANSCRIPT

Page 1: (7) Bryman and Cramer Cap 5.pdf

Capítulo 5RESUMIR OS DADOS

Quando os investigadores são confrontados com um conjunto de dados refe-~entes a cada uma das múltiplas variáveis usadas, necessitam de reduzir a in-:vrmação que recolheram. Se pudermos reduzir grandes quantidades de da-.:10S, torna-se possível detectar padrões e tendências que, de outra forma, fica-:-iamocultos. É bastante simples determinar o padrão de uma variável quan-io temos, por exemplo, dados sobre dez casos. Contudo, se formos além dos--inte casos começa a tornar-se difícil discriminar esses padrões, a menos que- 5 dados sejam sintetizados de alguma forma. Além disso, quando queremos~presentar os dados que recolhemos a outras pessoas, temos que ter consciên-=a de que seria extremamente difícil aos nossos leitores reter a informação re-:e"ante. Este capítulo centra-se nos vários procedimentos que se podem utili-::ar para resumir uma variável.

Distribuições de frequência

~aginemos que dispomos de dados relativos a cinquenta e seis sujeitos que:"'i.dicama que faculdade, de uma determinada Universidade, cada um deles"?-ertence(ver quadro 5.1). A Universidade tem apenas quatro faculdades:'::"lgenharia, Ciências Puras, Arte e Ciências Sociais. Apesar de cinquenta e~is ser um pequeno número de sujeitos, não é muito fácil ver como esses es--..:.dantesse distribuem pelas diferentes faculdades. Um p~il~~iro passo que"?0de ser considerado quando se reduzem dados referentes a uma variável:".)minal como esta (uma vez que cada faculdade corresponde a uma catego-:""2 discreta) é a construção de uma distribuição de frequências ou de uma tabela--.=.'Tequências. Uma distribuição de frequências mostra-nos quantos casos ca-:..:m em cada categoria. Por" frequência" entende-se simplesmente o número'::2 \'ezes que algo ocorre. É habitual precisarmos também de calcular percen-:=.~ensque nos indicam qual a proporção de casos que correspondem a cada

81

Page 2: (7) Bryman and Cramer Cap 5.pdf

82 ANÁLISE DE DADOS EM CIÊNCIAS -

Quadro 5.1

Faculdades a que pertencem cinquenta e seis alunos (Dados Fictícios)

Caso nO

FaculdadeCaso nOFa~u.~_

1

Arte29Eng2

CP30CS3

CS31CP4

Eng32CS5

Eng33Arte6

CS34CS7

Arte35Eng8

CP36CP9

Eng37Eng10

CS38CS11

CS39Arte12

CP40CS13

Eng41Eng14

Arte42CP15

Eng43CS16

CP44CP17

CS45Eng18

Eng46Arte19

CP47Eng20

Arte48CP21

Eng49Eng22

Eng50Arte23

CP51CS24

Arte52Eng25

Eng53Arte26

CP54Eng27

Arte55CS28

CP56CS

Nota: (Eng) Engenharia; (CP) Ciências Puras; (CS) Ciências Sociais.

uma das frequências, i.e, afrequência relativa. O quadro 5.2 mostra-nos':._número 11 é a frequência com que aparece a categoria Arte, o que sig:: -que há onze alunos da amostra que estudam Arte e que esse número cponde a 20 por cento do número total de alunos.

O procedimento que permite criar uma distribuição de frequências :o SPSSserá explicado posteriormente, mas entretanto deve ficar compre:;do que para construir uma tabela de frequências tem apenas que se cor,~número de casos que cabem dentro de cada categoria. Habitualmente, é .:-também a percentagem que corresponde a cada categoria. Isto fornece-nc-;:formação sobre a frequência relativa da ocorrência de cada categoria nwr_=riável, o que nos dá uma boa indicação da preponderância relativa COIr.

uma categoria surge numa amostra. O quadro 5.2 mostra-nos a distribde frequências dos dados apresentados em 5.1. As percentagens foram Idondadas, por defeito ou por excesso, até ao número inteiro correspon .(usando a regra de que 0.5 ou mais corresponde ao número inteiro segui:-que para valores abaixo de 0.5 o número é arredondado por defeito :

Page 3: (7) Bryman and Cramer Cap 5.pdf

RESUMIR OS DADOS

Quadro 5.2 Tabela de frequência referente aos dados apresenados no quadro 5.1

nPercentagem

Engenharia

1832Ciências Puras

1323Arte

1120Ciências Sociais

1425-otal

56100

aJ

18

16

14

12

n 10

86

4

2

o Engenharia Ciências Puras Artes Ciências Sociais

83

Figura 5.1 Gráfico de barras referente à distribuição dos estudantes por faculdades

tornar mais fácil a leitura do quadro. A letra n é, muitas vezes, utilizada parareferir o número de casos de cada categoria (ou seja, a frequência). Uma formaalternativa de apresentar uma distribuição de frequências referente aos da-dos apresentados em 5.2 consistiria em omitir as frequências de cada catego-ria e apresentar, apenas, as percentagens relativas. Esta abordagem reduz aquantidade de informação que o utilizador tem de reter. Quando se faz essaopção, énecessário indicar o número total de casos (Le, n=56) por baixo da co-luna das percentagens.

O quadro 5.2 pode ser facilmente adaptado a uma apresentação diagra-mática dos dados. Estes diagramas são, em geral, designados por gráficos debarras (bar chart ou bar diagrams) e são frequentemente escolhidos em detri-mento dos quadros por serem de assimilação mais fácil. Um gráfico de barrasapresenta uma coluna referente ao número ou à percentagem de casos quecorresponde a cada categoria. A figura 5.1 representa um gráfico de barrasque ilustra os dados do quadro 5.1 e os valores que indicam referem-se ao nú-mero de casos. No eixo das abcissas (horizontal) está escrito o nome de cada

Page 4: (7) Bryman and Cramer Cap 5.pdf

84 ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

categoria. Não é preciso organizá-las por qualquer tipo de ordem (por exem-plo, das maiores para as mais pequenas ou vice-versa). As barras não devemficar encostadas umas às outras, sendo preferível mantê-las nitidamente se-paradas. É necessário salientar que o gráfico de barras não fornece mais infor-mação do que o quadro 5.2; de facto, até se perde alguma informação - aspercentagens. A vantagem principal deste tipo de representação é a facilida-de com que pode ser interpretada, característica que pode ser particularmen-te útil quando a apresentação dos dados se dirige a indivíduos pouco familia-rizados com material estatístico.

Quando é uma variável intervalar que se pretende apresentar numa ta-bela de frequências, os dados têm que ser agrupados. Deve calcular-se o nú-mero de casos que cabem em cada intervalo. Como exemplo, podemos anali-sar os dados respeitantes à variável rendim do Questionário do Trabalho.Dispomos de dados de sessenta e oito indivíduos (faltam os dados de dois),mas se não agruparmos os dados ficamos com trinta e três categorias de ren-dimentos, o que é excessivo para permitir construir uma tabela de frequên-cias. Além disso, as frequências de cada categoria acabariam por ser demasia-do pequenas. No quadro 5.3, apresenta-se a distribuição de frequências dosvalores que a variável rendim assume. Foram utilizadas seis categorias. Naconstrução destas categorias deve ter-se em conta um certo número de princí-pios. Em primeiro lugar, há autores que sugerem que o número de categoriasconsideradas se deve situar entre seis e vinte, uma vez que um número declasses demasiado grande ou demasiado pequeno pode distorcer a forma dadistribuição da variável em análise (ver, por exemplo, Bohrnstedt e Knoke,1982). Contudo, não é necessariamente verdade que o número de categoriasafecte a forma da distribuição. Além disso, quando os casos são poucos o nú-mero de categorias tem que ser inferior a seis, para que em cada categoria cai-ba um número razoável de sujeitos. Por outro lado, um grande número de ca-tegorias não tornará fácil a assimilação dos dados e, neste aspecto, a regraprática de Bohrnstedt e Knoke, ao considerar que as categorias podem servinte, é um pouco exagerada. Em segundo lugar, as categorias devem ser dis-cretas. Nunca se deve agrupar os dados de modo a ter categorias como estas12.000 ou menos, 12.000-14.000, 14.000-16.000, e assim por diante. Em que ca-tegoria se incluiria o valor 12.000 ou 14.000 libras? Isto significa que as catego-rias devem ser discretas, como no quadro 5.3, de modo a que não haja qual-quer dúvida em relação ao grupo a que corresponde cada caso. Repare-se queno quadro 5.3 se chama a atenção do leitor para o facto de haver dois caso~omissos. A presença de dois casos omissos levanta a questão de saber se ~percentagens devem ser calculadas tendo em conta os setenta sujeitos qUêresponderam ao Questionário do Trabalho, ou os sessenta e oito que fornece-ram os valores do seu rendimento. Amaior parte dos autores prefere a últirn..:.hipótese, já que a inclusão de todos os casos como base para o cálculo das per-centagens pode resultar em interpretações erróneas, especialmente quand -

Page 5: (7) Bryman and Cramer Cap 5.pdf

RESUMIR OS DADOS 85

Quadro 5.3 Distribuição de frequências para os valores de rendim (dados do Questionário doTrabalho)

Libras

até 12,00012,000-13,99914,000-15,99916,000-17,99918,000-19,99920,000 e maisTotal

Nota: faltam dois casos.

30

20

10

C::loo O

n

116202272

68

Percentagem

1,523,529,432,410,32,9

100,0/

Figura 5.2

até \:12000 1:14000-\:15999 \:18000-1:19999

1:12000-\:13999 \:16000-\:17999 \:20000e mais

GPRENDIM

Histograma para os valores da variável rendim (dados do Questionário do Trabalho)

houver um grande número de casos omissos relativos a urna determinada--ariável.

A informação dada pelo quadro 5.3 pode, com vantagem, ser apresenta-da na forma diagramática através de um histograma (histogram). Um histogra-:na é igual a um gráfico de barras excepto no facto de as barras estarem em.:ontacto urnas com as outras; essa forma de representação pretende eviden-;:iar a natureza contínua das categorias da variável em questão. A figura 5.23.presenta um histograma para os dados relativos à variável rendim. As suas--antagens são as mesmas que foram referidas para o gráfico de barras.

Quando se analisa urna variável ordinal, raramente é necessário agru-?ar os seus valores. No caso do Questionário do Trabalho e de urna variável:omo especial, que apenas pode assumir quatro categorias, não é preciso

Page 6: (7) Bryman and Cramer Cap 5.pdf

86 ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

agrupar os valores que ela toma. Pode, simplesmente, contar-se o númerccasos em cada uma das quatro categorias e calcular-se as percentagens corpondentes. É possível utilizar-se um histograma para apresentar os dacuma vez que as categorias da variável estão ordenadas.

Utilizar o SPSS para criar tabelas de frequências e histogramas

Para criar uma distribuição de frequências para a variável rendim do Q1tionário do Trabalho, vamos necessitar de agrupar os dados. Caso contriÍobteremos uma frequência e uma percentagem para cada valor da variáobteremos, também, um gráfico onde cada barra corresponde a um valor (sa variável o que, numa amostra de grande dimensão, tornaria este gráilegível. Para agrupar os dados da variável rendim vamos utilizar o proomento Reeode. Assim, vamos criar uma nova variável designada rendill(isto é, grupos de rendimento). O objectivo desta recodificação é o de agruos sujeitos da nossa amostra em seis grupos de rendimento: até f 12,000, d12,000-13,999; das f 14,000-15,999; das f 16,000-17,999; das f 18,000-19,9520,000 e mais. O procedimento seguinte permite realizar esta recodificaç

7 Transform 7 Reeode 7 Into Different Variables ... [abre a caixédiálogo Reeode into Different Variables apresentada na caixa 5.1]7 rendim 7~ [botão] [transfere a variável rendim para a caixa NU!rie Variable70utput Variable:] 7 caixa abaixo de Output VariaName escrever gprendim 7 Change [tranfere gprendim para a CéNumericVariable70utputVariable:] 7 OldanNewValues ... [absubcaixa de diálogo Reeode into Different Variables: Old and Newlues apresentada na caixa 5.2]7 Na caixa à direita de Value [na secção Old Value] inserir O7 seleClnar Value na secção New Value e escrever 0.7 Seleccionar Range:west through e escrever 11999na caixa a seguir a through 7 seleccioValue na secção New Value e escrever 1 7 Add [onovo valor aparecna caixa Old 7 New:] 7 seleccionar Range: e escrever 12000, bem co13999 na caixa a seguir a through 7 seleccionar Value na secção NValue e escrever 27 Add 7 seleccionar Range: e escrever 14000, bcomo 15999 na caixa a seguir a through 7 seleccionar Value na seoNew Value e escrever 37 Add 7 seleccionar Range: e escrever 16(bem como 17999 na caixa a seguir a through 7 seleccionar Value na!ção New Value e escrever 4 7 Add 7 Range: e escrever 18000, bcomo 19999 na caixa a seguir a through 7 seleccionar Value na secNew VaIue e escrever 5 7 Add 7 seleccionar Range: through higheescrever 20000 na caixa 7 seleccionar Value na secção New Value ecrever 67 Add 7 Continue [fecha a subcaixa de diálogo Reeode i

Page 7: (7) Bryman and Cramer Cap 5.pdf

RESUMIR OS DADOS

• Resode inlo DIHerenl Vallables EI

87

:t> gpraeial~ se"oi> idadei> anos.-i> envolv~satis1'~sa!is2i> satis3.:11) satis4i> autonom1i> autonom2:'$) autonom3

Numeric:-!ariable·) OulpulVariable:

Caixa 5.1 A recodificação de rendim para rendimgp

•• nff~'I~:II!~IJ['i"TTIi

-OldValue

r Yalue:

r ~lem;riúSSing

r Syslem- or J,!ser·missingr Ra.tJge:

Lr Range:[i:l.~'l\f'tt~r(jYg·

lo Aall9!l:

120000 L tnrough highestr AliQlher "alues

:aixa 5.2 A subcaixa de diálogo Recode into Different Variables: Old and New Values

Different Variables: Old and New Values]~OKl

:)e seguida é necessário definir os rótulos de cada uma das seis categorias da""ariável rendimgp (ver capítulo 2 para uma descrição deste procedimento).

Para se obter o output apresentado no quadro 5.4, será, ainda, necessário definir o valor Ocomo valor omisso (rnissing value). Esta operação pode ser executada na janela VariableView, na coluna rnissing correspondente à variável rendirngp, na caixa de diálogo Mis-sing Values seleccionar Discrete Missing Values e introduzir O na primeira caixa.(N. do R.)

Page 8: (7) Bryman and Cramer Cap 5.pdf

88

Variable{s}:.-ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

Caixa 5.3 A caixa de diálogo Frequencies

Quadro 5.4

Tabela de frequências para rendimgp (outputdo SPSS)

GPRENDIM

,

, ICumulativePercentValid

até E12000 11,4 1,51,5E12000-E13999

1622,9 23,525,0E14000-E15999

2028,6 29,454,4E16000-E17999

2231,4 32,486,8E18000-E19999

710,0 10,397,1E20000 e mais

22,9 2,9100,0Total

6897,1 100,0Missing

,00 22,9Total

70100.0

A sequência seguinte dá origem à tabela de frequencias apresenta(quadro 5.4.

~ Analyze ~ Descriptive Statistics ~ Frequences ... [abre a cai:diálogo Frequences apresentada na caixa 5.3]~ grupos de rendimento [rendimgp] ~~ [botão] [transfere rendipara a caixa Variable[s]:]~OK

o quadro 5.4 mostra o número de sujeitos em cada categoria da variáveldimgp (Frequency) e três tipos de percentagens: a frequência associe,.."",....1"", •...•....•.J. •.....••...••,..,.~~...." -n..-." f'" .•..TY"I':lo ..40. l1TY"1'::l "Y'\OT't""CU.,T-::lCTDrn n11(:). t('\rn~ rnrnn h;l~P tnt1

Page 9: (7) Bryman and Cramer Cap 5.pdf

llSl.:'VIIR OS DADOS 89

~==Slacked

SLnlI1lariesforgrbups of cases

SLnlI1lariesof se~arate yariablesValues of individual cases

~-'~a 5.4 A caixa de diálogo Bar Charts

:asas (Percent); a frequência associada com cada categoria na forma de uma?€rcentagem que toma como base todos os casos de cujos dados dispomosValid Percent); e a percentagem acumulada (Cumulative Percent).

Para obtermos um histograma da variável rendimgp, devemos realizar.) procedimento seguinte:

7 Graphs 7 Histogram ... [abre a caixa de diálogo Histogram]7 rendimgp 7~ [botão] [coloca rendimgp na caixa Variable:] 7 OK

o histograma resultante apresentará barras de rendimento tal como defini-das pelos critérios por defeito do SPSS.

Para produzir um gráfico de barras para uma variável nominal comogpracial, podemos realizar o seguinte:

7 Graphs 7 Bar ... [abre a caixa de diálogo Bar Charts apresentada nacaixa 5.4]7 Simple 7 Summaries for groups of cases 7 Define [abre a subcaixade diálogo Define Simple Bar: Summaries for Groups of Cases apre-sentada na caixa 5.5]7 gpradal 7 ~ [botão] próximo da caixa Category Axis [coloca gpra-dal nesta caixa] 7 N of cases por baixo de Bar Represent [se esta opçãonão estiver seleccionada, caso contrário proceder sem seleccionar] 7OK

Uma forma alternativa de apresentar dados relativos a variáveis nominaisserá a de recorrer a gráficos de tipo" queijo" (Pie chart), que mostram o núme-ro de casos em cada categoria através de fatias de um círculo. Esta pode ser

Page 10: (7) Bryman and Cramer Cap 5.pdf

90 ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

. Oeline S.mple Bar Summalles fOI GlOupS 01 Cases - Ei

~ sexo~rendim(fP idade~anos~envolv·.iP salis1~salis2~salis3'iP salis4~aulonom1~aulonom2,~ autonom3

~aulonom4~rolina1'?> rolina2"

Caixa 5.5

%of~e$

Curo. % 01 cases

A subcaixa de diálogo Define Simple Bar: Summaries for Groups of Cases

Africano

2,9%Indiano

20,0%

Asiatico25.7%

Branco

51,4%

Figura 5.3 Diagrama de "queijo" para gpracial (dados do Questionário do Trabalho)

uma forma de apresentação de dados muito útil quando o objectivo é salien-tar o tamanho relativo de cada fatia em comparação com a totalidade daamostra. A figura 5.3 apresenta um gráfico de tipo queijo para a variávelgpracial, gerado pelo SPSS.Para obter este tipo de gráfico, devemos procederda seguinte forma:

7 Graphs 7 Pie ... [abre a caixa de diálogo Pie Charts apresentada nacaixa 5.6]

Page 11: (7) Bryman and Cramer Cap 5.pdf

RESUMIR OS DADOS

Pie Challs lEi

91

Data in Chart Are~

(o' [s.,~~IT.i~if~,s.:!~·i:,iio.,~,p',s.':,õ.r..~.~~~~riSummaries of separate yariables

r. Values of jndividual cases

,e

Caixa 5.6 A caixa de diálogo Pie Charls

• Define Pie' Summalies 101Groups 01 Cases Ei

..t> sexo

.t> rendim,ir idade<~ anos~envolv~satis1~satis2'*> sal;s3~sal;s4<@> autonom 1<ir autonom2<ít> autonom3~autonom4<@> rotina1~rotina2..,

C. % of c,êSes

Cí eu!!). % of cases

Caixa 5.7 A subcaixa de diálogo Define Pie: Summaries for Groups of Cases

~ Summaries for groups of cases ~ Define [abre a subcaixa de diálo-go Define Pie: Summaries for Groups of Cases apresentada na caixa5.7]~ gpradal ~ ~ [botão] próximo da caixa Define slices by [coloca gpra-daI nesta caixa] ~ N of cases por baixo de Slices Represent: [se esta op-ção não estiver seleccionada, caso contrário proceder sem seleccionar]~OK

Este procedimento dá origem a um gráfico de tipo queijo, no qual cada fatiado círculo possui uma cor diferente. Se a impressora não estiver preparadapara imprimir a cores, será necessário proceder à sua edição para que cada

Page 12: (7) Bryman and Cramer Cap 5.pdf

92 ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

fatia possa ser distinguida de outra. O gráfico da figura 5.3 foi editado atde dois passos essenciais: a cor branca foi aplicada a todas as fatias e paidiferentes foram aplicados a cada uma delas. Os procedimentos segtpermitem realizar este tipo de edições:

~ Duplo dique em qualquer parte do gráfico. Isto abre a caixa lEditor. O gráfico aparecerá no Chart Editor a sombreadoPara encher cada fatia de cor branca:~ seleccionar cada fatia do gráfico (pequenos pontos aparecerãomite da fatia)~ Format ~ Color ... [uma paleta de cores aparecerão] ~ Fill ~ ,~ Apply ~ outra fatia e aplicar às restantes, ainda que possa ser úuma fatia numa cor mais escura ~ CIos e

Para criar um padrão diferente em cada fatia:

~ seleccionar cada fatia do gráfico (pequenos pontos aparecerãomite da fatia)~ Format ~ Fill pattern ... [uma palete de padrões aparecerão paleccionar] ~ seleccionar padrões ~ Apply ~ outra fatia~ outro padrão [lembre-se que deve aplicar um padrão diferente afatia] ~ Apply [continua até que cada fatia branca tenha um padr,ferente] ~ Close

Note-se que os rótulos dos valores serão necessários para produzir as I,das apresentadas na figura 5.3. Podemos adicionar as percentagens da etra que cada fatia representa (tal como se pode observar na figura 5.3) (guinte forma: quando posicionados no Chart Editor, dicar em Chart e dem Options ... ; seleccionar Percents [a caixa ao lado de Text deve, tarrencontrar-se seleccionada]. Podemos, ainda, criar efeitos no gráficocomo destacar uma das fatias do círculo de modo a salientar a sua impccia. Para fazer isto, dique na fatia pretendida e:

~ Format ~ Explode Slice

De um modo geral, podemos efectuar alterações semelhantes em todasguras geradas pelo SPSS (por exemplo, gráficos de barras), fazendo, simmente, um duplo dique no gráfico em questão e escolhendo as alternedo Chart Editor. Desta forma, podemos alterar cores, introduzir pad

{'o • r _ ~••.•

Page 13: (7) Bryman and Cramer Cap 5.pdf

RESUMIR OS DADOS

Medidas de tendência central

93

Uma das formas mais importantes de sintetizar a distribuição de valores deurna variável é estabelecer a sua tendência central- o vaIar típico da distribui-ção. Perguntamo-nos, por exemplo, onde tendem a concentrar - se os valo-res da distribuição? Para muitos leitores, isto pode significar que se procura a"média" de uma distribuição de vaiares. Contudo, quando os estatísticos fa-lam de valores médios referem-se a várias medidas. Discutiremos aqui trêsmedidas dos valores médios (i.e., medidas de tendência central): a médiaaritmética, a mediana e a moda. Sephan J. Gould, um paleontólogo conhecidopelos seus escritos científicos, ilustra duas destas medidas da seguinte forma:

Um político do partido do poder pode dizer, com algum orgulho: "O rendimen-to médio dos nossos cidadãos é de $15,000 por ano". O líder da oposição poderetorquir: "Contudo, metade dos cidadãos ganha menos de $10,000 por ano".Ambos estão correctos, mas nenhum cita as estatísticas com objectividade. Oprimeiro utiliza a média, enquanto o segundo a mediana (Gould, 1991: 473).

~o fundo, este comentário não nos assegura relativamente à possível utiliza-ção indevida das estatísticas, mas ilustra bem as diferentes formas de apre-sentar um resultado médio.

A média aritmética (arithmetic mean)

Amédia aritmética é um método de calcular a média da distribuição que cor-responde à noção comum de média. Consideremos a seguinte distribuição de"alares:

12 10 7 9 8 15 2 19 7 10 8 16

Determinar a média aritmética consiste em adicionar todos os valores (nestecaso, o resultado é 123) e dividir esse total pelo número de valores (no nossoexemplo, 12).Neste caso, a média aritmética é 10.25.É este tipo de cálculo queconduz a afirmações tão bizarras como: "o número médio de crianças é 2.37" .. :0 entanto, a média aritmética que é, frequentemente, simbolizada por x é,de longe, a mais utilizada medida de tendência central. Muitos dos testes es-:atísticos que serão abordados em capítulos posteriores deste livro relacio-.,am-se directamente com a comparação das médias de diferentes amostrasau grupos de sujeitos (por exemplo, a análise de variância - ver capítulo 7). A:nédia aritmética é fácil de compreender e de interpretar, o que aumenta a sua3.tractividade. Asua maior limitação liga-se ao facto de ser vulnerável aos va-:ores extremos, podendo ser enviesada por valores muito altos ou muito

Page 14: (7) Bryman and Cramer Cap 5.pdf

94 ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

baixos cujo efeito é, respectivamente, o de aumentar ou diminuir de forma en-ganosa a sua magnitude. Isto tende a acontecer particularmente quando sedispõe de relativamente poucos dados; quando se tem muitos dados éprecisoque esteja presente um valor muito exagerado para distorcer o valor da mé-dia. Assim, por exemplo, se na distribuição de doze valores que já apresentá-mos substituirmos o 19por 59, a média seria 13.58em vez de 10.25, valor subs-tancialmente diferente e que constitui uma fraca representação da amostra noseu todo.

De uma forma semelhante, no quadro 8.10 do capítulo 8, a variável "ta-manho da empresa" contém um valor extremo (outlier; caso número 20), ouseja, uma empresa com 2700 empregados. Note-se que a empresa seguintepossui, somente, 640.Amédia desta variável é de 499,mas se excluírmos o va-lor extremo ela passa para 382,6. Como se depreende deste exemplo, um valorextremo pode ter um impacto substancial na média aritmética, especialmentequando o número de casos de uma amostra é pequeno.

A mediana (median)

Amediana é o ponto médio de uma distribuição de valores. Parte uma distri-buição de valores em duas partes. Imaginemos que os valores de uma distri-buição são ordenados de forma crescente - por exemplo, 2, 4, 7, 9, 10: nesteexemplo, a mediana é o valor central, isto é, 7. Quando o número de valores épar, a mediana é a média dos dois valores do meio. Assim, no primeiro grupode doze valores, para calcular a mediana poderíamos ordená-los deste modo:

2 7 7 8 8 ~ 10 12 15 16 19

Neste conjunto de valores, tomamos os dois valores sublinhados - o sexto e osétimo - somamo-los e dividimos o total por 2, i.e. (9+10)/2=9.5. Este valor éligeiramente inferior à média a'ritmética de 10.25, o que se deve provavelmen-te à presença de três valores elevados no extremo final-15, 16 e 19. Se, emvez do 19 tivéssemos o 59, a média seria 13.58mas a mediana não seria afecta-da porque enfatiza o centro da distribuição e ignora os extremos. Por esta ra-zão, muitos autores sugerem que, quando existe um valor desviante que dis-torce a média, se deve considerar a mediana por ser um indicador mais repre-sentativo da tendência central de um grupo de valores. Por outro lado, a me-diana é de mais difícil compreensão do que a média e o seu cálculo não utilizatodos os valores da distribuição. Além disso, a vulnerabilidade da média àdistorção por existência de valores anómalos é menor quando se trabalhacom um grande número de casos.

Page 15: (7) Bryman and Cramer Cap 5.pdf

RESUMIR OS DADOS

A moda (mode)

95

~te último indicador de tendência central é raramente utilizado na investi-;ação mas é frequentemente mencionado nos livros. Amoda é, simplesmen-:e, o valor que ocorre com maior frequência numa distribuição. No exemploie distribuição de doze valores que apresentámos há três modas - 7, 8 elO ..-\0 contrário da média, que só se pode utilizar com variáveis de intervalo, a::nada pode ser utilizada a qualquer nível de medição. A mediana pode ser:.:sada para variáveis ordinais e de intervalo mas não para variáveis nominais ..-\ssim, embora a moda pareça um indicador mais flexível é pouco utilizada?orque não usa todos os valores da distribuição e porque, no caso de existir::1ais do que uma moda na distribuição, não é fácil de interpretar.

Medir a dispersão

?ara além de se interessarem pelo valor típico ou representativo de uma dis-:ribuição de valores, os investigadores também procuram conhecer a quanti-dade de variação que a distribuição evidencia. É isto que se designa por dis-::ersão - a extensão da distribuição. A dispersão pode dar-nos informações:mportantes: por exemplo, podemos encontrar duas empresas em que o ren-dimento médio dos trabalhadores manuais seja semelhante. Contudo, numadelas os salários podem ser mais variados com valores consideravelmente su-?eriores e inferiores aos da outra firma. Assim, embora a média de saláriosseja similar, uma das empresas apresenta muito maior dispersão do que a ou-:ra. Pode ser útil acrescentar esta informação aos valores de medida de ten-dência central.

A mais óbvia medida de dispersão consiste em considerar o valor maisalto e o valor mais baixo da distribuição e subtrair o segundo do primeiro. Ao,esultado assim obtido chama-se amplitude da distribuição (range). Embora de:ácil compreensão, tem a desvantagem de ser susceptível à distorção por in-]uência de valores extremos. Isto pode ser ilustrado com os dados fictíciosapresentados pelo quadro 5.5 que mostram as notas, numa escala de 100, obti-das por duas classes de vinte alunos num teste de matemática. Cada uma dasclasses é orientada por um professor diferente. As duas turmas têm médiassemelhantes mas os padrões das duas distribuições de valores são muito dife-,entes. A turma do professor A tem uma distribuição de notas pouco diversi-:'icada enquanto que a do professor B apresenta muito maior dispersão.::nquanto a nota mais baixa obtida na turma do professor A foi 57, a mais bai-xa na turma do professor B foi 45. De facto, no caso do professor Bhá oito no-~asinferiores a 57. Contudo, enquanto a nota mais elevada dada pelo profes-sor A é 74 na turma de Bhá três notas superiores a esta - uma atinge o valor93. Embora a última distribuição seja mais dispersa, o cálculo da amplitude

Page 16: (7) Bryman and Cramer Cap 5.pdf

96 ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

Quadro 5.5 Resultados de um teste de aptidão matemática aplicado aos alunos de dois professore,(Dados Fictícios)

Média aritméticaDesvio-padrãoMediana

Professor (A)

657066595762667158676168636571696774726065.554.91

66

Professor (B)

574946797254666563764595626850535865697263.212.3764

parece exagerar essa dispersão. Para o professor A esse intervalo é 74-57, i17. Para B, o intervalo é 95-45, i.e. 50. Este valor exagera a quantidade de dpersão uma vez que todos os valores excepto três se situam entre 72 e 45, o qimplica que para a maioria dos valores o intervalo de variação seja igual a 2:

Uma solução para este problema consiste em eliminar os valores extmos. A amplitude interquartis (inter-quartil range), por exemplo, é por ve:irecomendada neste sentido (ver figura 5.4). Isto implica organizar os vaIo]numa ordem crescente. O intervalo é dividido em quatro partes iguais,modo a que os primeiros 25% fiquem na primeira parte e os 25% maioresquem na última. Estas divisões servem para definir quartis. Consideremoprimeira distribuição que utilizámos para o cálculo da mediana:

2 7 7 8 8 9 10 10 12 15 16 1911

Primeiro quartil11

Terceiro quartil

O primeiro quartil (Q1), por vezes intitulado "quartil inferior" ficará entre Ie o 8. De acordo com o SPSS, o seu valor é de 7.25. O terceiro quartil (Q3), fvezes intitulado "quartil superior", será 14.25. Assim, a amplitude interquar

Page 17: (7) Bryman and Cramer Cap 5.pdf

RESUMIR OS DADOS

Mediana

97

01 02 031 1

25% dasobservações

tValormínímo

25% dasobservações

25% dasobservações

25% dasobservações

tValor

máximoAmplitude interquartis

Observações por ordem crescente

Figura 5.4 Amplitude interquartis

é a diferença entre o primeiro e o terceiro quartis, ou seja, 14.25-7.25 = 7. Comoa figura 5.4 indica, a mediana é o segundo quartil mas não é um componente:tecessário para o cálculo da amplitude interquartis. A principal vantagemdesta medida de dispersão é eliminar os valores extremos e a sua grande limi-:ação é ignorar 50% dos valores da distribuição, o que significa uma grande?erda de informação. Um compromisso possível entre estes dois aspectos?ode ser atingido através da divisão da distribuição em dez partes (decis) edo cálculo da amplitude interdecis. De um modo similar ao que se fazia para aamplitude interquartis eliminam-se os valores mais altos e os mais baixos.:\reste caso, só se perde 20% da distribuição.

Sem dúvida que o mais utilizado método de avaliar a dispersão é o des-:'io-padrão (standart deviation). Na essência, o desvio-padrão reflecte a quanti-dade média de desvio em relação à média. O seu cálculo é, de algum modo,mais complicado do que esta definição sugere. No capítulo 7, pode encon-trar-se uma descrição mais pormenorizada do desvio-padrão. O desvio-pa-drão evidencia o grau em que os valores de uma distribuição se afastam damédia aritmética. O seu valor é, em geral, apresentado em conjunto com a mé-dia, uma vez que é difícil compreender o seu significado sem fazer alusão aesta segunda medida.

Podemos comparar as duas distribuições do quadro 5.5 Apesar das mé-dias serem muito semelhantes o desvio-padrão na turma do professor B12.37) é muito maior do que o da turma do professor A (4.91). Deste modo, odesvio-padrão permite a comparação directa dos graus de dispersão quandose consideram medidas e amostras comparáveis. Uma das suas vantagensadicionais consiste no facto do seu cálculo considerar todos os valores da dis-tribuição. Além disso, resume a quantidade de dispersão da distribuiçãonum único valor que, quando utilizado em conjunto com a média, é fácil de

Page 18: (7) Bryman and Cramer Cap 5.pdf

98 ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

interpretar. O desvio-padrão pode ser afectado pelos valores extremos mascomo o seu cálculo depende de todos os valores envolvidos, a distorção é me-nos pronunciada do que no caso da amplitude. Por outro lado, não devemosignorar a possibilidade de distorção por efeito dos valores extremos. No en-tanto, a menos que haja boas razões para não querer usar o desvio-padrão, asua utilização é recomendada sempre que se pretenda obter uma medida dedispersão. É uma medida referida, em geral, nos relatórios de investigação e éamplamente reconhecida como a principal medida de dispersão.

Anossa abordagem da dispersão destacou as variáveis de intervalo. Sócom esse tipo de variáveis se pode utilizar o desvio-padrão. A amplitude e aamplitude interquartis podem ser usadas com variáveis ordinais, emboraessa não seja uma prática vulgar. Também com as variáveis nominais é poucofrequente a utilização de testes de dispersão. Provavelmente, a melhor mane-ira de avaliar a dispersão das variáveis nominais e ordinais é usar gráficos debarras, histogramas e distribuições de frequências.

Medir a tendência central e a dispersão com o SPSS

Todas estas medidas podem ser geradas no SPSS.Tomando a variável rendima título de exemplo, vamos realizar a seguinte sequência de procedimentos:

~ Analyze ~ Descriptive Statistics ~ Explore ... [abre a caixa de diá-logo Explore apresentada na caixa 5.8]~ rendim ~ ~ [botão] próximo da caixa Dependent List [coloca a variá-vel rendim na caixa Dependent List:]~OK

•Explore E1

Eil~~:

facto! Lisl:

GO T=_ I_J

Caixa 5.8 A caixa de diálogo Explore

Page 19: (7) Bryman and Cramer Cap 5.pdf

RESUMIR OS DADOS 99

uadro 5.6 O output do comando Explore para a variável rendim

Descriptives

~t"ti<ticc." ~"MRENDIM

Mean 15638,2353242,037695% Confidence

Lower Bound15155,1261Ioterv ai for Mean

Upper Bound16121,34445% Trimmed Mean

15582,3529Median

15600,0000Variance

3983590,869Std. Deviation

1995,8935Minimum

11800Maximum

21000Range

9200InterquartiJe Range

3500,0000Skewness

,370,291Kurtosis

- 294574

P10tLeaf8448

0244466668888002224666800002466880000244666600244666688000226O

6O

Stem &111213141516171819202110001 case(s)

RENDIM Stem-and-Leaf

Frequency1. 003.0013.0010.0010.0011. 0011. 006.001. 001. 001. 00Stem width:Each 1eaf:

o resultado deste procedimento é apresentado no quadro 5.6; através deleobtemos a média aritmética, a mediana, a amplitude, os valores mínimo emá-ximo, o desvio-padrão e a amplitude interquartílica da variável rendim.

Métodos de apresentação dos dados: diagramas troncos-e-folhase diagramas extremos-e-quartis

:::m1977, John Tukey publicou um importante livro, com o título ExploratoryJata Analysis, em que pretendia apresentar aos leitores uma série de técnicas~ue ele próprio tinha desenvolvido, enfatizando o cálculo aritmético simplese a apresentação diagramática dos dados. Apesar da abordagem por ele de-:endida ser a antítese de muitas das técnicas convencionalmente utilizadas?elos analistas de dados, incluindo o conjunto de técnicas examinadas neste:.ivro, algumas das representações de Tukey podem ser acrescentadas, com

Page 20: (7) Bryman and Cramer Cap 5.pdf

100 ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

vantagem, aos procedimentos ortodoxos. Para a presente discussão, são bas-tante relevantes duas representações dia gramáticas dos dados - o diagramatroncos-e-folhas (stem and leaj) e o diagrama extremos-e-quartis (box and whiskersou boxplot).

Método troncos-e-folhas de classificação dos dados

Este tipo de representação é um modo muito simples de apresentar dados re-ferentes a uma variável de intervalo, utilizando uma forma semelhante a umhistograma mas sem se sofrer a perda de informação que este último tipo degráfico implica. Pode ser facilmente construído à mão, embora isso seja maisdifícil quando se trabalha com grandes quantidades de dados De forma ailustrar a construção de um diagrama de troncos-e-folhas, vamos utilizar osdados de um indicador de desempenho de uma autoridade local. Duranteum certo período de tempo, o governo britânico encarregou uma Comissãode Auditoria com a tarefa de recolher dados relativos ao desempenho de au-toridades locais, de modo a poder comparar o seu desempenho. Um dos crité-rios para medir este desempenho era a percentagem de necessidades satisfei-tas aos munícipes num período de seis meses. Este critério demonstrou umagrande variabilidade entre as diversas autarquias, tal como foi salientado, naaltura, por um jornalista do The Times:

Se uma criança em Sunderland necessitasse de educação especial, não teria qu~-quer probabilidade de ver esta necessidade satisfeita nos seis meses mais próxi-mos. Contudo, se esta mesma criança mudasse de residência para Durnham, -cerca de uma ou duas milhas de distância, teria 80% de probabilidade desta ne-cessidade ser satisfeita num curto espaço de tempo (Murray, 1995: 32).

Se estes dados medem eficiência ou não é um problema de validade das medi-das utilizadas nesta auditoria (ver capítulo 4), mas não existe margem p~dúvida de que há uma grande variação relativamente à percentagem de ne-cessidades satisfeitas no espaço de seis meses. Como podemos observar r.quadro 5.7, esta percentagem varia entre Oe 95%

A figura 5.5 mostra o diagrama de troncos-e-folhas relativo a esta va.ru-vel, que passamos a designar por necess. O gráfico possui duas componenessenciais: em primeiro lugar, os números à esquerda da linha vertical cons::tuem o tronco e servem de pontos de partida para a apresentação de cada ---lar da distribuição. Cada um dos dígitos que formam o tronco representa u;""dades de 10 pontos. Assim, o primeiro dígito do tronco é Oe refere-se a pon·abaixo das dezenas; 1 a dezenas; 2 a duas dezenas; 3 a três dezenas e assim scessivamente. Ao lado direito do tronco está afolha, cada uma das quais reF --senta um item dos dados que está ligado ao tronco. Desta forma, o Oà dire

Page 21: (7) Bryman and Cramer Cap 5.pdf

RESUMIR OS DADOS 101

o 5.7 Percentagem de necessidades satisfeitas pelas autarquias num período de seis mesesem Inglaterra e Escócia. 1993-1994

londrinos ICondados inglesesAutoridades metropolitanasCondados escoceses

Avon

11Great Manchester Clwyd30Bedfordshire

25Bolton 9Dyfed 6748

Berkshire 16Bury 16Gwent 17....= ......h

14Buckinghamshire 69Manchester 35Gwynedd 88-::"=,

36Cambridgeshire 7Oldham 50Mid Glamorgan 48,- '1- .5.=ulham

6Cheshire 25Rochdale Opowys 80~'''l

44Cleveland 32Salford 10South Glamorgan 45! Chelsea 8Cornwall 3Stockport 16West Glamorgan 4"i.-o;:h

4Cumbria 35Tameside 16s-am

12Derbyshire 17Traflord 11ark

10Devon 55Wigan 21- :' -lamlets 37Dorset 33Merseyside-;::SNorth

4Durham 72Knowsley 8::-inster

63East Susses 8Liverpool 95=--3fes de Londres

Essex29St Helens 21-g & Dagenham

22Gloucestershire 45Selton 37.:.z-=:

40Hampshire 12Wirral 13_':.o :;J

37Hereford & Worcs 3South Yorkshire- ,

23Hertlordshire 61Barnsley 15::-:c- ey

24Humberside 14Doncaster 1: jQn

27I sle of Wight 60Rotherham 10~ '-

3Kent 15Sheflield 4~:d

2Lancashire 14Tyne & Wear-"'-'1ley

10Leicestershire .Gateshead 4-a-:;w

1Lincolnshire 36Newcastle upon Tyne30-2· 2ing

ONorfolk 1North Tyneside 48- -gdon 7Northamptonshire 48South Tyneside 5-:-'_-slow

20Northumberland 79Sunderland O

- ;s:on upon Thames27North Yorkshire 34West Midfands

~-::m16Nottinghamshire 10Birmingham 5

l? ~m3Oxfordshire 22Coventry 20

=:::::ridge34Shropshire 15Dudley 41

=- c-:nond upon Thames27Somerset 50Sandwell 1

~_-:n6Staflordshire 20Solihull 31

=- -"'am Forest24Suflolk 27Walsall 3

Surrey55Wolverhampton 3

Warwickshire26West Yorkshire

West Sussex14Bradford 25

Wiltshire30Calderdale 2

Kirklees38

Leeds17

Wakefield15

I

::a: n informação omissa ou duvidosa. =:-:e: adaptado do The Times. 30 de Março 1995. p. 32.

~o valor Orefere-se ao valor mais baixo da distribuição, ou seja, O.Podemoserificar que três autoridades locais não satisfizeram quaisquer necessidades~os munícipes durante o período de seis meses, enquanto quatro apenas sa---sfizeram 1% de necessidades. Quando chegamos à linha que começa por um

Page 22: (7) Bryman and Cramer Cap 5.pdf

102 ANÁLISE DE DADOS EM CIÊNCIAS soe

P10tLeaf0001111223333334444455667788890000011223444455556666677700112234455567777900012344556677780145588880055013792(>=79 )

NECESS Stem-and-LeafFrequency Stem &20.00 O10.00 O14.00 112.00 110.00 29.00 28.00 38.00 33.00 46.00 42.00 52.00 53.00 62.00 61. 00 74.00 ExtremesStem width: 10.00Each leaf: 1 case(s)

Figura 5.5 Diagrama de troncos-e-folhas para a variável necess

ponto percentual, podemos observar que apenas cinco autoridades ~ram 10% das necessidades em seis meses. Todos os números à direitadevem ficar alinhados na vertical. Não é necessário que os seus valorordenados de O a 9,mas fazê-lo torna a leitura mais fácil. Note-se qUEbuição é achatada no fundo. Aapresentação deste diagrama foi contrforma a que os incrementos nos valores da variável fossem de 10 1.:

percentuais. Podemos pedir, também, que os valores extremos (out]jam apresentados separadamente. Os investigadores experientes ende dados exploratória utilizam um critério específico para a idendestes valores extremos: os que se posicionam próximo do valor mídistribuição podem ser identificados através da fórmula seguinte:

primeiro quartil- (1,5 x amplitude interquartílica)

Os valores extremos próximos do valor máximo da distribuiçãocam-se através da fórmula:

terceiro quartil- (1,5 x amplitude interquartílica)

O primeiro quartil da variável necess é de 8.0 e o terceiro quartil é 36.(tuindo estes valores nas equações anteriores obtêm-se resultados qtram que os valores extremos devem encontrar-se posicionados al-36.0 e acima de 78.0. Utilizando este critério, identificamos, na filquatro valores extremos (Extremes). Para obter um diagré

Page 23: (7) Bryman and Cramer Cap 5.pdf

RESUMIR OS DADOS 103

::-onco-e-folhas seguimos o mesmo procedimento do utilizado para produzir~ medidas de tendência central e de dispersão (ver caixa 5.5):

~ Analyze ~ Descriptive Statistics ~ Explore ... [abre a caixa de diá-logo Explore apresentada na caixa 5.8]~ necess ~~ [botão] próximo de Dependent List: [tranfere a variávelnecess para a caixa Dependent List:]~ Plots na caixa próximo de Display ~ OK

J output resultante é apresentado na figura 5.5. Os valores da coluna mais à::-squerda representam a frequência de cada ocorrência. Podemos, também,='9servar que existem dados omissos para duas autoridades locais.

Este método proporciona-nos uma apresentação semelhante ao histo-~ama, na medida em que nos dá uma ideia da forma da distribuição (se, por::xemplo, os valores se centram num extremo), o grau de dispersão que apre-õ-entame a existência ou não de valores extremados. Contudo, ao contrário do_--.lstograma,mantém toda a informação de modo a que os dados possam ser.:n-ectamente analisados para se verificar quais os valores predominantes.

Diagrama extremos-e-quartis

-.:,.figura 5.6 mostra-nos a estrutura de um diagrama de extremos-e-quartis. O-2ctângulo representa os 50% centrais das observações. Assim, o seu extremo_Lferior,em termos da medida a que se refere, é o primeiro quartil e o seu ex-::-emo superior é o terceiro quartil. Por outras palavras, este diagrama com-:,:-eende a amplitude interquartílica. A linha assinalada é a mediana. As li-:-.hastracejadas dirigem-se para baixo até ao valor mínimo da distribuição e:-ara cima até ao valor máximo, excluindo valores extremos (outliers) que são_-:dicados separadamente. Este tipo de apresentação tem um certo número deu311tagens. Tal como foi discutido anteriormente, este método dá-nos infor-::-:açãosobre a forma e a dispersão da distribuição - por exemplo, o rectân-;..Jloestá mais próximo de um extremo ou do meio? Se se desse o primeiro~,,-so,isso indicar-nos-ía que os valores tendiam a concentrar-se num pólo. A:-:-imeira situação mostraria que os valores tendem a concentrar-se no limite_-:feriorda distribuição, como é o caso da mediana. Isto proporciona-nos indi-:3.çõesadicionais sobre a forma da distribuição, já que nos mostra se a media-:-3. está mais perto de algum dos extremos da caixa. Por outro lado, este méto-.:.) não conserva toda a informação como no caso da representação tron-~')5-e-folhas. Afigura 5.7 apresenta um diagrama extremos-e-quartis dos da-':os do quadro 5.6. Os quatro valores extremos encontram-se assinalados. Aõ:.ladetecção foi feita recorrendo-se ao critério discutido anteriormente. Atra--25deste diagrama, torna-se claro que apenas 20% (ou menos) de metade das

Page 24: (7) Bryman and Cramer Cap 5.pdf

104 ANÁLISE DE DADOS EM CIÊNCIAS

Valormínimo

50% deobservações(centro), i.e.,arrplitudeinterquartis

1

3' Ouartil

Mediana

l' Ouartil

Figura 5.6 Diagrama de extremos-e-quartis

12

10

114NECESS

C640112)

~'4

) ))

,

)

I

o

4

6

2

8

-2N=

Figura 5.7 Diagrama extremos-e-quartis da variável necess (outputdo SPSS)

Page 25: (7) Bryman and Cramer Cap 5.pdf

RESUMIR OS DADOS 105

?!"ocedimento referido na página 103, o SPSSvai gerar um diagrama de tron-:~-folhas e um de extremos-e-quartis.

Qualquer destas técnicas de análise exploratória dos dados pode ser re-:omendada como um passo útil no sentido de conhecer os dados quando co-:::1eçamosa estudá-los. Deverão elas ser utilizadas como alternativa aos histo-~amas e a outras abordagens mais comuns? De facto, elas têm a desvanta-~em de serem pouco conhecidas. Das duas, o diagrama de troncos-e-folhas é,:alvez, o mais fácil de assimilar, uma vez que o diagrama extremos-e-quartis:equer a compreensão da noção de quartil e de mediana. Qualquer um deles,~ for usado para um público pouco familiarizado com estas técnicas, pode::iar algumas dificuldades; se, pelo contrário, o público os dominar, estes mé-:odos de apresentação dos dados têm muito a seu favor.

A forma de uma distribuição

-á fizémos referência em várias ocasiões à forma da distribuição. Assim, porexemplo, os valores de uma distribuição podem tender para um dos extremos)u concentrar-se no centro. Nesta secção, vamos especificar melhor os aspec-:05 ligados à forma da distribuição e introduzir conhecimentos fundamentais::>araa compreensão de alguns métodos de análise de dados que serão abor-iados em capítulos posteriores.

Os estatísticos descreveram uma série de curvas de distribuição. Amais:.mportante é sem dúvida, a distribuição normal. A distribuição normal tem a:orma de um sino. Pode tomar uma variedade de aspectos diferentes, depen-jendo do grau de dispersão dos dados. Na figura 5.8 temos exemplificadasiuas curvas características da distribuição normal. O termo "normal" pode~'lduzir em erro, porque na realidade é muito raro encontrarem-se distribui-;ões perfeitamente normais. Contudo, os valores da variável podem aproxi-:nar-se da distribuição normal e, quando isso acontece, tendemos a pensar:ceIes como se tivessem, de facto, as propriedades da distribuição normal.~.luitas das técnicas estatísticas mais comuns usadas nas ciências sociais pre-5umem que as variáveis analisadas têm uma distribuição próxima da normal\-er a discussão de testes paramétricos e não paramétricos no capítulo 7).

A distribuição normal resulta de todos os casos que abarca debaixo da5ua curva. Cinquenta por cento dos casos ficarão de um lado da média=.ritmética; os outros cinquenta por cento ficarão do outro lado (ver figura~.9).Amediana será igual à média: é por isso que a curva tem o seu pico no va-.::lI da média. Esta distribuição implica que a maior parte dos valores se situ--:emperto da média. Contudo, o prolongamento para cada um dos lados, a um:tivel cada vez mais baixo, indica que, à medida que nos afastamos da média,-:encontramoscada vez menos casos. Nas caudas da distribuição só aparecerá..Jt1aproporção mínima de valores. A altura das pessoas é uma variável que

Page 26: (7) Bryman and Cramer Cap 5.pdf

106 ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

A B

Figura 5.8 Duas distribuições normais

50%doscasos

Figura 5.9 Média e distribuição normal

pode ilustrar perfeitamente este tipo de curva. A altura média de uma mulheradulta no Reino Unido é 160.9 em. Se a altura das mulheres seguir uma distri-buição normal, a maior parte delas terá uma altura próxima da média. Muitcpoucas serão muito altas ou muito baixas. Sabemos que a altura das mulherestem estas propriedades; agora, se essa variável tem uma distribuição norma:perfeita, é já um assunto diferente.

A distribuição normal tem algumas propriedades interessantes identifi-cadas em Estatística. Estas propriedades são ilustradas na figura 5.10. Numadistribuição normal perfeita:

1) 68.26 por cento dos casos estarão entre a média e um desvio-padrão;2) 95.44 por cento dos casos estarão entre a média e dois desvios-padrão;3) 99.7 por cento dos casos estarão entre a média e três desvios-padrão.

Page 27: (7) Bryman and Cramer Cap 5.pdf

RESUMIR OS DADOS 107

~:~g~:I ~:8~oSOS

~~:~~:I~~7~oSOS

:---~.~~~l-~~-~~S-34.13% 34.13%

·3dp

·2dp

.,dp

+,dp

+2dp

+3dp

Número de desvios-padrão a partir da média

-igura 5.10 Propriedades da distribuição normal

Estas propriedades da distribuição normal são extremamente importantesquando o investigador pretende fazer inferências sobre a população a partirde uma amostra. Esta questão é o ponto central em análise no capítulo 6.

É importante ter em conta que há variáveis que não seguem o formatoda curva da distribuição normal. Por vezes, podem até afastar-se bastantedessa disposição. Essa tendência é muito clara quando os valores de uma dis-rribuição são assimétricos ou enviesados, isto é, quando tendem a concentrar-senum extremo. Quando isso acontece, a média e a mediana deixam de coinci-dir. Estas ideias são ilustradas pela figura 5.11.O diagrama da esquerda mos-tra uma curva que épositivamente assimétrica na medida em que os valores ten-dem a concentrar-se à esquerda e existe uma" cauda" longa no lado direito. Avariável necess ilustra uma distribuição positivamente as simétrica, tal comoo diagrama extremos-e-quartis da figura 5.7 sugere (a média é 24,75 e a me-diana é 20,00). No diagrama da direita, a curva é negativamente enviesada ounegativamente assimétrica. Outro tipo de disposição é a de uma distribuiçãocom mais do que um pico.

Apesar de se reconhecer que algumas variáveis, em ciências sociais, nãotêm as características da curva normal elas são, apesar disso, muitas vezestratadas como se as tivessem; é, no entanto, necessário algum cuidado quan-do existe uma discrepância marcada em relação à curva normal, como aconte-ce nos dois casos da figura 5.10. Assim, por exemplo, muitos autores

Page 28: (7) Bryman and Cramer Cap 5.pdf

108 ANÁLISE DE DADOS EM CIÊNCIAS SOCIAIS

y

Mediana Médiax

y

Média Mediana x

Distribuição positivamenteassimétrica

Distribuição negativamenteassimétrica

Figura 5.11 Distribuições positiva e negativamente enviesada

argumentariam que não seria correcto aplicar testes estatísticos que pressu-põem que os dados seguem uma distribuição normal quando as variáveis se:

distribuem de forma pronunciadamente enviesada. Muito frequentementepode examinar-se se as curvas se afastam da curva característica da distribui-ção normal através da análise de uma distribuição de frequências ou de urrhistograma.

O SPSSpermite-nos avaliar o enviesamento (Skewness), através do proce-dimento seguinte (avariável rendim vai ser utilizada a título de ilustração):

~ Analyze ~ Descriptive Statistics ~ Frequencies ... [abre a caixa dediálogo Fequences apresentada na caixa 5.3]

Frequencies: Slalislics I&'J

Continueentral TeriOencl

_.•VaJues are group roidpoíntsDPercentae Values

t1)Quartiles

01Cyt points forllQJl equal groups

Caixa 5.9 A subcaixa de diálogo Frequencies: Statistics

Page 29: (7) Bryman and Cramer Cap 5.pdf

RESUMIR OS DADOS 109

~ rendim ~ ~ [botão] ~ Statistics [abre a subcaixa de diálogo Fre-quences: Statistics apresentada na caixa 5.9]~ Skewness na caixa Distribution ~ Continue [fecha a subcaixa dediálogo Statistics]~OK

3e não houver assimetria, ou seja, se a variável for normalmente distribuída,5-€ráregistado um valor de zero ou próximo de zero. Se o valor for negativo osd.ados são negativamente assimétricos; se for positivo são positivamente assi-:nétricos. Por outro lado, este teste não é fácil de interpretar e é importante.:onfrontar a possibilidade de uma assimetria excessiva a partir da observa-;ão directa dos dados. Isto pode ser feito através de uma distribuição de fre--iuências ou através de uma representação diagramática, como um histogra-:na ou um diagrama troncos-e-folhas.

Exercícios

Qual o procedimento do SPSSnecessário para criar uma distribuição defrequências para os dados do Questionário do Trabalho referentes aprodutiv, acompanhada dos valores percentuais e da mediana?Faça correr, novamente, o procedimento que utilizou na pergunta 1.Qual a percentagem de sujeitos que fica na categoria "fraca"?Que problema pensa que poderia ocorrer se utilizasse a média comomedida de tendência central e a amplitude como medida de dispersãoda variável "dimensão da firma" no quadro 8.11?Qual das seguintes representações não deve ser usada para uma variá-vel de intervalo: a) um diagrama extremos-e-quartis; b) um diagramatroncos-e-folhas; c) um gráfico de barras ou d) um histograma?Qual o procedimento do SPSS necessário para calcular a amplitude in-terquartis da variável rendim do Questionário do Trabalho?Qual é a amplitude interquartis de satis?Em que medida o desvio-padrão é uma medida de dispersão melhor doque a amplitude interquartis?Considerando, de novo, a variável satis, qual o leque provável de valo-res de satis que se situa entre a média e dois desvios-padrão? Qual a per-centagem de casos que provavelmente cairía dentro desse intervalo devalores?