manual de técnicas e métodos quantitativos

INA – Instituto Nacional de Administração

COOPERAÇÃO CE COOPERAÇÃO CE COOPERAÇÃO CE COOPERAÇÃO CE ---- PALOP PALOP PALOP PALOP Programa PIR PALOP II

Projecto

CONSOLIDAÇÃO DAS CAPACIDADES DA ADMINISTRAÇÃO PÚBLICA

N.º IDENTIFICAÇÃO : REG/7901/013 N.° CONTABILÍSTICO : 8 ACP MTR 5 * 8 ACP TPS 126 ACORDO DE FINANCIAMENTO : 6520/REG

Manual de Técnicas e Métodos Quantitativos

Tomo - I

CO-FINANCIAMENTO

COMISSÃO EUROPEIA

Fundo Europeu de Desenvolvimento 4,8 Milhões de Euros

GOVERNO PORTUGUÊS Instituto Português de Apoio ao

Desenvolvimento 1,2 Milhões de Euros

COOPERAÇÃO CE – PALOP Programa PIR PALOP II / Projecto Consolidação das Capacidades da Administração Pública

INA – Instituto Nacional de Administração 2

Manual de Técnicas e Métodos Quantitativos (Tomo 1)

Ficha Técnica

Autor:

Rui Brites Resumo biográfico:

Rui Brites

Mestre em Sociologia, Área de Comunicação, doutorando em Sociologia (ISCTE). Professor Auxiliar Convidado do Departamento de Métodos Quantitativos do ISCTE. Investigador do CIES/ISCTE-Centro de Investigação e Estudos de Sociologia e membro do GIESTA/ISCTE-Grupo de Investigação Estatística e Análise de Dados. Foi coordenador do Centro de Informação sobre a Droga e a Toxicodependência do IPDT-Instituto Português da Droga e Toxicodependência (Agosto 2000-Julho 2002). Participa e tem participado em diversos projectos de investigação e investigação-acção, como coordenador das áreas metodológicas e de análise de dados.

Título do manual:

Manual_Métodos Quantitativos_Tomo_1.doc

Mês e Ano de elaboração: Junho de 2007 Coordenação do projecto: Cabo Verde – Unidade de Gestão do Projecto Coordenadora – Josefa Lopes Assistência Técnica e Pedagógica Portugal – Instituto Nacional de Administração – INA Gestor de Projecto – Manuel Clarote Lapão ISBN: (número internacional integrante do sistema ISBN (International Standard Book Number), a solicitar pela entidade responsável pela edição do documento, se possível).

Lisboa, Junho de 2007



Índice

Pág.

Estruturação dos capítulos 5

Introdução 6

Capítulo 1 – Amostragem 7

Objectivos 7

Palavras-chave 7

Conteúdo temático 1.1. Noções de amostragem

8

1.2. Métodos de amostragem 10

1.3. Selecção das unidades amostrais 11

1.4. Margens de erro e intervalos de confiança 12

Avaliação 15

Bibliografia 15

Capítulo 2 – Introdução ao SPSS 16

Objectivos 16

Palavras-chave 16

Conteúdo temático 2.1. Editor de dados do SPSS

17

2.2. Output do SPSS 18

2.3. Menus SPSS 19

2.4. Criação de bases de dados 22

2.5. Tratamento Preliminar de dados 22

2.5.1. Transformação algébrica de variáveis 23

2.5.2. Transformação lógica de variáveis 28

2.5.3. Inversão da escala de uma variável 29

2.5.4. Variáveis de contagem de ocorrências 30

2.6. Selecção de casos 31

Avaliação 35

Referências 36



Pág. Capítulo 3 – Estatística aplicada com SPSS 37

Objectivos 37

Palavras-chave 37

Conteúdo temático 3.1. Análise de dados univariada

38

3.1.1. Frequências 38

3.1.2. Estatísticas descritivas e gráficos de perfil 41

3.1.3. Testes de aderência (para 1 amostra) 44

3.1.3.1. χ2 (Qui-quadrado) 44

3.1.3.2. Kolmogorov-Smirnov 45

3.1.3.3 Teste t de Student 46

3.2. Análise de dados bivariada 47

3.2.1. Cruzamentos e teste de independência χ2 (Qui-quadrado) 47

3.2.2. Testes não paramétricos – procedimento Non Parametric Tests 50

3.2.2.1. Duas amostras independentes (Mann-Whitney e Kolmogorov-Smirnov) 50

3.2.2.2. K amostras independentes (Kruskal-Wallis) 52

3.2.3. Testes não paramétricos – procedimento Compare Means 54

3.2.3.1. Duas amostras emparelhadas (t de Student amostras emparelhadas) 54

3.2.3.2. Duas amostras independentes (t de Student de independência) 55

3.2.3.3. k amostras independentes (Análise de Variância Simples Paramétrica - ANOVA) 56

3.2.4. Correlação linear simples 59

3.3. Modelos de previsão 61

3.3.1. Análise de Regressão Simples 61

3.3.2. Análise de Regressão Múltipla 63

3.4. Análise de dados multivariada 66

3.4.1. Análise das Componentes Principais 66

3.4.2. Análise de Clusters 71

3.4.2.1. Análise hierárquica de Clusters 72

3.4.2.2. Análise não hierárquica de Clusters – método de optimização (K-Means) 76

3.4.3. Articulação entre a Análise das Componentes Principais r a Análise de Clusters 76

Avaliação 79

Bibliografia 79

Anexo 1: Testes de inferência estatística mais utilizados em Análise bivariada 80

Anexo 2: European Social Survey (round 1 - 2002) - Questionário adaptado 83



Estruturação dos capítulos

Em cada capítulo ou conteúdo temático, o participante visualizará uma estrutura que apresentará

as seguintes subdivisões, a saber:

�� Objectivos

Objectivo(s) específico(s), no qual cada participante conhecerá a proposta de aprendizagem a ser alcançada no final dessa mesma (sub)temática e que servirá de referência para a auto-avaliação;

�� Palavras

Palavras-chave, que pela sua relevância para a temática e como realce da atenção do participante para determinada designação ou conceito, que terá a sua definição e explicitação, no final do capítulo, no espaço reservado em Glossário.

�� Conteúdo

Conteúdo programático, onde se procurará desenvolver, de modo claro, objectivo e com rigor técnico, a (sub)temática em apreço, referenciando-se os elementos de substância, julgados mais significativos e de interesse para a aprendizagem do(a) participante(a).

�� Avaliação

Avaliação. Neste espaço será indicada a forma de avaliação do capítulo e incluída a respectiva ficha de exercício.

�� Referências

Referências. Nesta subdivisão poder-se-á encontrar uma lista de elementos bibliográficos referentes: às citações efectuadas ao longo do texto; às obras consultadas pelo(s) autor(es), i. é, livros, artigos, monografias, trabalhos académicos, endereços electrónicos, etc., que poderão ajudar no trabalho de pesquisa ou de aprofundamento de saberes de cada participante(a).



Introdução O Manual de Técnicas e Métodos Quantitativos (Tomo 1) tem como objectivo principal orientar os formandos na utilização do SPSS, constituindo-se simultaneamente como um guião da matéria leccionada e de uma ficha técnica para realização dos exercícios propostos no âmbito do Programa PIR PALOP II e do Projecto “Consolidação das Capacidades da Administração Pública”. Pretende-se, deste modo, disponibilizar aos formandos um guião que lhes permita acompanhar a sequência dos pontos do programa e as respectivas aulas. Nesse sentido, este manual não dispensa a necessidade de se tirar apontamentos nas aulas, nem a leitura e consulta de outra bibliografia, que permitirá o aprofundamento dos temas, na medida em que aqui se situam apenas os principais tópicos e as balizas das matérias abordadas. A sua utilidade para os formandos, para além da já referida, assenta ainda no facto de poder servir de apoio à elaboração de novo guião para futuras acções de formação que venham a coordenar, já como formadores. Procurou-se por isso apresentar o conteúdo dos vários pontos de uma forma clara, simples e sintética, de maneira a que o essencial seja captado neste manual, podendo ser aprofundado a partir das referências indicadas. De acordo com o programa, este manual divide-se em três capítulos, que estão obviamente relacionados intimamente:

- O primeiro pretende fornecer aos formandos elementos que lhes permitam construir uma amostra representativa e proceder à selecção aleatória das unidades amostrais.

- O segundo tem como objectivo familiarizar os formandos com o SPSS, permitindo-lhes

criar, importar e manipular bases de dados, bem como proceder ao tratamento preliminar dos dados, recodificar variáveis e construir novas variáveis a partir das variáveis originais.

- O terceiro tem como objectivo dotar os formandos de competências técnicas e estatísticas

que lhes permitam proceder à análise de dados univariada, bivariada e multrivariada, com SPSS.


Capítulo 1 –––– Amostragem

No final deste capítulo os formandos deverão ser capazes de:

1. seleccionar os tipos de amostra mais adequados a cada contexto; 2. calcular a dimensão da amostra e a margem de erro; 3. seleccionar as unidades amostrais.

- Amostra - Erro amostral - Unidades amostrais

Capítulo

1

�� Objectivos

�� Palavras



1.1. Noções de amostragem1.1. Noções de amostragem1.1. Noções de amostragem1.1. Noções de amostragem Em Estatística1, amostra é o conjunto de elementos extraídos de um conjunto maior, chamado População. É um conjunto constituído de indivíduos (famílias ou outras organizações), acontecimentos ou outros objectos de estudo que o

investigador pretende descrever ou para os quais pretende generalizar as suas conclusões ou resultados. Principais razões para se trabalhar com uma amostra:

- A população é infinita, ou considerada como tal, não podendo portanto ser analisada na íntegra;

- Custo excessivo do processo de recolha e tratamento dos dados, como resultado da grande dimensão da população ou da complexidade do processo de caracterização de todos os elementos da população;

- Tempo excessivo do processo de recolha e tratamento dos dados, conduzindo à obtenção de informação desactualizada;

- As populações são dinâmicas, de onde resulta que os elementos ou objectos da população estão em constante renovação, de onde resulta a impossibilidade de analisar todos os elementos desta população;

Se a constituição da amostra obedecer a determinadas condições, a análise das características da amostra pode servir para se fazerem inferências sobre a população. Nota: A dimensão da amostra é significativamente inferior à dimensão da população, de forma a

justificar a constituição da amostra. A amostragem é, por sua vez, um conjunto de procedimentos através dos quais se selecciona uma amostra de uma população. Pode-se dividir as técnicas de amostragem em vário tipos:

- Amostragem probabilística - procedimento em que todos os elementos da população

têm uma probabilidade conhecida e superior a zero de integrar a amostra; - Amostragem não probabilística: - Amostragem intencional - amostragem não probabilística subordinada a objectivos

específicos do investigador; - Amostragem não intencional - amostragem não probabilística regida por critérios de

conveniência e/ou de disponibilidade dos inquiridos.

1 Amostra (estatística) . In Infopédia [Em linha]. Porto: Porto Editora, 2003-2008. [Consult. 2008-01-15]. Disponível na www:

<URL: http://www.infopedia.pt/$amostra-(estatistica)>.

�� Conteúdo



Questões prQuestões préévias ao processo de amostragemvias ao processo de amostragemde natureza quantitativade natureza quantitativa

1. Definição clara dos objectivos do estudo

O que se pretende saber/conhecer melhor/compreender

2. Quem deverá ser entrevistado

População alvo* e população a inquirir

3. Quantos deverão ser entrevistados

Dimensão da amostra

4. Como serão seleccionados

Método de selecção da amostra (escolha das unidades amostrais)

*Designa-se por população alvo a totalidade dos elementos sobre os quais se deseja obter determinado tipo de informação

7

Amostra, n(unidades de observação)

Universo ou População, N(finito)

Unidades que poderiam ser observadas

Conjunto de unidades existentes às quais se aplica a teoria

Universo Hipotético(praticamente infinito)

* in: Bravo, Sierra: Técnicas de Investigación Social, Madrid, Editorial Paraninfo, 1989

RepresentaRepresentaçção de uma Amostra*ão de uma Amostra*

8



Desenvolvimento de um plano Desenvolvimento de um plano amostral*amostral*

* in: Reis, Melo, Andrade e Calapez: Estatística aplicada, vol. 2, Lisboa, Sílabo, 1999

População alvo

População a inquirir

Processo amostralDimensão da amostra

Método de recolhade dados

Amostra final

9

1.2. Métodos amostrais1.2. Métodos amostrais1.2. Métodos amostrais1.2. Métodos amostrais

MMéétodos de selectodos de selecçção da amostra*ão da amostra*


Métodos probabilísticos(amostragem casual)

•Amostragem aleatória simples

•Amostragem sistemática

•Amostragem estratificada

•Amostragem por clusters

•Amostragem multi-etapas

•Amostragem multifásica

Métodos não probabilísticos

(amostragem dirigida)

•Amostragem por conveniência

•Amostragem intencional

•Amostragem snowball

•Amostragem sequencial

•Amostragem por quotas

10



1.3. Selecção das unidades amostrais1.3. Selecção das unidades amostrais1.3. Selecção das unidades amostrais1.3. Selecção das unidades amostrais

MMéétodos de selectodos de selecçção da amostra ão da amostra ((contcont))**


Métodos probabilísticos - amostragem aleatória

Cada elemento da população tem a mesma probabilidade de ser seleccionadoAleatória simples

Cálculo do rácio K=N/n; selecção aleatória do primeiro elemento da população e sequencial dos restantes

Casual sistemática

Separação dos elementos da população em estratos e selecção aleatória dos elementos dentro de cada estrato

Estratificada

A população encontra-se dividida em clusters que são seleccionados aleatoriamente, constituindo as unidades amostraisClusters

Idêntico ao anterior mas em que as unidades amostrais são seleccionadas aleatoriamente dentro de cada cluster Multi-etapas

Numa 1ª fase recolhem-se dados sobre determinadas características dos respondentes (comportamentos e frequência de consumos, variáveis demográficas, etc.) e da sua disponibilidade para responder novamente a um inquérito. É então retirada desta fase uma sub-amostra que será inquirida na 2ª fase.

Multi-fásica

11

12

Área

6500610184013902 660Total24501706006101070Produto D27001907005501260Produto C5005023070150Produto B850200310160180Produto A

TotalOutros(Restantes distritos)

Sul (Lisboa, Setúbal e Santarém)

Centro (Coimbra, Aveiro e Leiria)

Norte(Braga e Porto)Sector

Amostra estratificada*Amostra estratificada*

* Adaptado de: Reis, Melo, Andrade e Calapez: Estatística aplicada, vol. 2, Lisboa, Sílabo, 1999

Uni

v ers

o

Área

65061184139266Total245176061107Produto D270197055126Produto C50523715Produto B8520311618Produto A

TotalOutros(Restantes distritos)

Sul (Lisboa, Setúbal e Santarém)

Centro (Coimbra, Aveiro e Leiria)

Norte(Braga e Porto)Sector

Am

o str

a ( 1

0% d

a po

pula

ção)



MMéétodos de selectodos de selecçção da amostra ão da amostra ((contcont))**


A amostra é seleccionada em função da disponibilidade e acessibilidade dos elementos que constituem a população alvo

Amostragem por conveniência

A escolha dos elementos a incluir na amostra baseia-se na opinião de uma ou mais pessoas que conhecem muito bem as características específicas da população em estudo, que se pretende analisar

Amostragem intencional

Numa 1ª fase os inquiridos são escolhidos aleatoriamente, sendo, numa segunda fase, os inquiridos adicionais escolhidos com base na informação dos primeiros

Amostragem snowball

Semelhante ao método multi-fásico. A realização da fase seguinte só é decidida depois de analisados os resultados da fase anterior.

Amostragem sequencial

Equivalente à amostragem aleatória estratificada. As proporções dos vários sub-grupos reflectem a sua distribuição dentro da população. Cada entrevistador dispõe das características que os entrevistados deverão satisfazer, terminando as entrevistas quando as quotas estiverem preenchidas.

Amostragem por quotas

Métodos não probabilísticos - amostragem dirigida

13

1.4. Erro amostral1.4. Erro amostral1.4. Erro amostral1.4. Erro amostral

DeterminaDeterminaçção da margem de erro em funão da margem de erro em funçção do não do nºº de elementos*de elementos*

in: Bravo, Sierra: Técnicas de Investigación Social, Madrid, Editorial Paraninfo, 1989 14



DeterminaDeterminaçção não nºº de elementos em funde elementos em funçção da margem de erro *ão da margem de erro *




DeterminaDeterminaçção não nºº de elementos em funde elementos em funçção da margem de erro e da ão da margem de erro e da dimensão da populadimensão da populaçção *ão *




A avaliação deste capítulo consiste num exercício escrito, de resposta às seguintes questões

Exercício de avaliação: 1) “Depois de se identificar os dados que deverão ser recolhidos e o instrumento (questionário estruturado, por exemplo) a utilizar para essa recolha, o passo seguinte consiste em definir um processo de amostragem adequado ao tipo de dados e ao instrumento de análise”2 Diga, sucintamente em que consistem os seguintes métodos de mostragem:

- Amostra aleatória simples;

- Amostra Estratificada;

- Amostra por quotas. 2) “O problema da Inferência Indutiva é, do ponto de vista da Estatística, encarado da seguinte forma: a finalidade da investigação é descobrir algo sobre determinada população ou universo”.3 Comente a frase e diga quais os procedimentos para seleccionar as unidades amostrais (sujeitos) numa amostra estratificada.

- Bravo, R. S. (1988), Técnicas de investigación social, 5ª ed. corrigida y ampliada, Madrid, Paraninfo (Secção 1).

- Reis, E., P. Melo; R. Andrade e T. Calapez (1999) Estatística

Aplicada – volume 2, Lisboa, Sílabo, 3ª edição revista. - Vicente, P.; E. Reis; F. Ferrão (2002), Sondagens-A amostragem

como factor decisivo de qualidade, Lisboa, Edições Sílabo.

2 Reis, E., P. Melo; R. Andrade e T. Calapez (1999) Estatística Aplicada – volume 2, Lisboa, Sílabo, 3ª edição revista. 3 Idem.

�� Avaliação

�� Referências



Capítulo 2 – Introdução ao SPSS

O objectivo geral deste capítulo é o de familiarizar os formandos com o SPSS, nomeadamente no que se refere:

- Janelas e menus; - Criação e manipulação de bases de dados; - Tratamento preliminar dos dados.

- Variável - Nível de medida

Capítulo

2

�� Objectivos

�� Palavras



2.1. Editor de dados do SPSS O pakage estatístico SPSS para Windows é um poderoso sistema de análises estatísticas e manuseamento de dados, em que a utilização mais frequente, para a maioria das análises a efectuar, se resume à selecção das respectivas opções em

menus e caixas de diálogo O editor de dados do SPSS (Data Editor) é composto por duas janelas sobrepostas: Data View e Variable View. A função da primeira – Data View – é a de introduzir os dados e da segunda - Variable View – é criar a estrutura da base de dados. Muda-se de uma para outra clicando no respectivo separador. O Data Editor do SPSS é um programa do tipo de folha de cálculo que permite facilmente criar ou editar ficheiros de dados. Abre automaticamente quando se entra no SPSS. O seu aspecto é o seguinte:

Janela Data View:

�� Conteúdo



Janela Variable View:

2.2. Output do SPSS (Output Viewer) É nesta janela que são apresentados todos os resultados estatísticos. Abre automaticamente sempre que um determinado procedimento gera resultados. É possível editar as tabelas e gráficos produzidos, clicando duas vezes com a tecla esquerda do rato e modificar a sua aparência.

Janela Output Viewer:



2.3. Menus do SPSS Os menus das janelas principais – Data Editor e Outpur Viewer - são idênticos e têm o seguinte aspecto visual:

Principais funcionalidades dos menus

File

Criar, abrir, ler, exportar, gravar e imprimir ficheiros.

Edit

Configuração/parametrização do SPSS (Options), inserir novas variáveis e novos casos.



View

Activar/desactivar barras de comandos, fontes, grelha, barra de status e mostrar etiquetas (labels) definidas.

Data

Alteração global dos dados; Ordenar a base; Juntar ficheiros (Merge Files); Dividir a análise por grupos (Split File); Criar subconjuntos de casos para análise (Select

Cases); Activar ponderadores (Weight Cases).

Transform

Criar novas variáveis com base nas variáveis originais; Recodificar variáveis.



Analyse

Procedimentos de análise estatística.

Graphs

Criar gráficos.

Utilities

Informação sobre as variáveis.

Window

Comuta entre janelas; Minimizar janelas

Help

Ajuda em linha; Tutorial.



2.4. Criação de bases de dados As bases de dados são criadas na janela Variable View, devendo a estrutura das variáveis obedecer às seguintes regras:

Name

- Máximo 64 caracteres (versões anteriores à 13, apenas 8); - Deve começar por uma letra; os restantes caracteres podem ser letras (maiúsculas ou minúsculas são iguais), algarismos, ou os símbolos @, #, _, $.

- Não se podem usar espaços em branco, nem os seguintes caracteres: !, ?, ‘, “, *, +, -, %, vírgula, ponto e vírgula, \, /, >, <

- Evitar terminar o nome com o caracter _ (underscore); - Evitar usar caracteres acentuados ou com til.

Type Por defeito é numérico, pode alterar-se para outro tipo, por exemplo carácter (string), data, etc

Width Nº de caracteres do campo. Por defeito, 8. Pode ser aumentado – no caso das variáveis string, até 255.

Decimals Define o número da casas decimais. Label Etiquetas dos nomes (name) das variáveis. Admite o máximo de 128 caraecteres. Values Etiquetas dos valores (códigos) das variáveis nominais ou ordinais.

Missing Define os códigos das respostas não válidas (não sabe, não responde, não tem que responder) que serão excluídas da análise.

Columns Largura da coluna de introdução de dados. Por defeito, 8. Align Permite alinhar os dados à esquerda, centro ou direita. Measures Define o nível de medida das variáveis: nominal, ordinal ou scale.

A introdução dos dados processa-se na janela Variable View após ter sido criada a estrutura da base.

2.5. Tratamento Preliminar de dados Nota: A base de dados que vamos utilizar é um extracto da base de dados do European Social

Survey (round 1)4 com os resultados da aplicação do questionário em Portugal (ficheiro ESS-Portugal 2002 (base1).sav).

4 A base de dados original está disponível em http://www.europeansocialsurvey.org/.



2.5.1. Transformação algébrica de variáveis Exemplo 1: Recodificação de variáveis Pretende-se criar duas novas variáveis: a variável idade a partir da variável f3 (data de nascimento) e recodificá-la, criando uma nova variável - idade2 - com 4 escalões: até 30 anos; 31 – 50 anos; 50 – 65 anos e > 65 anos.

a) Criação da variável idade:



A variável idade acrescentou-se à base de dados. Vamos agora proceder à sua recodificação, criando uma nova variável – idade2 – com 4 escalões5:

A variável idade2 acrescentar-se-á à base e deverá ser completada com a alteração do nível de medida (scale para ordinal) e a definição dos respectivos value labels. O resultado será o seguinte:

Idade

341 22.6 22.6 22.6

505 33.4 33.4 56.0

315 20.8 20.8 76.8

350 23.2 23.2 100.0

1511 100.0 100.0

Até 30 anos

31 - 50 anos

51 - 65 anos

> 65 anos

Total

ValidFrequency Percent Valid Percent

CumulativePercent

5 Nota: na recodificação de variáveis é recomendável manter as variáveis originais e criar novas variáveis recodificadas,

escolhendo para o efeito a opção Into diferent variable.



b) Recodificação da variável “escolaridade”: Pretende-se recodificar a variável “escolaridade” (f7) criando uma nova variável (escol) com 3 escalões: até 9 anos; 10 – 12 anos e > 12 anos.

A variável escol acrescentar-se-á à base e deverá ser completada com a alteração do nível de medida (scale para ordinal) e a definição dos respectivos value labels. O resultado será o seguinte:

Escolaridade

1046 69.2 69.2 69.2

251 16.6 16.6 85.8

212 14.0 14.0 99.9

2 .1 .1 100.0

1511 100.0 100.0

Até 9 anos

10 - 12 anos

> 12 anos

NR

Total


CumulativePercent



c) Recodificação da variável “autoposicionamento político”: Pretende-se recodificar a variável “autoposicionamento político” (b28) criando uma nova variável (b28r) com 3 escalões: esquerda; centro e direita.

A variável b28r acrescentar-se-á à base e deverá ser completada com a alteração do nível de medida (scale para ordinal) e a definição dos respectivos value labels. O resultado será o seguinte:

Autoposicionamento político

296 19.6 24.5 24.5

620 41.0 51.2 75.7

294 19.4 24.3 100.0

1211 79.9 100.0

304 20.1

1515 100.0

Esquerda

Centro

Direita

Total

Valid

SystemMissing

Total

Frequency Percent Valid PercentCumulative

Percent



Exemplo 2: criação de Índices sintéticos Pretende-se criar dois índices sintéticos: Confiança social (variáveis a8, a9 e a10) e Confiança institucional (variáveis b7, b8, b9 e b10).

As 2 variáveis acrescentaram-se à base6:

Os resultados são os seguintes:

Descriptive Statistics

1480 .0 10.0 4.316 1.7469

1338 .0 9.3 4.097 1.7603

1319

Índice sintético de Confiança social

Índice sintético de Confiança institucional

Valid N (listwise)

N Minimum Maximum Mean Std. Deviation

6 Nota: tratando-se de variáveis rácio, deverão ter casas decimais (1 ou 2).



2.5.2. Transformação lógica de variáveis Exemplo: pretende-se criar uma variável - sexid - através da transformação lógica das variáveis f2

e idade2, com 4 categorias: “homens até 30 anos”, “homens com mais de 30 anos”, “mulheres até 30 anos” e “mulheres com mais de 30 anos”.

Nota: repetir o comando para as restantes categorias, cujas expressões numéricas são as seguintes:

Categoria 2: f2 = 1 & idade2 > 2 Categoria 3: f2 = 2 & idade2 = 3 Categoria 4: f2 = 2 & idade2 > 4

A variável sexid acrescentar-se-á à base e deverá ser completada com a alteração do nível de medida (scale para ordinal) e a definição dos respectivos label e value labels. O resultado é o seguinte:

Sexo e Idade

158 10.5 10.5 10.5

472 31.2 31.2 41.7

183 12.1 12.1 53.8

698 46.2 46.2 100.0

1511 100.0 100.0

Homens até 30 anos

Homens com mais de 30 anos

Mulheres até 30 anos

Mulheres com mais de 30 anos

Total


CumulativePercent



2.5.3. Inversão da escala de uma variável

Exemplo: pretende-se criar uma nova variável (ib1) com a inversão da escala da variável interesse

pela política (b1) de modo a que 1 corresponda a “nenhum interesse” e 4 a “muito interesse”:

O resultado é o seguinte:

b1

Qual o seu interesse pela política

117 7.7 7.8 7.8

456 30.2 30.3 38.1

441 29.2 29.3 67.5

489 32.4 32.5 100.01503 99.5 100.0

6 .4

2 .1

8 .5

1511 100.0

Muito interesse

Algum interesse

Pouco interesse

Nenhum interesseTotal

Valid

Recusa

Não sabe

Total

Missing

Total


Percent

ib1


489 32.4 32.5 32.5

441 29.2 29.3 61.9

456 30.2 30.3 92.2

117 7.7 7.8 100.0

1503 99.5 100.0

2 .1

6 .4

8 .5

1511 100.0

Nenhum interesse

Pouco interesse

Algum interesse

Muito interesse

Total

Valid

Não sabe

Recusa

Total

Missing

Total


Percent



2.5.4. Variáveis de contagem de ocorrências Exemplo: pretende-se criar uma variável – partciv – que traduza o Índice de participação cívica,

que integre (conte) apenas os inquiridos que responderam sim (1) às questões b15 a b24.

A variável partciv acrescentar-se-á à base. O resultado é o seguinte:

Índice sintético de Participação cívica

1174 77.7 77.7 77.7

145 9.6 9.6 87.3

85 5.6 5.6 92.9

39 2.6 2.6 95.5

30 2.0 2.0 97.5

16 1.1 1.1 98.5

9 .6 .6 99.1

11 .7 .7 99.9

1 .1 .1 99.9

1 .1 .1 100.0

1511 100.0 100.0

0

1

2

3

4

5

6

7

9

10

Total


CumulativePercent

A interpretação é a seguinte: 77,7% (1174) inquiridos não assinalaram nenhum indicador, 9,6% (145) assinalaram apenas 1, 5,6% (85) assinalaram 2, etc.



2.6. Selecção de casos Exemplo 1: selecção de uma sub-amostra Pretende-se seleccionar (filtrar) apenas os inquiridos da região de Lisboa e Vale do Tejo (regiao=3).

Na base de dados (Data View) os registos não seleccionados (filtrados) aparecem tracejados, mantendo-se assim até que se anule a selecção (filtro). A barra de status informa que a base está filtrada:

Nota muito importante: não esquecer de desactivar o filtro quando não for necessário:



Exemplo 2: Selecção de uma amostra aleatória simples Pretende-se seleccionar uma amostra de 5% dos casos, aproximadamente:

Na base de dados (Data View) os registos não seleccionados (filtrados) aparecem tracejados, mantendo-se assim até que se anule a selecção (filtro). A barra de status informa que a base está filtrada: Nota muito importante: não esquecer de desactivar o filtro quando não for necessário:



Exemplo 3: Separar a análise por grupos Pretende-se separar a análise pelas 4 categorias (sub-amostras) da variável sexid (sexo e idade). É possível obter os resultados na mesma tabela, seleccionando a opção Compare groups ou em tabelas diferentes, com a opção Output by groups:

No primeiro caso, os resultados são os seguintes:


156 1.0 9.0 4.859 1.4670

147 .0 8.5 4.248 1.7428

145

456 .0 10.0 4.259 1.8100

440 .0 9.3 4.066 1.8441

430

182 .0 9.3 4.604 1.6277

168 .0 8.0 4.116 1.6234

167

686 .0 10.0 4.153 1.7629

583 .0 9.3 4.075 1.7401

577



Valid N (listwise)



Valid N (listwise)



Valid N (listwise)



Valid N (listwise)

Sexo e Idade

Homens até 30 anos

Homens com maisde 30 anos

Mulheres até 30anos

Mulheres com maisde 30 anos




No segundo caso seriam produzidas 4 tabelas, uma por cada categoria da variável colocada em split:

Descriptive Statisticsa

156 1.0 9.0 4.859 1.4670

147 .0 8.5 4.248 1.7428

145

Índice sintético deConfiança social

Índice sintético deConfiança institucional

Valid N (listwise)


Sexo e Idade = Homens até 30 anosa.


456 .0 10.0 4.259 1.8100

440 .0 9.3 4.066 1.8441

430



Valid N (listwise)


Sexo e Idade = Homens com mais de 30 anosa.


182 .0 9.3 4.604 1.6277

168 .0 8.0 4.116 1.6234

167



Valid N (listwise)


Sexo e Idade = Mulheres até 30 anosa.


686 .0 10.0 4.153 1.7629

583 .0 9.3 4.075 1.7401

577



Valid N (listwise)


Sexo e Idade = Mulheres com mais de 30 anosa.



Avaliação deste módulo consiste em criar uma base de dados para o excerto do seguinte questionário:

�� Avaliação



- Pereira, A. (1999), SPSS-Guia Prático de Utilização, Análise de

Dados para Ciências Sociais e Psicologia, Lisboa, Edições Sílabo, 6ª edição revista e corrigida.

- Vinacua, B. V. (2002), Análisis Estadístico con SPSS para Windows. Volumen I.

Estadística básica, Madrid, McGraw-Hill, 2ª edición.

�� Referências



Capítulo 3 – Estatística aplicada com SPSS

O objectivo geral deste capítulo é o de proceder à análise estatística de dados, nomeadamente:

o Análise univariada – frequências e distribuições; o Análise bivariada – Cruzamentos, testes de hipóteses e inferência

estatística; o Análise multivariada:

� Previsão - Regressão linear simples e múltipla; � Detectar dimensões latentes - Análise das componentes

principais; � Segmentação: Análise de Clusters

– Frequências – Cruzamentos – Testes de hipóteses – Inferência estatística – Margem de erro – Intervalo de confiança – Significância estatística

Capítulo

3

�� Objectivos

�� Palavras



3.1. Análise de dados univariada 3.1. 1. Frequências a) Utilizando o comando Frequencies

7

Variáveis de caracterização social:


Sexo

630 41.7 41.7 41.7

881 58.3 58.3 100.0

1511 100.0 100.0

Masculino

Feminino

Total


CumulativePercent

Idade

341 22.6 22.6 22.6

505 33.4 33.4 56.0

315 20.8 20.8 76.8

350 23.2 23.2 100.0

1511 100.0 100.0

Até 30 anos

31 - 50 anos

51 - 65 anos

> 65 anos

Total


CumulativePercent

Anos de escolaridade concluídos

1046 69.2 69.3 69.3

251 16.6 16.6 86.0

212 14.0 14.0 100.0

1509 99.9 100.0

2 .1

1511 100.0

Até 9 anos

10 - 12 anos

> 12 anos

Total

Valid

NRMissing

Total


Percent

7 Nota: as tabelas geradas pelo procedimento Frequencies são em formato “rascunho” destinando-se apenas ao

controlo e validação da base de dados, com o objectivo de eliminar erros de introdução de dados.

�� Conteúdo



b) Utilizando o comando Tables

Os resultados são os seguintes8:

630 41.7

881 58.3

1511 100.0341 22.6

505 33.4

315 20.8

350 23.2

1511 100.01046 69.2

251 16.6

212 14.0

2 .1

1511 100.0

Masculino

Feminino

TotalSexo

Até 30 anos

31 - 50 anos

51 - 65 anos

> 65 anos

Total

Idade

Até 9 anos

10 - 12 anos

> 12 anos

NR

Total

Anos deescolaridadeconcluídos

N %

8 Nota: o quadro foi modificado no respectivo editor, a que se acede “clicando” duas vezes sobre o mesmo.



c) Quadro de frequências (%) dos indicadores das questões d18 a d24


11.7 41.3 15.1 25.4 6.5 100.0

14.1 46.1 19.4 16.2 4.3 100.0

13.7 53.7 16.7 12.3 3.6 100.0

14.3 42.3 22.1 16.2 5.2 100.0

25.9 54.0 12.5 6.0 1.6 100.0

43.3 40.1 9.3 6.2 1.0 100.0

26.6 38.5 19.0 13.2 2.7 100.0

As pessoas que vêm viver e trabalhar para cá fazemcom que os salários baixem

As pessoas que vêm viver e trabalhar para cá, emregra, prejudicam mais as expectativas económicasdos pobres do que dos ricos

As pessoas que vêm viver e trabalhar para cáajudam a preencher lugares em que há falta detrabalhadores

Se as pessoas que vieram viver e trabalhar para cáestiverem desempregadas por muito tempo deviamser obrigadas a ir embora

As pessoas que vieram viver para cá devem ter osmesmos direitos do que todas as outras pessoas

As pessoas que vieram viver para cá cometerem umcrime grave, devem ser obrigadas a ir embora

As pessoas que vieram viver para cá cometeremqualquer crime, devem ser obrigadas a ir embora

Concordatotalmente Concorda

Nemconcorda

nemDiscorda

Discordatotalmente Total



3.1. 2. Estatísticas descritivas e gráfico de perfil Nota muito importante: A análise estatística, excepto nos quadros de frequências, deve incidir apenas nas respostas válidas. Assim, antes de efectuar qualquer análise estatística, torna-se necessário definir e activar os respectivos missing values (não responde/não sabe/não se aplica) na coluna missing da base de dados. a) Utilizando o comando Descriptives

9

Indicadores das questões d10 a d17:



1448 0 10 7.46 2.241

1449 0 10 7.11 2.442

1447 0 10 6.81 2.807

1454 0 10 6.48 2.425

1416 0 10 6.06 2.536

1466 0 10 6.05 2.633

1440 0 10 3.79 2.971

1451 0 10 2.85 2.874

1330

Ter qualificações profissionais de que o país precisa

Querer adaptar-se ao mesmo modo de vida do país

Ser rico

Ter familiares próximos a viver cá

Ter boas qualificações académicas

Saber falar a língua oficial do país

Ter formação cristã

Ser branco

Valid N (listwise)


9 Nota: as tabelas geradas pelo procedimento Descriptives são em formato “rascunho” destinando-se apenas ao

controlo e validação da base de dados, com o objectivo de eliminar erros de introdução de dados.





6.1 2.5

6.5 2.4

6.1 2.6

3.8 3.0

2.8 2.9

6.8 2.8

7.5 2.2

7.1 2.4





Ser branco

Ser rico



Média Desvio-padrão



c) Gráfico de perfil10:

0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 8.0 9.0 10.0





Ser branco

Ser rico



6.1

6.5

6.1

3.8

2.8

6.8

7.5

7.1

Nenhuma importância Muita importância

10 Para obter um gráfico interactivo de linhas, o procedimento é o seguinte: Graph/Interactive/Line, seleccionam-se

todas as variáveis em simultâneo pressionando a tecla “Ctrl” e arrastam-se para “horizontal”. O gráfico do exemplo foi editado e transformado, tendo-se alterado a escala para o formato real e a cor da linha e acrescentado as etiquetas (valores e mínimo e máximo), a grelha e a linha de referência.



3.1.3. Testes de aderência (para 1 amostra)

3.1.3.1. χ2 (Qui-quadrado) Exemplo 1: Pretende-se testar se a classe social (classe2) tem uma distribuição uniforme11 no

universo. Como a variável é nominal, o procedimento consiste em realizar o teste de aderência do χ2

(All categories equal):


Classes sociais (ACM) próprio

175 256.6 -81.6

191 256.6 -65.6

81 256.6 -175.6

413 256.6 156.4

423 256.6 166.4

1283

Empresários, dirigentese profissionais liberais

Profissionais técnicos ede enquadramento

Trabalhadoresindependentes

Empregados executantes

Operários

Total

Observed N Expected N Residual

Test Statistics

366.123

4

.000

Chi-Squarea

df

Asymp. Sig.

Classessociais (ACM)

próprio

0 cells (.0%) have expected frequencies less than5. The minimum expected cell frequency is 256.6.

a.

Interpretação: A variável classe social não segue uma distribuição uniforme no universo (χ2(4)=366,123; p=0,000).

11 Testando se as frequências observadas são iguais às frequências esperadas.



3.1.3.2. Kolmogorov-Smirnov Exemplo: Pretende-se testar se o interesse pela política (ib1) segue uma distribuição normal ou

uniforme no universo.

Como a variável é ordinal, o procedimento consiste em realizar o teste de aderência de Kolmogorov-Smirnov para as duas distribuições:


One-Sample Kolmogorov-Smirnov Test

1503

2.13

.961

.206

.206

-.198

8.001

.000

N

Mean

Std. Deviation

Normal Parametersa,b

Absolute

Positive

Negative

Most ExtremeDifferences

Kolmogorov-Smirnov Z

Asymp. Sig. (2-tailed)

Qual o seuinteresse

pela política

Test distribution is Normal.a.

Calculated from data.b.

One-Sample Kolmogorov-Smirnov Test 2

1503

1

4

.325

.325

-.078

12.613

.000

N

Minimum

Maximum

Uniform Parameters a,b

Absolute

Positive

Negative




Qual o seuinteresse

pela política

Test distribution is Uniform.a.

Calculated from data.b.

Interpretação: A variável interesse pela política não segue uma distribuição normal (K-S=8,001; p=0,000) nem uniforme (K-S=12,613; p=0,000) no universo.



3.1.3.3 Teste t de Student Exemplo: Pretende-se testar se a confiança social adere à média que corresponde ao centro da

escala (5)12 dos indicadores que compõem a variável (confsoc). Como a variável é quantitativa, o procedimento consiste em realizar o teste t de aderência (One-Sample T-Test), comparando se a média observada difere significativamente de 5:


One-Sample Statistics

1480 4.316 1.7469 .0454Índice sintético deConfiança social

N Mean Std. DeviationStd. Error

Mean

One-Sample Test

-15.073 1479 .000 -.684 -.774 -.595Índice sintético deConfiança social

t df Sig. (2-tailed)Mean

Difference Lower Upper

95% ConfidenceInterval of the Difference

Test Value = 5

Interpretação: A média observada é 4,3, diferindo significativamente da média de referência (t(1479)= -15,073; p=0,000).

12 A escala de medida dos indicadores de confiança social varia entre 0=nenhuma e 10=toda.



3.2. Análise de dados bivariada 3.2.1. Cruzamentos e teste de independência χ2 (Qui-quadrado) Exemplo 1: Pretende-se saber se há relação entre o sexo e o facto de ter comprado produtos por

razões de ordem política, ética ou ambiental. O procedimento consiste em cruzar as variáveis sexo (f2) e (b22) e solicitar o teste de independência do χχχχ2*.

a) Utilizando o comando Crosstabs


Sexo * Comprou produtos por razões de ordem política,ética ou ambiental Crosstabulation

% within Sexo

7.2% 92.8% 100.0%

7.7% 92.3% 100.0%

7.5% 92.5% 100.0%

Masculino

Feminino

Sexo

Total

Sim Não

Comprou produtos porrazões de ordempolítica, ética ou

ambiental

Total

Chi-Square Tests

.121b 1 .728

.062 1 .804

.122 1 .727

.766 .404

.121 1 .728

1495

Pearson Chi-Square

Continuity Correction a

Likelihood Ratio

Fisher's Exact Test

Linear-by-LinearAssociation

N of Valid Cases

Value dfAsymp. Sig.

(2-sided)Exact Sig.(2-sided)

Exact Sig.(1-sided)

Computed only for a 2x2 tablea.

0 cells (.0%) have expected count less than 5. The minimum expected count is46.75.

b.

* Para a selecção dos testes estatísticos, ver o Anexo 1.



Interpretação: As mulheres compram ligeiramente mais que os homens mas as diferenças não são estatisticamente significativas (χ2 (1)=0,121; p>0,05).





7.2 92.8 100.0

7.7 92.3 100.0

7.5 92.5 100.0

Masculino

Feminino

Total

SexoSim Não Total

Comprou produtos por razões deordem política, ética ou ambiental

Pearson Chi-Square Tests

.121

1

.728

Chi-square

df

Sig.

Sexo

Comprouprodutos por

razões deordem

política, éticaou ambiental

Results are based on nonempty rows andcolumns in each innermost subtable.



3.2.2. Testes não paramétricos (procedimento Non Parametric Tests)

3.2.2.1. Duas amostras independentes

(Mann-Whitney e Kolmogorov-Smirnov) Exemplo 1: Pretende-se testar se há relação entre o sexo (f2) e o interesse pela política (ib1).

O procedimento consiste na realização do teste não paramétrico para 2 amostras independentes (Mann-Whitney)13.


Ranks

628 815.82 512336.00

875 706.19 617920.00

1503

SexoMasculino

Feminino

Total

Qual o seu interessepela política

N Mean Rank Sum of Ranks

Test Statisticsa

234670.000

617920.000

-5.058

.000

Mann-Whitney U

Wilcoxon W

Z


Qual o seuinteresse

pela política

Grouping Variable: Sexoa.

Interpretação: a média das ordenações (Mean Rank) é superior nos homens. Ou seja, os homens referem que têm mais interesse pela política do que as mulheres. As diferenças são estatisticamente significativas (M-W=234670; p=0,000).

13 Consultar o Anexo 1.



Exemplo 2: Pretende-se testar se há relação entre o sexo (f2) e o grau de escolaridade (escol). O procedimento consiste na em fazer o cruzamento entre as 2 variáveis e realizar do teste não paramétrico para duas amostras independentes (Kolmogorov-Smirnov)14.





67.9 18.9 13.2 100.0

70.3 15.0 14.7 100.0

69.3 16.6 14.0 100.0

Masculino

Feminino

Total

SexoAté 9 anos 10 - 12

anos> 12 anos Total

Anos de escolaridade concluídos

Test Statisticsa

.025

.025

-.014

.476

.977

Absolute

Positive

Negative




Escolaridade

Grouping Variable: Sexoa.

Interpretação: Tanto no grau de escolaridade intermédio como no superior, verifica-se que há mais homens do que mulheres, observando-se o inverso no grau de escolaridade mais baixo. No entanto, as diferenças não são estatisticamente significativas (K-S=0,476; p>0,05). 3.2.2.2. K amostras independentes (Kruskal-Wallis) Exemplo: Pretende-se testar se há relação entre a idade (idade2) e o interesse pela política (ib1).

O procedimento consiste na realização do teste não paramétrico para k amostras independentes (Kruskal-Wallis)15.





27.4 33.6 31.9 7.1 100.0

28.0 28.8 32.9 10.3 100.0

30.7 30.4 29.7 9.3 100.0

45.8 25.1 25.6 3.5 100.0

32.5 29.3 30.3 7.8 100.0

Até 30 anos

31 - 50 anos

51 - 65 anos

> 65 anos

Total

Idade

Nenhuminteresse

Poucointeresse

Alguminteresse

Muitointeresse Total


Ranks

339 777.35

504 803.46

313 768.74

347 637.38

1503

IdadeAté 30 anos

31 - 50 anos

51 - 65 anos

> 65 anos

Total

Qual o seu interessepela política

N Mean Rank

Test Statisticsa,b

36.088

3

.000

Chi-Square

df

Asymp. Sig.

Qual o seuinteresse

pela política

Kruskal Wallis Testa.

Grouping Variable: Idadeb.

Interpretação: A média das ordenações (Mean Rank) é mais elevada nos que têm entre 31 e 50 anos, sendo este escalão, por conseguinte, que refere ter mais interesse pela política, enquanto os mais velhos são os que revelam menos interesse. As diferenças são estatisticamente significativas (K-W

(3)=36,088; p=0,000).



3.2.3. Testes paramétricos (procedimento Compare Means)

3.2.3.1. Duas amostras emparelhadas (t de Student para amostras

emparelhadas) Exemplo: Pretende-se testar se a média da confiança social (confsoc) é idêntica, ou não, à média

da confiança institucional (confinst). O procedimento consiste na realização do teste paramétrico para duas amostras emparelhadas (Paired-Samples T-Test)16.


Paired Samples Statistics

4.313 1319 1.7165 .0473

4.087 1319 1.7606 .0485



Pair 1Mean N Std. Deviation

Std. ErrorMean

Paired Samples Correlations

1319 .310 .000

Índice sintético deConfiança social &Índice sintético deConfiança institucional

Pair 1N Correlation Sig.

Paired Samples Test

.225 2.0428 .0562 .115 .336 4.009 1318 .000

Índice sintético deConfiança social -Índice sintético deConfiança institucional

Pair 1Mean Std. Deviation

Std. ErrorMean Lower Upper

95%Confidence

Interval of theDifference

Paired Differences

t df Sig. (2-tailed)




Interpretação: A média da confiança social (4,313) é ligeiramente superior à média da confiança institucional (4,087). A correlação entre as duas variáveis é média fraca (0,310) e estatisticamente significativa (p=0,000), sendo igualmente estatisticamente significativa a diferença entre as duas médias (t (1318)=4,009; p=0,000). 3.2.3.2. Duas amostras independentes

(t de Student de independência)

Exemplo: Pretende-se testar se há relação entre o sexo (f2) e a confiança social (confsoc).

O procedimento consiste na realização do teste paramétrico para duas amostras independentes (Independent-Samples T-Test)17.


Group Statistics

612 4.412 1.7476 .0706

868 4.248 1.7442 .0592

SexoMasculino

Feminino


N Mean Std. DeviationStd. Error

Mean

Independent Samples Test

.182 .669 1.781 1478 .075 .164 .0921 -.0167 .3448

1.780 1313.926 .075 .164 .0922 -.0167 .3449

Equal variances assumed

Equal variances notassumed


F Sig.

Levene's Testfor Equality of

Variances

t df Sig. (2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper

95%Confidence

Interval of theDifference

t-test for Equality of Means




Interpretação: Os homens (4,412) revelam mais confiança social que as mulheres (4,248)18, embora a diferença não seja estatisticamente significativa, (t (1480)=1,808; p> 0,05).

3.2.3.3. k amostras independentes (Análise de Variância Simples Paramétrica -

ANOVA) Exemplo: Pretende-se testar se há relação entre a idade (idade2) e a confiança social (confsoc).

O procedimento consiste na realização da Análise de Variância Simples Paramétrica (One-way Anova)19.


Descriptives


338 4.722 1.5585 .0848 4.555 4.889 .0 9.3

497 4.058 1.6747 .0751 3.911 4.206 .0 9.3

312 4.068 1.8340 .1038 3.864 4.273 .0 10.0

333 4.519 1.8500 .1014 4.319 4.718 .0 10.0

1480 4.316 1.7469 .0454 4.226 4.405 .0 10.0

Até 30 anos

31 - 50 anos

51 - 65 anos

> 65 anos

Total

N Mean Std. Deviation Std. Error Lower Bound Upper Bound

95% Confidence Interval forMean

Minimum Maximum

18 O índice de confiança social varia entre 0=nenhuma confiança e 10=toda a confiança. 19 Consultar o Anexo 1.



Test of Homogeneity of Variances


4.050 3 1476 .007

LeveneStatistic df1 df2 Sig.

ANOVA


121.466 3 40.489 13.607 .000

4391.954 1476 2.976

4513.420 1479

Between Groups

Within Groups

Total

Sum ofSquares df Mean Square F Sig.

Interpretação: São os mais novos (4,722), seguidos dos mais velhos (4,519) que mais confiam. Os escalões intermédios 31-50 anos (4,058) e 51-65 anos ( (4,068) confiam um pouco menos. As diferenças são estatisticamente significativas (F (3)=13,787; p=0,000). Nota: sendo as diferenças estatisticamente significativas, importa saber quais os grupos que diferem uns dos outros. Para o efeito realiza-se um teste à posteriori (Post Hoc). O SPSS disponibiliza vários testes para este fim, sendo os mais utilizados, o teste de Scheffe

20, no caso de as variâncias serem iguais, e o teste Games-Howell no caso de serem diferentes. Neste caso, uma vez que se rejeita a hipótese de as variâncias serem iguais (p=0,007), vamos solicitar o teste Games-Howell:

20 Que é também o mais conservador,




Multiple Comparisons

Dependent Variable: Índice sintético de Confiança social

Games-Howell

.664* .1133 .000 .372 .955

.654* .1340 .000 .308 .999

.203 .1321 .415 -.137 .544

-.664* .1133 .000 -.955 -.372

-.010 .1282 1.000 -.340 .320

-.460* .1262 .002 -.785 -.135

-.654* .1340 .000 -.999 -.308

.010 .1282 1.000 -.320 .340

-.450* .1451 .011 -.824 -.076

-.203 .1321 .415 -.544 .137

.460* .1262 .002 .135 .785

.450* .1451 .011 .076 .824

(J) IdadeAté 30 anos

31 - 50 anos

51 - 65 anos

> 65 anos

Até 30 anos

31 - 50 anos

51 - 65 anos

> 65 anos

Até 30 anos

31 - 50 anos

51 - 65 anos

> 65 anos

Até 30 anos

31 - 50 anos

51 - 65 anos

> 65 anos

(I) IdadeAté 30 anos

31 - 50 anos

51 - 65 anos

> 65 anos

MeanDifference (I-J) Std. Error Sig. Lower Bound Upper Bound

95% Confidence Interval

The mean difference is significant at the .05 level.*.

Interpretação: os grupos que diferem estatisticamente entre si estão assinalados com um *. O quadro seguinte sintetiza as diferenças significativas entre os quatro escalões etários

Até 30 anos 31-50 anos 51-65 anos > 65 anos Até 30 anos X X 31-50 anos X X 51-65 anos X X > 65 anos X X



3.2.4. Correlação linear simples A correlação linear simples permite obter uma medida (coeficiente de correlação – r de Pearson) através da qual se determina a força ou intensidade de uma associação linear entre duas ou mais variáveis quantitativas ou tratadas como tal (escalas tipo Likert). O coeficiente de correlação varia entre –1 e 121 e deve ser interpretado da seguinte forma:

0: ausência de correlação; +/- ]0 – 0,25]: correlação muito fraca; +/- ]0,25 – 0,40] correlação fraca; +/- ]0,40 – 0,60] correlação média; +/- ]0,60 – 0,75] correlação média forte; +/- ]0,75 – 0,90] correlação forte; +/- ]0,90 – 1[ correlação muito forte; +/- 1 correlação perfeita

Exemplo: Correlação entre as variáveis satisfação com a vida (b29), com a economia (b30), com o

Governo (b31), com a democracia (b32), com a educação (b33) e com os serviços de saúde (b34):

21 O sinal – significa uma correlação negativa e a ausência de sinal uma correlação positiva.




Correlations

.339**

.000

1441

.280** .578**

.000 .000

1413 1392

.348** .403** .507**

.000 .000 .000

1371 1353 1339

.205** .361** .289** .300**

.000 .000 .000 .000

1429 1389 1367 1338

.195** .396** .340** .294** .537**

.000 .000 .000 .000 .000

1489 1440 1412 1370 1433

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Satisfação com avida em geral

Economia

Governo

Democracia

Educação

Serviços de Saúde

Satisfaçãocom a vidaem geral Economia Governo Democracia Educação

Serviçosde Saúde

Correlation is significant at the 0.01 level (2-tailed).**.

Interpretação: as correlações são positivas e significativas entre todas as variáveis ; (p=0,000), sendo a menor entre a satisfação com a vida e com a educação (0,209e a maior entre a satisfação com o Governo e com a economia (0,577



3.3. Modelos de previsão 3.3.1. Análise de Regressão Simples A regressão linear, como referem Bryman e Cramer, “é um poderoso instrumento para resumir a

natureza da associação entre variáveis e para fazer previsões acerca dos valores da variável

dependente”.22 Na regressão linear simples, o objectivo é sintetizar a associação entre duas variáveis (independente e dependente), produzindo uma linha (recta de regressão) que se aproxime dos dados recolhidos. Ou seja, prever Y (variável dependente) a partir de X (variável independente). Exemplo: pretende-se saber em que medida é que a confiança social (confsoc) – variável

independente – explica a confiança institucional (confinst) – variável dependente. O procedimento consiste na realização da Análise de regressão linear simples entre as duas variáveis:

22 Alan Bryman e Duncan Cramer, op.cit.: 212




Model Summary

.310a .096 .095 1.6746Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Índice sintético de Confiançasocial

a.

ANOVAb

392.354 1 392.354 139.912 .000a

3693.263 1317 2.804

4085.617 1318

Regression

Residual

Total

Model1


Predictors: (Constant), Índice sintético de Confiança sociala.

Dependent Variable: Índice sintético de Confiança institucionalb.

Coefficientsa

2.716 .125 21.778 .000

.318 .027 .310 11.828 .000

(Constant)


Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig.

Dependent Variable: Índice sintético de Confiança institucionala.

Interpretação: A correlação entre as variáveis é fraca (R=0,310) e o coeficiente de determinação é muito fraco (R2=0,096)23. Ou seja, apenas 9,6% da variação da confiança institucional – variável dependente – é explicada pela variação da confiança social – variável independente. O teste F (quadro Anova) dá-nos informação sobre a adequabilidade do modelo, testando a hipótese do coeficiente de determinação R

2 ser 0 na população. Neste caso (F (1)=141,178; p=0,000), rejeita-se a hipótese de isso acontecer. Os testes t (no quadro dos Coefficients), testam a nulidade dos coeficientes. No primeiro caso (t=115,605; p=0,000) testa a probabilidade de a constante (recta de regressão na origem) ser 0, e no segundo caso testa a probabilidade do coeficiente de regressão ser 0. A recta da regressão24, neste caso, é a seguinte: Confiança institucional = 2,716 + 0,318 confiança social.

23 O coeficiente de determinação quantifica a percentagem de variação da variável dependentes que é explicada pela

variação da variável independente. 24 A equação simplificada da recta da regressão é a seguinte: Yi = ββββ0 + ββββ1 Xi, em que Yi é a variável dependente, ββββ0 é a

ordenada na origem, ββββ1 é o coeficiente de regressão e Xi é a variável independente.



3.3.2. Análise de Regressão Múltipla A regressão, como referem Bryman e Cramer, “é um poderoso instrumento para resumir a

natureza da associação entre variáveis e para fazer previsões acerca dos valores da variável

dependente”.25 No nosso exemplo vamos usar a análise de regressão múltipla – em concreto a linear – para modelar a relação entre as variáveis independentes e a variável dependente26. Exemplo: com base nos dados do ESS, pretende-se saber se os níveis de satisfação com o estado

da Economia portuguesa (b30), com a forma como o Governo tem governado (b31), com a qualidade da Democracia (b32), com o estado da Educação (b33) e com os Serviços de Saúde (b33) são, ou não, predictores da satisfação com a vida em geral

(b29):

Variável dependente

Variáveis independentes

(b30, b31, b32, b33 e b34) Método: Stepwise

(Neste método entram no modelo apenas as variáveis independentes com significância estatística, por ordem de importância.) Nota: é habitual usar-se o método ENTER quando se pretende testar um modelo e o método Stepwise em contextos exploratórios, como é o caso.

25 Bryman, A. e D. Cramer, Análise de Dados em Ciencias Sociais, Oeiras, Celta, 2003. 26 Quando se associa às variáveis o estatuto de independentes e dependente pretende-se analisar mais do que a

associação entre elas (entenda-se variação conjunta), descrever e explicar uma relação de dependencia que deverá ser teóricamente fundamentada.



Procedimentos seleccionados: • Informação sobre a significância

estatística da mudança de R2;

• Informação sobre multicolinearidade;

• Intervalo de confiança para cada um dos coeficientes de regressão

Resultado:

Variables Entered/Removed a

Democracia .Stepwise (Criteria: Probability-of-F-to-enter<= .050, Probability-of-F-to-remove >= .100).

Economia .Stepwise (Criteria: Probability-of-F-to-enter<= .050, Probability-of-F-to-remove >= .100).

Model1

2

VariablesEntered

VariablesRemoved Method

Dependent Variable: Satisfação com a vida em gerala.

• Variáveis que entraram nos modelos

ANOVAc

760.940 1 760.940 174.812 .000a

5610.899 1289 4.353

6371.839 1290

1051.123 2 525.562 127.224 .000b

5320.716 1288 4.131

6371.839 1290

Regression

Residual

Total

Regression

Residual

Total

Model1

2


Predictors: (Constant), Democraciaa.

Predictors: (Constant), Democracia, Economiab.

Dependent Variable: Satisfação com a vida em geralc.

O objectivo do teste F é verificar se a variável independente influencia a variável dependente no universo. O que equivale a detectar se o modelo ajustado é ou não significativo. Permite inferir sobre a adequabilidade do modelo linear para explicar a relação entre as duas variáveis.

Model Summary

.346a .119 .119 2.086 .119 174.812 1 1289 .000

.406b .165 .164 2.032 .046 70.245 1 1288 .000

Model1

2

R R SquareAdjustedR Square

Std. Error ofthe Estimate

R SquareChange F Change df1 df2 Sig. F Change

Change Statistics

Predictors: (Constant), Democraciaa.

Predictors: (Constant), Democracia, Economiab.

Coeficiente de correlação múltipla em módulo

% de variação da satisfação com a vida em geral explicada pelas variáveis independentes que entraram no modelo Nota: Em modelos com mas do que 1 variável independente deve interprtar-se o R2 ajustado

Contributo das variáveis independentes para a mudança verificada no R2

;

Teste F e respectiva significância estatística



Coefficientsa

4.221 .133 31.764 .000 3.960 4.481

.350 .026 .346 13.222 .000 .298 .402 1.000 1.000

3.841 .137 28.013 .000 3.572 4.110

.254 .028 .251 9.002 .000 .199 .309 .835 1.197

.276 .033 .234 8.381 .000 .212 .341 .835 1.197

(Constant)

Democracia

Economia

(Constant)

Democracia

Economia

Model1

2

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig. Lower Bound Upper Bound

95% Confidence Interval forB

Tolerance VIF

CollinearityStatistics

Dependent Variable: Satisfação com a vida em gerala.

Coeficientes de regressão standardizados e não standardizados que permitem escrever a equação da recta: Satisfação com a vida = 3,841 + 0,254 satisfação com a democracia + 0,276 satisfação com a economia.

Quando a tolerância é baixa, a correlação múltipla é elevada e existe a possibilidade de multicolinearidade. Com estes valores, a probabilidade de isso acontecer é baixa. Varia entre [0, 1] e quanto mais perto de 0 maior será a multicolinearidade entre certa variável independente e as outras variáveis independentes.



3.4. Análise de dados multivariada 3.4.1. Análise das Componentes Principais A Análise das Componentes Principais é um dos métodos de redução de dados mais comum no marketing e em pesquisas de mercado. É “uma técnica de análise exploratória multivariada que transforma um conjunto de variáveis correlacionadas entre si num conjunto menor de variáveis independentes, combinações lineares das variáveis originais, designadas por componentes principais”27. No essencial, o seu objectivo “é identificar novas variáveis, em número menor que o conjunto inicial, mas sem perda significativa da informação contida neste conjunto”28. No nosso exemplo, pretendemos identificar as “componentes principais” latentes nos 8 indicadores relativos às atitudes face à imigração (d10 + d11 + d12 + d13 + d14 + d15 + d16 + d17). Vamos começar por solicitar uma ACP com a extracção das componentes por defeito (critério de Kaiser: valor próprio das componentes ≥ a 1).

• Selecção das variáveis;

27 Moroco, J. Análise Estatística com utilização do SPSS, Lisboa, Sílabo, 2003: 231. 28 Reis, E., Análise factorial das componentes principais: um método de reduzir sem perder informação, Lisboa

Giesta/Iscte, 1990.



• Kaiser-Meyer-Olkin: quantifica o nível de intercorrelações entre as variáveis;

• Testa a hipótese de a matriz de correlações na população ser a matriz identidade.

• Critério de Kaiser de extracção das componentes que o SPSS usa por defeito. São extraídas as componentes com valores próprias superiores a 1. Cada componente deve contribuir para a variância, como se de uma variável de input se tratasse.

• Rotação das componentes e respectiva matriz. Nota: tem o objectivo de ajudar a interpretar as componentes

• Ordena a matriz rodada por ordem decrescente da contribuição de cada variável para a componente;



Adequabilidade da ACP:

KMO Qualidade da ACP 1 – 0,9 Muito boa

0,8 – 0,9 Boa

0,7 – 0,8 Média

0,6 – 0,7 Razoável

0,5 –0,6 Má

KMO and Bartlett's Test

.812

3474.721

28

.000

Kaiser-Meyer-Olkin Measure of SamplingAdequacy.

Approx. Chi-Square

df

Sig.

Bartlett's Test ofSphericity

>0,5 Inaceitável

De acordo com os resultados da estatística KMO (0,812) e do teste de esfericidade de Bartlett (p=0,000), a adequabilidade da ACP é boa.

Total Variance Explained

3.518 43.975 43.975 3.518 43.975 43.975 3.007 37.587 37.587

1.283 16.043 60.018 1.283 16.043 60.018 1.795 22.432 60.018

.978 12.230 72.248

.539 6.739 78.987

.493 6.165 85.153

.419 5.244 90.396

.391 4.885 95.282

.377 4.718 100.000

Component1

2

3

4

5

6

7

8

Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %

Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings

Extraction Method: Principal Component Analysis.

Como podemos observar, por defeito foram extraídas duas componentes, que explicam cerca de 60% da variância total. Verificando-se que a terceira componente tem uma valor próprio próximo de 1 (0,984) e que aumenta a variância explicada em 12,3%, vamos forçar a sua extracção e gravar as três componentes extraídas como novas variáveis:



• Cria novas variáveis compostas pelos scores factoriais das componentes extraídas.



6.11 2.527 1330

6.44 2.407 1330

6.01 2.615 1330

3.77 2.906 1330

2.82 2.825 1330

6.77 2.812 1330

7.45 2.247 1330

7.07 2.448 1330





Ser branco

Ser rico



MeanStd.

DeviationAnalysis

N

KMO and Bartlett's Test

.812

3474.721

28

.000

Kaiser-Meyer-Olkin Measure of SamplingAdequacy.

Approx. Chi-Square

df

Sig.

Bartlett's Test ofSphericity

Communalities

1.000 .590

1.000 .788

1.000 .719

1.000 .756

1.000 .786

1.000 .722

1.000 .749

1.000 .669





Ser branco

Ser rico



Initial Extraction


As Comunalidades representam a proporção de variância da variável explicada pelas componentes. Variáveis com comunalidades reduzidas (0,3 ou inferior) são pouco explicadas pelas componentes e contribuem pouco para a sua definição.

Total Variance Explained

3.518 43.975 43.975 3.518 43.975 43.975 2.152 26.898 26.898

1.283 16.043 60.018 1.283 16.043 60.018 1.951 24.389 51.287

.978 12.230 72.248 .978 12.230 72.248 1.677 20.961 72.248

.539 6.739 78.987

.493 6.165 85.153

.419 5.244 90.396

.391 4.885 95.282

.377 4.718 100.000

Component1

2

3

4

5

6

7

8

Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %

Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings




Rotated Component Matrixa

.785 .361 -.053

.775 .244 .089

.771 -.014 .358

.110 .880 .047

.260 .741 .319

.487 .587 .090

.124 .011 .878

.094 .305 .809



Ser rico




Ser branco


1 2 3

Component

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

Rotation converged in 4 iterations.a.

Foram extraídas 3 componentes (factores), que explicam 72,25% da variância total. A matriz rodada29 ajuda-nos a identificar e a designar as componentes: – Componente 1: recursos profissionais e económicos; – Componente 2: facilidades de integração; – Componente 3: características raciais e religiosas. – Caracterização social das três “Componentes Principais”

Masculino

Feminino

Sexo

Recursos profissionais e económicosFacilidades de integração

Características raciais e religiosas

-0,05

0,00

0,05

méd

ia

Até 30 anos

31 - 50 anos

51 - 65 anos

> 65 anos

Idade



-0,20

0,00

0,20

méd

ia

29 O SPSS utiliza várias formas de rotação, sendo a mais usada a rotação Varimax, de modo a permitir uma mais fácil

interpretação dos factores, pois torna os loadings elevados ainda mais elevados e os loadings baixos ainda mais baixos. Para a interpretação das componentes consideram-se os loadings mais correlacionados com as mesmas. Em geral, consideram-se bons os loadings maiores ou iguais a 0,5, por serem pelo menos responsáveis por 25% da variância. (cfr. Pestana e Gageiro, Análise de Dados para as Ciências Sociais – A complementaridade do SPSS, Lisboa, Sílabo, 3ª edição, 2003: 504.



Até 9 anos

10 - 12 anos

> 12 anos

Escolaridade



-0,40

-0,30

-0,20

-0,10

0,00

0,10

méd

ia

Esquerda

Centro

Direita

Autoposicionamento político



-0,10

0,00

0,10

méd

ia

3.4.2. Análise de Clusters

De acordo com Moroco,30 “a análise de Clusters é uma técnica multivariada que não possui sólidos fundamentos teóricos e que procura agrupar objectos mais ou menos homogéneos segundo critérios mais ou menos heurísticos”. A classificação dos sujeitos em cada um dos clusters é, regra geral, mais rigorosa nos métodos não-hierárquicos do que nos hierárquicos, podendo a validade das soluções obtidas com os métodos hierárquicos – segundo Elizabeth Reis – tornar-se bastante limitada. Alguns autores propõem, por isso, a utilização de métodos não-hierárquicos de optimização que permitam a partição dos indivíduos num número pré definido de grupos. A questão de determinação do número de grupos pré definido é, no entanto, um dos principais problemas a resolver numa análise de clusters. Uma forma simples é a análise do Dendrograma que, no entanto, só está disponível no método hierárquico, resumindo-se a sua utilidade apenas em amostras de pequena dimensão. Quando não é esse o caso, ou se se pretende usar um método não-hierárquico, poder-se-á utilizar primeiro um método hierárquico aglomerativo para determinação do número de grupos e depois utilizar um método não-hierárquico para optimizar a solução encontrada. Uma forma de obviar à limitação do dendrograma na determinação do número de grupos, é proceder à representação gráfica dos coeficientes de aglomeração mais elevados31, que denotam,

30 Cfr. Reis, Elizabeth, A Análise de Clusters e as Aplicações às Cíências Empresariais: Uma Visão Crítica da Teoria

dos Grupos Estratégicos, in Elizabeth Reis e Manuel Alberto M. Ferreira (eds.) Temas em Métodos Quantitativos 1, Lisboa, Sílabo, 2000: 206-238 e Moroco, João, Análise Estatística com utilização do SPSS, Lisboa, Sílabo, 2003

31 Estes coeficientes são o valor numérico para o qual vários indivíduos ou grupos se unem para formarem um novo grupo e são disponibilizados pelo SPSS no método hierárquico (Aglomeration Schedule).



por conseguinte, maiores distâncias, “onde a escolha óptima do número de grupos coincidirá com uma marcada horizontalidade da curva”32. 3.4.2.1. Análise hierárquica de Clusters (Hierarquical Cluster) Exemplo: pretende-se seleccionar e criar clusters com base nos 8 indicadores relativos às atitudes

face à imigração (d10 + d11 + d12 + d13 + d14 + d15 + d16 + d17)

• Selecção das variáveis; • Para obter os coeficientes de

aglomeração • Desactivar “Plots”, pois o

Dendrograma seria demasiado extenso para poder ser interpretado.

Escolha do Método Betwen-groups linkage (Distância média entre grupos): a distância do 1º cluster aos restantes objectos é a média das distâncias de cada um dos elementos que constituem o cluster a cada um dos restantes objectos. • Melhor performance com dados com grande dispersão; • Influenciado por outliers; • Tendência para produzir clusters com variâncias

homogéneas. Within-groups linkage: Este método é semelhante à “Distância média entre grupos” mas os clusters são unidos de modo a que a variabilidade dentro dos grupos seja mínima. Nearest Neighbor (Vizinho mais próximo): a distância do 1º cluster aos restantes objectos, é a menor das distâncias de cada um dos elementos que constituem o cluster a cada um dos restantes objectos. • Tendência para formar clusters alongados; • Menos influenciado por outliers; Furthest Neighbor (Vizinho mais distante): a distância do 1º cluster aos restantes objectos, é a maior das distâncias de cada um dos elementos que constituem o cluster a cada um dos restantes objectos. • Menos influenciado por outliers; Centroid clustering: a distância entre dois grupos é a diferença entre as suas médias para todas as variáveis. • Pior performance com dados com grande dispersão • Menos influenciado por outliers;

Escolhemos o Ward’s method, pois, sendo um dos métodos mais usado, tem tendência para

Median clustering (Distância mediana): A distância entre dois objectos é a mediana das distâncias de cada um dos elementos que constituem o cluster a cada um dos restantes objectos.

32 Reis, op.cit.



constituir grupos com dimensões idênticas. Ward’s method: optimiza a variância mínima dentro dos grupos, agrupando os objectos que provoquem um aumento mínimo da soma dos quadrados dos erros. • Boa performance com dados com grande dispersão; • Influenciado por outliers • Tendência para produzir clusters com dimensão

semelhante.

Para a identificação do nº de clusters, vamos representar graficamente (em Excel) as diferenças entre os 30 coeficientes de aglomeração com valor mais elevado, produzidos pelo SPSS (Agglomeration schedule).



Optamos por uma solução de 4 clusters.33 Deveremos agora repetir os procedimentos anteriores no SPSS, desactivar Statistics34 e solicitar a opção Save, assinalando o nº de clusters que pretendemos:

A variável CLU4-1 (primeira solução com 4 clusters) acrescentou-se à base de dados, tendo sido completada com os respectivos label.

O nº de elementos em cada cluster é o seguinte:

CLU4_1 Clusters d10 a d17 (Ward Method)

498 33.0 37.4 37.4

299 19.8 22.5 59.9

423 28.0 31.8 91.7

110 7.3 8.3 100.0

1330 88.0 100.0

181 12.0

1511 100.0

Cluster 1

Cluster 2

Cluster 3

Cluster 4

Total

Valid

SystemMissing

Total


Percent

33 Pois são os que apresentam maior distância entre si. No entanto, seria sempre possível ensaiar soluções com mais

clusters. No essencial, mais clusters significam mais homogeneidade entre os seus elementos e menos clusters menos homogeneidade.

34 Uma vez que já não necessitamos dos coeficientes de aglomeração.



3.4.2.2. Análise não-hierárquica de Clusters - Método de optimização

(K-Means Cluster)

Exemplo: pretende-se seleccionar e criar clusters com base nos 8 indicadores relativos às atitudes

face à imigração (d10 + d11 + d12 + d13 + d14 + d15 + d16 + d17)

1. Selecção das variáveis;

2. Indicação do nº de Clusters pretendidos (vamos indicar 4, de acordo com o processo anterior)

3. Criação de uma nova variável que regista a pertença de cada observação ao cluster respectivo

A variável QCL_1 (primeira solução com 4 clusters) acrescentou-se à base de dados, tendo sido completada com os respectivos label.


QCL_1 Clusters d10 a d17 (K-Means)

334 22.1 25.1 25.1

459 30.4 34.5 59.6

324 21.4 24.4 84.0

213 14.1 16.0 100.0

1330 88.0 100.0

181 12.0

1511 100.0

Cluster 1

Cluster 2

Cluster 3

Cluster 4

Total

Valid

SystemMissing

Total


Percent



3.4.3. Articulação entre a Análise das Componentes Principais e a

Análise de Clusters Para este exemplo interessa saber, no entanto, que “a análise de clusters é uma técnica multivariada que não possui sólidos fundamentos teóricos e que procura agrupar objectos mais ou menos homogéneos segundo critérios mais ou menos heurísticos” 35. Exemplo: Pretende-se criar três clusters (grupos homogéneos) com base nas três componentes

principais obtidas no exercício anterior. Trata-se de um método de classificação (classifica indivíduos), cujo procedimento, que vai ser descrito detalhadamente no capítulo 5, é o seguinte:

a) Criação dos clusters

Acrescentou-se à base de dados uma nova variável com 3 categorias, que designámos de Cluster 1, Cluster 2 e Cluster 3, que agrupa os indivíduos com valores semelhantes nas três Componentes36

35 Moroco, J. Análise Estatística com utilização do SPSS, Lisboa, Sílabo, 2003. 36 Nota: como se torna evidente, os valores são mais ou menos semelhantes quantos mais ou menos clusters criarmos.

Ou seja, mais clusters significa mais homogeneidade entre os clusters.



O nº de elementos em cada cluster é o seguinte:

Clusters Fac1_1+Fac1_2+Fac1_3 (Ward Method)

480 31.8 36.1 36.1

624 41.3 46.9 83.0

226 15.0 17.0 100.0

1330 88.0 100.0181 12.0

1511 100.0

Cluster 1

Cluster 2

Cluster 3

Total

Valid

SystemMissing

Total


Percent

b) Caracterização dos clusters segundo as variáveis de input

Cluster 1

Cluster 2

Cluster 3



-1.50

-1.00

-0.50

0.00

0.50

1.00

(Méd

ias)

Interpretação:

– Cluster 1: dá importância abaixo da média aos “recursos profissionais e económicos” e às “características raciais e religiosas” e acima da média às “facilidades de integração”;

– Cluster 2: dá importância acima da média aos “recursos profissionais e económicos” e às “características raciais e religiosas” e média às “facilidades de integração”;

– Cluster 3: dá importância média aos “recursos profissionais e económicos” e abaixo da média às “facilidades de integração” e às “características raciais e religiosas”.



c) Caracterização social dos clusters

211 44.0 252 40.4 106 46.9 569 42.8

269 56.0 372 59.6 120 53.1 761 57.2

480 100.0 624 100.0 226 100.0 1330 100.0

148 30.8 117 18.8 51 22.6 316 23.8

179 37.3 197 31.6 93 41.2 469 35.3

88 18.3 147 23.6 44 19.5 279 21.0

65 13.5 163 26.1 38 16.8 266 20.0

480 100.0 624 100.0 226 100.0 1330 100.0

272 56.7 470 75.4 150 66.4 892 67.1

100 20.8 102 16.4 39 17.3 241 18.1

108 22.5 51 8.2 37 16.4 196 14.7

480 100.0 623 100.0 226 100.0 1329 100.0

111 27.3 117 22.5 47 27.6 275 25.1

211 52.0 265 50.9 89 52.4 565 51.5

84 20.7 139 26.7 34 20.0 257 23.4

406 100.0 521 100.0 170 100.0 1097 100.0

Masculino

Feminino

TotalSexo

Até 30 anos

31 - 50 anos

51 - 65 anos

> 65 anos

Total

Idade

Até 9 anos

10 - 12 anos

> 12 anos

Total


Esquerda

Centro

Direita

Total

Autoposicionamentopolítico

N %

Cluster 1

N %

Cluster 2

N %

Cluster 3

N %

Total

d) Distribuição dos indivíduos pelos clusters, segundo características sócio-demográficas

211 37.1 252 44.3 106 18.6 569 100.0

269 35.3 372 48.9 120 15.8 761 100.0

480 36.1 624 46.9 226 17.0 1330 100.0148 46.8 117 37.0 51 16.1 316 100.0

179 38.2 197 42.0 93 19.8 469 100.0

88 31.5 147 52.7 44 15.8 279 100.0

65 24.4 163 61.3 38 14.3 266 100.0

480 36.1 624 46.9 226 17.0 1330 100.0272 30.5 470 52.7 150 16.8 892 100.0

100 41.5 102 42.3 39 16.2 241 100.0

108 55.1 51 26.0 37 18.9 196 100.0

480 36.1 623 46.9 226 17.0 1329 100.0111 40.4 117 42.5 47 17.1 275 100.0

211 37.3 265 46.9 89 15.8 565 100.0

84 32.7 139 54.1 34 13.2 257 100.0

406 37.0 521 47.5 170 15.5 1097 100.0

Masculino

Feminino

TotalSexo

Até 30 anos

31 - 50 anos

51 - 65 anos

> 65 anos

Total

Idade

Até 9 anos

10 - 12 anos

> 12 anos

Total


Esquerda

Centro

Direita

Total

Autoposicionamentopolítico

N %

Cluster 1

N %

Cluster 2

N %

Cluster 3

N %

Total



– A avaliação deste capítulo consiste na avaliação da participação nas aulas e da realização dos exercícios que compõem o seu conteúdo.

– Aranaz, M. F. (2001), SPSS para Windows. Análise Estadístico,

Madrid, McGraw-Hill. – Bryman, A. e D. Cramer (2003), Análise de Dados em Ciências

Sociais – Introdução às Técnicas Utilizando o SPSS para

Windows, Lisboa, Celta (3ª edição). – Moroco, J. (2003) Análise Estatística com utilização do SPSS,

Lisboa, Edições Sílabo, 3ª edição. – Pereira, A. (1999), SPSS-Guia Prático de Utilização, Análise de Dados para Ciências

Sociais e Psicologia, Lisboa, Edições Sílabo, 6ª edição revista e corrigida. – Pestana, M. H. e J. N. Gageiro (2000), Análise de Dados para as Ciências Sociais – A

Complementaridade do SPSS, Lisboa, Sílabo, 2ª edição revista e aumentada. – Rada, Vidal Díaz (2002), Técnicas de Análise Multivariante para Investigación Social

e Comercial, Madrid, RA-MA. – Reis, E., Análise factorial das componentes principais: um método de reduzir sem

perder informação, Lisboa Giesta/Iscte, 1990. – Vaus, D (2004), Analysing Social Science Data, London, Sage Publications. – Vinacua, B. V. (2002), Análisis Estadístico con SPSS para Windows

. Volumen I. Estadística básica, Madrid, McGraw-Hill, 2ª edición.

– Vinacua, B. V. e J. C. M Canas (2002), Análisis Estadístico con SPSS para Windows.

Volumen II. Estadística multivariante, Madrid, McGraw-Hill, 2ª edición.

�� Avaliação

�� Referências



ANEXO 1ANEXO 1ANEXO 1ANEXO 1

Testes de inferência estatística mais utilizados

em

Análise de dados bivariada


ANEXO 2ANEXO 2ANEXO 2ANEXO 2

European Social Survey

(round 1 - 2002)

Questionário adaptado

http://www.europeansocialsurvey.org/

manual de técnicas e métodos quantitativos

Documents