atlas brasil 2013 dimensÃo educaÇÃo e outras … · melhor explicadas na tabela 1. ressalta-se...

PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

Faculdade de Economia, Administração, Contabilidade e Atuariais.

ATLAS BRASIL 2013

DIMENSÃO EDUCAÇÃO E OUTRAS VARIÁVEIS

Disciplina: Métodos Quantitativos

Professor: Dr. Arnoldo Jose de Hoyos

Amalia Costa Farias

1º Semestre 2014

1. INTRODUÇÃO

O presente trabalho tem por objetivo efetuar uma análise exploratória na dimensão

Desenvolvimento Humano dos dados apresentados na plataforma Atlas Brasil. Para tanto, o

relatório utilizado para análise da dimensão Desenvolvimento Humano no Atlas Brasil 2013,

que é apresenta o Índice de Desenvolvimento Humano Municipal – IDHM - de 5.565

municípios brasileiros, além de mais de 180 indicadores de população, educação, habitação,

saúde, trabalho, renda e vulnerabilidade, com dados extraídos dos Censos Demográficos de

1991, 2000 e 2010.1

Para iniciar o entendimento dos dados que tem como foco o relatório Atlas Brasil 2013

(dados 2010), incluindo a definição das variáveis, suas classificações em variáveis categóricas

ou quantitativas, os significados e unidades de medida, além da apresentação da tabela de

dados. Na seqüência, analisamos cada uma das variáveis separadamente quanto a sua forma

de distribuição, os valores atípicos, medidas de centro e dispersão. Para tal contamos com o

auxílio de gráficos (pie chart, barras, histogramas, gráficos de ramos, box-plot, dot-plot e

curvas de densidade) e de medidas numéricas (média, mediana, quartis, desvio-padrão,

variância, intervalo de confiança e teste de normalidade de Anderson-Darling). No final,

buscamos comparar as análises efetuadas para cada variável. O software estatístico utilizado é

o MINITAB 16.

2. ENTENDENDO OS DADOS

2.1 – OS INDIVÍDUOS.

Os indivíduos deste trabalho são os municípios brasileiros, que serão analisados pelos

seus indicadores relativo à dimensão Desenvolvimento Humano presentes no relatório Atlas

Brasil 2013, dados referentes ao ano de 2010. Este sujeito da análise é composto por um total

de 5565 municípios brasileiros e os dados analisados de cada município são as variáveis que

serão descritas na próxima seção.

Quanto à dimensão Desenvolvimento Humano, esta está relacionada ao processo de

ampliação das liberdades das pessoas, no que tange as suas capacidades e as oportunidades a

seu dispor, para que elas possam escolher a vida que desejam ter. O processo de expansão

destas liberdades inclui as dinâmicas sociais, econômicas, políticas e ambientais necessárias

para garantir uma variedade de oportunidades, bem como o ambiente propício para cada um

exercer na plenitude o seu potencial.

Deste modo, o Desenvolvimento Humano deve estar centrado nas pessoas e na

ampliação do seu bem-estar. Nesta abordagem, a renda e a riqueza não são fins em si mesmas,

mas meios para que as pessoas possam viver a vida que desejam. Assim, o crescimento

econômico de uma sociedade não se traduz automaticamente em qualidade de vida e, muitas

vezes, o que se observa é o reforço das desigualdades.

1 Cf. http://www.atlasbrasil.org.br/2013/

Portanto, é preciso que o crescimento econômico seja transformado em conquistas

concretas para as pessoas, por meio de ações que proporcionem uma realidade que apresente

crianças mais saudáveis, educação universal e de qualidade, ampliação da participação

política dos cidadãos, preservação ambiental, equilíbrio da renda e das oportunidades entre

toda a população, maior liberdade de expressão, entre outras. Além disso, ao colocar as

pessoas no centro da análise, a abordagem de desenvolvimento humano redefine a maneira

com que pensamos e lidamos com o desenvolvimento de forma nacional e local, ou seja, no

âmbito dos municípios.

2.2 As Variáveis

São 13 as variáveis desta pesquisa, incluindo a Unidade da Federação (UF). As mesmas são

melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes

ao ano de 2010.

VARIÁVEL SIGNIFICADO TIPO UNIDADE DE

MEDIDA T_NESTUDA_NTRAB_MMEIO_np Razão entre pessoas de 15 a 24 anos que

não estudam nem trabalham e são

vulneráveis à pobreza e a população total

nesta faixa etária multiplicado por 100

Variável

Quantitativa

Percentual

T_FUNDIN_TODOS_MMEIO_np Percentual de pessoas que vivem em

domicílios vulneráveis a pobreza (renda per

capta inferior a ½ salário mínimo que não

possuem o fundamental completo.

Variável

Quantitativa

Percentual

MORT1(n-1) Número crianças que deverão sobreviver ao

primeiro ano de vida em cada 1000

nascidas vivas

Variável

Quantitativa

Índice

T_DENS(n) % da população em domicílios com

densidade > 2

Variável

Quantitativa

Percentual

IDHMn Índice de Desenvolvimento Humano

Municipal. Média geométrica dos índices

das dimensões Renda, Educação,

Longevidade, com pesos iguais.

Variável

Quantitativa

Índice

IDHM_En Índice sintético da dimensão Educação que

é um dos componentes do IDHM. É obtido

através da média geométrica do su

Variável

Quantitativa subindice da freqüência de

crianças e jovens à escola, com peso de 2/3,

e o subindice de escolaridade da população

adulta com peso 2/3.

Variável

Quantitativa

Índice

AFALB 15A17n Razão entre a população 14 a 17 que são

alfabetizadas que saber escrever

multiplicado por 100

Variável

Quantitativa

Percentual

T_FLBAS Razão entre o número de pessoas na faixa

etária de 6 a 17 anos frequentando o ensino

básico (fundamental ou médio - regular ou

seriado) e a população total dessa mesma

faixa etária multiplicado por 100. As

pessoas de 6 a 17 anos frequentando a pré-

escola foram consideradas como se

estivessem no 1º ano do ensino

fundamental. As pessoas de 6 a 17 anos

frequentando a 4ª série do ensino médio

foram consideradas como já tendo

concluído esse nível de ensino.

Variável

Quantitativa

Percentual

RENOCUPn Rendimento médios dos ocupados. Variável

Quantitativa

Percentual

PRENTRABn Percentual de renda a proveniente de

rendimento do trabalho

Variável

Quantitativa

Percentual

T_ATIVn Razão entre pessoas de 10 anos ou mais de

idade que eram economicamente ativas, ou

seja, que estavam ocupadas ou desocupadas

na semana de referencia do Censo e o total

de pessoas entre a faixa etária multiplicado

por 100. Considera-se desocupada pessoa

que não estando ocupada na semana de

referência, havia procurado trabalho no mês

anterior a essa pesquisa.

Variável

Categórica

Percentual

T_DES2529np Percentual da população economicamente

ativa (PEA) nessa faixa etária que estava

desocupada , ou seja, que não estava

ocupada na anterior a data de Censo mas

havia procurado trabalho ao longo do mês

na anterior da data da pesquisa.

Variável

Quantitativa

Percentual

UF Código utilizado pelo IBGE para

identificação do Estado

Variável

Categórica

Fonte: Atlas Brasil, 2013.

2.3 A Tabela de Dados

DDescriptive Statistics: T_NESTUDA_NT; T_FUNDIN_TOD; T_FUNDIN_TOD; ... Variable N N* Mean SE Mean Minimum Q1 Median

T_NESTUDA_NTRAB_MMEIO_np 5564 0 0,73254 0,00212 0,00000 0,60905 0,75258

T_FUNDIN_TODOS_MMEIO_np 5564 0 0,72383 0,00230 0,00000 0,59277 0,75027

MORT1(n-1) 5564 0 0,71919 0,00250 0,00000 0,60037 0,78034

T_DENS(n) 5564 0 0,27818 0,00198 0,00000 0,16775 0,25474

IDHMn 5564 0 0,54308 0,00217 0,00000 0,40766 0,55631

AFALB 15A17n 5564 0 0,07936 0,00103 0,00000 0,02863 0,05100

T_FLBAS 5564 0 0,80070 0,00105 0,00000 0,76350 0,80948

RENOCUPn 5564 0 0,21158 0,00150 0,00000 0,11579 0,20561

PRENTRABn 5564 0 0,60539 0,00213 0,00000 0,49583 0,63626

T_ATIVn 5564 0 0,48060 0,00177 0,00000 0,38614 0,48397

T_DES2529np 5564 0 0,82568 0,00153 0,00000 0,76663 0,84216

Variable Q3 Maximum

T_NESTUDA_NTRAB_MMEIO_np 0,86787 1,00000

T_FUNDIN_TODOS_MMEIO_np 0,87271 1,00000

MORT1(n-1) 0,86139 1,00000

T_DENS(n) 0,36288 1,00000

IDHMn 0,67568 1,00000

AFALB 15A17n 0,11095 1,00000

T_FLBAS 0,85007 1,00000

RENOCUPn 0,28660 1,00000

PRENTRABn 0,72508 1,00000

T_ATIVn 0,56524 1,00000

T_DES2529np 0,90755 1,00000

3. ANÁLISE DAS VARIÁVEIS

3.1 Variáveis Categóricas

Este tipo de variável indica que o foco de concentração deve ser a análise de gráficos do tipo

pie chart e/ou barras.

3.1.1 Variável: “Município”

A amostra totaliza 5565 municípios, que pode ser verificada na distribuição no território

nacional de acordo com a região no gráfico 1.

Gráfico 1 - distribuição dos municípios nas Regiões Brasileiras.

Fonte: elaborado pelo autor, 2014 (Atlas Brasil, 2014)

De acordo com gráfico 1 pode-se observar que as maiores concentrações de municípios

brasileiros estão nas regiões do Nordeste com 32,20% e Sudeste com 30% somando juntas

mais de 50% dos municípios pesquisados (62,20%).

O Gráfico 2 demonstra a distribuição dos municípios pelas Unidades Federativas do Brasil.

Categoria

1794; 32,2%

1668; 30,0%

1188; 21,3%

466; 8,4%

449; 8,1%

Gráfico de Setores de Região

Gráfico 2 – Representação dos municípios nas Unidades da Federação

Fonte: elaborado pelo autor, 2014 (Atlas Brasil, 2014)

Fonte: Atlas Brasil, 2014.

Outros

CategoriaOther

7,5%PR

1,3%AM

Gráfico de Setores de UFN

Fonte: Atlas Brasil, 2014

Conforme a tabela acima houve uma evolução do IDHM no período de 1991 a 2010

nas seguintes proporções:

- A população adulta com ensino fundamental concluído passou de 30,1% para 54,9%.

- Crianças nas faixas de 5 a 6 anos frequentando a escola passaram de 37,3% para

91,1%.

- Jovens de 11 a 13 a anos nos anos finais do fundamental passou de 36,8% para

84,9%.

- Jovens de 15 a 17 anos com fundamental completo passou de 20% a 57,2%. Apesar

da alta, 40% dos jovens nesta faixa ainda não tem o fundamental completo.

- Jovens de 18 a 20 anos com ensino médio completo passou de 13% para 41%, o que

significa que a maioria destes jovens ainda não possui o ensino médio completo

3.2 Variáveis Quantitativas

Conforme as informações do Atlas Brasil, entre 2000 e 2010 65% dos municípios

cresceram acima da média nacional. Em 2010 23% dos municípios tem o IDHM Educação

acima do subíndice equivalente do Brasil (0,637), com destaques para regiões Sul e Sudeste

que tem mais de 50% dos municípios com IDHM Educação nas faixas Médio e Alto

Desenvolvimento Humano. O Centro-Oeste do Brasil possui mais de 90% dos seus

municípios com IDHM Educação nas faixas Médio e Baixo Desenvolvimento Humano.

De acordo com estudo realizados pelo Atlas Brasil, o índice mais alto de IDHM

Educação, 0,825 ficou com a cidade de Águas de São Pedro (SP), o municípios conta com

100% da população entre 5 e 6 anos de idade frequentando a escola, 96,67% entre 11 e 13

anos nas fases finais do ensino fundamental, 74,17% entre 15 a 17 anos com fundamental

completo, 74,64% de entre 18 a 20 anos com ensino médio completo e 75,07% com 18 anos

ou mais com ensino fundamental completo.

Além do destaque positivo para o Sudeste, o resultado apontou resultados negativos

para as regiões do norte nordeste no qual podemos destacar a cidade de Melgaço (PA) com o

índice mais baixo, 0,207. Nesta cidade foi verificado que 58,68% da população entre 5 e 6

frequentam a escola, 35,83% na faixa etária de 11 a 13 anos estão nas series finais do ensino

fundamental, apenas 6,89% entre 15 e 17 anos possui o fundamental completo e apenas

5,63% de jovens entre 18 e 20 anos concluíram o ensino médio. O índice de jovens chegando

a fase adulta com 18 ou mais que concluíram o ensino fundamental chega ao índice de

12,34%

A análise deste tipo de variável permite a utilização de uma maior gama de ferramentas de

análise como histogramas, curvas de densidade e box-plot, além de informações numéricas

como média, desvio-padrão, mediana, intervalo de confiança e teste de normalidade de

Anderson-Darling.

3.2.1 Variável: T_NESTUDA_NTRAB_MMEIO_np

Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de

confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,

variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de

Anderson-Darling (A-Squared e P-Value), para a variável abaixo.

0,980,840,700,560,420,280,140,00

Median

0,7600,7550,7500,7450,7400,7350,730

1st Q uartile 0,60905

Median 0,75258

3rd Q uartile 0,86787

Maximum 1,00000

0,72837 0,73670

0,74045 0,75920

0,15551 0,16139

A -Squared 61,29

P-V alue < 0,005

Mean 0,73254

StDev 0,15839

V ariance 0,02509

Skewness -0,387856

Kurtosis -0,679669

N 5564

Minimum 0,00000

A nderson-Darling Normality Test

95% C onfidence Interv al for Mean

95% C onfidence Interv al for Median

95% C onfidence Interv al for StDev

95% Confidence Intervals

Summary for T_NESTUDA_NTRAB_MMEIO_np

Algumas observações que podemos fazer:

Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre

73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o

posicionamento da mediana está a direita do referido intervalo.

Valores Atípicos: não se apresentaram nesta análise.

Centro e Dispersão: A mediana nos indica que aproximadamente metade dos

municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este

valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão

de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e

a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de

confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e

73,159 anos.

3.2.2 Variável: T_FUNDIN_TODOS_MMEIO_np

0,980,840,700,560,420,280,140,00

Median

0,760,750,740,730,72

Median 0,75027

Maximum 1,00000

0,71933 0,72834

0,74278 0,75762

0,16826 0,17463

A -Squared 78,16

P-V alue < 0,005

Mean 0,72383

StDev 0,17138

V ariance 0,02937

Skewness -0,518668

Kurtosis -0,562850

N 5564

Minimum 0,00000

Summary for T_FUNDIN_TODOS_MMEIO_np

73,159 anos.

3.2.3 Variável: MORT1(n-1)

0,980,840,700,560,420,280,140,00

Median

0,7950,7800,7650,7500,7350,720

Median 0,78034

Maximum 1,00000

0,71429 0,72408

0,77296 0,78570

0,18290 0,18982

A -Squared 158,73

P-V alue < 0,005

Mean 0,71919

StDev 0,18629

V ariance 0,03471

Skewness -1,00602

Kurtosis 0,43190

N 5564

Minimum 0,00000

Summary for MORT1(n-1)

73,159 anos.

3.2.4 Variável: T_DENS(n)

0,980,840,700,560,420,280,140,00

Median

0,2800,2750,2700,2650,2600,2550,250

Median 0,25474

Maximum 1,00000

0,27430 0,28206

0,25042 0,26032

0,14505 0,15054

A -Squared 60,82

P-V alue < 0,005

Mean 0,27818

StDev 0,14774

V ariance 0,02183

Skewness 1,04488

Kurtosis 1,63321

N 5564

Minimum 0,00000

Summary for T_DENS(n)

73,159 anos.

3.2.5 Variável: IDHMn

0,980,840,700,560,420,280,140,00

Median

0,5650,5600,5550,5500,5450,540

Median 0,55631

Maximum 1,00000

0,53882 0,54734

0,54955 0,56532

0,15914 0,16516

A -Squared 40,64

P-V alue < 0,005

Mean 0,54308

StDev 0,16209

V ariance 0,02627

Skewness -0,156737

Kurtosis -0,846019

N 5564

Minimum 0,00000

Summary for IDHMn

73,159 anos.

3.2.6 Variável: IDHM_En

0,980,840,700,560,420,280,140,00

Median

0,57750,57500,57250,57000,56750,5650

Median 0,57120

Maximum 1,00000

0,56571 0,57365

0,56634 0,57605

0,14822 0,15384

A -Squared 9,34

P-V alue < 0,005

Mean 0,56968

StDev 0,15098

V ariance 0,02279

Skewness -0,098854

Kurtosis -0,515646

N 5564

Minimum 0,00000

Summary for IDHM_En

73,159 anos.

3.2.7 Variável:

0,980,840,700,560,420,280,140,00

Median

0,0800,0750,0700,0650,0600,0550,050

Median 0,05100

Maximum 1,00000

0,07734 0,08138

0,04921 0,05279

0,07557 0,07843

A -Squared 298,31

P-V alue < 0,005

Mean 0,07936

StDev 0,07697

V ariance 0,00592

Skewness 2,6772

Kurtosis 15,1646

N 5564

Minimum 0,00000

Summary for AFALB 15A17n

73,159 anos.

3.2.8 Variável: T_FLBAS

0,980,840,700,560,420,280,140,00

Median

0,81250,81000,80750,80500,80250,8000

Median 0,80948

Maximum 1,00000

0,79863 0,80276

0,80715 0,81181

0,07708 0,08000

A -Squared 64,14

P-V alue < 0,005

Mean 0,80070

StDev 0,07851

V ariance 0,00616

Skewness -1,73106

Kurtosis 8,81262

N 5564

Minimum 0,00000

Summary for T_FLBAS

73,159 anos.

3.2.9 Variável: RENOCUPn

Anderson-Darling (A-Squared e P-Value), para a variável.

0,980,840,700,560,420,280,140,00

Median

0,21500,21250,21000,20750,20500,20250,2000

Median 0,20561

Maximum 1,00000

0,20863 0,21452

0,20019 0,21051

0,11005 0,11422

A -Squared 35,54

P-V alue < 0,005

Mean 0,21158

StDev 0,11209

V ariance 0,01257

Skewness 0,70531

Kurtosis 1,17887

N 5564

Minimum 0,00000

Summary for RENOCUPn

Forma: O Histograma nos apresenta uma distribuição concentrada na faixa entre

R$175 e R$900. O Box-Plot demonstra a concentração na faixa acima citada, o

posicionamento da mediana confirma o posicionamento.

Valores Atípicos: Há um número de valores atípicos onde podemos ressaltar os dois

municípios com maior renda, são eles os municípios de São Caetano do Sul com renda

de R$ 2043,74, e Niterói com renda de R$ 2000.29.

municípios tem renda menor do que R$467,65. A renda média dos municípios é de

R$ 493,61, tendo um desvio-padrão de R$243,27. A RDPC mínima é de R$ 96,25 e a

máxima de R$ 2043,74. Com 95% de confiança, podemos afirmar que a média

encontra-se entre os valores R$487,21 e R$500.

3.2.10 Variável: PRENTRABn

0,980,840,700,560,420,280,140,00

Median

0,640,630,620,610,60

Median 0,63626

Maximum 1,00000

0,60121 0,60958

0,63065 0,64114

0,15632 0,16224

A -Squared 56,59

P-V alue < 0,005

Mean 0,60539

StDev 0,15923

V ariance 0,02535

Skewness -0,540203

Kurtosis -0,306711

N 5564

Minimum 0,00000

Summary for PRENTRABn

3.2.11 Variável: T_ATIVn

0,980,840,700,560,420,280,140,00

Median

0,4880,4860,4840,4820,4800,4780,476

Median 0,48397

Maximum 1,00000

0,47713 0,48407

0,47968 0,48855

0,12958 0,13448

A -Squared 5,42

P-V alue < 0,005

Mean 0,48060

StDev 0,13198

V ariance 0,01742

Skewness 0,142122

Kurtosis 0,207604

N 5564

Minimum 0,00000

Summary for T_ATIVn

3.2.12 Variável: T_DES2529np

0,980,840,700,560,420,280,140,00

Median

0,8450,8400,8350,8300,8250,820

Median 0,84216

Maximum 1,00000

0,82268 0,82867

0,83923 0,84523

0,11173 0,11596

A -Squared 64,58

P-V alue < 0,005

Mean 0,82568

StDev 0,11380

V ariance 0,01295

Skewness -1,19667

Kurtosis 2,78096

N 5564

Minimum 0,00000

Summary for T_DES2529np

4. ANÁLISE COMPARATIVA DA ANÁLISE DESCRITIVA

Apresentamos uma tabela comparando Histograma, Box Plot, curva de densidade, média,

desvio padrão, mediana e P-Value do teste de nornalidade de Anderson- Darling das variáveis

quantitativas analisadas.

Tabela 2. Analise Comparativa das Variáveis (Dimensões Desenvolvimento Humano)

VARIÁVEL GRÁFICO MÉDIA DESVIO_PADRÃO MEDIANA P-VALUE

T_NESTUDA_N

TRAB_MMEIO

_np 0,980,840,700,560,420,280,140,00

Median

0,7600,7550,7500,7450,7400,7350,730

Median 0,75258

Maximum 1,00000

0,72837 0,73670

0,74045 0,75920

0,15551 0,16139

A -Squared 61,29

P-V alue < 0,005

Mean 0,73254

StDev 0,15839

V ariance 0,02509

Skewness -0,387856

Kurtosis -0,679669

N 5564

Minimum 0,00000

Summary for T_NESTUDA_NTRAB_MMEIO_np

0,73254 0,15838 0,75258 0,005

T_FUNDIN_TO

DOS_MMEIO_

0,980,840,700,560,420,280,140,00

Median

0,760,750,740,730,72

Median 0,75027

Maximum 1,00000

0,71933 0,72834

0,74278 0,75762

0,16826 0,17463

A -Squared 78,16

P-V alue < 0,005

Mean 0,72383

StDev 0,17138

V ariance 0,02937

Skewness -0,518668

Kurtosis -0,562850

N 5564

Minimum 0,00000

Summary for T_FUNDIN_TODOS_MMEIO_np

0,72383 0,17138 0,75027 0,005

MORT1(n-1) 0,980,840,700,560,420,280,140,00

Median

0,0800,0750,0700,0650,0600,0550,050

Median 0,05100

Maximum 1,00000

0,07734 0,08138

0,04921 0,05279

0,07557 0,07843

A -Squared 298,31

P-V alue < 0,005

Mean 0,07936

StDev 0,07697

V ariance 0,00592

Skewness 2,6772

Kurtosis 15,1646

N 5564

Minimum 0,00000

0,71919 0,18629 0,78034 0,005

T_DENS(n) 0,980,840,700,560,420,280,140,00

Median

0,2800,2750,2700,2650,2600,2550,250

Median 0,25474

Maximum 1,00000

0,27430 0,28206

0,25042 0,26032

0,14505 0,15054

A -Squared 60,82

P-V alue < 0,005

Mean 0,27818

StDev 0,14774

V ariance 0,02183

Skewness 1,04488

Kurtosis 1,63321

N 5564

Minimum 0,00000

Summary for T_DENS(n)

0,27818 0,14774 0,25474 0,005

IDHMn 0,980,840,700,560,420,280,140,00

Median

0,5650,5600,5550,5500,5450,540

Median 0,55631

Maximum 1,00000

0,53882 0,54734

0,54955 0,56532

0,15914 0,16516

A -Squared 40,64

P-V alue < 0,005

Mean 0,54308

StDev 0,16209

V ariance 0,02627

Skewness -0,156737

Kurtosis -0,846019

N 5564

Minimum 0,00000

Summary for IDHMn

0,54308 0,16209 0,55631 0,005

IDHM_En 0,980,840,700,560,420,280,140,00

Median

0,57750,57500,57250,57000,56750,5650

Median 0,57120

Maximum 1,00000

0,56571 0,57365

0,56634 0,57605

0,14822 0,15384

A -Squared 9,34

P-V alue < 0,005

Mean 0,56968

StDev 0,15098

V ariance 0,02279

Skewness -0,098854

Kurtosis -0,515646

N 5564

Minimum 0,00000

Summary for IDHM_En

0,56968 0,15098 0,57120 0,005

AFALB 15A17n 0,980,840,700,560,420,280,140,00

Median

0,0800,0750,0700,0650,0600,0550,050

Median 0,05100

Maximum 1,00000

0,07734 0,08138

0,04921 0,05279

0,07557 0,07843

A -Squared 298,31

P-V alue < 0,005

Mean 0,07936

StDev 0,07697

V ariance 0,00592

Skewness 2,6772

Kurtosis 15,1646

N 5564

Minimum 0,00000

0,07936 0,07697 0,005

T_FLBAS 0,980,840,700,560,420,280,140,00

Median

0,0800,0750,0700,0650,0600,0550,050

Median 0,05100

Maximum 1,00000

0,07734 0,08138

0,04921 0,05279

0,07557 0,07843

A -Squared 298,31

P-V alue < 0,005

Mean 0,07936

StDev 0,07697

V ariance 0,00592

Skewness 2,6772

Kurtosis 15,1646

N 5564

Minimum 0,00000

0,80070 0,07851 0,80948 0,005

RENOCUPn 0,980,840,700,560,420,280,140,00

Median

0,21500,21250,21000,20750,20500,20250,2000

Median 0,20561

Maximum 1,00000

0,20863 0,21452

0,20019 0,21051

0,11005 0,11422

A -Squared 35,54

P-V alue < 0,005

Mean 0,21158

StDev 0,11209

V ariance 0,01257

Skewness 0,70531

Kurtosis 1,17887

N 5564

Minimum 0,00000

Summary for RENOCUPn

0,21158 0,11209 0,20561 0,005

PRENTRABn 0,980,840,700,560,420,280,140,00

Median

0,640,630,620,610,60

Median 0,63626

Maximum 1,00000

0,60121 0,60958

0,63065 0,64114

0,15632 0,16224

A -Squared 56,59

P-V alue < 0,005

Mean 0,60539

StDev 0,15923

V ariance 0,02535

Skewness -0,540203

Kurtosis -0,306711

N 5564

Minimum 0,00000

Summary for PRENTRABn

0,60539 0,15923 0,63626 0,005

T_ATIVn 0,980,840,700,560,420,280,140,00

Median

0,4880,4860,4840,4820,4800,4780,476

Median 0,48397

Maximum 1,00000

0,47713 0,48407

0,47968 0,48855

0,12958 0,13448

A -Squared 5,42

P-V alue < 0,005

Mean 0,48060

StDev 0,13198

V ariance 0,01742

Skewness 0,142122

Kurtosis 0,207604

N 5564

Minimum 0,00000

Summary for T_ATIVn

0,48060 0,13198 0,48397 0,005

T_DES2529np 0,980,840,700,560,420,280,140,00

Median

0,8450,8400,8350,8300,8250,820

Median 0,84216

Maximum 1,00000

0,82268 0,82867

0,83923 0,84523

0,11173 0,11596

A -Squared 64,58

P-V alue < 0,005

Mean 0,82568

StDev 0,11380

V ariance 0,01295

Skewness -1,19667

Kurtosis 2,78096

N 5564

Minimum 0,00000

Summary for T_DES2529np

0,82568 0,11380 0,84216 0,005

A tabela 2 nos mostra uma visão geral das dimensões e variáveis já apresentadas e analisadas

individualmente nos tópicos anteriores. As variáveis que representam aspectos relacionados a

educação demonstram melhores resultados nos primeiros anos de vida, ou seja,

T_FUND11A13. A EXPVIDA tem uma distribuição mais simétrica, assim como as variáveis

IDHM e IDHM_L.

Vale ressaltar que a simetria ou não das distribuições não necessariamente tem relação com a

qualidade ou validade dos dados trabalhados. Distribuições assimétricas podem, por exemplo,

nos indicar onde devemos focar ou concentrar esforços para a obtenção de resultados

esperados de forma mais eficiente.

5. CORRELAÇOES DAS VARIÁVEIS DA DIMENSÃO DESENVOLVIMENTO

HUMANO

Os dados abaixo representam a correlação entre as variáveis selecionadas e já trabalhadas

anteriormente.

Correlations: T_NESTUDA_NT; T_FUNDIN_TOD; MORT1(n-1); T_DENS(n);

IDHMn; ...

T_NESTUDA_NTRAB_ T_FUNDIN_TODOS_M MORT1(n-1)

T_FUNDIN_TODOS_M 0,835

MORT1(n-1) 0,741 0,796

0,000 0,000

T_DENS(n) -0,670 -0,662 -0,594

0,000 0,000 0,000

IDHMn 0,837 0,962 0,829

0,000 0,000 0,000

IDHM_En 0,722 0,921 0,684

0,000 0,000 0,000

AFALB 15A17n -0,670 -0,755 -0,668

0,000 0,000 0,000

T_FLBAS 0,071 0,061 -0,074

0,000 0,000 0,000

RENOCUPn 0,721 0,792 0,705

0,000 0,000 0,000

PRENTRABn 0,618 0,620 0,593

0,000 0,000 0,000

PRENTRABn 0,618 0,620 0,593

0,000 0,000 0,000

T_ATIVn 0,877 0,742 0,663

0,000 0,000 0,000

T_DES2529np 0,526 0,340 0,373

0,000 0,000 0,000

T_DENS(n) IDHMn IDHM_En

IDHMn -0,646

IDHM_En -0,555 0,951

0,000 0,000

AFALB 15A17n 0,645 -0,723 -0,666

0,000 0,000 0,000

T_FLBAS -0,161 0,068 0,159

0,000 0,000 0,000

RENOCUPn -0,430 0,869 0,765

0,000 0,000 0,000

PRENTRABn -0,245 0,638 0,531

0,000 0,000 0,000

PRENTRABn -0,245 0,638 0,531

0,000 0,000 0,000

T_ATIVn -0,676 0,732 0,612

0,000 0,000 0,000

T_DES2529np -0,395 0,334 0,234

0,000 0,000 0,000

AFALB 15A17n T_FLBAS RENOCUPn

T_FLBAS -0,179

RENOCUPn -0,550 -0,101

0,000 0,000

PRENTRABn -0,460 -0,221 0,753

0,000 0,000 0,000

PRENTRABn -0,460 -0,221 0,753

0,000 0,000 0,000

T_ATIVn -0,606 0,063 0,576

0,000 0,000 0,000

T_DES2529np -0,312 -0,022 0,247

0,000 0,101 0,000

PRENTRABn PRENTRABn T_ATIVn

PRENTRABn 1,000

T_ATIVn 0,553 0,553

0,000 0,000

T_DES2529np 0,270 0,270 0,512

0,000 0,000 0,000

Cell Contents: Pearson correlation

P-Value

Com base nas informações constantes na matriz de correlação pode-se perceber que as

variáveis descritas na tabela 3 apresentam uma forte relação, vale destacar que elas

apresentam casualidade, ou seja, um sentido direto entre elas.

TABELA 3 – CORRELAÇÃO ENTRE AS VARIÁVEIS

6. DENDROGRAMA

Um Dendrograma (dendr(o) = árvore) é um tipo específico de diagrama ou representação

icônica que organiza determinados fatores e variáveis. Isto quer dizer que sua representação

apresenta um diagrama de similaridade.

A interpretação de um Dendrograma de similaridade entre amostras fundamenta-se na

intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis

medidas. Ou seja, elas devem ser próximas matematicamente no espaço multidimensional.

Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a

similaridade entre elas. O dendrograma hierarquiza esta similaridade de modo que podemos

ter uma visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de

amostras utilizado no estudo.

Segue abaixo o Dendrograma das variáveis analisadas:

Análise de Agrupamentos de Variáveis: ESPVIDA; T_FREQ5A6; T_FUND11A13;

T_FUND15A17; ...

Distância do Coeficiente de Correlação, Ligação Completa

Passos de Amalgamação

Número de

obs. no

Número de Nível de Nível de Agrupados Novo novo

Passo agrupados similaridade distância reunidos agrupado agrupado

1 11 99,9990 0,000021 1 11 1 2

2 10 98,0832 0,038336 7 12 7 2

3 9 97,5438 0,049125 9 10 9 2

4 8 96,3577 0,072845 4 8 4 2

5 7 92,8408 0,143184 5 9 5 3

6 6 91,6586 0,166829 4 6 4 3

7 5 89,2088 0,215824 1 7 1 4

8 4 82,5541 0,348918 3 4 3 4

9 3 81,6181 0,367638 1 5 1 7

10 2 72,3070 0,553861 1 3 1 11

11 1 50,8072 0,983856 1 2 1 12

7. GRÁFICOS DE DISPERSÃO

Nos gráficos abaixo são apresentadas as relações entre as variáveis relacionadas na tabela 3.

0,900,850,800,750,70

IDHM_L

Gráfico de dispersão de ESPVIDA versus IDHM_L

0,90,80,70,60,50,40,30,2

IDHM_E

Gráfico de dispersão de IDHM versus IDHM_E

1,00,90,80,70,60,50,40,30,2

I_FREQ_PROP

Gráfico de dispersão de T_MED18A20 versus I_FREQ_PROP

0,90,80,70,60,50,40,30,2

IDHM_E

Gráfico de dispersão de I_FREQ_PROP versus IDHM_E

Inicialmente os gráficos de dispersão devem ser analisados quanto a seu padrão geral e seus

desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua

forma, direção e intensidade.

0,90,80,70,60,50,4

IDHM_R

Gráfico de dispersão de RDPC versus IDHM_R

0,90,80,70,60,50,4

IDHM_R

Gráfico de dispersão de IDHM versus IDHM_R

1,00,90,80,70,60,50,40,30,2

I_FREQ_PROP

Gráfico de dispersão de T_FUND15A17 versus I_FREQ_PROP

Direção: Da análise das correlações acima percebemos que quase todas possuem associações

positivas, ou seja, o crescimento de uma variável é acompanhado do crescimento da outra. O

que nos parece é que não há nenhuma associação negativa, ao menos de evidência visual.

Intensidade: Os gráficos acima apresenta uma relação linear, mas os gráficos que relacionam

ESPVIDA x IDHM_L e RDPC x IDHM_R possuem uma relação mais forte que as demais.

Forma: Os gráficos apresentam conglomerados que sugerem relações lineares, no entanto

vale salientar a relação dos gráficos ESPVIDA x IDHM_L e RDPC x IDHM_R que

apresentam um agrupamento mais intenso.

Valores Atípicos: Os gráficos indicam a existência de valores atípicos, ou seja, municípios

que estão localizados longe dos demais. Com exceção dos gráficos ESPVIDA x IDHM_L e

RDPC x IDHM_R.

8. ANÁLISE DE REGRESSÃO DAS VARIÁVEIS COM SIMILARIDADE

A correlação mede a direção e a intensidade da relação linear (linha reta) entre duas variáveis

quantitativas. Se um diagrama de dispersão mostra uma relação linear, é interessante

resumirmos esse padrão geral traçando uma reta no diagrama de dispersão. Uma reta de

regressão resume a relação entre duas variáveis, mas somente em um contexto específico:

quando uma das variáveis ajuda a explicarmos ou predizermos a outra, ou seja, a regressão

descreve uma relação entre uma variável explanatória e uma variável resposta. Vale destacar

que em nossas análises não foram classificadas as variáveis como sendo de caráter

explanatória (variável independente) ou de resposta (variável dependente)

A regressão linear assume sempre a forma de uma equação linear:

Y = a + bx, sendo:

Y= Variável dependente;

a = uma constante, o intercepto;

b = a inclinação na reta;

x = variável independente ou explicativa.

O “b”, ou seja, a declividade é dada pela multiplicação do índice de correlação pela divisão

dos desvios-padrão entre as variáveis x e y. E “a” é dada pela média de “Y” menos a

multiplicação de “b” pela média de “x”. Assim, percebe-se muito claramente que a regressão

depende da correlação entre as variáveis, além de medidas de centro de cada uma das

variáveis.

Serão apresentadas as análises de Regressão bem como seus respectivos gráficos:

Análise de Regressão: ESPVIDA versus IDHM_L

A equação de regressão é

ESPVIDA = 25,00 + 60,00 IDHM_L

S = 0,0171972 R2 = 100,0% R2(aj.) = 100,0%

Análise de Variância

Fonte GL SQ QM F P

Regressão 1 39982,5 39982,5 1,35193E+08 0,000

Erro 5563 1,6 0,0

Total 5564 39984,2

Análise de Regressão: IDHM versus IDHM_E

IDHM = 0,2490 + 0,7335 IDHM_E

S = 0,0222905 R2 = 90,4% R2(aj.) = 90,4%

Fonte GL SQ QM F P

Regressão 1 26,0775 26,0775 52483,97 0,000

Erro 5563 2,7641 0,0005

Total 5564 28,8416

0,900,850,800,750,70

S 0,0171972

R2 100,0%

R2(aj) 100,0%

IDHM_L

Gráfico de Linha AjustadaESPVIDA = 25,00 + 60,00 IDHM_L

Análise de Regressão: I_FREQ_PROP versus IDHM_E

I_FREQ_PROP = 0,1423 + 0,9408 IDHM_E

S = 0,0391197 R2 = 83,4% R2(aj.) = 83,4%

Fonte GL SQ QM F P

Regressão 1 42,8984 42,8984 28031,74 0,000

Erro 5563 8,5133 0,0015

Total 5564 51,4118

0,90,80,70,60,50,40,30,2

S 0,0222905

R2 90,4%

R2(aj) 90,4%

IDHM_E

Gráfico de Linha AjustadaIDHM = 0,2490 + 0,7335 IDHM_E

0,90,80,70,60,50,40,30,2

S 0,0391197

R2 83,4%

R2(aj) 83,4%

IDHM_E

Gráfico de Linha AjustadaI_FREQ_PROP = 0,1423 + 0,9408 IDHM_E

Análise de Regressão: RDPC versus IDHM_R

RDPC = - 1371 + 2900 IDHM_R

S = 66,7180 R2 = 92,5% R2(aj.) = 92,5%

Fonte GL SQ QM F P

Regressão 1 304514788 304514788 68410,37 0,000

Erro 5563 24762557 4451

Total 5564 329277345

Análise de Regressão: IDHM versus IDHM_R

IDHM = 0,1150 + 0,8465 IDHM_R

S = 0,0228476 R2 = 89,9% R2(aj.) = 89,9%

Fonte GL SQ QM F P

Regressão 1 25,9376 25,9376 49687,61 0,000

Erro 5563 2,9040 0,0005

Total 5564 28,8416

0,90,80,70,60,50,4

S 66,7180

R2 92,5%

R2(aj) 92,5%

IDHM_R

Gráfico de Linha AjustadaRDPC = - 1371 + 2900 IDHM_R

Análise de Regressão: T_FUND15A17 versus I_FREQ_PROP

T_FUND15A17 = - 45,20 + 149,6 I_FREQ_PROP

S = 5,80994 R2 = 86,0% R2(aj.) = 86,0%

Fonte GL SQ QM F P

Regressão 1 1149843 1149843 34063,97 0,000

Erro 5563 187781 34

Total 5564 1337624

0,90,80,70,60,50,4

S 0,0228476

R2 89,9%

R2(aj) 89,9%

IDHM_R

Gráfico de Linha AjustadaIDHM = 0,1150 + 0,8465 IDHM_R

1,00,90,80,70,60,50,40,30,2

S 5,80994

R2 86,0%

R2(aj) 86,0%

I_FREQ_PROP

Gráfico de Linha AjustadaT_FUND15A17 = - 45,20 + 149,6 I_FREQ_PROP

Análise de Regressão: T_MED18A20 versus I_FREQ_PROP

T_MED18A20 = - 56,86 + 139,1 I_FREQ_PROP

S = 5,80448 R2 = 84,1% R2(aj.) = 84,1%

Fonte GL SQ QM F P

Regressão 1 994506 994506 29517,61 0,000

Erro 5563 187428 34

Total 5564 1181934

Comentários das análises

Considerando as análises de regressão acima pode-se perceber que existe uma relação com

grau razoável de explicação entre as varáveis apresentadas. Em alguns casos esta relação se

apresenta muito forte, como é o caso da ESPVIDA x IDHM_L, isto pode ser justificado pela

característica destas variáveis que carregam em sua composição a esperança de vida ao

nascer.

Além disso, vale a pena destacar que as relações que apresentam variáveis como educação

(IDHM_E; I_FREQ_PROP...), IDHM e Renda (IDHM_R e RDPC) possuem um alto grau de

relação próximos ou acima de 90 % para as análises realizadas. No caso da educação pode-se

dizer que quanto mais alta a idade das pessoas menor é o grau de relação.

1,00,90,80,70,60,50,40,30,2

S 5,80448

R2 84,1%

R2(aj) 84,1%

I_FREQ_PROP

Gráfico de Linha AjustadaT_MED18A20 = - 56,86 + 139,1 I_FREQ_PROP

9. REGRESSÃO MULTIVARIADA

General Regression Analysis: IDHMn versus ESPVIDAn; IDHM_En; RDPCn; ... Regression Equation

IDHMn = -0,0478698 + 0,131806 ESPVIDAn + 0,562425 IDHM_En - 0,0446316 RDPCn -

0,00622638 T_FUND18Mn + 0,414966 IDHM_Rn

Coefficients

Term Coef SE Coef T P

Constant -0,047870 0,0002742 -174,610 0,000

ESPVIDAn 0,131806 0,0004084 322,708 0,000

IDHM_En 0,562425 0,0007625 737,639 0,000

RDPCn -0,044632 0,0013473 -33,128 0,000

T_FUND18Mn -0,006226 0,0006555 -9,499 0,000

IDHM_Rn 0,414966 0,0011833 350,689 0,000

Summary of Model

S = 0,00334542 R-Sq = 99,96% R-Sq(adj) = 99,96%

PRESS = 0,0625337 R-Sq(pred) = 99,96%

Analysis of Variance

Source DF Seq SS Adj SS Adj MS F P

Regression 5 146,241 146,241 29,2482 2613347 0

ESPVIDAn 1 106,226 1,166 1,1655 104140 0

IDHM_En 1 35,707 6,090 6,0896 544112 0

RDPCn 1 2,904 0,012 0,0123 1097 0

T_FUND18Mn 1 0,027 0,001 0,0010 90 0

IDHM_Rn 1 1,376 1,376 1,3764 122983 0

Error 5559 0,062 0,062 0,0000

Total 5564 146,303

Stepwise Regression: IDHMn versus ESPVIDAn; IDHM_En; ... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15

Response is IDHMn on 5 predictors, with N = 5565

Step 1 2 3 4 5

Constant -0,03856 -0,03178 -0,04016 -0,04757 -0,04787

IDHM_En 1,02102 0,56796 0,55660 0,55713 0,56243

T-Value 229,09 240,10 959,52 1063,43 737,64

P-Value 0,000 0,000 0,000 0,000 0,000

IDHM_Rn 0,50813 0,38032 0,41623 0,41497

T-Value 233,68 554,67 351,22 350,69

P-Value 0,000 0,000 0,000 0,000

ESPVIDAn 0,13370 0,13197 0,13181

T-Value 295,53 320,84 322,71

P-Value 0,000 0,000 0,000

RDPCn -0,0472 -0,0446

T-Value -35,54 -33,13

P-Value 0,000 0,000

T_FUND18Mn -0,00623

T-Value -9,50

P-Value 0,000

S 0,0502 0,0153 0,00374 0,00337 0,00335

R-Sq 90,42 99,11 99,95 99,96 99,96

R-Sq(adj) 90,41 99,11 99,95 99,96 99,96

Mallows Cp 1247238,0 110254,4 1375,7 94,2 6,0

3.1 – Variável IDHM por Região

SESNENCO

Região

Boxplot of IDHM

A Região Sul possui o maior IDHM do país, o que indica que esta é a Região mais desenvolvida do Brasil,

segundo a pesquisa. A região Sudeste encontra-se próxima a Região Sul, e ocupa o segundo lugar. Vale também

destacar que a região Centro Oeste está muito próxima.

A Região que apresenta o IDHM médio mais baixo do País é a Nordeste, seguida da Norte. Pelo tamanho da

caixa do BloxPlot podemos visualizar a amplitude da variância. Podemos afirmar que os dados da Região Norte

possuem maior variabilidade que os dados das demais regiões. As Regiões que possuem menor variabilidade dos

dados são Centro-Oeste, Norte e Sul.

One-way ANOVA: IDHM versus Região Source DF SS MS F P

Região 4 16,24279 4,06070 1795,58 0,000

Error 5559 12,57163 0,00226

Total 5563 28,81442

S = 0,04756 R-Sq = 56,37% R-Sq(adj) = 56,34%

Individual 95% CIs For Mean Based on

Pooled StDev

Level N Mean StDev --+---------+---------+---------+-------

CO 465 0,68918 0,03680 (*)

N 449 0,60795 0,06016 (-*)

NE 1794 0,59068 0,04327 (*

S 1188 0,71411 0,04159 (*)

SE 1668 0,69898 0,05428 (*

--+---------+---------+---------+-------

0,595 0,630 0,665 0,700

Pooled StDev = 0,04756

O grau de variação entre as Regiões é muito alto (1795,58), e o P-value nos indica que a informação é confiável

e não existe chance deste valor ser diferente.

3.2 – Variável ESPVIDA por Região

Mean 0

0,08CO

SESNENCO

Região

Boxplot of ESPVIDA

O ESPVIDA é maior para a Região Sul, que fica muito próximo da Região Sudeste, que aponta o Sul com a

melhor ESPVIDA. O menor índice de ESPVIDA está para a Região Nordeste.

One-way ANOVA: ESPVIDA versus Região Source DF SS MS F P

Região 4 24990,54 6247,63 2319,16 0,000

Error 5559 14975,49 2,69

Total 5563 39966,03

S = 1,641 R-Sq = 62,53% R-Sq(adj) = 62,50%

Pooled StDev

CO 465 74,334 1,100 (*)

N 449 71,818 1,724 (*)

NE 1794 70,255 1,809 *)

S 1188 75,116 1,570 (*

SE 1668 74,686 1,604 (*

--+---------+---------+---------+-------

70,5 72,0 73,5 75,0

O grau de variação entre as Regiões é alto para ESPVIDA (2319,16), sendo inclusive maior que o de IDHM,

mas o p-value nos indica que a informação é confiável e não existe chance deste valor ser diferente.

3.3 – Variável T_FREQ5A6 por Região

SESNENCO

Região

Boxplot of T_FREQ5A6

No indicador de T_FREQ5A6, podemos verificar que a Região Nordeste possui o maior índice, que é seguida da

Região Sudeste e Sul, e o menor índice é o da Região Norte. Vale a pena destacar que para esta variável a maior

parte das regiões estão próximos de 100%, sendo que a região norte, que apresenta o menor índice está com

média de 81,94%.

One-way ANOVA: T_FREQ5A6 versus Região

666870727476

Mean 0

Source DF SS MS F P

Região 4 65714,7 16428,7 297,68 0,000

Error 5559 306791,2 55,2

Total 5563 372505,9

S = 7,429 R-Sq = 17,64% R-Sq(adj) = 17,58%

Pooled StDev

Level N Mean StDev --------+---------+---------+---------+-

CO 465 88,851 8,000 (-*-)

N 449 81,941 11,283 (-*-)

NE 1794 94,258 5,003 (*)

S 1188 90,118 9,144 (*-)

SE 1668 93,338 6,749 (*)

--------+---------+---------+---------+-

84,0 87,5 91,0 94,5

O grau de variação entre as Regiões é baixo para T_FREQ5A6 (297,68), sendo inclusive bem menor que o de

IDHM (1795,58) e ESPVIDA (2319,16). O p-value nos indica que a informação é confiável e não existe chance

deste valor ser diferente.

3.4 – Variável T_FUND11A13 por Região

Mean 0

SESNENCO

Região

Boxplot of T_FUND11A13

Pode-se observar que o índice T_FUND11A13 é maior na Regiões Sul, Sudeste e Centro Oeste. O menor índice

é o da Região Norte. Vale a pena destacar que para esta variável a maior parte das regiões estão próximos de

90%, sendo que a região norte, que apresenta o menor índice está com média de 76,3618%.

One-way ANOVA: T_FUND11A13 versus Região Source DF SS MS F P

Região 4 150502,0 37625,5 743,32 0,000

Error 5559 281385,3 50,6

Total 5563 431887,3

S = 7,115 R-Sq = 34,85% R-Sq(adj) = 34,80%

Individual 95% CIs For Mean Based on Pooled StDev

Level N Mean StDev -+---------+---------+---------+--------

CO 465 86,337 6,928 (-*)

N 449 76,362 12,826 (-*-)

NE 1794 79,413 7,646 (*

S 1188 91,148 4,840 (*)

SE 1668 88,039 5,628 (*)

-+---------+---------+---------+--------

76,0 80,0 84,0 88,0

Existe uma variação maior na distribuição dos dados nos municípios da região Norte. Já as regiões Sul, Sudeste e

Centro Oeste possuem as menores variações dos dados. O grau de variação entre as Regiões é alto (743,32) e o

p-value nos indica que a informação é confiável e não existe chance deste valor ser diferente.

3.5 – Variável por T_FUND15A17 Região

SESNENCO

Região

Pode-se observar que o percentual de T_FUND15A17 é maior nas Regiões Sul, Sudeste e Centro Oeste. Já as

regiões Norte e Nordeste estão com seus valores próximos a 40 %. Vale a pena destacar que para esta variável as

regiões com melhor desempenho estão próximas de 60%.

One-way ANOVA: T_FUND15A17 versus Região Source DF SS MS F P

Região 4 653328 163332 1327,12 0,000

Error 5559 684162 123

65707580859095

Mean 0

Total 5563 1337490

S = 11,09 R-Sq = 48,85% R-Sq(adj) = 48,81%

CO 465 58,81 10,22 (*)

N 449 42,23 13,22 (*-)

NE 1794 41,63 10,50 *)

S 1188 66,00 9,94 (*)

SE 1668 63,09 12,06 (*)

-+---------+---------+---------+--------

42,0 49,0 56,0 63,0

O grau de variação entre as Regiões é alto (1327,12) e o p-value nos indica que a informação é confiável e não

existe chance deste valor ser diferente.

3.6 – Variável T_FUND18M por Região

Mean 0

SESNENCO

Região

Boxplot of T_FUND18M

Pode-se observar que o índice T_FUND18M é maior nas Regiões Sul, Sudeste e Centro Oeste. O menor índice é

o da Região Nordeste. Vale a pena destacar que para esta variável todas as regiões apresentam uma média abaixo

dos 50%, além disso, os municípios que apresentam resultados melhores são considerados nesta análise como

atípicos.

A maior variabilidade de dados se encontra na Região Sudeste, e a Região que apresenta menor variabilidade é a

Nordeste.

One-way ANOVA: T_FUND18M versus Região Source DF SS MS F P

Região 4 142910,0 35727,5 413,92 0,000

Error 5559 479822,0 86,3

Total 5563 622732,1

S = 9,291 R-Sq = 22,95% R-Sq(adj) = 22,89%

Pooled StDev

CO 465 43,136 7,253 (-*--)

N 449 37,752 9,375 (--*-)

NE 1794 32,694 8,162 (*-)

S 1188 43,297 9,172 (-*)

SE 1668 44,100 10,864 (*)

--------+---------+---------+---------+-

35,0 38,5 42,0 45,5

O grau de variação entre as Regiões é alto (413,92) e o p-value = 0 nos indica que a informação é confiável e não

3.7 – Variável T_MED18A20 por Região

SESNENCO

Região

Boxplot of T_MED18A20

Pode-se observar que o índice T_MED18A20 é maior nas Regiões Sul, Sudeste e Centro Oeste. Os índices mais

baixos estão nas regiões Norte e Nordeste. Vale a pena destacar que para as regiões que apresentam os melhores

resultados para esta variável a média está próxima de 50%, além disso, os municípios que apresentam resultados

melhores são considerados nesta análise como atípicos.

One-way ANOVA: T_MED18A20 versus Região Source DF SS MS F P

Região 4 503294 125824 1031,13 0,000

Error 5559 678338 122

01020304050

Mean 0

Total 5563 1181632

S = 11,05 R-Sq = 42,59% R-Sq(adj) = 42,55%

Pooled StDev

Level N Mean StDev -------+---------+---------+---------+--

CO 465 38,65 10,18 (*-)

N 449 24,02 10,81 (*-)

NE 1794 24,96 8,78 (*

S 1188 46,54 11,88 *)

SE 1668 43,14 12,77 (*

-------+---------+---------+---------+--

28,0 35,0 42,0 49,0

O grau de variação entre as Regiões é alto (1031,13) e o p-value igual a zero nos indica que a informação é

confiável e não existe chance deste valor ser diferente.

3.8 – Variável RDPC por Região

01020304050

Mean 0

SESNENCO

Região

Boxplot of RDPC

Pode-se observar que o valor de RDPC é maior nas Regiões Sul e Sudeste. Os índices mais baixos estão nas

regiões Norte e Nordeste. Vale a pena destacar que para as regiões que apresentam os melhores resultados para

esta variável a média está próxima de R$500. Além disso, os municípios que apresentam resultados melhores são

considerados nesta análise como atípicos, inclusive estes valores são muito distantes da média.

A maior variabilidade de dados se encontra na Região Sul e Sudeste.

One-way ANOVA: RDPC versus Região Source DF SS MS F P

Região 4 166364376 41591094 1432,31 0,000

Error 5559 161420628 29038

Total 5563 327785004

S = 170,4 R-Sq = 50,75% R-Sq(adj) = 50,72%

Pooled StDev

CO 465 584,2 153,4 (-*)

N 449 345,1 141,1 (-*)

NE 1794 276,9 97,7 (*)

S 1188 704,2 200,0 (*

SE 1668 590,6 214,9 *)

--------+---------+---------+---------+-

360 480 600 720

O grau de variação entre as Regiões é alto (1432,31) e o p-value igual zero nos indica que a informação é

confiável e não existe chance deste valor ser diferente.

3.9 – Variável I_FREQ_PROP por Região

SESNENCO

Região

Boxplot of I_FREQ_PROP

Pode-se observar que o índice de I_FREQ_PROP é maior nas Regiões Sul e Sudeste. Já as regiões Norte e

Nordeste apresentam os piores resultados.

One-way ANOVA: I_FREQ_PROP versus Região Source DF SS MS F P

Região 4 22,92438 5,73109 1118,63 0,000

Error 5559 28,48058 0,00512

Total 5563 51,40495

S = 0,07158 R-Sq = 44,60% R-Sq(adj) = 44,56%

Level N Mean StDev

CO 465 0,68165 0,06632

N 449 0,56141 0,09797

NE 1794 0,60066 0,06268

S 1188 0,73452 0,06932

SE 1668 0,71904 0,07505

Mean 050

100150200250

Level ---------+---------+---------+---------+

CO (*-)

N (*-)

NE (*)

---------+---------+---------+---------+

0,600 0,650 0,700 0,750

3.10 – Variável IDHM_E por Região.

SESNENCO

Região

Boxplot of IDHM_E

Mean 00,020,040,060,080,1

Pode-se observar que o índice de IDHM_E é maior nas Regiões Sul e Sudeste. Já as regiões Norte e Nordeste

estão com seus valores próximos a 40 %. Vale a pena destacar que para esta variável as regiões com melhor

desempenho estão próximas de 60%.

One-way ANOVA: IDHM_E versus Região Source DF SS MS F P

Região 4 18,83643 4,70911 884,60 0,000

Error 5559 29,59293 0,00532

Total 5563 48,42936

S = 0,07296 R-Sq = 38,89% R-Sq(adj) = 38,85%

Pooled StDev

CO 465 0,58380 0,05977 (-*-)

N 449 0,49043 0,09066 (-*-)

NE 1794 0,48842 0,06579 (*)

S 1188 0,61302 0,06520 (*)

SE 1668 0,60819 0,08287 (*)

--+---------+---------+---------+-------

0,490 0,525 0,560 0,595

3.11 – Variável IDHM_L por Região

Mean 00,020,040,060,080,1

SESNENCO

Região

Boxplot of IDHM_L

Pode-se observar que o percentual de IDHM_L é maior nas Regiões Sul, Sudeste e Centro Oeste. Já as regiões

Norte e Nordeste estão com seus valores próximos a 40 %. Vale a pena destacar que para esta variável todas as

regiões apresentam valores próximos de um índice de 0,80.

One-way ANOVA: IDHM_L versus Região Source DF SS MS F P

Região 4 6,94138 1,73535 2318,18 0,000

Error 5559 4,16137 0,00075

Total 5563 11,10275

S = 0,02736 R-Sq = 62,52% R-Sq(adj) = 62,49%

Level N Mean StDev

CO 465 0,82234 0,01833

N 449 0,78038 0,02871

NE 1794 0,75433 0,03016

S 1188 0,83533 0,02616

SE 1668 0,82819 0,02674

Level ---------+---------+---------+---------+

CO (*)

---------+---------+---------+---------+

0,775 0,800 0,825 0,850

3.12 – Variável IDHM_R por Região

SESNENCO

Região

Boxplot of IDHM_R

Pode-se observar que o percentual de IDHM_R é maior nas Regiões Sul, Sudeste e Centro Oeste. Já as regiões

Norte e Nordeste apresentam índices baixos para esta variável, com destaque para o Nordeste.

One-way ANOVA: IDHM_R versus Região Source DF SS MS F P

Região 4 21,93443 5,48361 2143,97 0,000

Error 5559 14,21819 0,00256

Total 5563 36,15262

S = 0,05057 R-Sq = 60,67% R-Sq(adj) = 60,64%

Level N Mean StDev

CO 465 0,68411 0,04209

N 449 0,59282 0,06194

0,85CO

Mean 0

0,04CO

NE 1794 0,56226 0,04611

S 1188 0,71344 0,04419

SE 1668 0,68116 0,05769

Level +---------+---------+---------+---------

CO (*)

+---------+---------+---------+---------

0,560 0,600 0,640 0,680

4 – CONSIDERAÇÕES FINAIS

Este trabalho teve por objetivo comparar as médias dos indicadores das variáveis da dimensão

Desenvolvimento Humano com base nos dados apresentados no relatório Atlas Brasil 2013.

Estas comparações indicam que os municípios do Brasil apresentam disparidades quanto as variáveis desta

dimensão. Ressalta-se que isto ocorre principalmente com relação as regiões norte e nordeste das demais.

Podemos observar em todos os gráficos que existem dois Brasis, ou seja, os dados das Regiões Sudeste e Sul, e

quase sempre acompanhadas pela região Centro Oeste, são muito próximos e apresentam resultados melhores. Já

os dados das Regiões Norte e Nordeste são próximos também, porém apresentam os piores resultados.

00,20,40,60,8

Mean 0

0,020,040,06

0,08CO

SESNENCO

Região

MBoxplot of IDHM

SESNENCO

Região

Boxplot of ESPVIDA

SESNENCO

Região

Boxplot of T_FREQ5A6

SESNENCO

Região

SESNENCO

Região

SESNENCO

Região

Boxplot of T_FUND18M

SESNENCO

Região

Boxplot of T_MED18A20

SESNENCO

Região

Boxplot of RDPC

SESNENCO

Região

Boxplot of I_FREQ_PROP

SESNENCO

Região

Boxplot of IDHM_E

SESNENCO

Região

Boxplot of IDHM_L

SESNENCO

Região

RBoxplot of IDHM_R

Comparando os Índices nota-se que na Educação até os 13 anos são apresentados resultados médios acima de

50%, inclusive próximos a 80%. Para a variável renda é relevante destacar que os valores ficam próximos a

R$500, sendo que os municípios que apresentam valores considerados altos são diagnosticados como atípicos.

Para entendermos o quanto cada região vem se desenvolvendo em termos de Educação, Renda ou Expectativa de

Vida seria necessário comparar os dados de 1991, 2001 com os de 2010.

Para uma melhor compreensão da variabilidade nas análises comparativas segue gráfico de radar para as varáveis

analisadas na dimensão desenvolvimento humano.

Tabela – Valor de F

VARIÁVEL Valor de F

ESPVIDA 2319,16

IDHM_L 2318,18

IDHM_R 2143,97

IDHM 1795,58

RDPC 1432,31

T_FUND15A17 1327,12

I_FREQ_PROP 1118,63

T_MED18A20 1031,13

IDHM_E 884,6

T_FUND11A13 743,32

T_FUND18M 413,92

I_FREQ5A6 297,68

3.1 – PESQUISA POR AMOSTRAGEM

A pesquisa por amostragem foi feita em três amostras, uma de 25, 100 e 400 indivíduos, ou municípios. Para

cada amostra foram efetuadas análises do tipo exploratória de dados, as correlações e os dendrogramas. As

variáveis utilizadas nesta pesquisa são ESPVIDA, IDHM e IDHM_R. A amostragem aleatória foi feita através

do Minitab16, utilizando a função:

2500ESPVIDA

IDHM_L

IDHM_R

T_FUND15A17

I_FREQ_PROP

T_MED18A20

IDHM_E

T_FUND11A13

T_FUND18M

I_FREQ5A6

Teste F

3.1.1 – VARIÁVEL ESPVIDA

Gráfico 1 – ESPVIDA para amostra com 25 linhas

787674727068

Median

75,575,074,574,073,573,0

Median 74,530

Maximum 78,520

72,808 75,038

73,268 75,180

2,109 3,758

A -Squared 0,38

P-V alue 0,386

Mean 73,923

StDev 2,701

V ariance 7,296

Skewness -0,417608

Kurtosis -0,311185

Minimum 68,180

Summary for ESPVIDA25

Este é o resultado da análise exploratória dos dados de ESPVIDA, para uma população de 25 indivíduos ou

municípios.

A curva possui uma calda maior para a esquerda, o que demonstra que os dados possuem maior variabilidade

para este lado em relação à média. Podemos verificar que a média dos dados é de 73,923 e o desvio padrão

2,701. Existe 95% de confiança de que a média está entre o intervalo de 72,808 e 75,038.

Calc >> Random Data >> Sample form columns

787674727068

Median

74,073,873,673,473,273,072,8

Median 73,465

Maximum 77,500

72,785 73,730

73,037 74,033

2,091 2,767

A -Squared 0,73

P-V alue 0,054

Mean 73,257

StDev 2,382

V ariance 5,674

Skewness -0,398522

Kurtosis -0,529770

Minimum 66,850

municípios.

78767472706866

Median

73,873,673,473,273,0

Median 73,415

Maximum 78,400

72,934 73,427

73,039 73,761

2,347 2,696

A -Squared 1,43

P-V alue < 0,005

Mean 73,180

StDev 2,509

V ariance 6,296

Skewness -0,424822

Kurtosis -0,125208

Minimum 65,840

municípios.

Gráfico 4 – ESPVIDA para população com 5664 linhas

78767472706866

Median

73,673,573,473,373,273,173,0

Median 73,470

Maximum 78,640

73,018 73,159

73,380 73,550

2,631 2,731

A -Squared 34,97

P-V alue < 0,005

Mean 73,088

StDev 2,680

V ariance 7,184

Skewness -0,409423

Kurtosis -0,486571

N 5564

Minimum 65,300

Summary for ESPVIDA

Podemos observar no gráfico 4, resultado da análise exploratória dos dados de ESPVIDA, para toda a população

de 5564 municípios.

A curva possui uma calda maior para a esquerda mesmo utilizando toda a população, o que demonstra que os

dados possuem maior variabilidade para este lado em relação à média. Podemos verificar que a média dos dados

é de 73,088 e o desvio padrão 2,680. Existe 95% de confiança de que a média está entre o intervalo de 73,018 e

73,159.

Gráfico 5 – Boxplot de ESPVIDA para amostras de 25, 100, 400 e população

ESPVIDAESPVIDA400ESPVIDA100ESPVIDA25

Boxplot of ESPVIDA25; ESPVIDA100; ESPVIDA400; ESPVIDA

O Boxplot confirma a semelhança e diferenças dos resultados das três amostras comparadas com a população

total. Existe uma variabilidade dos dados em todas as análises para esta variável.

One-way ANOVA: ESPVIDA25; ESPVIDA100; ESPVIDA400; ESPVIDA

Source DF SS MS F P

Factor 3 22,74 7,58 1,07 0,362

Error 6085 43214,99 7,10

Total 6088 43237,74

S = 2,665 R-Sq = 0,05% R-Sq(adj) = 0,00%

Pooled StDev

ESPVIDA25 25 73,923 2,701 (----------------*----------------)

ESPVIDA100 100 73,257 2,382 (--------*--------)

ESPVIDA400 400 73,180 2,509 (----*---)

ESPVIDA 5564 73,088 2,680 (*)

--------+---------+---------+---------+-

73,20 73,80 74,40 75,00

Boxplot of ESPVIDA25; ESPVIDA100; ESPVIDA400; ESPVIDA

A análise de variância entre as amostras e a população nos indica que a variação é muito pequena (F=0,27) e o P-

Value grande, ou seja que existe alguma chance de outros resultados.

VARIÁVEL HISTOGRAMA MEDIANA MÉDIA D.PADRÃO P_VALUE

ESPVIDA

25 787674727068

Median

75,575,074,574,073,573,0

Median 74,530

Maximum 78,520

72,808 75,038

73,268 75,180

2,109 3,758

A -Squared 0,38

P-V alue 0,386

Mean 73,923

StDev 2,701

V ariance 7,296

Skewness -0,417608

Kurtosis -0,311185

Minimum 68,180

74,530 73,923 2,701 0,386

ESPVIDA

100 787674727068

Median

74,073,873,673,473,273,072,8

Median 73,465

Maximum 77,500

72,785 73,730

73,037 74,033

2,091 2,767

A -Squared 0,73

P-V alue 0,054

Mean 73,257

StDev 2,382

V ariance 5,674

Skewness -0,398522

Kurtosis -0,529770

Minimum 66,850

73,465 73,257 2,382 0,054

ESPVIDA

400 78767472706866

Median

73,873,673,473,273,0

Median 73,415

Maximum 78,400

72,934 73,427

73,039 73,761

2,347 2,696

A -Squared 1,43

P-V alue < 0,005

Mean 73,180

StDev 2,509

V ariance 6,296

Skewness -0,424822

Kurtosis -0,125208

Minimum 65,840

73,415 73,180 2,509 0,005

ESPVIDA 78767472706866

Median

73,673,573,473,373,273,173,0

Median 73,470

Maximum 78,640

73,018 73,159

73,380 73,550

2,631 2,731

A -Squared 34,97

P-V alue < 0,005

Mean 73,088

StDev 2,680

V ariance 7,184

Skewness -0,409423

Kurtosis -0,486571

N 5564

Minimum 65,300

Summary for ESPVIDA

73,470 73,088 2,680 0,005

A tabela acima resume os resultados da análise exploratória dos dados das amostragens e da população da

variável ESPVIDA. Os valores de P-values são idênticos para a amostra de 400 indivíduos e a população, ou

seja, não existe chance dos resultados acima apresentarem valores diferentes. A mediana obteve uma diferença

grande entre as amostras com o número menor de indivíduos como já era esperado. Esta diferença também pôde

ser percebida com relação a média das amostras e a média da população, no entanto, nos valores de média a

diferença foi menor para as amostras baixas do que nos valores apresentados na mediana.

Portanto, pode-se dizer que na amostra de 400 indivíduos os valores são mais eficientes de se trabalhar, e

possuem uma boa precisão em relação aos resultados da população.

3.1.2 – VARIÁVEL IDHM

Gráfico 1 – IDHM para amostra com 25 linhas

0,800,750,700,650,600,550,50

Median

0,700,680,660,640,62

Median 0,67100

Maximum 0,81500

0,62490 0,68694

0,61498 0,70421

0,05867 0,10453

A -Squared 0,19

P-V alue 0,894

Mean 0,65592

StDev 0,07514

V ariance 0,00565

Skewness -0,030353

Kurtosis -0,513537

Minimum 0,51700

Summary for IDHM25

Este é o resultado da análise exploratória dos dados de IDHM, para uma população de 25 indivíduos ou

municípios.

A curva apresenta uma normalidade em sua distribuição, o que demonstra que os dados possuem homogeneidade

de variabilidade para os dois lados em relação à média. Podemos verificar que a média dos dados é de 0,65592 e

o desvio padrão 0,07514. Existe 95% de confiança de que a média está entre o intervalo de 0,62490 e 0,68694.

0,8250,7500,6750,6000,5250,450

Median

0,690,680,670,660,650,64

Median 0,67350

Maximum 0,81900

0,64789 0,67611

0,64523 0,68626

0,06244 0,08261

A -Squared 0,49

P-V alue 0,212

Mean 0,66200

StDev 0,07111

V ariance 0,00506

Skewness -0,311540

Kurtosis -0,293497

Minimum 0,45000

Summary for IDHM100

municípios.

0,780,720,660,600,540,48

Median

0,6750,6700,6650,6600,6550,6500,645

Median 0,66000

Maximum 0,81700

0,64837 0,66291

0,64500 0,67300

0,06919 0,07950

A -Squared 2,73

P-V alue < 0,005

Mean 0,65564

StDev 0,07399

V ariance 0,00547

Skewness -0,131165

Kurtosis -0,888873

Minimum 0,47100

Summary for IDHM400

municípios.

A curva apresenta uma normalidade em sua distribuição, o que demonstra que os dados possuem homogeneidade

de variabilidade para os dois lados em relação à média. Podemos verificar que a média dos dados é de 0,65594 e

o desvio padrão 0,07399. Existe 95% de confiança de que a média está entre o intervalo de 0,64837 e 0,66291.

Gráfico 4 – IDHM para população com 5664 linhas

0,840,770,700,630,560,490,42

Median

0,6700,6680,6660,6640,6620,6600,658

Median 0,66500

Maximum 0,86200

0,65724 0,66102

0,66200 0,66900

0,07066 0,07333

A -Squared 40,64

P-V alue < 0,005

Mean 0,65913

StDev 0,07197

V ariance 0,00518

Skewness -0,156737

Kurtosis -0,846019

N 5564

Minimum 0,41800

Summary for IDHM

Podemos observar no gráfico 4, resultado da análise exploratória dos dados de IDHM, para toda a população de

5564 municípios.

é de 0,65913 e o desvio padrão 0.07197. Existe 95% de confiança de que a média está entre o intervalo de

0,65724 e 0,66102.

Gráfico 5 – Boxplot de IDHM para amostras de 25, 100, 400 e população

IDHM400IDHM100IDHM25IDHM

Boxplot of IDHM; IDHM25; IDHM100; IDHM400

One-way ANOVA: IDHM; IDHM25; IDHM100; IDHM400 Source DF SS MS F P

Factor 3 0,00572 0,00191 0,37 0,777

Error 6085 31,63463 0,00520

Total 6088 31,64035

S = 0,07210 R-Sq = 0,02% R-Sq(adj) = 0,00%

Pooled StDev

IDHM 5564 0,65913 0,07197 (*-)

IDHM25 25 0,65592 0,07514 (------------------*------------------)

IDHM100 100 0,66200 0,07111 (--------*---------)

IDHM400 400 0,65564 0,07399 (----*----)

--+---------+---------+---------+-------

0,630 0,645 0,660 0,675

Boxplot of IDHM; IDHM25; IDHM100; IDHM400

Value grande, ou seja, que existe alguma chance de outros resultados interferirem nestes resultados.

IDHM 25 0,800,750,700,650,600,550,50

Median

0,700,680,660,640,62

Median 0,67100

Maximum 0,81500

0,62490 0,68694

0,61498 0,70421

0,05867 0,10453

A -Squared 0,19

P-V alue 0,894

Mean 0,65592

StDev 0,07514

V ariance 0,00565

Skewness -0,030353

Kurtosis -0,513537

Minimum 0,51700

Summary for IDHM25

0,67100 0,65592 0,07514 0,894

IDHM 100 0,8250,7500,6750,6000,5250,450

Median

0,690,680,670,660,650,64

Median 0,67350

Maximum 0,81900

0,64789 0,67611

0,64523 0,68626

0,06244 0,08261

A -Squared 0,49

P-V alue 0,212

Mean 0,66200

StDev 0,07111

V ariance 0,00506

Skewness -0,311540

Kurtosis -0,293497

Minimum 0,45000

Summary for IDHM100

0,67350 0,66200 0.07111 0,212

IDHM 400 0,780,720,660,600,540,48

Median

0,6750,6700,6650,6600,6550,6500,645

Median 0,66000

Maximum 0,81700

0,64837 0,66291

0,64500 0,67300

0,06919 0,07950

A -Squared 2,73

P-V alue < 0,005

Mean 0,65564

StDev 0,07399

V ariance 0,00547

Skewness -0,131165

Kurtosis -0,888873

Minimum 0,47100

Summary for IDHM400

0,66000 0,65564 0,07399 0,005

IDHM 0,840,770,700,630,560,490,42

Median

0,6700,6680,6660,6640,6620,6600,658

Median 0,66500

Maximum 0,86200

0,65724 0,66102

0,66200 0,66900

0,07066 0,07333

A -Squared 40,64

P-V alue < 0,005

Mean 0,65913

StDev 0,07197

V ariance 0,00518

Skewness -0,156737

Kurtosis -0,846019

N 5564

Minimum 0,41800

Summary for IDHM

0,66500 0,65913 0,07197 0,005

variável IDHM. Os valores de P-values são idênticos para a amostra de 400 indivíduos e a população, ou seja,

não existe chance dos resultados acima apresentarem valores diferentes. A mediana obteve uma diferença

semelhante entre as amostras com uma aproximação gradual dos valores da população conforme aumentava-se o

número de indivíduos. Esta diferença também pôde ser percebida com relação a média das amostras e a média da

população, no entanto, nos valores de média.

3.1.2 – VARIÁVEL IDHM_R

Gráfico 1 – IDHM_R para amostra com 25 linhas

0,720,640,560,48

Median

0,680,660,640,620,60

Median 0,65700

Maximum 0,75300

0,60782 0,66866

0,59899 0,68480

0,05754 0,10251

A -Squared 0,63

P-V alue 0,087

Mean 0,63824

StDev 0,07369

V ariance 0,00543

Skewness -0,631094

Kurtosis -0,439798

Minimum 0,46900

Summary for IDHM_R25

Este é o resultado da análise exploratória dos dados de IDHM_R, para uma população de 25 indivíduos ou

municípios.

0,750,700,650,600,550,500,45

Median

0,660,650,640,630,620,610,60

Median 0,63050

Maximum 0,78400

0,61248 0,64264

0,60048 0,65880

0,06674 0,08830

A -Squared 1,21

P-V alue < 0,005

Mean 0,62756

StDev 0,07601

V ariance 0,00578

Skewness -0,03756

Kurtosis -1,01391

Minimum 0,46200

municípios.

0,8250,7500,6750,6000,525

Median

0,6750,6700,6650,6600,6550,6500,645

Median 0,66400

Maximum 0,84800

0,64318 0,65908

0,65091 0,67400

0,07566 0,08694

A -Squared 4,94

P-V alue < 0,005

Mean 0,65113

StDev 0,08091

V ariance 0,00655

Skewness -0,12704

Kurtosis -1,02226

Minimum 0,46500

municípios.

Gráfico 4 – IDHM_R para população com 5664 linhas

0,840,770,700,630,560,490,42

Median

0,6560,6520,6480,6440,640

Median 0,65400

Maximum 0,89100

0,64071 0,64495

0,65000 0,65700

0,07914 0,08214

A -Squared 55,30

P-V alue < 0,005

Mean 0,64283

StDev 0,08061

V ariance 0,00650

Skewness -0,103406

Kurtosis -0,878094

N 5564

Minimum 0,40000

Summary for IDHM_R

Podemos observar no gráfico 4, resultado da análise exploratória dos dados de IDHM_R, para toda a população

de 5564 municípios.

é de 0,64283 e o desvio padrão 0,08061. Existe 95% de confiança de que a média está entre o intervalo de

0,64071 e 0,64495.

Gráfico 5 – Boxplot de IDHM_R para amostras de 25, 100, 400 e população

IDHM_RIDHM_R400IDHM_R100IDHM_R25

Boxplot of IDHM_R25; IDHM_R100; IDHM_R400; IDHM_R

One-way ANOVA: IDHM_R25; IDHM_R100; IDHM_R400; IDHM_R Source DF SS MS F P

Factor 3 0,05093 0,01698 2,62 0,049

Error 6085 39,46667 0,00649

Total 6088 39,51760

S = 0,08054 R-Sq = 0,13% R-Sq(adj) = 0,08%

Level N Mean StDev

IDHM_R25 25 0,63824 0,07369

IDHM_R100 100 0,62756 0,07601

IDHM_R400 400 0,65113 0,08091

IDHM_R 5564 0,64283 0,08061

Level -+---------+---------+---------+--------

IDHM_R25 (-------------------*-------------------)

IDHM_R100 (---------*---------)

IDHM_R400 (----*----)

IDHM_R (-*)

-+---------+---------+---------+--------

0,608 0,624 0,640 0,656

Boxplot of IDHM_R25; IDHM_R100; IDHM_R400; IDHM_R

Value alto, ou seja que existe alguma chance de outros resultados influenciarem no resultado desta análise.

IDHM_R 25 0,720,640,560,48

Median

0,680,660,640,620,60

Median 0,65700

Maximum 0,75300

0,60782 0,66866

0,59899 0,68480

0,05754 0,10251

A -Squared 0,63

P-V alue 0,087

Mean 0,63824

StDev 0,07369

V ariance 0,00543

Skewness -0,631094

Kurtosis -0,439798

Minimum 0,46900

0,65700 0,63824 0,07369 0,087

IDHM_R

100 0,750,700,650,600,550,500,45

Median

0,660,650,640,630,620,610,60

Median 0,63050

Maximum 0,78400

0,61248 0,64264

0,60048 0,65880

0,06674 0,08830

A -Squared 1,21

P-V alue < 0,005

Mean 0,62756

StDev 0,07601

V ariance 0,00578

Skewness -0,03756

Kurtosis -1,01391

Minimum 0,46200

0,63050 0,62756 0,07601 0,005

IDHM_R

400 0,8250,7500,6750,6000,525

Median

0,6750,6700,6650,6600,6550,6500,645

Median 0,66400

Maximum 0,84800

0,64318 0,65908

0,65091 0,67400

0,07566 0,08694

A -Squared 4,94

P-V alue < 0,005

Mean 0,65113

StDev 0,08091

V ariance 0,00655

Skewness -0,12704

Kurtosis -1,02226

Minimum 0,46500

0,664 0,65113 0,08091 0,005

IDHM_R 0,840,770,700,630,560,490,42

Median

0,6560,6520,6480,6440,640

Median 0,65400

Maximum 0,89100

0,64071 0,64495

0,65000 0,65700

0,07914 0,08214

A -Squared 55,30

P-V alue < 0,005

Mean 0,64283

StDev 0,08061

V ariance 0,00650

Skewness -0,103406

Kurtosis -0,878094

N 5564

Minimum 0,40000

Summary for IDHM_R

0,65400 0,64283 0,08061 0,005

variável IDHM_R. Os valores de P-values são idênticos para a amostra de 100, 400 indivíduos e a população, ou

seja, não existe chance dos resultados acima apresentarem valores diferentes. Vale destacar que a análise com 25

indivíduos apresentou resultados semelhantes aos da população, mas com um P-value de 0,087. A mediana

obteve uma variação gradual entre as amostras. Esta diferença também pôde ser percebida com relação a média

das amostras com relação a população.

3.2 VARIÁVEIS QUANTITATIVAS

análise como histogramas, curvas de densidade, gráfico de ramos, box-plot e dot-plot, além de

informações numéricas como média, desvio-padrão, mediana, quartis, 5 números, intervalo de

confiança e teste de normalidade de Anderson-Darling.

3.2.1 A Tabela de Dados2

Estatísticas Descritivas: ESPVIDA; IDHM_L; IDHM_R; IDHM; RDPC;

T_FUND15A17; I_FREQ_PROP; ...

Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum

ESPVIDAn 5565 0 0,58388 0,00269 0,20095 0 0,43853 0,61244 0,73913 1

T_FREQ5A6n 5565 0 0,85728 0,00188 0,13989 0 0,80595 0,89964 0,95239 1

T_FUND11A13n 5565 0 0,76809 0,00181 0,13476 0 0,69716 0,79474 0,86158 1

T_FUND15A17n 5565 0 0,53229 0,00231 0,17243 0 0,40063 0,5397 0,66643 1

T_FUND18Mn 5565 0 0,40638 0,00209 0,15571 0 0,28669 0,38838 0,50596 1

T_MED18A20n 5565 0 0,3969 0,00227 0,16924 0 0,268 0,38586 0,51573 1

RDPCn 5565 0 0,20403 0,00167 0,12491 0 0,09491 0,19071 0,28467 1

I_FREQ_PROPn 5565 0 0,57686 0,00186 0,13851 0 0,48271 0,57925 0,68228 1

IDHMn 5565 0 0,54315 0,00217 0,16216 0 0,40766 0,55631 0,67568 1

IDHM_En 5565 0 0,56973 0,00202 0,15102 0 0,45793 0,5712 0,68608 1

IDHM_Ln 5565 0 0,58362 0,0027 0,20127 0 0,43694 0,61261 0,73874 1

IDHM_Rn 5565 0 0,49465 0,0022 0,16428 0 0,35031 0,51731 0,62525 1

3.3 CORRELAÇÃO LINEAR

Segue abaixo a matriz de correlação incluindo o teste de significância p-value. Para a

correlação foi utilizado o índice de Pearson. Vale ressaltar que o índice de correlação entre as

variáveis não requer que exista uma relação de causa-efeito entre ambas.

CORRELAÇÃO DAS VARIÁVEIS DA DIMENSÃO DESENVOLVIMENTO

HUMANO

Os dados abaixo representam a correlação entre as variáveis selecionadas e já trabalhadas

anteriormente.

Correlations: ESPVIDAn; T_FUND11A13n; T_FUND15A17n; T_FUND18Mn; ... ESPVIDAn T_FUND11A13n T_FUND15A17n T_FUND18Mn

T_FUND11A13n 0,517

T_FUND15A17n 0,666 0,726

0,000 0,000

T_FUND18Mn 0,632 0,446 0,601

0,000 0,000 0,000

T_MED18A20n 0,660 0,651 0,833 0,656

0,000 0,000 0,000 0,000

2 Para as análises foram normalizados todos os dados, sendo que o valor que se aplica é: “quanto mais próximo

de 1 melhor”.

RDPCn 0,784 0,525 0,671 0,757

0,000 0,000 0,000 0,000

I_FREQ_PROPn 0,641 0,812 0,927 0,633

0,000 0,000 0,000 0,000

IDHMn 0,852 0,682 0,832 0,857

0,000 0,000 0,000 0,000

IDHM_En 0,704 0,705 0,855 0,892

0,000 0,000 0,000 0,000

IDHM_Ln 1,000 0,517 0,666 0,632

0,000 0,000 0,000 0,000

IDHM_Rn 0,834 0,586 0,721 0,757

0,000 0,000 0,000 0,000

T_FREQ5A6n 0,016 0,206 0,197 0,187

0,229 0,000 0,000 0,000

T_MED18A20n RDPCn I_FREQ_PROPn IDHMn

RDPCn 0,717

I_FREQ_PROPn 0,917 0,686

0,000 0,000

IDHMn 0,851 0,908 0,862

0,000 0,000 0,000

IDHM_En 0,877 0,791 0,913 0,951

0,000 0,000 0,000 0,000

IDHM_Ln 0,660 0,784 0,641 0,852

0,000 0,000 0,000 0,000

IDHM_Rn 0,748 0,962 0,729 0,948

0,000 0,000 0,000 0,000

T_FREQ5A6n 0,250 0,108 0,434 0,224

0,000 0,000 0,000 0,000

IDHM_En IDHM_Ln IDHM_Rn

IDHM_Ln 0,704

IDHM_Rn 0,820 0,834

0,000 0,000

T_FREQ5A6n 0,351 0,016 0,095

0,000 0,228 0,000

Cell Contents: Pearson correlation

P-Value

A correlação é sempre um número entre zero e um e mede a intensidade de relações lineares.

A correlação entre as variáveis analisadas é positiva na maior parte dos dados, mas de fraca

intensidade. Contudo, com base nas informações constantes na matriz de correlação pode-se

perceber que as variáveis descritas na Tabela 3 apresentam forte relação, vale destacar que

isto não significa que elas apresentam causalidade, ou seja, um sentido direto entre elas.

TABELA 3 – CORRELAÇÃO DAS VARIÁVEIS

Variável Variável Grau de Correlação

ESPVIDA IDHM_L 1,000

IDHM IDHM_E 0,951

I_FREQ_PROP IDHM_E 0,913

RDPC IDHM_R 0,962

IDHM IDHM_R 0,948

T_FUND15A17 I_FREQ_PROP 0,927

T_MED18A20 I_FREQ_PROP 0,917

Fonte: elaborado pelo autor, 2014.

3.4 DENDROGRAMA

Um Dendrograma (dendr(o) = árvore) é um tipo específico de diagrama ou representação

icônica que organiza determinados fatores e variáveis. Isto quer dizer que sua representação

apresenta um diagrama de similaridade.

A interpretação de um Dendrograma de similaridade entre amostras fundamenta-se na

intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis

medidas. Ou seja, elas devem ser próximas matematicamente no espaço multidimensional.

Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a

similaridade entre elas. O dendrograma hierarquiza esta similaridade de modo que podemos

ter uma visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de

amostras utilizado no estudo.

Análise de Agrupamentos de Variáveis: ESPVIDA; T_FREQ5A6; T_FUND11A13; T_FUND15A17; ...

Cluster Analysis of Variables: ESPVIDAn; T_FREQ5A6n; T_FUND11A13n; ... Correlation Coefficient Distance, Single Linkage

Amalgamation Steps

Number

of obs.

Number of Similarity Distance Clusters New in new

Step clusters level level joined cluster cluster

1 11 99,9990 0,000021 1 11 1 2

2 10 98,0832 0,038336 7 12 7 2

3 9 97,5438 0,049125 9 10 9 2

4 8 97,4161 0,051679 7 9 7 4

5 7 96,3577 0,072845 4 8 4 2

6 6 95,8645 0,082709 4 6 4 3

7 5 95,6730 0,086540 4 7 4 7

8 4 94,5961 0,108077 4 5 4 8

9 3 92,6074 0,147851 1 4 1 10

10 2 90,6174 0,187653 1 3 1 11

11 1 71,6889 0,566221 1 2 1 12

Segue abaixo o Dendrograma das variáveis analisadas:

100,00

Variables

DendrogramSingle Linkage; Correlation Coefficient Distance

Gráfico - Dendrograma das variáveis da Dimensão Desenvolvimento Humano

Podemos concluir pelo Dendrograma que existem dois grupos de variáveis semelhantes,

sendo o primeiro grupo composto pelo ESPVIDA, IDHM_L, I_FUND_PROP,

T_MED18A20, RDPC, IDMH_R, IDHM, IDHM_E, T_FUND18M, T_FUND11A13. O

segundo grupo é por uma única variável que é T_FREQ5A6.

STAT >> MULTIVARIATE >> CLUSTER VARIABLE (number of cluster = 2)

100,00

Variables

DendrogramSingle Linkage; Correlation Coefficient Distance

Figura 3 – Dendograma dos agrupamentos das variáveis por similaridade

3.2.3. PRINCIPAIS COMPONENTES

>> STAT >> MULTIVARIATE >> Principal Components

0,40,30,20,10,0

First Component

IDHM_Rn

IDHM_En

I_FREQ_PROPn

T_MED18A20n

T_FUND18Mn

T_FUND11A13n

T_FREQ5A6n

ESPVIDAn

Loading Plot of ESPVIDAn; ...; IDHM_Rn

Figura 4 – Gráfico Loadin Plot da Dimensão Desenvolvimento Humano

Podemos observar 2 grupos de dados sendo o primeiro composto pelas seguintes variáveis:

ESPVIDA, IDHM_L, I_FUND_PROP, T_MED18A20, RDPC, IDMH_R, IDHM, IDHM_E,

T_FUND18M, T_FUND11A13. Já o segundo é por uma única variável que é T_FREQ5A6.

10987654321

Component Number

Scree Plot of ESPVIDAn; ...; IDHM_Rn

Figura 5 – Scree Plot das variáveis da Dimensão Desenvolvimento Humano

Existe um peso muito grande da primeira variável e as demais estão bem distantes. As

variáveis 2 e 3 possuem peso maior que 1, e as demais não dá para aproveitar pois estão

abaixo de 1.

Principal Component Analysis: ESPVIDAn; T_FREQ5A6n; T_FUND11A13n; T_FUND18Mn; T Eigenanalysis of the Correlation Matrix

Eigenvalue 7,1698 1,1871 0,6705 0,3909 0,2928 0,2236 0,0367 0,0276

Proportion 0,717 0,119 0,067 0,039 0,029 0,022 0,004 0,003

Cumulative 0,717 0,836 0,903 0,942 0,971 0,993 0,997 1,000

Eigenvalue 0,0009 0,0002

Proportion 0,000 0,000

Cumulative 1,000 1,000

Variable PC1 PC2

ESPVIDAn 0,307 0,301

T_FREQ5A6n 0,102 -0,791

T_FUND11A13n 0,275 -0,200

T_FUND18Mn 0,311 0,099

T_MED18A20n 0,332 -0,110

RDPCn 0,333 0,242

I_FREQ_PROPn 0,339 -0,292

IDHMn 0,371 0,076

IDHM_En 0,360 -0,119

IDHM_Rn 0,345 0,239

Os gráficos abaixo apresentam uma visão dos agrupamentos das colunas em 2 variáveis PC1

PC2, e está agrupado por região e por Estado. Como os dados dos municípios são muito

grandes (5565), dificulta um pouco a visualização. As colunas PC1 e PC2 são armazenadas

como resultado do comando:

6543210-1-2-3

Scatterplot of C36 vs C37

Figura 6 – Visão das variáveis C36 e C37 por Estado.

6543210-1-2-3

Região

Scatterplot of C36 vs C37

Figura 7 – Visão das variáveis C36 e C37, por Região.

3.2.4. CONSIDERAÇÕES FINAIS

Pelo resultado das análises da correlação linear, dendrograma e principais componentes, os

dados podem ser reduzidos para duas variáveis, o que torna o trabalho com os números mais

fácil e prático de serem manuseados.

confiança e teste de normalidade de Anderson-Darling.

3.2.1. DENDOGRAMA DOS DADOS AGRUPADOS PELO RESULTADO DAS

MÉDIAS ESPVIDAn3 x IDHMn x IDHM_Rn POR ESTADO (-DF)

O Dendograma permite uma análise do grau de similaridade dos dados para uma determinada

variável. Em seguida geramos o Dendograma de Educação por Estado

STAT >> MULTIVARIATE >> CLUSTER OBSERVATION

SPSCRSMGRJPRM

GOESRRROTOAPMAPIALRNCEPBSEPEBAAMPAAC

100,00

Observations

Dendograma média de estado ESPVIDAn x IDHMn x IDHM_Rn

Gráfico2. Dendograma da variáveis ESPVIDA x IDHM x IDHM_R por estados do Brasil (classificação não

supervisionada)

3 Este “n” explica que os dados foram normalizados, ou seja, os dados foram transformados em índices que estão

entre 0-1, sendo que para sua análise deve ser usada a perspectiva de que quanto mais próximo de 1 melhor

Na figura 2 acima podem-se verificar quatro grandes grupos de variáveis, agrupadas pela

similaridade dos dados. Os estados que possuem maior similaridade são Pernambuco e

Sergipe no grupo vermelho e Espírito Santo e Goiás no grupo azul. O nível de similaridade

dos dados destes estados está acima de 95 %, conforme indicado na escala apresentada no

eixo Y do gráfico.

No mapa acima pode ser percebido a divisão por cores dos estados de acordo com seu

agrupamento por similaridade. Nesta representação vale destacar há certa coerência com as

particularidades de cada estado, com o exemplo do agrupamento dos estados na cor verde se

justifica por aparentemente apresentarem baixa capacidade de infraestrutura entre outras

particularidades.

3.2.2. DENDOGRAMA DOS DADOS AGRUPADOS PELO RESULTADO DOS

DESVIOS PADRÃO ENTRE ESPVIDAn4 x IDHMn x IDHM_Rn POR ESTADO (-DF)

O Dendograma permite uma análise do grau de similaridade dos dados para uma determinada

variável. Em seguida geramos o Dendograma de desvio padrão por Estado

STAT >> MULTIVARIATE >> CLUSTER OBSERVATION

RRGORJMTESROPRRSM

SSPCEAPTOPEMG

AMSERNSCPIBAPBALPAAC

100,00

Observations

Dendograma desvio padrão de estado ESPVIDAn x IDHMn x IDHM_Rn

Gráfico 3. Dendograma “Desigualômetro” da variáveis ESPVIDAn x IDHMn x IDHM_Rn por Estado

No gráfico 3 acima, podemos verificar quatro agrupamentos de dados, que são compostos

pelos Estados do Brasil. Então, o dendograma é construído por dois grandes agrupamentos

além dos três estados ficaram isolados por não terem seus dados em similaridade com os

outros estados, sendo que um deles é composto por Acre e Pará em um agrupamento e o

Estado de Roraima ficando isolado.

Na classificação não supervisionada não se tem informações prévias sobre estes grupos. Não

se tem informações sobre os porquês ou os critérios de agrupamento utilizados neste

agrupamento.

Podemos observar que alguns estados possuem um alto nível de similaridade, o que significa

que a desigualdade é baixa. O menor nível de desigualdade se encontra nos estados mais

próximos do eixo X, por exemplo, Espírito Santo e Mato Grosso no grupo azul, além dos

4 Este “n” explica que os dados foram normalizados, ou seja, os dados foram transformados em índices que estão

entre 0-1, sendo que para sua análise deve ser usada a perspectiva de que quanto mais próximo de 1 melhor

estados de Piauí e Santa Catarina no grupo verde, que tem um nível de similaridade acima de

O mapa acima representa a divisão por cores dos estados levando em conta o desvio padrão

relacionado às variáveis ESPVIDAn x IDHMn x IDHM_Rn.

Para a leitura dos gráficos se faz necessário entender que quando o nível de desigualdade se

apresenta baixo, isto não representa uma situação boa, pois esta inferência é errônea. Portanto,

salienta-se que os agrupamentos são feitos por similaridade. Assim, a baixa desigualdade não

significa que as coisas vão bem ou mal, mas sim que existe um padrão nos municípios do

estado em termos das variáveis selecionadas, uma maior similaridade entre estes municípios.

3.2.2. ANÁLISE DAS VARIÂNCIAS DAS VARIÁVEIS POR ESTADO

A análise das variâncias permite a verificação e visualização das médias e desvios padrões da

variável a ser analisada. O gráfico BOXPLOT ilustra os agrupamentos, o seu tamanho varia

de acordo com a quantidade de dados de cada grupo, e também é possível visualizar as

ocorrências de outliers dentro de um grupo de dados.

3.2.2.1 Análise das variâncias da variável IDHMn por estado

Podemos visualizar no gráfico 4, uma grande variabilidade sobre as médias de IDHM por

estado. O estado que apresenta maior variabilidade dos dados é Acre. Ceara apresenta uma

baixa variabilidade dos dados de IDMHn, embora tenha muitos outliers que são os dados

muito distantes das médias.

TOSPSESCRSRRRORNRJPRPIPEPBPAMT

GOESCEBAAP

AMALAC

Boxplot of IDHMn

Figura 4. Gráfico BOXPLOT de IDHM por estado

O resultado deste comando não fica armazenado na base de dados, é necessário copiar da área

session para a área worksheet, para cada variável gerada. Com isso temos os dados dos 5565

municípios do Brasil, resumidos pela média e pelo desvio padrão. A partir destes dados

resumidos, fica mais fácil trabalhar os dados, uma vez que estando resumido se torna mais

simples a sua manipulação e análise.

Comando para gerar os dados agrupados STAT>> ANOVA >> ONEWAY

Abaixo podemos visualizar os dados descritivos gerados pelo comando, para a variável

IDHMn.

One-way ANOVA: IDHMn versus UFN Source DF SS MS F P

UFN 25 97,2750 3,8910 440,75 0,000

Error 5538 48,8902 0,0088

Total 5563 146,1652

S = 0,09396 R-Sq = 66,55% R-Sq(adj) = 66,40%

Pooled StDev

Level N Mean StDev ----+---------+---------+---------+-----

AC 22 0,37858 0,13241 (---*--)

AL 102 0,32770 0,08917 (*-)

AM 62 0,33134 0,12128 (-*-)

AP 16 0,50633 0,09620 (---*---)

BA 417 0,39618 0,09290 (*)

CE 184 0,44737 0,07133 (*)

ES 78 0,61755 0,08581 (*-)

GO 246 0,62384 0,07537 (*)

MA 217 0,35627 0,10398 (*)

MG 853 0,56279 0,11179 (*

MS 78 0,58943 0,09271 (-*-)

MT 141 0,59975 0,08619 (*)

PA 143 0,36835 0,12608 (-*)

PB 223 0,38211 0,08519 (*)

PE 185 0,40146 0,10701 (*-)

PI 224 0,34471 0,09032 (*)

PR 399 0,63955 0,08686 *)

RJ 92 0,65521 0,08281 (-*)

RN 167 0,43435 0,08529 (*)

RO 52 0,50910 0,09068 (-*--)

RR 15 0,43288 0,16592 (---*---)

RS 496 0,66561 0,09285 *)

SC 293 0,70642 0,09046 (*)

SE 75 0,40300 0,08407 (-*)

SP 645 0,72416 0,07315 *)

TO 139 0,49984 0,10278 (-*)

----+---------+---------+---------+-----

0,36 0,48 0,60 0,72

3.2.2.2 Análise das variâncias da variável ESPVIDAn por estado

Podemos visualizar no gráfico 5, uma grande variabilidade sobre as médias de ESPVIDAn

por estado. O estado que apresenta maior variabilidade dos dados é Acre. Ceara apresenta

uma baixa variabilidade dos dados de ESPVIDAn, embora tenha muitos outliers que são os

dados muito distantes das médias.

GOESCEBAAP

AMALAC

nBoxplot of ESPVIDAn

Figura 5. Gráfico BOXPLOT de ESPVIDAn por estado

Podemos visualizar no gráfico 5, uma grande variabilidade sobre as médias de ESPVIDAn

por estado. Destaca-se que diversos estados apresentam um grau semelhante de variabilidade

como Alagoas, Tocantins, Sergipe, entre outros. Por outro lado, destaca-se os estados de

Goiás e Roraima que apresentam uma baixa variabilidade dos dados de ESPVIDAn.

ESPVIDAn.

One-way ANOVA: ESPVIDAn versus UFN Source DF SS MS F P

UFN 25 147,7345 5,9094 425,85 0,000

Error 5538 76,8498 0,0139

Total 5563 224,5843

S = 0,1178 R-Sq = 65,78% R-Sq(adj) = 65,63%

Pooled StDev

AC 22 0,4267 0,1243 (--*---)

AL 102 0,3049 0,1457 (*-)

AM 62 0,4216 0,1196 (-*-)

AP 16 0,5044 0,0891 (---*--)

BA 417 0,3951 0,1356 *)

CE 184 0,4029 0,0993 (*)

ES 78 0,6924 0,0784 (-*-)

GO 246 0,6914 0,0705 (*)

MA 217 0,3097 0,1264 (*)

MG 853 0,6840 0,1342 (*

MS 78 0,6733 0,1079 (-*-)

MT 141 0,6547 0,0810 (-*)

PA 143 0,4621 0,0955 (*)

PB 223 0,3777 0,1378 (*)

PE 185 0,3774 0,1576 (*)

PI 224 0,3500 0,1261 (*)

PR 399 0,6690 0,0943 (*

RJ 92 0,6491 0,0816 (*-)

RN 167 0,4093 0,1192 (*)

RO 52 0,5266 0,1099 (-*-)

RR 15 0,5685 0,0690 (---*---)

RS 496 0,7587 0,1003 (*

SC 293 0,7880 0,1319 (*

SE 75 0,3782 0,1274 (-*-)

SP 645 0,7387 0,0987 *)

TO 139 0,5308 0,1547 (*-)

-+---------+---------+---------+--------

0,30 0,45 0,60 0,75

Podemos observar que alguns estados possuem baixa variabilidade dos dados em relação à

média, como Paraiba, Pernambuco e Goiás. Já outros apresentam um desvio padrão com

maior variabilidade como Roraima e Amapá.

3.2.2.3 Análise das variâncias da variável IDHM_Rn por estado

GOESCEBAAP

AMALAC

Boxplot of IDHM_Rn

Figura 6. Gráfico BOXPLOT de IDHM_Rn por estado

Podemos visualizar no gráfico 6, uma grande variabilidade sobre as médias de IDHM_Rn por

estado. O estado que apresenta maior variabilidade dos dados é Roraima, sendo que o Ceara,

Rio Grande do Norte, Sergipe, entre outros possuem baixa variabilidade dos dados de

IDHM_Rn.

IDHMn.

One-way ANOVA: IDHM_Rn versus UFN

Source DF SS MS F P

UFN 25 102,5672 4,1027 479,41 0,000

Error 5538 47,3933 0,0086

Total 5563 149,9605

S = 0,09251 R-Sq = 68,40% R-Sq(adj) = 68,25%

Pooled StDev

Level N Mean StDev ---------+---------+---------+---------+

AC 22 0,37771 0,11764 (--*---)

AL 102 0,30216 0,08115 (*-)

AM 62 0,29555 0,10410 (-*-)

AP 16 0,44577 0,10836 (---*---)

BA 417 0,35589 0,09107 (*

CE 184 0,32443 0,07624 (*)

ES 78 0,57154 0,08769 (-*)

GO 246 0,57849 0,08338 (*)

MA 217 0,26815 0,10735 (*)

MG 853 0,51317 0,11292 (*

MS 78 0,58624 0,08443 (-*-)

MT 141 0,57464 0,09063 (*)

PA 143 0,35103 0,11832 (*-)

PB 223 0,33479 0,07809 (*)

PE 185 0,35515 0,09589 (-*)

PI 224 0,29901 0,08516 (*)

PR 399 0,59460 0,07792 (*

RJ 92 0,62030 0,08529 (-*)

RN 167 0,36740 0,08304 (-*)

RO 52 0,52581 0,07378 (-*-)

RR 15 0,36225 0,15795 (---*---)

RS 496 0,65604 0,08930 (*

SC 293 0,66810 0,08423 (*)

SE 75 0,36079 0,08216 (-*-)

SP 645 0,64458 0,08202 (*

TO 139 0,42871 0,10028 (-*)

---------+---------+---------+---------+

0,36 0,48 0,60 0,72

Podemos observar que alguns estados possuem alta variabilidade dos dados em relação à

média, como Acre, Amapá e Roraima. Já outros tem o desvio padrão com menor variabilidade

como Goiás, Santa Catarina e Ceara.

3.2.5. CONSIDERAÇÕES FINAIS

As análise comparativas dos dados nos permitem um resumo dos dados através de cálculos

específicos como médias e desvios padrões, tornando a análise dos dados mais fácil e simples.

Os gráficos de Boxplot e Dendograma são excelentes figuras visuais para podermos analisar e

interpretar os diferentes comportamentos dos dados. No dendograma podemos analisar as

similaridades dos dados e no Boxplot podemos ver as relações entre as médias e as variâncias

dos agrupamentos analisados. Trata-se de ferramentas úteis para análise de grandes volumes

de dados.

confiança e teste de normalidade de Anderson-Darling. Também podemos fazer classificações

supervisionadas das variáveis quantitativas, através da análise discriminante.

3.2.1. ANÁLISE DISCRIMINANTE LINEAR POR REGIÃO

A análise discriminante é uma técnica da estatística multivariada utilizada para discriminar e

classificar objetos, e estuda a separação de objetos de uma população em duas ou mais

classes. Neste caso queremos discriminar os valores das variáveis IDHMn5, IDHM_Rn e

ESPVIDAn dos municípios6 do Brasil, e utilizaremos inicialmente a variável categórica

Região. Para geração de análise discriminante utilizaremos o comando do Minitab:

STAT >> MULTIVARIATE >> DISCRIMINANT ANALISYS

Discriminant Analysis: Região versus ESPVIDAn; IDHMn; IDHM_Rn Linear Method for Response: Região

Predictors: ESPVIDAn; IDHMn; IDHM_Rn

Group CO N NE S SE

Count 465 449 1794 1188 1668

Summary of classification

True Group

Put into Group CO N NE S SE

CO 149 47 35 224 243

N 38 217 432 50 223

NE 2 125 1255 2 55

S 139 15 13 653 454

SE 137 45 59 259 693

Total N 465 449 1794 1188 1668

N correct 149 217 1255 653 693

Proportion 0,320 0,483 0,700 0,550 0,415

N = 5564 N Correct = 2967 Proportion Correct = 0,533

Squared Distance Between Groups

CO N NE S SE

CO 0,0000 3,6130 7,9941 0,3673 0,3226

N 3,6130 0,0000 1,3618 6,2756 4,1179

NE 7,9941 1,3618 0,0000 11,6629 8,2410

S 0,3673 6,2756 11,6629 0,0000 0,6902

SE 0,3226 4,1179 8,2410 0,6902 0,0000

Linear Discriminant Function for Groups

CO N NE S SE

Constant -19,774 -9,782 -6,975 -23,662 -20,753

ESPVIDAn 25,071 19,245 9,337 26,926 26,327

IDHMn 13,714 13,055 27,423 12,880 23,887

IDHM_Rn 24,528 11,655 -0,554 29,640 13,734

Figura 2. Resultado do comando STAT >> MULTIVARIATE >> DISCRIMINANT ANALISYS

5 A letra “n” no final das variáveis representa que as mesmas foram normalizadas. 6 Para está análise excluiu-se o DF – Distrito Federal.

Com base nas informações apresentadas na figura 2 pode ser notado que a região que acertou

mais é Nordeste (0,700) e a que errou mais foi a região Centro Oeste (0,320). As informações

ainda exibem o cruzamento de dados entre as regiões, por exemplo, a região Nordeste possui

1794 municípios e apenas 1255 correspondem a região. O nome desta matriz é confusion

matrix ou matriz de confusão. Podemos concluir que o agrupamento por região não é uma boa

escolha segundo esta avaliação.

3.2.2. ANÁLISE DISCRIMINANTE LINEAR POR “2 BRASIS”

Esta segunda análise está interessada em verificar os possíveis agrupamentos dos dados

utilizando a variável 2 Brasis, calculada a partir do exercício anterior, e demonstra os

agrupamentos do Brasil segundo sua proximidade de dados de educação. Para esta análise

foram agrupadas as regiões de Sul, Sudeste e Centro-Oeste como COSSE, e as regiões de

Norte e Nordeste como NNE.

Discriminant Analysis: Reclassificação versus ESPVIDAn; IDHMn; IDHM_Rn Linear Method for Response: Reclassificação das Regiões

Group COSSE NNE

Count 3321 2243

True Group

Put into Group COSSE NNE

COSSE 3026 242

NNE 295 2001

Total N 3321 2243

N correct 3026 2001

COSSE NNE

COSSE 0,00000 7,41307

NNE 7,41307 0,00000

COSSE NNE

Constant -20,237 -7,107

ESPVIDAn 23,084 9,743

IDHMn 25,254 27,548

IDHM_Rn 13,132 -1,640

Existem duas possibilidades de realizar a análise discriminante que são a linear e a quadrática.

Dependendo da variável deve-se dar mais peso e mais atenção a um método em detrimento do

outro. Neste caso a linear já nos apresenta informações satisfatórias. Podemos observar que

alguns estados e municípios da região COSSE tem características das região NNE, visto pelo

número 537 municípios foram encontrados na intersecção entre COSSE e NNE.

3.2.3. ANÁLISE DISCRIMINANTE QUADRÁTICA POR “3 BRASIS”

Uma boa classificação deve resultar em pequenos erros, isto é, deve haver pouca

probabilidade de classificação inadequada, e para que isso ocorra a regra de classificação deve

considerar as probabilidades a priori e os custos de classificação errada. Outro fator que uma

regra de classificação deve considerar é se as variâncias das populações são iguais ou não.

Quando a regra de classificação assume que as variâncias das populações são iguais, as

funções discriminantes são ditas lineares e quando não são funções discriminantes

quadráticas. Vamos agora verificar a função quadrática para os 2 Brasis apresentado na

análise anterior.

Discriminant Analysis: Reclassificação versus ESPVIDAn; IDHMn; IDHM_Rn Quadratic Method for Response: Reclassificação das Regiões

Group COSSE NNE

Count 3321 2243

True Group

Put into Group COSSE NNE

COSSE 3025 241

NNE 296 2002

Total N 3321 2243

N correct 3025 2002

From Generalized Squared Distance to Group

Group COSSE NNE

COSSE -15,43 -7,65

NNE -7,44 -14,73

No modelo quadrático a proporção não foi alterada permanecendo em 0.903. Seguindo o

princípio da simplicidade, vamos escolher o método linear, pois este é o mais simples.

Em Ciência, a parcimônia é a preferência pela explicação mais simples para uma observação.

Esta geralmente é considerada a melhor maneira de julgar as hipóteses. Parcimônia também é

um conceito utilizado na sistemática moderna que estabelece que ao construir e selecionar

árvores filogenéticas, ou seja, os dados, o melhor critério é baseado em seus princípios:

normalmente é correto o relacionamento mais simples encontrado entre dois indivíduos,

aquele que apresente o menor número de passos intermediários ou mudanças evolucionárias.

Portanto, não há diferença entre o método linear e o quadrático, o que não justifica a

utilização do método quadrático.

3.2.4. ANÁLISE DISCRIMINANTE LINEAR PARA DADOS AGRUPADOS

Na figura 2 acima podem-se verificar quatro grandes grupos de variáveis, agrupadas pela

similaridade dos dados. Os estados que possuem maior similaridade são Pernambuco e

Sergipe no grupo vermelho e Espírito Santo e Goiás no grupo azul. O nível de similaridade

dos dados destes estados está acima de 95 %, conforme indicado na escala apresentada no

eixo Y do gráfico.

SPSCRSMGRJPRM

GOESRRROTOAPMAPIALRNCEPBSEPEBAAMPAAC

100,00

Observations

Dendograma média de estado ESPVIDAn x IDHMn x IDHM_Rn

Gráfico2. Dendograma da variáveis ESPVIDA x IDHM x IDHM_R por estados do Brasil (classificação não

supervisionada)

No mapa acima pode ser percebido a divisão por cores dos Estados de acordo com seu

agrupamento por similaridade. Nesta representação vale destacar há certa coerência com as

particularidades de cada estado, com o exemplo do agrupamento dos estados na cor verde se

justifica por aparentemente apresentarem baixa capacidade de infraestrutura entre outras

particularidades.

Neste exemplo abaixo vamos através do dendograma pesquisar o grau de similaridade das

médias das variáveis IDHMn, IDHM_Rn e ESPVIDAn nos agrupamentos. Com base na

análise discriminante poderemos verificar a proporção correta dos agrupamentos.

Discriminant Analysis: Agrupamentos versus Media ESPVID; Media IDHM_R; ... Linear Method for Response: Agrupamentos do Estado

Predictors: Media ESPVIDA EST; Media IDHM_Rest; Media IDHM est

Group G1 G2 G3 G4

Count 12 4 7 3

True Group

Put into Group G1 G2 G3 G4

G1 12 0 0 0

G2 0 4 0 0

G3 0 0 7 0

G4 0 0 0 3

Total N 12 4 7 3

N correct 12 4 7 3

Proportion 1,000 1,000 1,000 1,000

G1 G2 G3 G4

G1 0,000 23,795 99,405 175,650

G2 23,795 0,000 26,239 70,698

G3 99,405 26,239 0,000 10,919

G4 175,650 70,698 10,919 0,000

G1 G2 G3 G4

Constant -104,80 -186,10 -296,92 -382,84

Media ESPVIDA EST 268,04 372,72 467,54 528,56

Media IDHM_Rest 5,81 18,52 50,02 55,92

Media IDHM est 274,51 339,90 408,31 467,03

Neste caso a proporção correta é de 100%, ou seja, os agrupamentos gerados anteriormente

pelo agrupamento em 4 Brasis gerou a mesma proporção do método linear utilizado na análise

discriminante.

4. REGRESSÃO LOGÍSTICA ORDINAL PARA AS VARIÁVEIS: IDHMn, IDHM_Rn

E ESPVIDAn.

Inicialmente foram classificadas pela análise ANOVA as regiões para as variáveis: IDHMn,

IDHM_Rn e ESPVIDAn.

One-way ANOVA: IDHMn versus Região Source DF SS MS F P

Região 4 82,3938 20,5985 1795,58 0,000

Error 5559 63,7714 0,0115

Total 5563 146,1652

S = 0,1071 R-Sq = 56,37% R-Sq(adj) = 56,34%

Pooled StDev

CO 465 0,6108 0,0829 (*-)

N 449 0,4278 0,1355 (*-)

NE 1794 0,3889 0,0975 (*

S 1188 0,6669 0,0937 *)

SE 1668 0,6328 0,1223 (*)

--+---------+---------+---------+-------

0,400 0,480 0,560 0,640

One-way ANOVA: IDHM_Rn versus Região Source DF SS MS F P

Região 4 90,9836 22,7459 2143,97 0,000

Error 5559 58,9768 0,0106

Total 5563 149,9605

S = 0,1030 R-Sq = 60,67% R-Sq(adj) = 60,64%

CO 465 0,5786 0,0857 (*)

N 449 0,3927 0,1261 (*)

NE 1794 0,3305 0,0939 *)

S 1188 0,6384 0,0900 (*)

SE 1668 0,5726 0,1175 (*

---------+---------+---------+---------+

0,400 0,480 0,560 0,640

One-way ANOVA: ESPVIDAn versus Região Source DF SS MS F P

Região 4 140,4313 35,1078 2319,16 0,000

Error 5559 84,1530 0,0151

Total 5563 224,5843

S = 0,1230 R-Sq = 62,53% R-Sq(adj) = 62,50%

Pooled StDev

Level N Mean StDev ---+---------+---------+---------+------

CO 465 0,6772 0,0825 (*)

N 449 0,4886 0,1292 (*)

NE 1794 0,3714 0,1356 *)

S 1188 0,7358 0,1177 (*

SE 1668 0,7036 0,1202 *)

---+---------+---------+---------+------

0,40 0,50 0,60 0,70

Após esta análise chegou-se a classificação das regiões de acordo com as médias: NE (1); N

(2); CO (3); SE (4). Neste momento é realizado a Regressão Logística Ordinal.

Ordinal Logistic Regression: REGIÕES CODIFICA versus IDHM_Rn; IDHMn; ...

Link Function: Logit

Response Information

Variable Value Count

REGIÕES CODIFICADAS 1 1794

4 1668

5 1188

Total 5564

Logistic Regression Table

95% CI

Predictor Coef SE Coef Z P Odds Ratio Lower Upper

Const(1) 5,33758 0,124185 42,98 0,000

Const(2) 6,21802 0,132713 46,85 0,000

Const(3) 6,97998 0,140354 49,73 0,000

Const(4) 9,21375 0,161950 56,89 0,000

IDHM_Rn -10,9720 0,569948 -19,25 0,000 0,00 0,00 0,00

IDHMn 5,80239 0,580026 10,00 0,000 331,09 106,22 1031,96

ESPVIDAn -7,65374 0,303498 -25,22 0,000 0,00 0,00 0,00

Log-Likelihood = -5768,113

Test that all slopes are zero: G = 4781,031, DF = 3, P-Value = 0,000

Goodness-of-Fit Tests

Method Chi-Square DF P

Pearson 18090,0 22241 1,000

Deviance 11536,2 22241 1,000

Measures of Association:

(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures

Concordant 9834742 85,0 Somers' D 0,70

Discordant 1713649 14,8 Goodman-Kruskal Gamma 0,70

Ties 15742 0,1 Kendall's Tau-a 0,52

Total 11564133 100,0

Destaca-se que esta análise é confiável, pois o valor de P foi de “0”. O modelo apresentou

nível de concordância de 85% (acerto).

Foi aplicada também a análise de Regressão Logística Ordinal para os dados agrupados em

região, no entanto, este não se mostrou confiável por causa do número de dados analisados

serem muito baixos.

Ordinal Logistic Regression: grupos versus Media ESPVID; Media IDHM_R; ...

* WARNING * Algorithm has not converged after 20 iterations.

* WARNING * Convergence has not been reached for the parameter estimates

criterion.

* WARNING * The results may not be reliable.

* WARNING * Try increasing the maximum number of iterations.

grupos 1 12

Total 26

Odds 95% CI

Predictor Coef SE Coef Z P Ratio Lower Upper

Const(1) 234,299 22694,1 0,01 0,992

Const(2) 287,421 20887,5 0,01 0,989

Const(3) 351,062 27929,3 0,01 0,990

Media ESPVIDA EST -276,986 60066,7 -0,00 0,996 0,00 0,00 *

Media IDHM_Rest -110,437 73535,1 -0,00 0,999 0,00 0,00 *

Media IDHM est -127,477 55619,0 -0,00 0,998 0,00 0,00 *

Pearson 0,0000003 72 1,000

Deviance 0,0000006 72 1,000

Total 229 100,0

5. CONSIDERAÇÕES FINAIS

A tarefa da análise discriminante é encontrar a melhor função discriminante linear ou

quadrática de um conjunto de variáveis que reproduza, tanto quanto possível, um

agrupamento a priori de casos considerados.

Um procedimento em passos é utilizado nesse programa, e em cada passo a variável mais

poderosa é introduzida na função discriminante. A função critério para selecionar a próxima

variável depende do número de grupos especificados (o número de grupos varia de 2 a 20).

Quando o número de variáveis é maior do que dois, então o critério de seleção de variáveis é

o traço do produto da matriz de covariância para as variáveis envolvidas e a matriz de

covariância interclasse em um passo particular.

Os cálculos podem ser realizados em toda a população ou em amostra de dados ou mesmo em

dados previamente agrupados.

Em nossas análises com as variáveis IDHMn, IDHM_Rn e ESPVIDAn, utilizamos a análise

discriminante linear e conseguimos um resultado de 0,903 de proporção correta. Isto

demonstra coerência na divisão em dois grupos. Além disso, é relevante ressaltar a

similaridade destes grupos (municípios) com base nestas variáveis, levando em conta

inclusive sua situação geográfica.

Na outra análise realizada com base no agrupamento apresentado no dendograma, onde pode

ser percebido 4 “Brasis”, a proporcionalidade ficou em 100%.

4. REGRESSÃO LOGÍSTICA ORDINAL PARA AS VARIÁVEIS: IDHMn, IDHM_Rn

E ESPVIDAn.

Inicialmente foram classificadas pela análise ANOVA as regiões para as variáveis: IDHMn,

IDHM_Rn e ESPVIDAn.

One-way ANOVA: IDHMn versus Região Source DF SS MS F P

Região 4 82,3938 20,5985 1795,58 0,000

Error 5559 63,7714 0,0115

Total 5563 146,1652

S = 0,1071 R-Sq = 56,37% R-Sq(adj) = 56,34%

Pooled StDev

CO 465 0,6108 0,0829 (*-)

N 449 0,4278 0,1355 (*-)

NE 1794 0,3889 0,0975 (*

S 1188 0,6669 0,0937 *)

SE 1668 0,6328 0,1223 (*)

--+---------+---------+---------+-------

0,400 0,480 0,560 0,640

One-way ANOVA: IDHM_Rn versus Região

Source DF SS MS F P

Região 4 90,9836 22,7459 2143,97 0,000

Error 5559 58,9768 0,0106

Total 5563 149,9605

S = 0,1030 R-Sq = 60,67% R-Sq(adj) = 60,64%

CO 465 0,5786 0,0857 (*)

N 449 0,3927 0,1261 (*)

NE 1794 0,3305 0,0939 *)

S 1188 0,6384 0,0900 (*)

SE 1668 0,5726 0,1175 (*

---------+---------+---------+---------+

0,400 0,480 0,560 0,640

One-way ANOVA: ESPVIDAn versus Região Source DF SS MS F P

Região 4 140,4313 35,1078 2319,16 0,000

Error 5559 84,1530 0,0151

Total 5563 224,5843

S = 0,1230 R-Sq = 62,53% R-Sq(adj) = 62,50%

Pooled StDev

Level N Mean StDev ---+---------+---------+---------+------

CO 465 0,6772 0,0825 (*)

N 449 0,4886 0,1292 (*)

NE 1794 0,3714 0,1356 *)

S 1188 0,7358 0,1177 (*

SE 1668 0,7036 0,1202 *)

---+---------+---------+---------+------

0,40 0,50 0,60 0,70

Após esta análise chegou-se a classificação das regiões de acordo com as médias: NE (1); N

(2); CO (3); SE (4). Neste momento é realizado a Regressão Logística Ordinal.

Ordinal Logistic Regression: REGIÕES CODIFICA versus IDHM_Rn; IDHMn; ...

REGIÕES CODIFICADAS 1 1794

4 1668

5 1188

Total 5564

95% CI

Predictor Coef SE Coef Z P Odds Ratio Lower Upper

Const(1) 5,33758 0,124185 42,98 0,000

Const(2) 6,21802 0,132713 46,85 0,000

Const(3) 6,97998 0,140354 49,73 0,000

Const(4) 9,21375 0,161950 56,89 0,000

IDHM_Rn -10,9720 0,569948 -19,25 0,000 0,00 0,00 0,00

IDHMn 5,80239 0,580026 10,00 0,000 331,09 106,22 1031,96

ESPVIDAn -7,65374 0,303498 -25,22 0,000 0,00 0,00 0,00

Pearson 18090,0 22241 1,000

Deviance 11536,2 22241 1,000

Total 11564133 100,0

Destaca-se que esta análise é confiável, pois o valor de P foi de “0”. O modelo apresentou

nível de concordância de 85% (acerto).

Foi aplicada também a análise de Regressão Logística Ordinal para os dados agrupados em

região, no entanto, este não se mostrou confiável por causa do número de dados analisados

serem muito baixos.

Ordinal Logistic Regression: grupos versus Media ESPVID; Media IDHM_R; ... * WARNING * Algorithm has not converged after 20 iterations.

* WARNING * Convergence has not been reached for the parameter estimates

criterion.

* WARNING * The results may not be reliable.

* WARNING * Try increasing the maximum number of iterations.

grupos 1 12

Total 26

Odds 95% CI

Predictor Coef SE Coef Z P Ratio Lower Upper

Const(1) 234,299 22694,1 0,01 0,992

Const(2) 287,421 20887,5 0,01 0,989

Const(3) 351,062 27929,3 0,01 0,990

Media ESPVIDA EST -276,986 60066,7 -0,00 0,996 0,00 0,00 *

Media IDHM_Rest -110,437 73535,1 -0,00 0,999 0,00 0,00 *

Media IDHM est -127,477 55619,0 -0,00 0,998 0,00 0,00 *

Pearson 0,0000003 72 1,000

Deviance 0,0000006 72 1,000

Total 229 100,0

Classification Tree

Warnings

Gain summary Tables are not displayed because profits are undefined.

Target category gains tables are not displayed because target categories are undefined.

Model Summary

Specifications Growing Method CHAID

Dependent Variable Região

Independent Variables ESPVIDAn, IDHMn, IDHM_Rn

Validation None

Maximum Tree Depth 3

Minimum Cases in Parent

Minimum Cases in Child

Results Independent Variables

Included

ESPVIDAn, IDHM_Rn, IDHMn

Number of Nodes 57

Number of Terminal Nodes 44

Depth 3

Estimate Std. Error

,412 ,007

Growing Method: CHAID

Dependent Variable: Região

Classification

Observed Predicted

CO N NE S SE Percent Correct

CO 26 0 17 85 337 5,6%

N 2 0 278 20 149 ,0%

NE 1 0 1586 30 177 88,4%

S 14 0 28 424 722 35,7%

SE 9 0 165 259 1235 74,0%

Overall Percentage ,9% ,0% 37,3% 14,7% 47,1% 58,8%

Growing Method: CHAID

Dependent Variable: Região

A tarefa da análise discriminante é encontrar a melhor função discriminante linear ou

quadrática de um conjunto de variáveis que reproduza, tanto quanto possível, um

agrupamento a priori de casos considerados.

Um procedimento em passos é utilizado nesse programa, e em cada passo a variável mais

poderosa é introduzida na função discriminante. A função critério para selecionar a próxima

variável depende do número de grupos especificados (o número de grupos varia de 2 a 20).

Quando o número de variáveis é maior do que dois, então o critério de seleção de variáveis é

o traço do produto da matriz de covariância para as variáveis envolvidas e a matriz de

covariância interclasse em um passo particular.

Os cálculos podem ser realizados em toda a população ou em amostra de dados ou mesmo em

dados previamente agrupados.

Em nossas análises com as variáveis IDHMn, IDHM_Rn e ESPVIDAn, utilizamos a análise

discriminante linear e conseguimos um resultado de 0,903 de proporção correta. Isto

demonstra coerência na divisão em dois grupos. Além disso, é relevante ressaltar a

similaridade destes grupos (municípios) com base nestas variáveis, levando em conta

inclusive sua situação geográfica.

Na outra análise realizada com base no agrupamento apresentado no dendograma, onde pode

ser percebido 4 “Brasis”, a proporcionalidade ficou em 100%.

3.2.1. ANÁLISE DE CORRESPONDÊNCIA DAS VARIÁVEIS

Nesta análise serão trabalhados os estados e as médias de educação por estado. Na análise de

correspondência será gerado um mapa contendo quais estados estão mais próximos e quais

variáveis tem a ver entre si. O comando para gerar o gráfico é:

STAT >> MULTIVARIATE >> SIMPLE CORRESPONDENCE ANALISYS

0,100,050,00-0,05-0,10

Component 1

Symmetric Plot

Nesta análise trabalhamos com as variáveis IDHMn, ESPVIDAn e IDHM_Rn, representadas

pelos quadrados azuis. Os círculos vermelhos são as médias das variáveis por estado, e podem

ser identificados pela sigla.

Simple Correspondence Analysis: Media ESPVID; Media IDHM_R; Media IDHM e Relative Inertias

es id idr Total

AC 0,000 0,006 0,008 0,015

AL 0,025 0,008 0,006 0,039

AM 0,055 0,019 0,012 0,086

AP 0,005 0,000 0,006 0,011

BA 0,006 0,001 0,003 0,009

CE 0,007 0,033 0,067 0,107

ES 0,005 0,000 0,003 0,009

GO 0,003 0,000 0,002 0,005

MA 0,017 0,011 0,055 0,083

MG 0,044 0,012 0,013 0,069

MS 0,002 0,007 0,015 0,024

MT 0,000 0,004 0,003 0,007

PA 0,035 0,003 0,020 0,058

PB 0,005 0,000 0,005 0,010

PE 0,019 0,002 0,011 0,031

PI 0,001 0,001 0,003 0,005

PR 0,002 0,002 0,000 0,004

RJ 0,022 0,015 0,001 0,038

RN 0,013 0,000 0,018 0,031

RO 0,018 0,045 0,004 0,067

RR 0,127 0,070 0,013 0,210

RS 0,003 0,005 0,015 0,023

SC 0,002 0,001 0,005 0,008

SE 0,022 0,003 0,009 0,034

SP 0,003 0,000 0,004 0,007

TO 0,001 0,007 0,002 0,010

Total 0,440 0,256 0,304 1,000

Analysis of Contingency Table

Axis Inertia Proportion Cumulative Histogram

1 0,0019 0,6905 0,6905 ******************************

2 0,0008 0,3095 1,0000 *************

Total 0,0027

Row Contributions

Component 1 Component 2

ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr

1 AC 1,000 0,031 0,015 -0,010 0,075 0,002 -0,035 0,925 0,045

2 AL 1,000 0,024 0,039 0,065 0,965 0,055 -0,012 0,035 0,004

3 AM 1,000 0,027 0,086 -0,091 0,960 0,119 0,019 0,040 0,011

4 AP 1,000 0,038 0,011 0,026 0,837 0,013 0,011 0,163 0,006

5 BA 1,000 0,030 0,009 0,029 0,991 0,013 0,003 0,009 0,000

6 CE 1,000 0,031 0,107 0,041 0,179 0,028 0,089 0,821 0,284

7 ES 1,000 0,049 0,009 -0,022 0,975 0,012 -0,003 0,025 0,001

8 GO 1,000 0,049 0,005 -0,016 0,907 0,007 -0,005 0,093 0,001

9 MA 1,000 0,024 0,083 0,064 0,435 0,052 0,072 0,565 0,151

10 MG 1,000 0,046 0,069 -0,064 0,988 0,099 0,007 0,012 0,003

11 MS 1,000 0,048 0,024 -0,017 0,212 0,007 -0,033 0,788 0,062

12 MT 1,000 0,048 0,007 -0,002 0,015 0,000 -0,020 0,985 0,022

13 PA 1,000 0,031 0,058 -0,071 0,985 0,082 -0,009 0,015 0,003

14 PB 1,000 0,028 0,010 0,028 0,827 0,012 0,013 0,173 0,006

15 PE 1,000 0,030 0,031 0,053 0,985 0,044 0,007 0,015 0,001

16 PI 1,000 0,026 0,005 0,014 0,361 0,003 0,019 0,639 0,011

17 PR 1,000 0,050 0,004 0,012 0,623 0,004 -0,009 0,377 0,005

18 RJ 1,000 0,050 0,038 0,041 0,800 0,044 -0,020 0,200 0,025

19 RN 1,000 0,032 0,031 0,045 0,749 0,033 0,026 0,251 0,025

20 RO 1,000 0,041 0,067 0,037 0,300 0,029 -0,056 0,700 0,152

21 RR 1,000 0,036 0,210 -0,119 0,876 0,266 0,045 0,124 0,084

22 RS 1,000 0,054 0,023 -0,018 0,271 0,009 -0,029 0,729 0,054

23 SC 1,000 0,056 0,008 -0,015 0,580 0,007 -0,013 0,420 0,011

24 SE 1,000 0,030 0,034 0,056 1,000 0,050 0,001 0,000 0,000

25 SP 1,000 0,055 0,007 0,016 0,812 0,008 0,008 0,188 0,004

26 TO 1,000 0,038 0,010 -0,009 0,123 0,002 0,025 0,877 0,029

Column Contributions

Component 1 Component 2

ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr

1 es 1,000 0,358 0,440 -0,058 0,994 0,634 0,004 0,006 0,008

2 id 1,000 0,306 0,256 0,026 0,291 0,108 -0,040 0,709 0,586

3 idr 1,000 0,336 0,304 0,038 0,587 0,258 0,032 0,413 0,406

A análise de correspondência pode ser considerada como um caso especial da análise de

componentes principais (TRABALHO num. 7), porém dirigida a dados categóricos

organizados em tabelas de contingência e não a dados contínuos. O problema é análogo a

encontrar o maior componente principal de um conjunto de I observações e J variáveis, com

modificações devido à ponderação das observações e à métrica ponderada.

Trata-se de um modelo de regressão para variáveis dependentes ou de resposta binomialmente

distribuídas. É útil para modelar a probabilidade de um evento ocorrer como função de outros

fatores.

atlas brasil 2013 dimensÃo educaÇÃo e outras … · melhor explicadas na tabela 1. ressalta-se...

Documents

coberturas vivas

gráficas vivas

jornal escolhas vivas

rancho das pedras vivas

páginas vivas

revista vivas

capituloiv - mma.gov.br · crianças nascidas vivas. no...

boatos zika em crianÇas ja nascidas microcefalia

física i (fis130) (2011) aula 10 – arcos e estruturas...

biostudio cultivando estampas vivas

revista Águas vivas

dados no brasil, cerca de 19,3% das crianças nascidas...

mulheres vivas

as ideias conservadoras - explicadas a revolucionários e...

física i (fis130) aula 4 – 2ª lei de newton prof. ...

páginas vivas - edição especial

lâminas explicadas

física i (fis121) aula 2 – primeira lei de newton prof....

o capitalismo em crise / ideologias nascidas na crise ·...

vacinas vÍricas. - vacinas vivas (vírus replicativo-vivo)...