atlas brasil 2013 dimensÃo educaÇÃo e outras … · melhor explicadas na tabela 1. ressalta-se...
Post on 14-Dec-2018
220 Views
Preview:
TRANSCRIPT
PONTÍFICIA UNIVERSIDADE CATÓLICA DE SÃO PAULO
Faculdade de Economia, Administração, Contabilidade e Atuariais.
ATLAS BRASIL 2013
DIMENSÃO EDUCAÇÃO E OUTRAS VARIÁVEIS
Disciplina: Métodos Quantitativos
Professor: Dr. Arnoldo Jose de Hoyos
Amalia Costa Farias
1º Semestre 2014
2
1. INTRODUÇÃO
O presente trabalho tem por objetivo efetuar uma análise exploratória na dimensão
Desenvolvimento Humano dos dados apresentados na plataforma Atlas Brasil. Para tanto, o
relatório utilizado para análise da dimensão Desenvolvimento Humano no Atlas Brasil 2013,
que é apresenta o Índice de Desenvolvimento Humano Municipal – IDHM - de 5.565
municípios brasileiros, além de mais de 180 indicadores de população, educação, habitação,
saúde, trabalho, renda e vulnerabilidade, com dados extraídos dos Censos Demográficos de
1991, 2000 e 2010.1
Para iniciar o entendimento dos dados que tem como foco o relatório Atlas Brasil 2013
(dados 2010), incluindo a definição das variáveis, suas classificações em variáveis categóricas
ou quantitativas, os significados e unidades de medida, além da apresentação da tabela de
dados. Na seqüência, analisamos cada uma das variáveis separadamente quanto a sua forma
de distribuição, os valores atípicos, medidas de centro e dispersão. Para tal contamos com o
auxílio de gráficos (pie chart, barras, histogramas, gráficos de ramos, box-plot, dot-plot e
curvas de densidade) e de medidas numéricas (média, mediana, quartis, desvio-padrão,
variância, intervalo de confiança e teste de normalidade de Anderson-Darling). No final,
buscamos comparar as análises efetuadas para cada variável. O software estatístico utilizado é
o MINITAB 16.
2. ENTENDENDO OS DADOS
2.1 – OS INDIVÍDUOS.
Os indivíduos deste trabalho são os municípios brasileiros, que serão analisados pelos
seus indicadores relativo à dimensão Desenvolvimento Humano presentes no relatório Atlas
Brasil 2013, dados referentes ao ano de 2010. Este sujeito da análise é composto por um total
de 5565 municípios brasileiros e os dados analisados de cada município são as variáveis que
serão descritas na próxima seção.
Quanto à dimensão Desenvolvimento Humano, esta está relacionada ao processo de
ampliação das liberdades das pessoas, no que tange as suas capacidades e as oportunidades a
seu dispor, para que elas possam escolher a vida que desejam ter. O processo de expansão
destas liberdades inclui as dinâmicas sociais, econômicas, políticas e ambientais necessárias
para garantir uma variedade de oportunidades, bem como o ambiente propício para cada um
exercer na plenitude o seu potencial.
Deste modo, o Desenvolvimento Humano deve estar centrado nas pessoas e na
ampliação do seu bem-estar. Nesta abordagem, a renda e a riqueza não são fins em si mesmas,
mas meios para que as pessoas possam viver a vida que desejam. Assim, o crescimento
econômico de uma sociedade não se traduz automaticamente em qualidade de vida e, muitas
vezes, o que se observa é o reforço das desigualdades.
1 Cf. http://www.atlasbrasil.org.br/2013/
3
Portanto, é preciso que o crescimento econômico seja transformado em conquistas
concretas para as pessoas, por meio de ações que proporcionem uma realidade que apresente
crianças mais saudáveis, educação universal e de qualidade, ampliação da participação
política dos cidadãos, preservação ambiental, equilíbrio da renda e das oportunidades entre
toda a população, maior liberdade de expressão, entre outras. Além disso, ao colocar as
pessoas no centro da análise, a abordagem de desenvolvimento humano redefine a maneira
com que pensamos e lidamos com o desenvolvimento de forma nacional e local, ou seja, no
âmbito dos municípios.
2.2 As Variáveis
São 13 as variáveis desta pesquisa, incluindo a Unidade da Federação (UF). As mesmas são
melhor explicadas na Tabela 1. Ressalta-se que todos os dados desta pesquisa são referentes
ao ano de 2010.
VARIÁVEL SIGNIFICADO TIPO UNIDADE DE
MEDIDA T_NESTUDA_NTRAB_MMEIO_np Razão entre pessoas de 15 a 24 anos que
não estudam nem trabalham e são
vulneráveis à pobreza e a população total
nesta faixa etária multiplicado por 100
Variável
Quantitativa
Percentual
T_FUNDIN_TODOS_MMEIO_np Percentual de pessoas que vivem em
domicílios vulneráveis a pobreza (renda per
capta inferior a ½ salário mínimo que não
possuem o fundamental completo.
Variável
Quantitativa
Percentual
MORT1(n-1) Número crianças que deverão sobreviver ao
primeiro ano de vida em cada 1000
nascidas vivas
Variável
Quantitativa
Índice
T_DENS(n) % da população em domicílios com
densidade > 2
Variável
Quantitativa
Percentual
IDHMn Índice de Desenvolvimento Humano
Municipal. Média geométrica dos índices
das dimensões Renda, Educação,
Longevidade, com pesos iguais.
Variável
Quantitativa
Índice
IDHM_En Índice sintético da dimensão Educação que
é um dos componentes do IDHM. É obtido
através da média geométrica do su
Variável
Quantitativa subindice da freqüência de
crianças e jovens à escola, com peso de 2/3,
e o subindice de escolaridade da população
adulta com peso 2/3.
Variável
Quantitativa
Índice
AFALB 15A17n Razão entre a população 14 a 17 que são
alfabetizadas que saber escrever
multiplicado por 100
Variável
Quantitativa
Percentual
T_FLBAS Razão entre o número de pessoas na faixa
etária de 6 a 17 anos frequentando o ensino
básico (fundamental ou médio - regular ou
seriado) e a população total dessa mesma
faixa etária multiplicado por 100. As
pessoas de 6 a 17 anos frequentando a pré-
escola foram consideradas como se
estivessem no 1º ano do ensino
fundamental. As pessoas de 6 a 17 anos
frequentando a 4ª série do ensino médio
foram consideradas como já tendo
concluído esse nível de ensino.
Variável
Quantitativa
Percentual
4
RENOCUPn Rendimento médios dos ocupados. Variável
Quantitativa
Percentual
PRENTRABn Percentual de renda a proveniente de
rendimento do trabalho
Variável
Quantitativa
Percentual
T_ATIVn Razão entre pessoas de 10 anos ou mais de
idade que eram economicamente ativas, ou
seja, que estavam ocupadas ou desocupadas
na semana de referencia do Censo e o total
de pessoas entre a faixa etária multiplicado
por 100. Considera-se desocupada pessoa
que não estando ocupada na semana de
referência, havia procurado trabalho no mês
anterior a essa pesquisa.
Variável
Categórica
Percentual
T_DES2529np Percentual da população economicamente
ativa (PEA) nessa faixa etária que estava
desocupada , ou seja, que não estava
ocupada na anterior a data de Censo mas
havia procurado trabalho ao longo do mês
na anterior da data da pesquisa.
Variável
Quantitativa
Percentual
UF Código utilizado pelo IBGE para
identificação do Estado
Variável
Categórica
N/A
Fonte: Atlas Brasil, 2013.
2.3 A Tabela de Dados
DDescriptive Statistics: T_NESTUDA_NT; T_FUNDIN_TOD; T_FUNDIN_TOD; ... Variable N N* Mean SE Mean Minimum Q1 Median
T_NESTUDA_NTRAB_MMEIO_np 5564 0 0,73254 0,00212 0,00000 0,60905 0,75258
T_FUNDIN_TODOS_MMEIO_np 5564 0 0,72383 0,00230 0,00000 0,59277 0,75027
T_FUNDIN_TODOS_MMEIO_np 5564 0 0,72383 0,00230 0,00000 0,59277 0,75027
MORT1(n-1) 5564 0 0,71919 0,00250 0,00000 0,60037 0,78034
T_DENS(n) 5564 0 0,27818 0,00198 0,00000 0,16775 0,25474
IDHMn 5564 0 0,54308 0,00217 0,00000 0,40766 0,55631
AFALB 15A17n 5564 0 0,07936 0,00103 0,00000 0,02863 0,05100
T_FLBAS 5564 0 0,80070 0,00105 0,00000 0,76350 0,80948
RENOCUPn 5564 0 0,21158 0,00150 0,00000 0,11579 0,20561
PRENTRABn 5564 0 0,60539 0,00213 0,00000 0,49583 0,63626
T_ATIVn 5564 0 0,48060 0,00177 0,00000 0,38614 0,48397
T_DES2529np 5564 0 0,82568 0,00153 0,00000 0,76663 0,84216
Variable Q3 Maximum
T_NESTUDA_NTRAB_MMEIO_np 0,86787 1,00000
T_FUNDIN_TODOS_MMEIO_np 0,87271 1,00000
T_FUNDIN_TODOS_MMEIO_np 0,87271 1,00000
MORT1(n-1) 0,86139 1,00000
T_DENS(n) 0,36288 1,00000
IDHMn 0,67568 1,00000
AFALB 15A17n 0,11095 1,00000
T_FLBAS 0,85007 1,00000
RENOCUPn 0,28660 1,00000
PRENTRABn 0,72508 1,00000
T_ATIVn 0,56524 1,00000
T_DES2529np 0,90755 1,00000
5
3. ANÁLISE DAS VARIÁVEIS
3.1 Variáveis Categóricas
Este tipo de variável indica que o foco de concentração deve ser a análise de gráficos do tipo
pie chart e/ou barras.
3.1.1 Variável: “Município”
A amostra totaliza 5565 municípios, que pode ser verificada na distribuição no território
nacional de acordo com a região no gráfico 1.
Gráfico 1 - distribuição dos municípios nas Regiões Brasileiras.
Fonte: elaborado pelo autor, 2014 (Atlas Brasil, 2014)
De acordo com gráfico 1 pode-se observar que as maiores concentrações de municípios
brasileiros estão nas regiões do Nordeste com 32,20% e Sudeste com 30% somando juntas
mais de 50% dos municípios pesquisados (62,20%).
O Gráfico 2 demonstra a distribuição dos municípios pelas Unidades Federativas do Brasil.
N
CO
S
SE
NE
Categoria
NE
1794; 32,2%
SE
1668; 30,0%
S
1188; 21,3%
CO
466; 8,4%
N
449; 8,1%
Gráfico de Setores de Região
6
Gráfico 2 – Representação dos municípios nas Unidades da Federação
Fonte: elaborado pelo autor, 2014 (Atlas Brasil, 2014)
Fonte: Atlas Brasil, 2014.
RN
CE
PE
MA
PB
PI
GO
SC
PR
BA
AM
RS
SP
MG
Outros
SE
ES
MS
RJ
AL
TO
MT
PA
CategoriaOther
1,9%
MG
15,3%
SP
11,6%
RS
8,9%
BA
7,5%PR
7,2%
SC
5,3%
GO
4,4%
PI
4,0%
PB
4,0%
MA
3,9%
PE
3,3%
CE
3,3%
RN
3,0%
PA
2,6%
MT
2,5%
TO
2,5%
AL
1,8%
RJ
1,7%
MS
1,4%
ES
1,4%
SE
1,3%AM
1,1%
Gráfico de Setores de UFN
7
Fonte: Atlas Brasil, 2014
Conforme a tabela acima houve uma evolução do IDHM no período de 1991 a 2010
nas seguintes proporções:
- A população adulta com ensino fundamental concluído passou de 30,1% para 54,9%.
- Crianças nas faixas de 5 a 6 anos frequentando a escola passaram de 37,3% para
91,1%.
- Jovens de 11 a 13 a anos nos anos finais do fundamental passou de 36,8% para
84,9%.
- Jovens de 15 a 17 anos com fundamental completo passou de 20% a 57,2%. Apesar
da alta, 40% dos jovens nesta faixa ainda não tem o fundamental completo.
- Jovens de 18 a 20 anos com ensino médio completo passou de 13% para 41%, o que
significa que a maioria destes jovens ainda não possui o ensino médio completo
3.2 Variáveis Quantitativas
Conforme as informações do Atlas Brasil, entre 2000 e 2010 65% dos municípios
cresceram acima da média nacional. Em 2010 23% dos municípios tem o IDHM Educação
acima do subíndice equivalente do Brasil (0,637), com destaques para regiões Sul e Sudeste
8
que tem mais de 50% dos municípios com IDHM Educação nas faixas Médio e Alto
Desenvolvimento Humano. O Centro-Oeste do Brasil possui mais de 90% dos seus
municípios com IDHM Educação nas faixas Médio e Baixo Desenvolvimento Humano.
De acordo com estudo realizados pelo Atlas Brasil, o índice mais alto de IDHM
Educação, 0,825 ficou com a cidade de Águas de São Pedro (SP), o municípios conta com
100% da população entre 5 e 6 anos de idade frequentando a escola, 96,67% entre 11 e 13
anos nas fases finais do ensino fundamental, 74,17% entre 15 a 17 anos com fundamental
completo, 74,64% de entre 18 a 20 anos com ensino médio completo e 75,07% com 18 anos
ou mais com ensino fundamental completo.
Além do destaque positivo para o Sudeste, o resultado apontou resultados negativos
para as regiões do norte nordeste no qual podemos destacar a cidade de Melgaço (PA) com o
índice mais baixo, 0,207. Nesta cidade foi verificado que 58,68% da população entre 5 e 6
frequentam a escola, 35,83% na faixa etária de 11 a 13 anos estão nas series finais do ensino
fundamental, apenas 6,89% entre 15 e 17 anos possui o fundamental completo e apenas
5,63% de jovens entre 18 e 20 anos concluíram o ensino médio. O índice de jovens chegando
a fase adulta com 18 ou mais que concluíram o ensino fundamental chega ao índice de
12,34%
A análise deste tipo de variável permite a utilização de uma maior gama de ferramentas de
análise como histogramas, curvas de densidade e box-plot, além de informações numéricas
como média, desvio-padrão, mediana, intervalo de confiança e teste de normalidade de
Anderson-Darling.
3.2.1 Variável: T_NESTUDA_NTRAB_MMEIO_np
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de
Anderson-Darling (A-Squared e P-Value), para a variável abaixo.
0,980,840,700,560,420,280,140,00
Median
Mean
0,7600,7550,7500,7450,7400,7350,730
1st Q uartile 0,60905
Median 0,75258
3rd Q uartile 0,86787
Maximum 1,00000
0,72837 0,73670
0,74045 0,75920
0,15551 0,16139
A -Squared 61,29
P-V alue < 0,005
Mean 0,73254
StDev 0,15839
V ariance 0,02509
Skewness -0,387856
Kurtosis -0,679669
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_NESTUDA_NTRAB_MMEIO_np
Algumas observações que podemos fazer:
9
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre
73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o
posicionamento da mediana está a direita do referido intervalo.
Valores Atípicos: não se apresentaram nesta análise.
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este
valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão
de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e
a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de
confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e
73,159 anos.
3.2.2 Variável: T_FUNDIN_TODOS_MMEIO_np
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de
Anderson-Darling (A-Squared e P-Value), para a variável abaixo.
0,980,840,700,560,420,280,140,00
Median
Mean
0,760,750,740,730,72
1st Q uartile 0,59277
Median 0,75027
3rd Q uartile 0,87271
Maximum 1,00000
0,71933 0,72834
0,74278 0,75762
0,16826 0,17463
A -Squared 78,16
P-V alue < 0,005
Mean 0,72383
StDev 0,17138
V ariance 0,02937
Skewness -0,518668
Kurtosis -0,562850
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_FUNDIN_TODOS_MMEIO_np
Algumas observações que podemos fazer:
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre
73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o
posicionamento da mediana está a direita do referido intervalo.
Valores Atípicos: não se apresentaram nesta análise.
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este
valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão
10
de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e
a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de
confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e
73,159 anos.
3.2.3 Variável: MORT1(n-1)
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de
Anderson-Darling (A-Squared e P-Value), para a variável abaixo.
0,980,840,700,560,420,280,140,00
Median
Mean
0,7950,7800,7650,7500,7350,720
1st Q uartile 0,60037
Median 0,78034
3rd Q uartile 0,86139
Maximum 1,00000
0,71429 0,72408
0,77296 0,78570
0,18290 0,18982
A -Squared 158,73
P-V alue < 0,005
Mean 0,71919
StDev 0,18629
V ariance 0,03471
Skewness -1,00602
Kurtosis 0,43190
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for MORT1(n-1)
Algumas observações que podemos fazer:
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre
73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o
posicionamento da mediana está a direita do referido intervalo.
Valores Atípicos: não se apresentaram nesta análise.
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este
valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão
de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e
a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de
confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e
73,159 anos.
3.2.4 Variável: T_DENS(n)
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
11
variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de
Anderson-Darling (A-Squared e P-Value), para a variável abaixo.
0,980,840,700,560,420,280,140,00
Median
Mean
0,2800,2750,2700,2650,2600,2550,250
1st Q uartile 0,16775
Median 0,25474
3rd Q uartile 0,36288
Maximum 1,00000
0,27430 0,28206
0,25042 0,26032
0,14505 0,15054
A -Squared 60,82
P-V alue < 0,005
Mean 0,27818
StDev 0,14774
V ariance 0,02183
Skewness 1,04488
Kurtosis 1,63321
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_DENS(n)
Algumas observações que podemos fazer:
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre
73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o
posicionamento da mediana está a direita do referido intervalo.
Valores Atípicos: não se apresentaram nesta análise.
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este
valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão
de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e
a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de
confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e
73,159 anos.
3.2.5 Variável: IDHMn
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de
Anderson-Darling (A-Squared e P-Value), para a variável abaixo.
12
0,980,840,700,560,420,280,140,00
Median
Mean
0,5650,5600,5550,5500,5450,540
1st Q uartile 0,40766
Median 0,55631
3rd Q uartile 0,67568
Maximum 1,00000
0,53882 0,54734
0,54955 0,56532
0,15914 0,16516
A -Squared 40,64
P-V alue < 0,005
Mean 0,54308
StDev 0,16209
V ariance 0,02627
Skewness -0,156737
Kurtosis -0,846019
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHMn
Algumas observações que podemos fazer:
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre
73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o
posicionamento da mediana está a direita do referido intervalo.
Valores Atípicos: não se apresentaram nesta análise.
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este
valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão
de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e
a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de
confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e
73,159 anos.
3.2.6 Variável: IDHM_En
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de
Anderson-Darling (A-Squared e P-Value), para a variável abaixo.
13
0,980,840,700,560,420,280,140,00
Median
Mean
0,57750,57500,57250,57000,56750,5650
1st Q uartile 0,45793
Median 0,57120
3rd Q uartile 0,68608
Maximum 1,00000
0,56571 0,57365
0,56634 0,57605
0,14822 0,15384
A -Squared 9,34
P-V alue < 0,005
Mean 0,56968
StDev 0,15098
V ariance 0,02279
Skewness -0,098854
Kurtosis -0,515646
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM_En
Algumas observações que podemos fazer:
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre
73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o
posicionamento da mediana está a direita do referido intervalo.
Valores Atípicos: não se apresentaram nesta análise.
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este
valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão
de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e
a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de
confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e
73,159 anos.
3.2.7 Variável:
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de
Anderson-Darling (A-Squared e P-Value), para a variável abaixo.
14
0,980,840,700,560,420,280,140,00
Median
Mean
0,0800,0750,0700,0650,0600,0550,050
1st Q uartile 0,02863
Median 0,05100
3rd Q uartile 0,11095
Maximum 1,00000
0,07734 0,08138
0,04921 0,05279
0,07557 0,07843
A -Squared 298,31
P-V alue < 0,005
Mean 0,07936
StDev 0,07697
V ariance 0,00592
Skewness 2,6772
Kurtosis 15,1646
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for AFALB 15A17n
Algumas observações que podemos fazer:
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre
73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o
posicionamento da mediana está a direita do referido intervalo.
Valores Atípicos: não se apresentaram nesta análise.
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este
valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão
de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e
a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de
confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e
73,159 anos.
3.2.8 Variável: T_FLBAS
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de
Anderson-Darling (A-Squared e P-Value), para a variável abaixo.
15
0,980,840,700,560,420,280,140,00
Median
Mean
0,81250,81000,80750,80500,80250,8000
1st Q uartile 0,76350
Median 0,80948
3rd Q uartile 0,85007
Maximum 1,00000
0,79863 0,80276
0,80715 0,81181
0,07708 0,08000
A -Squared 64,14
P-V alue < 0,005
Mean 0,80070
StDev 0,07851
V ariance 0,00616
Skewness -1,73106
Kurtosis 8,81262
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_FLBAS
Algumas observações que podemos fazer:
Forma: O Histograma nos permite analisar uma distribuição concentrada na faixa entre
73 a 76 anos de idade. O Box-Plot demonstra a concentração na faixa acima citada, o
posicionamento da mediana está a direita do referido intervalo.
Valores Atípicos: não se apresentaram nesta análise.
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem ESPVIDA menor do que 73,470 anos e a outra metade maior que este
valor. A ESPVIDA média dos municípios é de 73,089 anos, tendo um desvio-padrão
de 2,681 anos, não sendo um valor expressivo. A ESPVIDA mínima é de 65,3 anos e
a máxima de 78,64, demonstrando uma amplitude menor que 10 anos. Com 95% de
confiança, podemos afirmar que a média encontra-se entre os valores 73,019 anos e
73,159 anos.
3.2.9 Variável: RENOCUPn
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de
Anderson-Darling (A-Squared e P-Value), para a variável.
16
0,980,840,700,560,420,280,140,00
Median
Mean
0,21500,21250,21000,20750,20500,20250,2000
1st Q uartile 0,11579
Median 0,20561
3rd Q uartile 0,28660
Maximum 1,00000
0,20863 0,21452
0,20019 0,21051
0,11005 0,11422
A -Squared 35,54
P-V alue < 0,005
Mean 0,21158
StDev 0,11209
V ariance 0,01257
Skewness 0,70531
Kurtosis 1,17887
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for RENOCUPn
Algumas observações que podemos fazer:
Forma: O Histograma nos apresenta uma distribuição concentrada na faixa entre
R$175 e R$900. O Box-Plot demonstra a concentração na faixa acima citada, o
posicionamento da mediana confirma o posicionamento.
Valores Atípicos: Há um número de valores atípicos onde podemos ressaltar os dois
municípios com maior renda, são eles os municípios de São Caetano do Sul com renda
de R$ 2043,74, e Niterói com renda de R$ 2000.29.
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem renda menor do que R$467,65. A renda média dos municípios é de
R$ 493,61, tendo um desvio-padrão de R$243,27. A RDPC mínima é de R$ 96,25 e a
máxima de R$ 2043,74. Com 95% de confiança, podemos afirmar que a média
encontra-se entre os valores R$487,21 e R$500.
3.2.10 Variável: PRENTRABn
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de
Anderson-Darling (A-Squared e P-Value), para a variável abaixo.
17
0,980,840,700,560,420,280,140,00
Median
Mean
0,640,630,620,610,60
1st Q uartile 0,49583
Median 0,63626
3rd Q uartile 0,72508
Maximum 1,00000
0,60121 0,60958
0,63065 0,64114
0,15632 0,16224
A -Squared 56,59
P-V alue < 0,005
Mean 0,60539
StDev 0,15923
V ariance 0,02535
Skewness -0,540203
Kurtosis -0,306711
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for PRENTRABn
Algumas observações que podemos fazer:
Forma: O Histograma nos apresenta uma distribuição concentrada na faixa entre
R$175 e R$900. O Box-Plot demonstra a concentração na faixa acima citada, o
posicionamento da mediana confirma o posicionamento.
Valores Atípicos: Há um número de valores atípicos onde podemos ressaltar os dois
municípios com maior renda, são eles os municípios de São Caetano do Sul com renda
de R$ 2043,74, e Niterói com renda de R$ 2000.29.
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem renda menor do que R$467,65. A renda média dos municípios é de
R$ 493,61, tendo um desvio-padrão de R$243,27. A RDPC mínima é de R$ 96,25 e a
máxima de R$ 2043,74. Com 95% de confiança, podemos afirmar que a média
encontra-se entre os valores R$487,21 e R$500.
3.2.11 Variável: T_ATIVn
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de
Anderson-Darling (A-Squared e P-Value), para a variável abaixo.
18
0,980,840,700,560,420,280,140,00
Median
Mean
0,4880,4860,4840,4820,4800,4780,476
1st Q uartile 0,38614
Median 0,48397
3rd Q uartile 0,56524
Maximum 1,00000
0,47713 0,48407
0,47968 0,48855
0,12958 0,13448
A -Squared 5,42
P-V alue < 0,005
Mean 0,48060
StDev 0,13198
V ariance 0,01742
Skewness 0,142122
Kurtosis 0,207604
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_ATIVn
Algumas observações que podemos fazer:
Forma: O Histograma nos apresenta uma distribuição concentrada na faixa entre
R$175 e R$900. O Box-Plot demonstra a concentração na faixa acima citada, o
posicionamento da mediana confirma o posicionamento.
Valores Atípicos: Há um número de valores atípicos onde podemos ressaltar os dois
municípios com maior renda, são eles os municípios de São Caetano do Sul com renda
de R$ 2043,74, e Niterói com renda de R$ 2000.29.
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem renda menor do que R$467,65. A renda média dos municípios é de
R$ 493,61, tendo um desvio-padrão de R$243,27. A RDPC mínima é de R$ 96,25 e a
máxima de R$ 2043,74. Com 95% de confiança, podemos afirmar que a média
encontra-se entre os valores R$487,21 e R$500.
3.2.12 Variável: T_DES2529np
Segue abaixo quadro contendo Histograma, Curva de Densidade, Box-Plot, Intervalo de
confiança da média e mediana, além das medidas numéricas como média, desvio-padrão,
variância, quantidade de observações, valores mínimos, máximos e o teste de normalidade de
Anderson-Darling (A-Squared e P-Value), para a variável abaixo.
19
0,980,840,700,560,420,280,140,00
Median
Mean
0,8450,8400,8350,8300,8250,820
1st Q uartile 0,76663
Median 0,84216
3rd Q uartile 0,90755
Maximum 1,00000
0,82268 0,82867
0,83923 0,84523
0,11173 0,11596
A -Squared 64,58
P-V alue < 0,005
Mean 0,82568
StDev 0,11380
V ariance 0,01295
Skewness -1,19667
Kurtosis 2,78096
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_DES2529np
Algumas observações que podemos fazer:
Forma: O Histograma nos apresenta uma distribuição concentrada na faixa entre
R$175 e R$900. O Box-Plot demonstra a concentração na faixa acima citada, o
posicionamento da mediana confirma o posicionamento.
Valores Atípicos: Há um número de valores atípicos onde podemos ressaltar os dois
municípios com maior renda, são eles os municípios de São Caetano do Sul com renda
de R$ 2043,74, e Niterói com renda de R$ 2000.29.
Centro e Dispersão: A mediana nos indica que aproximadamente metade dos
municípios tem renda menor do que R$467,65. A renda média dos municípios é de
R$ 493,61, tendo um desvio-padrão de R$243,27. A RDPC mínima é de R$ 96,25 e a
máxima de R$ 2043,74. Com 95% de confiança, podemos afirmar que a média
encontra-se entre os valores R$487,21 e R$500.
4. ANÁLISE COMPARATIVA DA ANÁLISE DESCRITIVA
Apresentamos uma tabela comparando Histograma, Box Plot, curva de densidade, média,
desvio padrão, mediana e P-Value do teste de nornalidade de Anderson- Darling das variáveis
quantitativas analisadas.
Tabela 2. Analise Comparativa das Variáveis (Dimensões Desenvolvimento Humano)
VARIÁVEL GRÁFICO MÉDIA DESVIO_PADRÃO MEDIANA P-VALUE
20
T_NESTUDA_N
TRAB_MMEIO
_np 0,980,840,700,560,420,280,140,00
Median
Mean
0,7600,7550,7500,7450,7400,7350,730
1st Q uartile 0,60905
Median 0,75258
3rd Q uartile 0,86787
Maximum 1,00000
0,72837 0,73670
0,74045 0,75920
0,15551 0,16139
A -Squared 61,29
P-V alue < 0,005
Mean 0,73254
StDev 0,15839
V ariance 0,02509
Skewness -0,387856
Kurtosis -0,679669
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_NESTUDA_NTRAB_MMEIO_np
0,73254 0,15838 0,75258 0,005
T_FUNDIN_TO
DOS_MMEIO_
np
0,980,840,700,560,420,280,140,00
Median
Mean
0,760,750,740,730,72
1st Q uartile 0,59277
Median 0,75027
3rd Q uartile 0,87271
Maximum 1,00000
0,71933 0,72834
0,74278 0,75762
0,16826 0,17463
A -Squared 78,16
P-V alue < 0,005
Mean 0,72383
StDev 0,17138
V ariance 0,02937
Skewness -0,518668
Kurtosis -0,562850
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_FUNDIN_TODOS_MMEIO_np
0,72383 0,17138 0,75027 0,005
MORT1(n-1) 0,980,840,700,560,420,280,140,00
Median
Mean
0,0800,0750,0700,0650,0600,0550,050
1st Q uartile 0,02863
Median 0,05100
3rd Q uartile 0,11095
Maximum 1,00000
0,07734 0,08138
0,04921 0,05279
0,07557 0,07843
A -Squared 298,31
P-V alue < 0,005
Mean 0,07936
StDev 0,07697
V ariance 0,00592
Skewness 2,6772
Kurtosis 15,1646
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for AFALB 15A17n
0,71919 0,18629 0,78034 0,005
T_DENS(n) 0,980,840,700,560,420,280,140,00
Median
Mean
0,2800,2750,2700,2650,2600,2550,250
1st Q uartile 0,16775
Median 0,25474
3rd Q uartile 0,36288
Maximum 1,00000
0,27430 0,28206
0,25042 0,26032
0,14505 0,15054
A -Squared 60,82
P-V alue < 0,005
Mean 0,27818
StDev 0,14774
V ariance 0,02183
Skewness 1,04488
Kurtosis 1,63321
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_DENS(n)
0,27818 0,14774 0,25474 0,005
IDHMn 0,980,840,700,560,420,280,140,00
Median
Mean
0,5650,5600,5550,5500,5450,540
1st Q uartile 0,40766
Median 0,55631
3rd Q uartile 0,67568
Maximum 1,00000
0,53882 0,54734
0,54955 0,56532
0,15914 0,16516
A -Squared 40,64
P-V alue < 0,005
Mean 0,54308
StDev 0,16209
V ariance 0,02627
Skewness -0,156737
Kurtosis -0,846019
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHMn
0,54308 0,16209 0,55631 0,005
21
IDHM_En 0,980,840,700,560,420,280,140,00
Median
Mean
0,57750,57500,57250,57000,56750,5650
1st Q uartile 0,45793
Median 0,57120
3rd Q uartile 0,68608
Maximum 1,00000
0,56571 0,57365
0,56634 0,57605
0,14822 0,15384
A -Squared 9,34
P-V alue < 0,005
Mean 0,56968
StDev 0,15098
V ariance 0,02279
Skewness -0,098854
Kurtosis -0,515646
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM_En
0,56968 0,15098 0,57120 0,005
AFALB 15A17n 0,980,840,700,560,420,280,140,00
Median
Mean
0,0800,0750,0700,0650,0600,0550,050
1st Q uartile 0,02863
Median 0,05100
3rd Q uartile 0,11095
Maximum 1,00000
0,07734 0,08138
0,04921 0,05279
0,07557 0,07843
A -Squared 298,31
P-V alue < 0,005
Mean 0,07936
StDev 0,07697
V ariance 0,00592
Skewness 2,6772
Kurtosis 15,1646
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for AFALB 15A17n
0,07936 0,07697 0,005
T_FLBAS 0,980,840,700,560,420,280,140,00
Median
Mean
0,0800,0750,0700,0650,0600,0550,050
1st Q uartile 0,02863
Median 0,05100
3rd Q uartile 0,11095
Maximum 1,00000
0,07734 0,08138
0,04921 0,05279
0,07557 0,07843
A -Squared 298,31
P-V alue < 0,005
Mean 0,07936
StDev 0,07697
V ariance 0,00592
Skewness 2,6772
Kurtosis 15,1646
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for AFALB 15A17n
0,80070 0,07851 0,80948 0,005
RENOCUPn 0,980,840,700,560,420,280,140,00
Median
Mean
0,21500,21250,21000,20750,20500,20250,2000
1st Q uartile 0,11579
Median 0,20561
3rd Q uartile 0,28660
Maximum 1,00000
0,20863 0,21452
0,20019 0,21051
0,11005 0,11422
A -Squared 35,54
P-V alue < 0,005
Mean 0,21158
StDev 0,11209
V ariance 0,01257
Skewness 0,70531
Kurtosis 1,17887
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for RENOCUPn
0,21158 0,11209 0,20561 0,005
PRENTRABn 0,980,840,700,560,420,280,140,00
Median
Mean
0,640,630,620,610,60
1st Q uartile 0,49583
Median 0,63626
3rd Q uartile 0,72508
Maximum 1,00000
0,60121 0,60958
0,63065 0,64114
0,15632 0,16224
A -Squared 56,59
P-V alue < 0,005
Mean 0,60539
StDev 0,15923
V ariance 0,02535
Skewness -0,540203
Kurtosis -0,306711
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for PRENTRABn
0,60539 0,15923 0,63626 0,005
22
T_ATIVn 0,980,840,700,560,420,280,140,00
Median
Mean
0,4880,4860,4840,4820,4800,4780,476
1st Q uartile 0,38614
Median 0,48397
3rd Q uartile 0,56524
Maximum 1,00000
0,47713 0,48407
0,47968 0,48855
0,12958 0,13448
A -Squared 5,42
P-V alue < 0,005
Mean 0,48060
StDev 0,13198
V ariance 0,01742
Skewness 0,142122
Kurtosis 0,207604
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_ATIVn
0,48060 0,13198 0,48397 0,005
T_DES2529np 0,980,840,700,560,420,280,140,00
Median
Mean
0,8450,8400,8350,8300,8250,820
1st Q uartile 0,76663
Median 0,84216
3rd Q uartile 0,90755
Maximum 1,00000
0,82268 0,82867
0,83923 0,84523
0,11173 0,11596
A -Squared 64,58
P-V alue < 0,005
Mean 0,82568
StDev 0,11380
V ariance 0,01295
Skewness -1,19667
Kurtosis 2,78096
N 5564
Minimum 0,00000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for T_DES2529np
0,82568 0,11380 0,84216 0,005
A tabela 2 nos mostra uma visão geral das dimensões e variáveis já apresentadas e analisadas
individualmente nos tópicos anteriores. As variáveis que representam aspectos relacionados a
educação demonstram melhores resultados nos primeiros anos de vida, ou seja,
T_FUND11A13. A EXPVIDA tem uma distribuição mais simétrica, assim como as variáveis
IDHM e IDHM_L.
Vale ressaltar que a simetria ou não das distribuições não necessariamente tem relação com a
qualidade ou validade dos dados trabalhados. Distribuições assimétricas podem, por exemplo,
nos indicar onde devemos focar ou concentrar esforços para a obtenção de resultados
esperados de forma mais eficiente.
5. CORRELAÇOES DAS VARIÁVEIS DA DIMENSÃO DESENVOLVIMENTO
HUMANO
Os dados abaixo representam a correlação entre as variáveis selecionadas e já trabalhadas
anteriormente.
Correlations: T_NESTUDA_NT; T_FUNDIN_TOD; MORT1(n-1); T_DENS(n);
IDHMn; ...
T_NESTUDA_NTRAB_ T_FUNDIN_TODOS_M MORT1(n-1)
T_FUNDIN_TODOS_M 0,835
0,000
MORT1(n-1) 0,741 0,796
0,000 0,000
T_DENS(n) -0,670 -0,662 -0,594
0,000 0,000 0,000
IDHMn 0,837 0,962 0,829
0,000 0,000 0,000
IDHM_En 0,722 0,921 0,684
0,000 0,000 0,000
23
AFALB 15A17n -0,670 -0,755 -0,668
0,000 0,000 0,000
T_FLBAS 0,071 0,061 -0,074
0,000 0,000 0,000
RENOCUPn 0,721 0,792 0,705
0,000 0,000 0,000
PRENTRABn 0,618 0,620 0,593
0,000 0,000 0,000
PRENTRABn 0,618 0,620 0,593
0,000 0,000 0,000
T_ATIVn 0,877 0,742 0,663
0,000 0,000 0,000
T_DES2529np 0,526 0,340 0,373
0,000 0,000 0,000
T_DENS(n) IDHMn IDHM_En
IDHMn -0,646
0,000
IDHM_En -0,555 0,951
0,000 0,000
AFALB 15A17n 0,645 -0,723 -0,666
0,000 0,000 0,000
T_FLBAS -0,161 0,068 0,159
0,000 0,000 0,000
RENOCUPn -0,430 0,869 0,765
0,000 0,000 0,000
PRENTRABn -0,245 0,638 0,531
0,000 0,000 0,000
PRENTRABn -0,245 0,638 0,531
0,000 0,000 0,000
T_ATIVn -0,676 0,732 0,612
0,000 0,000 0,000
T_DES2529np -0,395 0,334 0,234
0,000 0,000 0,000
AFALB 15A17n T_FLBAS RENOCUPn
T_FLBAS -0,179
0,000
RENOCUPn -0,550 -0,101
0,000 0,000
PRENTRABn -0,460 -0,221 0,753
0,000 0,000 0,000
PRENTRABn -0,460 -0,221 0,753
0,000 0,000 0,000
T_ATIVn -0,606 0,063 0,576
0,000 0,000 0,000
T_DES2529np -0,312 -0,022 0,247
0,000 0,101 0,000
PRENTRABn PRENTRABn T_ATIVn
PRENTRABn 1,000
*
T_ATIVn 0,553 0,553
24
0,000 0,000
T_DES2529np 0,270 0,270 0,512
0,000 0,000 0,000
Cell Contents: Pearson correlation
P-Value
Com base nas informações constantes na matriz de correlação pode-se perceber que as
variáveis descritas na tabela 3 apresentam uma forte relação, vale destacar que elas
apresentam casualidade, ou seja, um sentido direto entre elas.
TABELA 3 – CORRELAÇÃO ENTRE AS VARIÁVEIS
6. DENDROGRAMA
Um Dendrograma (dendr(o) = árvore) é um tipo específico de diagrama ou representação
icônica que organiza determinados fatores e variáveis. Isto quer dizer que sua representação
apresenta um diagrama de similaridade.
A interpretação de um Dendrograma de similaridade entre amostras fundamenta-se na
intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis
medidas. Ou seja, elas devem ser próximas matematicamente no espaço multidimensional.
Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a
similaridade entre elas. O dendrograma hierarquiza esta similaridade de modo que podemos
ter uma visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de
amostras utilizado no estudo.
Segue abaixo o Dendrograma das variáveis analisadas:
Análise de Agrupamentos de Variáveis: ESPVIDA; T_FREQ5A6; T_FUND11A13;
T_FUND15A17; ...
Distância do Coeficiente de Correlação, Ligação Completa
Passos de Amalgamação
Número de
obs. no
Número de Nível de Nível de Agrupados Novo novo
Passo agrupados similaridade distância reunidos agrupado agrupado
1 11 99,9990 0,000021 1 11 1 2
2 10 98,0832 0,038336 7 12 7 2
3 9 97,5438 0,049125 9 10 9 2
4 8 96,3577 0,072845 4 8 4 2
5 7 92,8408 0,143184 5 9 5 3
6 6 91,6586 0,166829 4 6 4 3
7 5 89,2088 0,215824 1 7 1 4
8 4 82,5541 0,348918 3 4 3 4
9 3 81,6181 0,367638 1 5 1 7
10 2 72,3070 0,553861 1 3 1 11
11 1 50,8072 0,983856 1 2 1 12
25
7. GRÁFICOS DE DISPERSÃO
Nos gráficos abaixo são apresentadas as relações entre as variáveis relacionadas na tabela 3.
0,900,850,800,750,70
80,0
77,5
75,0
72,5
70,0
67,5
65,0
IDHM_L
ES
PV
IDA
Gráfico de dispersão de ESPVIDA versus IDHM_L
26
0,90,80,70,60,50,40,30,2
0,9
0,8
0,7
0,6
0,5
0,4
IDHM_E
IDH
M
Gráfico de dispersão de IDHM versus IDHM_E
1,00,90,80,70,60,50,40,30,2
100
80
60
40
20
0
-20
I_FREQ_PROP
T_M
ED
18
A2
0
Gráfico de dispersão de T_MED18A20 versus I_FREQ_PROP
0,90,80,70,60,50,40,30,2
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
IDHM_E
I_FR
EQ
_PR
OP
Gráfico de dispersão de I_FREQ_PROP versus IDHM_E
27
Inicialmente os gráficos de dispersão devem ser analisados quanto a seu padrão geral e seus
desvios relativos ao padrão. A descrição do padrão geral pode ser feita pela verificação de sua
forma, direção e intensidade.
0,90,80,70,60,50,4
2000
1500
1000
500
0
IDHM_R
RD
PC
Gráfico de dispersão de RDPC versus IDHM_R
0,90,80,70,60,50,4
0,9
0,8
0,7
0,6
0,5
0,4
IDHM_R
IDH
M
Gráfico de dispersão de IDHM versus IDHM_R
1,00,90,80,70,60,50,40,30,2
100
80
60
40
20
0
I_FREQ_PROP
T_F
UN
D1
5A
17
Gráfico de dispersão de T_FUND15A17 versus I_FREQ_PROP
28
Direção: Da análise das correlações acima percebemos que quase todas possuem associações
positivas, ou seja, o crescimento de uma variável é acompanhado do crescimento da outra. O
que nos parece é que não há nenhuma associação negativa, ao menos de evidência visual.
Intensidade: Os gráficos acima apresenta uma relação linear, mas os gráficos que relacionam
ESPVIDA x IDHM_L e RDPC x IDHM_R possuem uma relação mais forte que as demais.
Forma: Os gráficos apresentam conglomerados que sugerem relações lineares, no entanto
vale salientar a relação dos gráficos ESPVIDA x IDHM_L e RDPC x IDHM_R que
apresentam um agrupamento mais intenso.
Valores Atípicos: Os gráficos indicam a existência de valores atípicos, ou seja, municípios
que estão localizados longe dos demais. Com exceção dos gráficos ESPVIDA x IDHM_L e
RDPC x IDHM_R.
8. ANÁLISE DE REGRESSÃO DAS VARIÁVEIS COM SIMILARIDADE
A correlação mede a direção e a intensidade da relação linear (linha reta) entre duas variáveis
quantitativas. Se um diagrama de dispersão mostra uma relação linear, é interessante
resumirmos esse padrão geral traçando uma reta no diagrama de dispersão. Uma reta de
regressão resume a relação entre duas variáveis, mas somente em um contexto específico:
quando uma das variáveis ajuda a explicarmos ou predizermos a outra, ou seja, a regressão
descreve uma relação entre uma variável explanatória e uma variável resposta. Vale destacar
que em nossas análises não foram classificadas as variáveis como sendo de caráter
explanatória (variável independente) ou de resposta (variável dependente)
.
A regressão linear assume sempre a forma de uma equação linear:
Y = a + bx, sendo:
Y= Variável dependente;
a = uma constante, o intercepto;
b = a inclinação na reta;
x = variável independente ou explicativa.
O “b”, ou seja, a declividade é dada pela multiplicação do índice de correlação pela divisão
dos desvios-padrão entre as variáveis x e y. E “a” é dada pela média de “Y” menos a
multiplicação de “b” pela média de “x”. Assim, percebe-se muito claramente que a regressão
depende da correlação entre as variáveis, além de medidas de centro de cada uma das
variáveis.
Serão apresentadas as análises de Regressão bem como seus respectivos gráficos:
Análise de Regressão: ESPVIDA versus IDHM_L
A equação de regressão é
ESPVIDA = 25,00 + 60,00 IDHM_L
29
S = 0,0171972 R2 = 100,0% R2(aj.) = 100,0%
Análise de Variância
Fonte GL SQ QM F P
Regressão 1 39982,5 39982,5 1,35193E+08 0,000
Erro 5563 1,6 0,0
Total 5564 39984,2
Análise de Regressão: IDHM versus IDHM_E
A equação de regressão é
IDHM = 0,2490 + 0,7335 IDHM_E
S = 0,0222905 R2 = 90,4% R2(aj.) = 90,4%
Análise de Variância
Fonte GL SQ QM F P
Regressão 1 26,0775 26,0775 52483,97 0,000
Erro 5563 2,7641 0,0005
Total 5564 28,8416
0,900,850,800,750,70
80,0
77,5
75,0
72,5
70,0
67,5
65,0
S 0,0171972
R2 100,0%
R2(aj) 100,0%
IDHM_L
ES
PV
IDA
Gráfico de Linha AjustadaESPVIDA = 25,00 + 60,00 IDHM_L
30
Análise de Regressão: I_FREQ_PROP versus IDHM_E
A equação de regressão é
I_FREQ_PROP = 0,1423 + 0,9408 IDHM_E
S = 0,0391197 R2 = 83,4% R2(aj.) = 83,4%
Análise de Variância
Fonte GL SQ QM F P
Regressão 1 42,8984 42,8984 28031,74 0,000
Erro 5563 8,5133 0,0015
Total 5564 51,4118
0,90,80,70,60,50,40,30,2
0,9
0,8
0,7
0,6
0,5
0,4
S 0,0222905
R2 90,4%
R2(aj) 90,4%
IDHM_E
IDH
M
Gráfico de Linha AjustadaIDHM = 0,2490 + 0,7335 IDHM_E
0,90,80,70,60,50,40,30,2
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
S 0,0391197
R2 83,4%
R2(aj) 83,4%
IDHM_E
I_FR
EQ
_PR
OP
Gráfico de Linha AjustadaI_FREQ_PROP = 0,1423 + 0,9408 IDHM_E
31
Análise de Regressão: RDPC versus IDHM_R
A equação de regressão é
RDPC = - 1371 + 2900 IDHM_R
S = 66,7180 R2 = 92,5% R2(aj.) = 92,5%
Análise de Variância
Fonte GL SQ QM F P
Regressão 1 304514788 304514788 68410,37 0,000
Erro 5563 24762557 4451
Total 5564 329277345
Análise de Regressão: IDHM versus IDHM_R
A equação de regressão é
IDHM = 0,1150 + 0,8465 IDHM_R
S = 0,0228476 R2 = 89,9% R2(aj.) = 89,9%
Análise de Variância
Fonte GL SQ QM F P
Regressão 1 25,9376 25,9376 49687,61 0,000
Erro 5563 2,9040 0,0005
Total 5564 28,8416
0,90,80,70,60,50,4
2000
1500
1000
500
0
S 66,7180
R2 92,5%
R2(aj) 92,5%
IDHM_R
RD
PC
Gráfico de Linha AjustadaRDPC = - 1371 + 2900 IDHM_R
32
Análise de Regressão: T_FUND15A17 versus I_FREQ_PROP
A equação de regressão é
T_FUND15A17 = - 45,20 + 149,6 I_FREQ_PROP
S = 5,80994 R2 = 86,0% R2(aj.) = 86,0%
Análise de Variância
Fonte GL SQ QM F P
Regressão 1 1149843 1149843 34063,97 0,000
Erro 5563 187781 34
Total 5564 1337624
0,90,80,70,60,50,4
0,9
0,8
0,7
0,6
0,5
0,4
S 0,0228476
R2 89,9%
R2(aj) 89,9%
IDHM_R
IDH
M
Gráfico de Linha AjustadaIDHM = 0,1150 + 0,8465 IDHM_R
1,00,90,80,70,60,50,40,30,2
100
80
60
40
20
0
S 5,80994
R2 86,0%
R2(aj) 86,0%
I_FREQ_PROP
T_F
UN
D1
5A
17
Gráfico de Linha AjustadaT_FUND15A17 = - 45,20 + 149,6 I_FREQ_PROP
33
Análise de Regressão: T_MED18A20 versus I_FREQ_PROP
A equação de regressão é
T_MED18A20 = - 56,86 + 139,1 I_FREQ_PROP
S = 5,80448 R2 = 84,1% R2(aj.) = 84,1%
Análise de Variância
Fonte GL SQ QM F P
Regressão 1 994506 994506 29517,61 0,000
Erro 5563 187428 34
Total 5564 1181934
Comentários das análises
Considerando as análises de regressão acima pode-se perceber que existe uma relação com
grau razoável de explicação entre as varáveis apresentadas. Em alguns casos esta relação se
apresenta muito forte, como é o caso da ESPVIDA x IDHM_L, isto pode ser justificado pela
característica destas variáveis que carregam em sua composição a esperança de vida ao
nascer.
Além disso, vale a pena destacar que as relações que apresentam variáveis como educação
(IDHM_E; I_FREQ_PROP...), IDHM e Renda (IDHM_R e RDPC) possuem um alto grau de
relação próximos ou acima de 90 % para as análises realizadas. No caso da educação pode-se
dizer que quanto mais alta a idade das pessoas menor é o grau de relação.
1,00,90,80,70,60,50,40,30,2
100
80
60
40
20
0
-20
S 5,80448
R2 84,1%
R2(aj) 84,1%
I_FREQ_PROP
T_M
ED
18
A2
0
Gráfico de Linha AjustadaT_MED18A20 = - 56,86 + 139,1 I_FREQ_PROP
34
9. REGRESSÃO MULTIVARIADA
General Regression Analysis: IDHMn versus ESPVIDAn; IDHM_En; RDPCn; ... Regression Equation
IDHMn = -0,0478698 + 0,131806 ESPVIDAn + 0,562425 IDHM_En - 0,0446316 RDPCn -
0,00622638 T_FUND18Mn + 0,414966 IDHM_Rn
Coefficients
Term Coef SE Coef T P
Constant -0,047870 0,0002742 -174,610 0,000
ESPVIDAn 0,131806 0,0004084 322,708 0,000
IDHM_En 0,562425 0,0007625 737,639 0,000
RDPCn -0,044632 0,0013473 -33,128 0,000
T_FUND18Mn -0,006226 0,0006555 -9,499 0,000
IDHM_Rn 0,414966 0,0011833 350,689 0,000
Summary of Model
S = 0,00334542 R-Sq = 99,96% R-Sq(adj) = 99,96%
PRESS = 0,0625337 R-Sq(pred) = 99,96%
Analysis of Variance
Source DF Seq SS Adj SS Adj MS F P
Regression 5 146,241 146,241 29,2482 2613347 0
ESPVIDAn 1 106,226 1,166 1,1655 104140 0
IDHM_En 1 35,707 6,090 6,0896 544112 0
RDPCn 1 2,904 0,012 0,0123 1097 0
T_FUND18Mn 1 0,027 0,001 0,0010 90 0
IDHM_Rn 1 1,376 1,376 1,3764 122983 0
Error 5559 0,062 0,062 0,0000
Total 5564 146,303
35
Stepwise Regression: IDHMn versus ESPVIDAn; IDHM_En; ... Alpha-to-Enter: 0,15 Alpha-to-Remove: 0,15
Response is IDHMn on 5 predictors, with N = 5565
Step 1 2 3 4 5
Constant -0,03856 -0,03178 -0,04016 -0,04757 -0,04787
IDHM_En 1,02102 0,56796 0,55660 0,55713 0,56243
T-Value 229,09 240,10 959,52 1063,43 737,64
P-Value 0,000 0,000 0,000 0,000 0,000
IDHM_Rn 0,50813 0,38032 0,41623 0,41497
T-Value 233,68 554,67 351,22 350,69
P-Value 0,000 0,000 0,000 0,000
ESPVIDAn 0,13370 0,13197 0,13181
T-Value 295,53 320,84 322,71
P-Value 0,000 0,000 0,000
RDPCn -0,0472 -0,0446
T-Value -35,54 -33,13
P-Value 0,000 0,000
T_FUND18Mn -0,00623
T-Value -9,50
P-Value 0,000
S 0,0502 0,0153 0,00374 0,00337 0,00335
R-Sq 90,42 99,11 99,95 99,96 99,96
R-Sq(adj) 90,41 99,11 99,95 99,96 99,96
Mallows Cp 1247238,0 110254,4 1375,7 94,2 6,0
3.1 – Variável IDHM por Região
SESNENCO
0,9
0,8
0,7
0,6
0,5
0,4
Região
IDH
M
Boxplot of IDHM
36
A Região Sul possui o maior IDHM do país, o que indica que esta é a Região mais desenvolvida do Brasil,
segundo a pesquisa. A região Sudeste encontra-se próxima a Região Sul, e ocupa o segundo lugar. Vale também
destacar que a região Centro Oeste está muito próxima.
A Região que apresenta o IDHM médio mais baixo do País é a Nordeste, seguida da Norte. Pelo tamanho da
caixa do BloxPlot podemos visualizar a amplitude da variância. Podemos afirmar que os dados da Região Norte
possuem maior variabilidade que os dados das demais regiões. As Regiões que possuem menor variabilidade dos
dados são Centro-Oeste, Norte e Sul.
One-way ANOVA: IDHM versus Região Source DF SS MS F P
Região 4 16,24279 4,06070 1795,58 0,000
Error 5559 12,57163 0,00226
Total 5563 28,81442
S = 0,04756 R-Sq = 56,37% R-Sq(adj) = 56,34%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --+---------+---------+---------+-------
CO 465 0,68918 0,03680 (*)
N 449 0,60795 0,06016 (-*)
NE 1794 0,59068 0,04327 (*
S 1188 0,71411 0,04159 (*)
SE 1668 0,69898 0,05428 (*
--+---------+---------+---------+-------
0,595 0,630 0,665 0,700
Pooled StDev = 0,04756
O grau de variação entre as Regiões é muito alto (1795,58), e o P-value nos indica que a informação é confiável
e não existe chance deste valor ser diferente.
3.2 – Variável ESPVIDA por Região
0
0,2
0,4
0,6
0,8CO
N
NES
SE
Mean
Mean 0
0,02
0,04
0,06
0,08CO
N
NES
SE
StDev
StDev
37
SESNENCO
80,0
77,5
75,0
72,5
70,0
67,5
65,0
Região
ES
PV
IDA
Boxplot of ESPVIDA
O ESPVIDA é maior para a Região Sul, que fica muito próximo da Região Sudeste, que aponta o Sul com a
melhor ESPVIDA. O menor índice de ESPVIDA está para a Região Nordeste.
One-way ANOVA: ESPVIDA versus Região Source DF SS MS F P
Região 4 24990,54 6247,63 2319,16 0,000
Error 5559 14975,49 2,69
Total 5563 39966,03
S = 1,641 R-Sq = 62,53% R-Sq(adj) = 62,50%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --+---------+---------+---------+-------
CO 465 74,334 1,100 (*)
N 449 71,818 1,724 (*)
NE 1794 70,255 1,809 *)
S 1188 75,116 1,570 (*
SE 1668 74,686 1,604 (*
--+---------+---------+---------+-------
70,5 72,0 73,5 75,0
Pooled StDev = 1,641
O grau de variação entre as Regiões é alto para ESPVIDA (2319,16), sendo inclusive maior que o de IDHM,
mas o p-value nos indica que a informação é confiável e não existe chance deste valor ser diferente.
38
3.3 – Variável T_FREQ5A6 por Região
SESNENCO
100
90
80
70
60
50
40
Região
T_
FREQ
5A
6
Boxplot of T_FREQ5A6
No indicador de T_FREQ5A6, podemos verificar que a Região Nordeste possui o maior índice, que é seguida da
Região Sudeste e Sul, e o menor índice é o da Região Norte. Vale a pena destacar que para esta variável a maior
parte das regiões estão próximos de 100%, sendo que a região norte, que apresenta o menor índice está com
média de 81,94%.
One-way ANOVA: T_FREQ5A6 versus Região
666870727476
CO
N
NES
SE
Mean
Mean 0
0,5
1
1,5
2CO
N
NES
SE
StDev
StDev
39
Source DF SS MS F P
Região 4 65714,7 16428,7 297,68 0,000
Error 5559 306791,2 55,2
Total 5563 372505,9
S = 7,429 R-Sq = 17,64% R-Sq(adj) = 17,58%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --------+---------+---------+---------+-
CO 465 88,851 8,000 (-*-)
N 449 81,941 11,283 (-*-)
NE 1794 94,258 5,003 (*)
S 1188 90,118 9,144 (*-)
SE 1668 93,338 6,749 (*)
--------+---------+---------+---------+-
84,0 87,5 91,0 94,5
Pooled StDev = 7,429
O grau de variação entre as Regiões é baixo para T_FREQ5A6 (297,68), sendo inclusive bem menor que o de
IDHM (1795,58) e ESPVIDA (2319,16). O p-value nos indica que a informação é confiável e não existe chance
deste valor ser diferente.
3.4 – Variável T_FUND11A13 por Região
75
80
85
90
95CO
N
NES
SE
Mean
Mean 0
5
10
15CO
N
NES
SE
StDev
StDev
40
SESNENCO
100
90
80
70
60
50
40
30
Região
T_
FUN
D1
1A
13
Boxplot of T_FUND11A13
Pode-se observar que o índice T_FUND11A13 é maior na Regiões Sul, Sudeste e Centro Oeste. O menor índice
é o da Região Norte. Vale a pena destacar que para esta variável a maior parte das regiões estão próximos de
90%, sendo que a região norte, que apresenta o menor índice está com média de 76,3618%.
One-way ANOVA: T_FUND11A13 versus Região Source DF SS MS F P
Região 4 150502,0 37625,5 743,32 0,000
Error 5559 281385,3 50,6
Total 5563 431887,3
S = 7,115 R-Sq = 34,85% R-Sq(adj) = 34,80%
Individual 95% CIs For Mean Based on Pooled StDev
Level N Mean StDev -+---------+---------+---------+--------
CO 465 86,337 6,928 (-*)
N 449 76,362 12,826 (-*-)
NE 1794 79,413 7,646 (*
S 1188 91,148 4,840 (*)
SE 1668 88,039 5,628 (*)
-+---------+---------+---------+--------
76,0 80,0 84,0 88,0
Pooled StDev = 7,115
Existe uma variação maior na distribuição dos dados nos municípios da região Norte. Já as regiões Sul, Sudeste e
Centro Oeste possuem as menores variações dos dados. O grau de variação entre as Regiões é alto (743,32) e o
p-value nos indica que a informação é confiável e não existe chance deste valor ser diferente.
41
3.5 – Variável por T_FUND15A17 Região
SESNENCO
100
80
60
40
20
0
Região
T_
FUN
D1
5A
17
Boxplot of T_FUND15A17
Pode-se observar que o percentual de T_FUND15A17 é maior nas Regiões Sul, Sudeste e Centro Oeste. Já as
regiões Norte e Nordeste estão com seus valores próximos a 40 %. Vale a pena destacar que para esta variável as
regiões com melhor desempenho estão próximas de 60%.
One-way ANOVA: T_FUND15A17 versus Região Source DF SS MS F P
Região 4 653328 163332 1327,12 0,000
Error 5559 684162 123
65707580859095
CO
N
NES
SE
Mean
Mean 0
5
10
15CO
N
NES
SE
StDev
StDev
42
Total 5563 1337490
S = 11,09 R-Sq = 48,85% R-Sq(adj) = 48,81%
Individual 95% CIs For Mean Based on Pooled StDev
Level N Mean StDev -+---------+---------+---------+--------
CO 465 58,81 10,22 (*)
N 449 42,23 13,22 (*-)
NE 1794 41,63 10,50 *)
S 1188 66,00 9,94 (*)
SE 1668 63,09 12,06 (*)
-+---------+---------+---------+--------
42,0 49,0 56,0 63,0
Pooled StDev = 11,09
O grau de variação entre as Regiões é alto (1327,12) e o p-value nos indica que a informação é confiável e não
existe chance deste valor ser diferente.
3.6 – Variável T_FUND18M por Região
0
20
40
60
80CO
N
NES
SE
Mean
Mean 0
5
10
15CO
N
NES
SE
StDev
StDev
43
SESNENCO
80
70
60
50
40
30
20
10
Região
T_
FUN
D1
8M
Boxplot of T_FUND18M
Pode-se observar que o índice T_FUND18M é maior nas Regiões Sul, Sudeste e Centro Oeste. O menor índice é
o da Região Nordeste. Vale a pena destacar que para esta variável todas as regiões apresentam uma média abaixo
dos 50%, além disso, os municípios que apresentam resultados melhores são considerados nesta análise como
atípicos.
A maior variabilidade de dados se encontra na Região Sudeste, e a Região que apresenta menor variabilidade é a
Nordeste.
One-way ANOVA: T_FUND18M versus Região Source DF SS MS F P
Região 4 142910,0 35727,5 413,92 0,000
Error 5559 479822,0 86,3
Total 5563 622732,1
S = 9,291 R-Sq = 22,95% R-Sq(adj) = 22,89%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --------+---------+---------+---------+-
CO 465 43,136 7,253 (-*--)
N 449 37,752 9,375 (--*-)
NE 1794 32,694 8,162 (*-)
S 1188 43,297 9,172 (-*)
SE 1668 44,100 10,864 (*)
--------+---------+---------+---------+-
35,0 38,5 42,0 45,5
Pooled StDev = 9,291
O grau de variação entre as Regiões é alto (413,92) e o p-value = 0 nos indica que a informação é confiável e não
existe chance deste valor ser diferente.
44
3.7 – Variável T_MED18A20 por Região
SESNENCO
90
80
70
60
50
40
30
20
10
0
Região
T_
MED
18
A2
0
Boxplot of T_MED18A20
Pode-se observar que o índice T_MED18A20 é maior nas Regiões Sul, Sudeste e Centro Oeste. Os índices mais
baixos estão nas regiões Norte e Nordeste. Vale a pena destacar que para as regiões que apresentam os melhores
resultados para esta variável a média está próxima de 50%, além disso, os municípios que apresentam resultados
melhores são considerados nesta análise como atípicos.
One-way ANOVA: T_MED18A20 versus Região Source DF SS MS F P
Região 4 503294 125824 1031,13 0,000
Error 5559 678338 122
01020304050
CO
N
NES
SE
Mean
Mean 0
5
10
15CO
N
NES
SE
StDev
StDev
45
Total 5563 1181632
S = 11,05 R-Sq = 42,59% R-Sq(adj) = 42,55%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev -------+---------+---------+---------+--
CO 465 38,65 10,18 (*-)
N 449 24,02 10,81 (*-)
NE 1794 24,96 8,78 (*
S 1188 46,54 11,88 *)
SE 1668 43,14 12,77 (*
-------+---------+---------+---------+--
28,0 35,0 42,0 49,0
Pooled StDev = 11,05
O grau de variação entre as Regiões é alto (1031,13) e o p-value igual a zero nos indica que a informação é
confiável e não existe chance deste valor ser diferente.
3.8 – Variável RDPC por Região
01020304050
CO
N
NES
SE
Mean
Mean 0
5
10
15CO
N
NES
SE
StDev
StDev
46
SESNENCO
2000
1500
1000
500
0
Região
RD
PC
Boxplot of RDPC
Pode-se observar que o valor de RDPC é maior nas Regiões Sul e Sudeste. Os índices mais baixos estão nas
regiões Norte e Nordeste. Vale a pena destacar que para as regiões que apresentam os melhores resultados para
esta variável a média está próxima de R$500. Além disso, os municípios que apresentam resultados melhores são
considerados nesta análise como atípicos, inclusive estes valores são muito distantes da média.
A maior variabilidade de dados se encontra na Região Sul e Sudeste.
One-way ANOVA: RDPC versus Região Source DF SS MS F P
Região 4 166364376 41591094 1432,31 0,000
Error 5559 161420628 29038
Total 5563 327785004
S = 170,4 R-Sq = 50,75% R-Sq(adj) = 50,72%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --------+---------+---------+---------+-
CO 465 584,2 153,4 (-*)
N 449 345,1 141,1 (-*)
NE 1794 276,9 97,7 (*)
S 1188 704,2 200,0 (*
SE 1668 590,6 214,9 *)
--------+---------+---------+---------+-
360 480 600 720
Pooled StDev = 170,4
O grau de variação entre as Regiões é alto (1432,31) e o p-value igual zero nos indica que a informação é
confiável e não existe chance deste valor ser diferente.
47
3.9 – Variável I_FREQ_PROP por Região
SESNENCO
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
Região
I_FR
EQ
_P
RO
P
Boxplot of I_FREQ_PROP
Pode-se observar que o índice de I_FREQ_PROP é maior nas Regiões Sul e Sudeste. Já as regiões Norte e
Nordeste apresentam os piores resultados.
One-way ANOVA: I_FREQ_PROP versus Região Source DF SS MS F P
Região 4 22,92438 5,73109 1118,63 0,000
Error 5559 28,48058 0,00512
Total 5563 51,40495
S = 0,07158 R-Sq = 44,60% R-Sq(adj) = 44,56%
Level N Mean StDev
CO 465 0,68165 0,06632
N 449 0,56141 0,09797
NE 1794 0,60066 0,06268
S 1188 0,73452 0,06932
SE 1668 0,71904 0,07505
0
200
400
600
800CO
N
NES
SE
Mean
Mean 050
100150200250
CO
N
NES
SE
StDev
StDev
48
Individual 95% CIs For Mean Based on Pooled StDev
Level ---------+---------+---------+---------+
CO (*-)
N (*-)
NE (*)
S (*)
SE (*
---------+---------+---------+---------+
0,600 0,650 0,700 0,750
Pooled StDev = 0,07158
O grau de variação entre as Regiões é alto (1118,63) e o p-value nos indica que a informação é confiável e não
existe chance deste valor ser diferente.
3.10 – Variável IDHM_E por Região.
SESNENCO
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
Região
IDH
M_
E
Boxplot of IDHM_E
0
0,2
0,4
0,6
0,8CO
N
NES
SE
Mean
Mean 00,020,040,060,080,1
CO
N
NES
SE
StDev
StDev
49
Pode-se observar que o índice de IDHM_E é maior nas Regiões Sul e Sudeste. Já as regiões Norte e Nordeste
estão com seus valores próximos a 40 %. Vale a pena destacar que para esta variável as regiões com melhor
desempenho estão próximas de 60%.
One-way ANOVA: IDHM_E versus Região Source DF SS MS F P
Região 4 18,83643 4,70911 884,60 0,000
Error 5559 29,59293 0,00532
Total 5563 48,42936
S = 0,07296 R-Sq = 38,89% R-Sq(adj) = 38,85%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --+---------+---------+---------+-------
CO 465 0,58380 0,05977 (-*-)
N 449 0,49043 0,09066 (-*-)
NE 1794 0,48842 0,06579 (*)
S 1188 0,61302 0,06520 (*)
SE 1668 0,60819 0,08287 (*)
--+---------+---------+---------+-------
0,490 0,525 0,560 0,595
Pooled StDev = 0,07296
O grau de variação entre as Regiões é alto (884,60) e o p-value nos indica que a informação é confiável e não
existe chance deste valor ser diferente.
3.11 – Variável IDHM_L por Região
0
0,2
0,4
0,6
0,8CO
N
NES
SE
Mean
Mean 00,020,040,060,080,1
CO
N
NES
SE
StDev
StDev
50
SESNENCO
0,90
0,85
0,80
0,75
0,70
Região
IDH
M_
L
Boxplot of IDHM_L
Pode-se observar que o percentual de IDHM_L é maior nas Regiões Sul, Sudeste e Centro Oeste. Já as regiões
Norte e Nordeste estão com seus valores próximos a 40 %. Vale a pena destacar que para esta variável todas as
regiões apresentam valores próximos de um índice de 0,80.
One-way ANOVA: IDHM_L versus Região Source DF SS MS F P
Região 4 6,94138 1,73535 2318,18 0,000
Error 5559 4,16137 0,00075
Total 5563 11,10275
S = 0,02736 R-Sq = 62,52% R-Sq(adj) = 62,49%
Level N Mean StDev
CO 465 0,82234 0,01833
N 449 0,78038 0,02871
NE 1794 0,75433 0,03016
S 1188 0,83533 0,02616
SE 1668 0,82819 0,02674
Individual 95% CIs For Mean Based on Pooled StDev
Level ---------+---------+---------+---------+
CO (*)
N (*)
NE (*
S *)
SE *)
---------+---------+---------+---------+
0,775 0,800 0,825 0,850
Pooled StDev = 0,02736
O grau de variação entre as Regiões é alto (2318,18) e o p-value nos indica que a informação é confiável e não
existe chance deste valor ser diferente.
51
3.12 – Variável IDHM_R por Região
SESNENCO
0,9
0,8
0,7
0,6
0,5
0,4
Região
IDH
M_
R
Boxplot of IDHM_R
Pode-se observar que o percentual de IDHM_R é maior nas Regiões Sul, Sudeste e Centro Oeste. Já as regiões
Norte e Nordeste apresentam índices baixos para esta variável, com destaque para o Nordeste.
One-way ANOVA: IDHM_R versus Região Source DF SS MS F P
Região 4 21,93443 5,48361 2143,97 0,000
Error 5559 14,21819 0,00256
Total 5563 36,15262
S = 0,05057 R-Sq = 60,67% R-Sq(adj) = 60,64%
Level N Mean StDev
CO 465 0,68411 0,04209
N 449 0,59282 0,06194
0,7
0,75
0,8
0,85CO
N
NES
SE
Mean
Mean 0
0,01
0,02
0,03
0,04CO
N
NES
SE
StDev
StDev
52
NE 1794 0,56226 0,04611
S 1188 0,71344 0,04419
SE 1668 0,68116 0,05769
Individual 95% CIs For Mean Based on Pooled StDev
Level +---------+---------+---------+---------
CO (*)
N (*)
NE (*
S *)
SE *)
+---------+---------+---------+---------
0,560 0,600 0,640 0,680
Pooled StDev = 0,05057
O grau de variação entre as Regiões é alto (2143,97) e o p-value nos indica que a informação é confiável e não
existe chance deste valor ser diferente.
4 – CONSIDERAÇÕES FINAIS
Este trabalho teve por objetivo comparar as médias dos indicadores das variáveis da dimensão
Desenvolvimento Humano com base nos dados apresentados no relatório Atlas Brasil 2013.
Estas comparações indicam que os municípios do Brasil apresentam disparidades quanto as variáveis desta
dimensão. Ressalta-se que isto ocorre principalmente com relação as regiões norte e nordeste das demais.
Podemos observar em todos os gráficos que existem dois Brasis, ou seja, os dados das Regiões Sudeste e Sul, e
quase sempre acompanhadas pela região Centro Oeste, são muito próximos e apresentam resultados melhores. Já
os dados das Regiões Norte e Nordeste são próximos também, porém apresentam os piores resultados.
00,20,40,60,8
CO
N
NES
SE
Mean
Mean 0
0,020,040,06
0,08CO
N
NES
SE
StDev
StDev
53
SESNENCO
0,9
0,8
0,7
0,6
0,5
0,4
Região
IDH
MBoxplot of IDHM
SESNENCO
80,0
77,5
75,0
72,5
70,0
67,5
65,0
Região
ES
PV
IDA
Boxplot of ESPVIDA
SESNENCO
100
90
80
70
60
50
40
Região
T_
FREQ
5A
6
Boxplot of T_FREQ5A6
SESNENCO
100
90
80
70
60
50
40
30
Região
T_
FUN
D1
1A
13
Boxplot of T_FUND11A13
SESNENCO
100
80
60
40
20
0
Região
T_
FUN
D1
5A
17
Boxplot of T_FUND15A17
SESNENCO
80
70
60
50
40
30
20
10
Região
T_
FUN
D1
8M
Boxplot of T_FUND18M
SESNENCO
90
80
70
60
50
40
30
20
10
0
Região
T_
MED
18
A2
0
Boxplot of T_MED18A20
SESNENCO
2000
1500
1000
500
0
Região
RD
PC
Boxplot of RDPC
SESNENCO
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
Região
I_FR
EQ
_P
RO
P
Boxplot of I_FREQ_PROP
SESNENCO
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
Região
IDH
M_
E
Boxplot of IDHM_E
SESNENCO
0,90
0,85
0,80
0,75
0,70
Região
IDH
M_
L
Boxplot of IDHM_L
SESNENCO
0,9
0,8
0,7
0,6
0,5
0,4
Região
IDH
M_
RBoxplot of IDHM_R
Comparando os Índices nota-se que na Educação até os 13 anos são apresentados resultados médios acima de
50%, inclusive próximos a 80%. Para a variável renda é relevante destacar que os valores ficam próximos a
R$500, sendo que os municípios que apresentam valores considerados altos são diagnosticados como atípicos.
Para entendermos o quanto cada região vem se desenvolvendo em termos de Educação, Renda ou Expectativa de
Vida seria necessário comparar os dados de 1991, 2001 com os de 2010.
Para uma melhor compreensão da variabilidade nas análises comparativas segue gráfico de radar para as varáveis
analisadas na dimensão desenvolvimento humano.
54
Tabela – Valor de F
VARIÁVEL Valor de F
ESPVIDA 2319,16
IDHM_L 2318,18
IDHM_R 2143,97
IDHM 1795,58
RDPC 1432,31
T_FUND15A17 1327,12
I_FREQ_PROP 1118,63
T_MED18A20 1031,13
IDHM_E 884,6
T_FUND11A13 743,32
T_FUND18M 413,92
I_FREQ5A6 297,68
3.1 – PESQUISA POR AMOSTRAGEM
A pesquisa por amostragem foi feita em três amostras, uma de 25, 100 e 400 indivíduos, ou municípios. Para
cada amostra foram efetuadas análises do tipo exploratória de dados, as correlações e os dendrogramas. As
variáveis utilizadas nesta pesquisa são ESPVIDA, IDHM e IDHM_R. A amostragem aleatória foi feita através
do Minitab16, utilizando a função:
0
500
1000
1500
2000
2500ESPVIDA
IDHM_L
IDHM_R
IDHM
RDPC
T_FUND15A17
I_FREQ_PROP
T_MED18A20
IDHM_E
T_FUND11A13
T_FUND18M
I_FREQ5A6
Teste F
F
55
3.1.1 – VARIÁVEL ESPVIDA
Gráfico 1 – ESPVIDA para amostra com 25 linhas
787674727068
Median
Mean
75,575,074,574,073,573,0
1st Q uartile 71,800
Median 74,530
3rd Q uartile 75,705
Maximum 78,520
72,808 75,038
73,268 75,180
2,109 3,758
A -Squared 0,38
P-V alue 0,386
Mean 73,923
StDev 2,701
V ariance 7,296
Skewness -0,417608
Kurtosis -0,311185
N 25
Minimum 68,180
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for ESPVIDA25
Este é o resultado da análise exploratória dos dados de ESPVIDA, para uma população de 25 indivíduos ou
municípios.
A curva possui uma calda maior para a esquerda, o que demonstra que os dados possuem maior variabilidade
para este lado em relação à média. Podemos verificar que a média dos dados é de 73,923 e o desvio padrão
2,701. Existe 95% de confiança de que a média está entre o intervalo de 72,808 e 75,038.
Calc >> Random Data >> Sample form columns
56
Gráfico 2 – ESPVIDA para amostra com 100 linhas
787674727068
Median
Mean
74,073,873,673,473,273,072,8
1st Q uartile 71,670
Median 73,465
3rd Q uartile 75,177
Maximum 77,500
72,785 73,730
73,037 74,033
2,091 2,767
A -Squared 0,73
P-V alue 0,054
Mean 73,257
StDev 2,382
V ariance 5,674
Skewness -0,398522
Kurtosis -0,529770
N 100
Minimum 66,850
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for ESPVIDA100
Este é o resultado da análise exploratória dos dados de ESPVIDA, para uma população de 100 indivíduos ou
municípios.
A curva possui uma calda maior para a esquerda, o que demonstra que os dados possuem maior variabilidade
para este lado em relação à média. Podemos verificar que a média dos dados é de 73,257 e o desvio padrão
2,382. Existe 95% de confiança de que a média está entre o intervalo de 72,785 e 73,730.
Gráfico 3 – ESPVIDA para amostra com 400 linhas
78767472706866
Median
Mean
73,873,673,473,273,0
1st Q uartile 71,472
Median 73,415
3rd Q uartile 75,065
Maximum 78,400
72,934 73,427
73,039 73,761
2,347 2,696
A -Squared 1,43
P-V alue < 0,005
Mean 73,180
StDev 2,509
V ariance 6,296
Skewness -0,424822
Kurtosis -0,125208
N 400
Minimum 65,840
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for ESPVIDA400
Este é o resultado da análise exploratória dos dados de ESPVIDA, para uma população de 400 indivíduos ou
municípios.
A curva possui uma calda maior para a esquerda, o que demonstra que os dados possuem maior variabilidade
para este lado em relação à média. Podemos verificar que a média dos dados é de 73,180 e o desvio padrão
2,509. Existe 95% de confiança de que a média está entre o intervalo de 72,934 e 73,427.
57
Gráfico 4 – ESPVIDA para população com 5664 linhas
78767472706866
Median
Mean
73,673,573,473,373,273,173,0
1st Q uartile 71,150
Median 73,470
3rd Q uartile 75,160
Maximum 78,640
73,018 73,159
73,380 73,550
2,631 2,731
A -Squared 34,97
P-V alue < 0,005
Mean 73,088
StDev 2,680
V ariance 7,184
Skewness -0,409423
Kurtosis -0,486571
N 5564
Minimum 65,300
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for ESPVIDA
Podemos observar no gráfico 4, resultado da análise exploratória dos dados de ESPVIDA, para toda a população
de 5564 municípios.
A curva possui uma calda maior para a esquerda mesmo utilizando toda a população, o que demonstra que os
dados possuem maior variabilidade para este lado em relação à média. Podemos verificar que a média dos dados
é de 73,088 e o desvio padrão 2,680. Existe 95% de confiança de que a média está entre o intervalo de 73,018 e
73,159.
Gráfico 5 – Boxplot de ESPVIDA para amostras de 25, 100, 400 e população
ESPVIDAESPVIDA400ESPVIDA100ESPVIDA25
80,0
77,5
75,0
72,5
70,0
67,5
65,0
Da
ta
Boxplot of ESPVIDA25; ESPVIDA100; ESPVIDA400; ESPVIDA
O Boxplot confirma a semelhança e diferenças dos resultados das três amostras comparadas com a população
total. Existe uma variabilidade dos dados em todas as análises para esta variável.
One-way ANOVA: ESPVIDA25; ESPVIDA100; ESPVIDA400; ESPVIDA
58
Source DF SS MS F P
Factor 3 22,74 7,58 1,07 0,362
Error 6085 43214,99 7,10
Total 6088 43237,74
S = 2,665 R-Sq = 0,05% R-Sq(adj) = 0,00%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --------+---------+---------+---------+-
ESPVIDA25 25 73,923 2,701 (----------------*----------------)
ESPVIDA100 100 73,257 2,382 (--------*--------)
ESPVIDA400 400 73,180 2,509 (----*---)
ESPVIDA 5564 73,088 2,680 (*)
--------+---------+---------+---------+-
73,20 73,80 74,40 75,00
Pooled StDev = 2,665
Boxplot of ESPVIDA25; ESPVIDA100; ESPVIDA400; ESPVIDA
A análise de variância entre as amostras e a população nos indica que a variação é muito pequena (F=0,27) e o P-
Value grande, ou seja que existe alguma chance de outros resultados.
VARIÁVEL HISTOGRAMA MEDIANA MÉDIA D.PADRÃO P_VALUE
ESPVIDA
25 787674727068
Median
Mean
75,575,074,574,073,573,0
1st Q uartile 71,800
Median 74,530
3rd Q uartile 75,705
Maximum 78,520
72,808 75,038
73,268 75,180
2,109 3,758
A -Squared 0,38
P-V alue 0,386
Mean 73,923
StDev 2,701
V ariance 7,296
Skewness -0,417608
Kurtosis -0,311185
N 25
Minimum 68,180
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for ESPVIDA25
74,530 73,923 2,701 0,386
ESPVIDA
100 787674727068
Median
Mean
74,073,873,673,473,273,072,8
1st Q uartile 71,670
Median 73,465
3rd Q uartile 75,177
Maximum 77,500
72,785 73,730
73,037 74,033
2,091 2,767
A -Squared 0,73
P-V alue 0,054
Mean 73,257
StDev 2,382
V ariance 5,674
Skewness -0,398522
Kurtosis -0,529770
N 100
Minimum 66,850
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for ESPVIDA100
73,465 73,257 2,382 0,054
ESPVIDA
400 78767472706866
Median
Mean
73,873,673,473,273,0
1st Q uartile 71,472
Median 73,415
3rd Q uartile 75,065
Maximum 78,400
72,934 73,427
73,039 73,761
2,347 2,696
A -Squared 1,43
P-V alue < 0,005
Mean 73,180
StDev 2,509
V ariance 6,296
Skewness -0,424822
Kurtosis -0,125208
N 400
Minimum 65,840
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for ESPVIDA400
73,415 73,180 2,509 0,005
59
ESPVIDA 78767472706866
Median
Mean
73,673,573,473,373,273,173,0
1st Q uartile 71,150
Median 73,470
3rd Q uartile 75,160
Maximum 78,640
73,018 73,159
73,380 73,550
2,631 2,731
A -Squared 34,97
P-V alue < 0,005
Mean 73,088
StDev 2,680
V ariance 7,184
Skewness -0,409423
Kurtosis -0,486571
N 5564
Minimum 65,300
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for ESPVIDA
73,470 73,088 2,680 0,005
A tabela acima resume os resultados da análise exploratória dos dados das amostragens e da população da
variável ESPVIDA. Os valores de P-values são idênticos para a amostra de 400 indivíduos e a população, ou
seja, não existe chance dos resultados acima apresentarem valores diferentes. A mediana obteve uma diferença
grande entre as amostras com o número menor de indivíduos como já era esperado. Esta diferença também pôde
ser percebida com relação a média das amostras e a média da população, no entanto, nos valores de média a
diferença foi menor para as amostras baixas do que nos valores apresentados na mediana.
Portanto, pode-se dizer que na amostra de 400 indivíduos os valores são mais eficientes de se trabalhar, e
possuem uma boa precisão em relação aos resultados da população.
3.1.2 – VARIÁVEL IDHM
Gráfico 1 – IDHM para amostra com 25 linhas
0,800,750,700,650,600,550,50
Median
Mean
0,700,680,660,640,62
1st Q uartile 0,59250
Median 0,67100
3rd Q uartile 0,71450
Maximum 0,81500
0,62490 0,68694
0,61498 0,70421
0,05867 0,10453
A -Squared 0,19
P-V alue 0,894
Mean 0,65592
StDev 0,07514
V ariance 0,00565
Skewness -0,030353
Kurtosis -0,513537
N 25
Minimum 0,51700
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM25
Este é o resultado da análise exploratória dos dados de IDHM, para uma população de 25 indivíduos ou
municípios.
A curva apresenta uma normalidade em sua distribuição, o que demonstra que os dados possuem homogeneidade
de variabilidade para os dois lados em relação à média. Podemos verificar que a média dos dados é de 0,65592 e
o desvio padrão 0,07514. Existe 95% de confiança de que a média está entre o intervalo de 0,62490 e 0,68694.
Gráfico 2 – IDHM para amostra com 100 linhas
60
0,8250,7500,6750,6000,5250,450
Median
Mean
0,690,680,670,660,650,64
1st Q uartile 0,60825
Median 0,67350
3rd Q uartile 0,71825
Maximum 0,81900
0,64789 0,67611
0,64523 0,68626
0,06244 0,08261
A -Squared 0,49
P-V alue 0,212
Mean 0,66200
StDev 0,07111
V ariance 0,00506
Skewness -0,311540
Kurtosis -0,293497
N 100
Minimum 0,45000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM100
Este é o resultado da análise exploratória dos dados de IDHM, para uma população de 100 indivíduos ou
municípios.
A curva possui uma calda maior para a esquerda, o que demonstra que os dados possuem maior variabilidade
para este lado em relação à média. Podemos verificar que a média dos dados é de 0,66200 e o desvio padrão
0,7111. Existe 95% de confiança de que a média está entre o intervalo de 0,64789 e 0,67611.
Gráfico 3 – IDHM para amostra com 400 linhas
0,780,720,660,600,540,48
Median
Mean
0,6750,6700,6650,6600,6550,6500,645
1st Q uartile 0,59500
Median 0,66000
3rd Q uartile 0,71575
Maximum 0,81700
0,64837 0,66291
0,64500 0,67300
0,06919 0,07950
A -Squared 2,73
P-V alue < 0,005
Mean 0,65564
StDev 0,07399
V ariance 0,00547
Skewness -0,131165
Kurtosis -0,888873
N 400
Minimum 0,47100
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM400
Este é o resultado da análise exploratória dos dados de IDHM, para uma população de 400 indivíduos ou
municípios.
A curva apresenta uma normalidade em sua distribuição, o que demonstra que os dados possuem homogeneidade
de variabilidade para os dois lados em relação à média. Podemos verificar que a média dos dados é de 0,65594 e
o desvio padrão 0,07399. Existe 95% de confiança de que a média está entre o intervalo de 0,64837 e 0,66291.
Gráfico 4 – IDHM para população com 5664 linhas
61
0,840,770,700,630,560,490,42
Median
Mean
0,6700,6680,6660,6640,6620,6600,658
1st Q uartile 0,59900
Median 0,66500
3rd Q uartile 0,71800
Maximum 0,86200
0,65724 0,66102
0,66200 0,66900
0,07066 0,07333
A -Squared 40,64
P-V alue < 0,005
Mean 0,65913
StDev 0,07197
V ariance 0,00518
Skewness -0,156737
Kurtosis -0,846019
N 5564
Minimum 0,41800
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM
Podemos observar no gráfico 4, resultado da análise exploratória dos dados de IDHM, para toda a população de
5564 municípios.
A curva possui uma calda maior para a esquerda mesmo utilizando toda a população, o que demonstra que os
dados possuem maior variabilidade para este lado em relação à média. Podemos verificar que a média dos dados
é de 0,65913 e o desvio padrão 0.07197. Existe 95% de confiança de que a média está entre o intervalo de
0,65724 e 0,66102.
62
Gráfico 5 – Boxplot de IDHM para amostras de 25, 100, 400 e população
IDHM400IDHM100IDHM25IDHM
0,9
0,8
0,7
0,6
0,5
0,4
Da
ta
Boxplot of IDHM; IDHM25; IDHM100; IDHM400
O Boxplot confirma a semelhança e diferenças dos resultados das três amostras comparadas com a população
total. Existe uma variabilidade dos dados em todas as análises para esta variável.
One-way ANOVA: IDHM; IDHM25; IDHM100; IDHM400 Source DF SS MS F P
Factor 3 0,00572 0,00191 0,37 0,777
Error 6085 31,63463 0,00520
Total 6088 31,64035
S = 0,07210 R-Sq = 0,02% R-Sq(adj) = 0,00%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --+---------+---------+---------+-------
IDHM 5564 0,65913 0,07197 (*-)
IDHM25 25 0,65592 0,07514 (------------------*------------------)
IDHM100 100 0,66200 0,07111 (--------*---------)
IDHM400 400 0,65564 0,07399 (----*----)
--+---------+---------+---------+-------
0,630 0,645 0,660 0,675
Pooled StDev = 0,07210
Boxplot of IDHM; IDHM25; IDHM100; IDHM400
A análise de variância entre as amostras e a população nos indica que a variação é muito pequena (F=0,37) e o P-
Value grande, ou seja, que existe alguma chance de outros resultados interferirem nestes resultados.
63
VARIÁVEL HISTOGRAMA MEDIANA MÉDIA D.PADRÃO P_VALUE
IDHM 25 0,800,750,700,650,600,550,50
Median
Mean
0,700,680,660,640,62
1st Q uartile 0,59250
Median 0,67100
3rd Q uartile 0,71450
Maximum 0,81500
0,62490 0,68694
0,61498 0,70421
0,05867 0,10453
A -Squared 0,19
P-V alue 0,894
Mean 0,65592
StDev 0,07514
V ariance 0,00565
Skewness -0,030353
Kurtosis -0,513537
N 25
Minimum 0,51700
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM25
0,67100 0,65592 0,07514 0,894
IDHM 100 0,8250,7500,6750,6000,5250,450
Median
Mean
0,690,680,670,660,650,64
1st Q uartile 0,60825
Median 0,67350
3rd Q uartile 0,71825
Maximum 0,81900
0,64789 0,67611
0,64523 0,68626
0,06244 0,08261
A -Squared 0,49
P-V alue 0,212
Mean 0,66200
StDev 0,07111
V ariance 0,00506
Skewness -0,311540
Kurtosis -0,293497
N 100
Minimum 0,45000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM100
0,67350 0,66200 0.07111 0,212
IDHM 400 0,780,720,660,600,540,48
Median
Mean
0,6750,6700,6650,6600,6550,6500,645
1st Q uartile 0,59500
Median 0,66000
3rd Q uartile 0,71575
Maximum 0,81700
0,64837 0,66291
0,64500 0,67300
0,06919 0,07950
A -Squared 2,73
P-V alue < 0,005
Mean 0,65564
StDev 0,07399
V ariance 0,00547
Skewness -0,131165
Kurtosis -0,888873
N 400
Minimum 0,47100
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM400
0,66000 0,65564 0,07399 0,005
IDHM 0,840,770,700,630,560,490,42
Median
Mean
0,6700,6680,6660,6640,6620,6600,658
1st Q uartile 0,59900
Median 0,66500
3rd Q uartile 0,71800
Maximum 0,86200
0,65724 0,66102
0,66200 0,66900
0,07066 0,07333
A -Squared 40,64
P-V alue < 0,005
Mean 0,65913
StDev 0,07197
V ariance 0,00518
Skewness -0,156737
Kurtosis -0,846019
N 5564
Minimum 0,41800
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM
0,66500 0,65913 0,07197 0,005
A tabela acima resume os resultados da análise exploratória dos dados das amostragens e da população da
variável IDHM. Os valores de P-values são idênticos para a amostra de 400 indivíduos e a população, ou seja,
não existe chance dos resultados acima apresentarem valores diferentes. A mediana obteve uma diferença
semelhante entre as amostras com uma aproximação gradual dos valores da população conforme aumentava-se o
número de indivíduos. Esta diferença também pôde ser percebida com relação a média das amostras e a média da
população, no entanto, nos valores de média.
Portanto, pode-se dizer que na amostra de 400 indivíduos os valores são mais eficientes de se trabalhar, e
possuem uma boa precisão em relação aos resultados da população.
3.1.2 – VARIÁVEL IDHM_R
Gráfico 1 – IDHM_R para amostra com 25 linhas
64
0,720,640,560,48
Median
Mean
0,680,660,640,620,60
1st Q uartile 0,57500
Median 0,65700
3rd Q uartile 0,68800
Maximum 0,75300
0,60782 0,66866
0,59899 0,68480
0,05754 0,10251
A -Squared 0,63
P-V alue 0,087
Mean 0,63824
StDev 0,07369
V ariance 0,00543
Skewness -0,631094
Kurtosis -0,439798
N 25
Minimum 0,46900
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM_R25
Este é o resultado da análise exploratória dos dados de IDHM_R, para uma população de 25 indivíduos ou
municípios.
A curva possui uma calda maior para a esquerda, o que demonstra que os dados possuem maior variabilidade
para este lado em relação à média. Podemos verificar que a média dos dados é de 0,63824 e o desvio padrão
0,07369. Existe 95% de confiança de que a média está entre o intervalo de 0,6782 e 0,66866.
Gráfico 2 – IDHM_R para amostra com 100 linhas
0,750,700,650,600,550,500,45
Median
Mean
0,660,650,640,630,620,610,60
1st Q uartile 0,55750
Median 0,63050
3rd Q uartile 0,68900
Maximum 0,78400
0,61248 0,64264
0,60048 0,65880
0,06674 0,08830
A -Squared 1,21
P-V alue < 0,005
Mean 0,62756
StDev 0,07601
V ariance 0,00578
Skewness -0,03756
Kurtosis -1,01391
N 100
Minimum 0,46200
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM_R100
Este é o resultado da análise exploratória dos dados de IDHM_R, para uma população de 100 indivíduos ou
municípios.
A curva possui uma calda maior para a esquerda, o que demonstra que os dados possuem maior variabilidade
para este lado em relação à média. Podemos verificar que a média dos dados é de 0,62756 e o desvio padrão
0,63050. Existe 95% de confiança de que a média está entre o intervalo de 0,61248 e 0,64264.
65
Gráfico 3 – IDHM_R para amostra com 400 linhas
0,8250,7500,6750,6000,525
Median
Mean
0,6750,6700,6650,6600,6550,6500,645
1st Q uartile 0,57600
Median 0,66400
3rd Q uartile 0,71800
Maximum 0,84800
0,64318 0,65908
0,65091 0,67400
0,07566 0,08694
A -Squared 4,94
P-V alue < 0,005
Mean 0,65113
StDev 0,08091
V ariance 0,00655
Skewness -0,12704
Kurtosis -1,02226
N 400
Minimum 0,46500
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM_R400
Este é o resultado da análise exploratória dos dados de IDHM_R, para uma população de 400 indivíduos ou
municípios.
A curva possui uma calda maior para a esquerda, o que demonstra que os dados possuem maior variabilidade
para este lado em relação à média. Podemos verificar que a média dos dados é de 0,65113 e o desvio padrão
0,08091. Existe 95% de confiança de que a média está entre o intervalo de 0,64318 e 0,65908.
Gráfico 4 – IDHM_R para população com 5664 linhas
0,840,770,700,630,560,490,42
Median
Mean
0,6560,6520,6480,6440,640
1st Q uartile 0,57200
Median 0,65400
3rd Q uartile 0,70700
Maximum 0,89100
0,64071 0,64495
0,65000 0,65700
0,07914 0,08214
A -Squared 55,30
P-V alue < 0,005
Mean 0,64283
StDev 0,08061
V ariance 0,00650
Skewness -0,103406
Kurtosis -0,878094
N 5564
Minimum 0,40000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM_R
Podemos observar no gráfico 4, resultado da análise exploratória dos dados de IDHM_R, para toda a população
de 5564 municípios.
A curva possui uma calda maior para a esquerda mesmo utilizando toda a população, o que demonstra que os
dados possuem maior variabilidade para este lado em relação à média. Podemos verificar que a média dos dados
é de 0,64283 e o desvio padrão 0,08061. Existe 95% de confiança de que a média está entre o intervalo de
0,64071 e 0,64495.
66
Gráfico 5 – Boxplot de IDHM_R para amostras de 25, 100, 400 e população
IDHM_RIDHM_R400IDHM_R100IDHM_R25
0,9
0,8
0,7
0,6
0,5
0,4
Da
ta
Boxplot of IDHM_R25; IDHM_R100; IDHM_R400; IDHM_R
O Boxplot confirma a semelhança e diferenças dos resultados das três amostras comparadas com a população
total. Existe uma variabilidade dos dados em todas as análises para esta variável.
One-way ANOVA: IDHM_R25; IDHM_R100; IDHM_R400; IDHM_R Source DF SS MS F P
Factor 3 0,05093 0,01698 2,62 0,049
Error 6085 39,46667 0,00649
Total 6088 39,51760
S = 0,08054 R-Sq = 0,13% R-Sq(adj) = 0,08%
Level N Mean StDev
IDHM_R25 25 0,63824 0,07369
IDHM_R100 100 0,62756 0,07601
IDHM_R400 400 0,65113 0,08091
IDHM_R 5564 0,64283 0,08061
Individual 95% CIs For Mean Based on Pooled StDev
Level -+---------+---------+---------+--------
IDHM_R25 (-------------------*-------------------)
IDHM_R100 (---------*---------)
IDHM_R400 (----*----)
IDHM_R (-*)
-+---------+---------+---------+--------
0,608 0,624 0,640 0,656
Pooled StDev = 0,08054
Boxplot of IDHM_R25; IDHM_R100; IDHM_R400; IDHM_R
A análise de variância entre as amostras e a população nos indica que a variação é muito pequena (F=2,62) e o P-
Value alto, ou seja que existe alguma chance de outros resultados influenciarem no resultado desta análise.
67
VARIÁVEL HISTOGRAMA MEDIANA MÉDIA D.PADRÃO P_VALUE
IDHM_R 25 0,720,640,560,48
Median
Mean
0,680,660,640,620,60
1st Q uartile 0,57500
Median 0,65700
3rd Q uartile 0,68800
Maximum 0,75300
0,60782 0,66866
0,59899 0,68480
0,05754 0,10251
A -Squared 0,63
P-V alue 0,087
Mean 0,63824
StDev 0,07369
V ariance 0,00543
Skewness -0,631094
Kurtosis -0,439798
N 25
Minimum 0,46900
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM_R25
0,65700 0,63824 0,07369 0,087
IDHM_R
100 0,750,700,650,600,550,500,45
Median
Mean
0,660,650,640,630,620,610,60
1st Q uartile 0,55750
Median 0,63050
3rd Q uartile 0,68900
Maximum 0,78400
0,61248 0,64264
0,60048 0,65880
0,06674 0,08830
A -Squared 1,21
P-V alue < 0,005
Mean 0,62756
StDev 0,07601
V ariance 0,00578
Skewness -0,03756
Kurtosis -1,01391
N 100
Minimum 0,46200
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM_R100
0,63050 0,62756 0,07601 0,005
IDHM_R
400 0,8250,7500,6750,6000,525
Median
Mean
0,6750,6700,6650,6600,6550,6500,645
1st Q uartile 0,57600
Median 0,66400
3rd Q uartile 0,71800
Maximum 0,84800
0,64318 0,65908
0,65091 0,67400
0,07566 0,08694
A -Squared 4,94
P-V alue < 0,005
Mean 0,65113
StDev 0,08091
V ariance 0,00655
Skewness -0,12704
Kurtosis -1,02226
N 400
Minimum 0,46500
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM_R400
0,664 0,65113 0,08091 0,005
IDHM_R 0,840,770,700,630,560,490,42
Median
Mean
0,6560,6520,6480,6440,640
1st Q uartile 0,57200
Median 0,65400
3rd Q uartile 0,70700
Maximum 0,89100
0,64071 0,64495
0,65000 0,65700
0,07914 0,08214
A -Squared 55,30
P-V alue < 0,005
Mean 0,64283
StDev 0,08061
V ariance 0,00650
Skewness -0,103406
Kurtosis -0,878094
N 5564
Minimum 0,40000
A nderson-Darling Normality Test
95% C onfidence Interv al for Mean
95% C onfidence Interv al for Median
95% C onfidence Interv al for StDev
95% Confidence Intervals
Summary for IDHM_R
0,65400 0,64283 0,08061 0,005
A tabela acima resume os resultados da análise exploratória dos dados das amostragens e da população da
variável IDHM_R. Os valores de P-values são idênticos para a amostra de 100, 400 indivíduos e a população, ou
seja, não existe chance dos resultados acima apresentarem valores diferentes. Vale destacar que a análise com 25
indivíduos apresentou resultados semelhantes aos da população, mas com um P-value de 0,087. A mediana
obteve uma variação gradual entre as amostras. Esta diferença também pôde ser percebida com relação a média
das amostras com relação a população.
Portanto, pode-se dizer que na amostra de 400 indivíduos os valores são mais eficientes de se trabalhar, e
possuem uma boa precisão em relação aos resultados da população.
3.2 VARIÁVEIS QUANTITATIVAS
A análise deste tipo de variável permite a utilização de uma maior gama de ferramentas de
análise como histogramas, curvas de densidade, gráfico de ramos, box-plot e dot-plot, além de
informações numéricas como média, desvio-padrão, mediana, quartis, 5 números, intervalo de
confiança e teste de normalidade de Anderson-Darling.
68
3.2.1 A Tabela de Dados2
Estatísticas Descritivas: ESPVIDA; IDHM_L; IDHM_R; IDHM; RDPC;
T_FUND15A17; I_FREQ_PROP; ...
Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 Maximum
ESPVIDAn 5565 0 0,58388 0,00269 0,20095 0 0,43853 0,61244 0,73913 1
T_FREQ5A6n 5565 0 0,85728 0,00188 0,13989 0 0,80595 0,89964 0,95239 1
T_FUND11A13n 5565 0 0,76809 0,00181 0,13476 0 0,69716 0,79474 0,86158 1
T_FUND15A17n 5565 0 0,53229 0,00231 0,17243 0 0,40063 0,5397 0,66643 1
T_FUND18Mn 5565 0 0,40638 0,00209 0,15571 0 0,28669 0,38838 0,50596 1
T_MED18A20n 5565 0 0,3969 0,00227 0,16924 0 0,268 0,38586 0,51573 1
RDPCn 5565 0 0,20403 0,00167 0,12491 0 0,09491 0,19071 0,28467 1
I_FREQ_PROPn 5565 0 0,57686 0,00186 0,13851 0 0,48271 0,57925 0,68228 1
IDHMn 5565 0 0,54315 0,00217 0,16216 0 0,40766 0,55631 0,67568 1
IDHM_En 5565 0 0,56973 0,00202 0,15102 0 0,45793 0,5712 0,68608 1
IDHM_Ln 5565 0 0,58362 0,0027 0,20127 0 0,43694 0,61261 0,73874 1
IDHM_Rn 5565 0 0,49465 0,0022 0,16428 0 0,35031 0,51731 0,62525 1
3.3 CORRELAÇÃO LINEAR
Segue abaixo a matriz de correlação incluindo o teste de significância p-value. Para a
correlação foi utilizado o índice de Pearson. Vale ressaltar que o índice de correlação entre as
variáveis não requer que exista uma relação de causa-efeito entre ambas.
CORRELAÇÃO DAS VARIÁVEIS DA DIMENSÃO DESENVOLVIMENTO
HUMANO
Os dados abaixo representam a correlação entre as variáveis selecionadas e já trabalhadas
anteriormente.
Correlations: ESPVIDAn; T_FUND11A13n; T_FUND15A17n; T_FUND18Mn; ... ESPVIDAn T_FUND11A13n T_FUND15A17n T_FUND18Mn
T_FUND11A13n 0,517
0,000
T_FUND15A17n 0,666 0,726
0,000 0,000
T_FUND18Mn 0,632 0,446 0,601
0,000 0,000 0,000
T_MED18A20n 0,660 0,651 0,833 0,656
0,000 0,000 0,000 0,000
2 Para as análises foram normalizados todos os dados, sendo que o valor que se aplica é: “quanto mais próximo
de 1 melhor”.
69
RDPCn 0,784 0,525 0,671 0,757
0,000 0,000 0,000 0,000
I_FREQ_PROPn 0,641 0,812 0,927 0,633
0,000 0,000 0,000 0,000
IDHMn 0,852 0,682 0,832 0,857
0,000 0,000 0,000 0,000
IDHM_En 0,704 0,705 0,855 0,892
0,000 0,000 0,000 0,000
IDHM_Ln 1,000 0,517 0,666 0,632
0,000 0,000 0,000 0,000
IDHM_Rn 0,834 0,586 0,721 0,757
0,000 0,000 0,000 0,000
T_FREQ5A6n 0,016 0,206 0,197 0,187
0,229 0,000 0,000 0,000
T_MED18A20n RDPCn I_FREQ_PROPn IDHMn
RDPCn 0,717
0,000
I_FREQ_PROPn 0,917 0,686
0,000 0,000
IDHMn 0,851 0,908 0,862
0,000 0,000 0,000
IDHM_En 0,877 0,791 0,913 0,951
0,000 0,000 0,000 0,000
IDHM_Ln 0,660 0,784 0,641 0,852
0,000 0,000 0,000 0,000
IDHM_Rn 0,748 0,962 0,729 0,948
0,000 0,000 0,000 0,000
T_FREQ5A6n 0,250 0,108 0,434 0,224
0,000 0,000 0,000 0,000
IDHM_En IDHM_Ln IDHM_Rn
IDHM_Ln 0,704
0,000
IDHM_Rn 0,820 0,834
0,000 0,000
T_FREQ5A6n 0,351 0,016 0,095
0,000 0,228 0,000
Cell Contents: Pearson correlation
P-Value
A correlação é sempre um número entre zero e um e mede a intensidade de relações lineares.
A correlação entre as variáveis analisadas é positiva na maior parte dos dados, mas de fraca
intensidade. Contudo, com base nas informações constantes na matriz de correlação pode-se
70
perceber que as variáveis descritas na Tabela 3 apresentam forte relação, vale destacar que
isto não significa que elas apresentam causalidade, ou seja, um sentido direto entre elas.
TABELA 3 – CORRELAÇÃO DAS VARIÁVEIS
Variável Variável Grau de Correlação
ESPVIDA IDHM_L 1,000
IDHM IDHM_E 0,951
I_FREQ_PROP IDHM_E 0,913
RDPC IDHM_R 0,962
IDHM IDHM_R 0,948
T_FUND15A17 I_FREQ_PROP 0,927
T_MED18A20 I_FREQ_PROP 0,917
Fonte: elaborado pelo autor, 2014.
3.4 DENDROGRAMA
Um Dendrograma (dendr(o) = árvore) é um tipo específico de diagrama ou representação
icônica que organiza determinados fatores e variáveis. Isto quer dizer que sua representação
apresenta um diagrama de similaridade.
A interpretação de um Dendrograma de similaridade entre amostras fundamenta-se na
intuição: duas amostras próximas devem ter também valores semelhantes para as variáveis
medidas. Ou seja, elas devem ser próximas matematicamente no espaço multidimensional.
Portanto, quanto maior a proximidade entre as medidas relativas às amostras, maior a
similaridade entre elas. O dendrograma hierarquiza esta similaridade de modo que podemos
ter uma visão bidimensional da similaridade ou dissimilaridade de todo o conjunto de
amostras utilizado no estudo.
Análise de Agrupamentos de Variáveis: ESPVIDA; T_FREQ5A6; T_FUND11A13; T_FUND15A17; ...
Cluster Analysis of Variables: ESPVIDAn; T_FREQ5A6n; T_FUND11A13n; ... Correlation Coefficient Distance, Single Linkage
Amalgamation Steps
Number
of obs.
Number of Similarity Distance Clusters New in new
Step clusters level level joined cluster cluster
1 11 99,9990 0,000021 1 11 1 2
2 10 98,0832 0,038336 7 12 7 2
3 9 97,5438 0,049125 9 10 9 2
4 8 97,4161 0,051679 7 9 7 4
5 7 96,3577 0,072845 4 8 4 2
6 6 95,8645 0,082709 4 6 4 3
7 5 95,6730 0,086540 4 7 4 7
8 4 94,5961 0,108077 4 5 4 8
71
9 3 92,6074 0,147851 1 4 1 10
10 2 90,6174 0,187653 1 3 1 11
11 1 71,6889 0,566221 1 2 1 12
Segue abaixo o Dendrograma das variáveis analisadas:
T_FR
EQ5A
6n
T_FU
ND11
A13n
T_FU
ND18
Mn
IDHM
_En
IDHM
n
IDHM
_Rn
RDPC
n
T_MED
18A2
0n
I_FR
EQ_P
ROPn
T_FU
ND15
A17n
IDHM
_Ln
ESPV
IDAn
71,69
81,13
90,56
100,00
Variables
Sim
ilari
ty
DendrogramSingle Linkage; Correlation Coefficient Distance
Gráfico - Dendrograma das variáveis da Dimensão Desenvolvimento Humano
Podemos concluir pelo Dendrograma que existem dois grupos de variáveis semelhantes,
sendo o primeiro grupo composto pelo ESPVIDA, IDHM_L, I_FUND_PROP,
T_MED18A20, RDPC, IDMH_R, IDHM, IDHM_E, T_FUND18M, T_FUND11A13. O
segundo grupo é por uma única variável que é T_FREQ5A6.
STAT >> MULTIVARIATE >> CLUSTER VARIABLE (number of cluster = 2)
72
T_FR
EQ5A
6n
T_FU
ND11
A13n
T_FU
ND18
Mn
IDHM
_En
IDHM
n
IDHM
_Rn
RDPC
n
T_MED
18A2
0n
I_FR
EQ_P
ROPn
T_FU
ND15
A17n
IDHM
_Ln
ESPV
IDAn
71,69
81,13
90,56
100,00
Variables
Sim
ilari
ty
DendrogramSingle Linkage; Correlation Coefficient Distance
Figura 3 – Dendograma dos agrupamentos das variáveis por similaridade
3.2.3. PRINCIPAIS COMPONENTES
>> STAT >> MULTIVARIATE >> Principal Components
0,40,30,20,10,0
0,4
0,2
0,0
-0,2
-0,4
-0,6
-0,8
First Component
Se
co
nd
Co
mp
on
en
t
IDHM_Rn
IDHM_En
IDHMn
I_FREQ_PROPn
RDPCn
T_MED18A20n
T_FUND18Mn
T_FUND11A13n
T_FREQ5A6n
ESPVIDAn
Loading Plot of ESPVIDAn; ...; IDHM_Rn
Figura 4 – Gráfico Loadin Plot da Dimensão Desenvolvimento Humano
73
Podemos observar 2 grupos de dados sendo o primeiro composto pelas seguintes variáveis:
ESPVIDA, IDHM_L, I_FUND_PROP, T_MED18A20, RDPC, IDMH_R, IDHM, IDHM_E,
T_FUND18M, T_FUND11A13. Já o segundo é por uma única variável que é T_FREQ5A6.
10987654321
8
7
6
5
4
3
2
1
0
Component Number
Eig
en
va
lue
Scree Plot of ESPVIDAn; ...; IDHM_Rn
Figura 5 – Scree Plot das variáveis da Dimensão Desenvolvimento Humano
Existe um peso muito grande da primeira variável e as demais estão bem distantes. As
variáveis 2 e 3 possuem peso maior que 1, e as demais não dá para aproveitar pois estão
abaixo de 1.
Principal Component Analysis: ESPVIDAn; T_FREQ5A6n; T_FUND11A13n; T_FUND18Mn; T Eigenanalysis of the Correlation Matrix
Eigenvalue 7,1698 1,1871 0,6705 0,3909 0,2928 0,2236 0,0367 0,0276
Proportion 0,717 0,119 0,067 0,039 0,029 0,022 0,004 0,003
Cumulative 0,717 0,836 0,903 0,942 0,971 0,993 0,997 1,000
Eigenvalue 0,0009 0,0002
Proportion 0,000 0,000
Cumulative 1,000 1,000
Variable PC1 PC2
ESPVIDAn 0,307 0,301
T_FREQ5A6n 0,102 -0,791
T_FUND11A13n 0,275 -0,200
T_FUND18Mn 0,311 0,099
T_MED18A20n 0,332 -0,110
RDPCn 0,333 0,242
I_FREQ_PROPn 0,339 -0,292
IDHMn 0,371 0,076
IDHM_En 0,360 -0,119
IDHM_Rn 0,345 0,239
74
Os gráficos abaixo apresentam uma visão dos agrupamentos das colunas em 2 variáveis PC1
PC2, e está agrupado por região e por Estado. Como os dados dos municípios são muito
grandes (5565), dificulta um pouco a visualização. As colunas PC1 e PC2 são armazenadas
como resultado do comando:
75
6543210-1-2-3
10
5
0
-5
-10
C37
C3
6
MA
MG
MS
MT
PA
PB
PE
PI
PR
RJ
A C
RN
RO
RR
RS
SC
SE
SP
TO
A L
A M
A P
BA
C E
DF
ES
GO
UFN
Scatterplot of C36 vs C37
Figura 6 – Visão das variáveis C36 e C37 por Estado.
6543210-1-2-3
10
5
0
-5
-10
C37
C3
6
CO
N
NE
S
SE
Região
Scatterplot of C36 vs C37
Figura 7 – Visão das variáveis C36 e C37, por Região.
3.2.4. CONSIDERAÇÕES FINAIS
76
Pelo resultado das análises da correlação linear, dendrograma e principais componentes, os
dados podem ser reduzidos para duas variáveis, o que torna o trabalho com os números mais
fácil e prático de serem manuseados.
3.2 VARIÁVEIS QUANTITATIVAS
A análise deste tipo de variável permite a utilização de uma maior gama de ferramentas de
análise como histogramas, curvas de densidade, gráfico de ramos, box-plot e dot-plot, além de
informações numéricas como média, desvio-padrão, mediana, quartis, 5 números, intervalo de
confiança e teste de normalidade de Anderson-Darling.
3.2.1. DENDOGRAMA DOS DADOS AGRUPADOS PELO RESULTADO DAS
MÉDIAS ESPVIDAn3 x IDHMn x IDHM_Rn POR ESTADO (-DF)
O Dendograma permite uma análise do grau de similaridade dos dados para uma determinada
variável. Em seguida geramos o Dendograma de Educação por Estado
STAT >> MULTIVARIATE >> CLUSTER OBSERVATION
SPSCRSMGRJPRM
TMS
GOESRRROTOAPMAPIALRNCEPBSEPEBAAMPAAC
0,00
33,33
66,67
100,00
Observations
Sim
ilari
ty
Dendograma média de estado ESPVIDAn x IDHMn x IDHM_Rn
Gráfico2. Dendograma da variáveis ESPVIDA x IDHM x IDHM_R por estados do Brasil (classificação não
supervisionada)
3 Este “n” explica que os dados foram normalizados, ou seja, os dados foram transformados em índices que estão
entre 0-1, sendo que para sua análise deve ser usada a perspectiva de que quanto mais próximo de 1 melhor
77
Na figura 2 acima podem-se verificar quatro grandes grupos de variáveis, agrupadas pela
similaridade dos dados. Os estados que possuem maior similaridade são Pernambuco e
Sergipe no grupo vermelho e Espírito Santo e Goiás no grupo azul. O nível de similaridade
dos dados destes estados está acima de 95 %, conforme indicado na escala apresentada no
eixo Y do gráfico.
No mapa acima pode ser percebido a divisão por cores dos estados de acordo com seu
agrupamento por similaridade. Nesta representação vale destacar há certa coerência com as
particularidades de cada estado, com o exemplo do agrupamento dos estados na cor verde se
justifica por aparentemente apresentarem baixa capacidade de infraestrutura entre outras
particularidades.
78
3.2.2. DENDOGRAMA DOS DADOS AGRUPADOS PELO RESULTADO DOS
DESVIOS PADRÃO ENTRE ESPVIDAn4 x IDHMn x IDHM_Rn POR ESTADO (-DF)
O Dendograma permite uma análise do grau de similaridade dos dados para uma determinada
variável. Em seguida geramos o Dendograma de desvio padrão por Estado
STAT >> MULTIVARIATE >> CLUSTER OBSERVATION
RRGORJMTESROPRRSM
SSPCEAPTOPEMG
MA
AMSERNSCPIBAPBALPAAC
0,00
33,33
66,67
100,00
Observations
Sim
ilari
ty
Dendograma desvio padrão de estado ESPVIDAn x IDHMn x IDHM_Rn
Gráfico 3. Dendograma “Desigualômetro” da variáveis ESPVIDAn x IDHMn x IDHM_Rn por Estado
No gráfico 3 acima, podemos verificar quatro agrupamentos de dados, que são compostos
pelos Estados do Brasil. Então, o dendograma é construído por dois grandes agrupamentos
além dos três estados ficaram isolados por não terem seus dados em similaridade com os
outros estados, sendo que um deles é composto por Acre e Pará em um agrupamento e o
Estado de Roraima ficando isolado.
Na classificação não supervisionada não se tem informações prévias sobre estes grupos. Não
se tem informações sobre os porquês ou os critérios de agrupamento utilizados neste
agrupamento.
Podemos observar que alguns estados possuem um alto nível de similaridade, o que significa
que a desigualdade é baixa. O menor nível de desigualdade se encontra nos estados mais
próximos do eixo X, por exemplo, Espírito Santo e Mato Grosso no grupo azul, além dos
4 Este “n” explica que os dados foram normalizados, ou seja, os dados foram transformados em índices que estão
entre 0-1, sendo que para sua análise deve ser usada a perspectiva de que quanto mais próximo de 1 melhor
79
estados de Piauí e Santa Catarina no grupo verde, que tem um nível de similaridade acima de
96%.
O mapa acima representa a divisão por cores dos estados levando em conta o desvio padrão
relacionado às variáveis ESPVIDAn x IDHMn x IDHM_Rn.
Para a leitura dos gráficos se faz necessário entender que quando o nível de desigualdade se
apresenta baixo, isto não representa uma situação boa, pois esta inferência é errônea. Portanto,
salienta-se que os agrupamentos são feitos por similaridade. Assim, a baixa desigualdade não
significa que as coisas vão bem ou mal, mas sim que existe um padrão nos municípios do
estado em termos das variáveis selecionadas, uma maior similaridade entre estes municípios.
3.2.2. ANÁLISE DAS VARIÂNCIAS DAS VARIÁVEIS POR ESTADO
A análise das variâncias permite a verificação e visualização das médias e desvios padrões da
variável a ser analisada. O gráfico BOXPLOT ilustra os agrupamentos, o seu tamanho varia
de acordo com a quantidade de dados de cada grupo, e também é possível visualizar as
ocorrências de outliers dentro de um grupo de dados.
80
3.2.2.1 Análise das variâncias da variável IDHMn por estado
Podemos visualizar no gráfico 4, uma grande variabilidade sobre as médias de IDHM por
estado. O estado que apresenta maior variabilidade dos dados é Acre. Ceara apresenta uma
baixa variabilidade dos dados de IDMHn, embora tenha muitos outliers que são os dados
muito distantes das médias.
TOSPSESCRSRRRORNRJPRPIPEPBPAMT
MS
MG
MA
GOESCEBAAP
AMALAC
1,0
0,8
0,6
0,4
0,2
0,0
UFN
IDH
Mn
Boxplot of IDHMn
Figura 4. Gráfico BOXPLOT de IDHM por estado
O resultado deste comando não fica armazenado na base de dados, é necessário copiar da área
session para a área worksheet, para cada variável gerada. Com isso temos os dados dos 5565
municípios do Brasil, resumidos pela média e pelo desvio padrão. A partir destes dados
resumidos, fica mais fácil trabalhar os dados, uma vez que estando resumido se torna mais
simples a sua manipulação e análise.
Comando para gerar os dados agrupados STAT>> ANOVA >> ONEWAY
Abaixo podemos visualizar os dados descritivos gerados pelo comando, para a variável
IDHMn.
One-way ANOVA: IDHMn versus UFN Source DF SS MS F P
UFN 25 97,2750 3,8910 440,75 0,000
Error 5538 48,8902 0,0088
Total 5563 146,1652
S = 0,09396 R-Sq = 66,55% R-Sq(adj) = 66,40%
81
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ----+---------+---------+---------+-----
AC 22 0,37858 0,13241 (---*--)
AL 102 0,32770 0,08917 (*-)
AM 62 0,33134 0,12128 (-*-)
AP 16 0,50633 0,09620 (---*---)
BA 417 0,39618 0,09290 (*)
CE 184 0,44737 0,07133 (*)
ES 78 0,61755 0,08581 (*-)
GO 246 0,62384 0,07537 (*)
MA 217 0,35627 0,10398 (*)
MG 853 0,56279 0,11179 (*
MS 78 0,58943 0,09271 (-*-)
MT 141 0,59975 0,08619 (*)
PA 143 0,36835 0,12608 (-*)
PB 223 0,38211 0,08519 (*)
PE 185 0,40146 0,10701 (*-)
PI 224 0,34471 0,09032 (*)
PR 399 0,63955 0,08686 *)
RJ 92 0,65521 0,08281 (-*)
RN 167 0,43435 0,08529 (*)
RO 52 0,50910 0,09068 (-*--)
RR 15 0,43288 0,16592 (---*---)
RS 496 0,66561 0,09285 *)
SC 293 0,70642 0,09046 (*)
SE 75 0,40300 0,08407 (-*)
SP 645 0,72416 0,07315 *)
TO 139 0,49984 0,10278 (-*)
----+---------+---------+---------+-----
0,36 0,48 0,60 0,72
Pooled StDev = 0,09396
3.2.2.2 Análise das variâncias da variável ESPVIDAn por estado
Podemos visualizar no gráfico 5, uma grande variabilidade sobre as médias de ESPVIDAn
por estado. O estado que apresenta maior variabilidade dos dados é Acre. Ceara apresenta
uma baixa variabilidade dos dados de ESPVIDAn, embora tenha muitos outliers que são os
dados muito distantes das médias.
82
TOSPSESCRSRRRORNRJPRPIPEPBPAMT
MS
MG
MA
GOESCEBAAP
AMALAC
1,0
0,8
0,6
0,4
0,2
0,0
UFN
ES
PV
IDA
nBoxplot of ESPVIDAn
Figura 5. Gráfico BOXPLOT de ESPVIDAn por estado
Podemos visualizar no gráfico 5, uma grande variabilidade sobre as médias de ESPVIDAn
por estado. Destaca-se que diversos estados apresentam um grau semelhante de variabilidade
como Alagoas, Tocantins, Sergipe, entre outros. Por outro lado, destaca-se os estados de
Goiás e Roraima que apresentam uma baixa variabilidade dos dados de ESPVIDAn.
O resultado deste comando não fica armazenado na base de dados, é necessário copiar da área
session para a área worksheet, para cada variável gerada. Com isso temos os dados dos 5565
municípios do Brasil, resumidos pela média e pelo desvio padrão. A partir destes dados
resumidos, fica mais fácil trabalhar os dados, uma vez que estando resumido se torna mais
simples a sua manipulação e análise.
Comando para gerar os dados agrupados STAT>> ANOVA >> ONEWAY
Abaixo podemos visualizar os dados descritivos gerados pelo comando, para a variável
ESPVIDAn.
One-way ANOVA: ESPVIDAn versus UFN Source DF SS MS F P
UFN 25 147,7345 5,9094 425,85 0,000
Error 5538 76,8498 0,0139
Total 5563 224,5843
S = 0,1178 R-Sq = 65,78% R-Sq(adj) = 65,63%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev -+---------+---------+---------+--------
83
AC 22 0,4267 0,1243 (--*---)
AL 102 0,3049 0,1457 (*-)
AM 62 0,4216 0,1196 (-*-)
AP 16 0,5044 0,0891 (---*--)
BA 417 0,3951 0,1356 *)
CE 184 0,4029 0,0993 (*)
ES 78 0,6924 0,0784 (-*-)
GO 246 0,6914 0,0705 (*)
MA 217 0,3097 0,1264 (*)
MG 853 0,6840 0,1342 (*
MS 78 0,6733 0,1079 (-*-)
MT 141 0,6547 0,0810 (-*)
PA 143 0,4621 0,0955 (*)
PB 223 0,3777 0,1378 (*)
PE 185 0,3774 0,1576 (*)
PI 224 0,3500 0,1261 (*)
PR 399 0,6690 0,0943 (*
RJ 92 0,6491 0,0816 (*-)
RN 167 0,4093 0,1192 (*)
RO 52 0,5266 0,1099 (-*-)
RR 15 0,5685 0,0690 (---*---)
RS 496 0,7587 0,1003 (*
SC 293 0,7880 0,1319 (*
SE 75 0,3782 0,1274 (-*-)
SP 645 0,7387 0,0987 *)
TO 139 0,5308 0,1547 (*-)
-+---------+---------+---------+--------
0,30 0,45 0,60 0,75
Pooled StDev = 0,1178
Podemos observar que alguns estados possuem baixa variabilidade dos dados em relação à
média, como Paraiba, Pernambuco e Goiás. Já outros apresentam um desvio padrão com
maior variabilidade como Roraima e Amapá.
3.2.2.3 Análise das variâncias da variável IDHM_Rn por estado
84
TOSPSESCRSRRRORNRJPRPIPEPBPAMT
MS
MG
MA
GOESCEBAAP
AMALAC
1,0
0,8
0,6
0,4
0,2
0,0
UFN
IDH
M_
Rn
Boxplot of IDHM_Rn
Figura 6. Gráfico BOXPLOT de IDHM_Rn por estado
Podemos visualizar no gráfico 6, uma grande variabilidade sobre as médias de IDHM_Rn por
estado. O estado que apresenta maior variabilidade dos dados é Roraima, sendo que o Ceara,
Rio Grande do Norte, Sergipe, entre outros possuem baixa variabilidade dos dados de
IDHM_Rn.
O resultado deste comando não fica armazenado na base de dados, é necessário copiar da área
session para a área worksheet, para cada variável gerada. Com isso temos os dados dos 5565
municípios do Brasil, resumidos pela média e pelo desvio padrão. A partir destes dados
resumidos, fica mais fácil trabalhar os dados, uma vez que estando resumido se torna mais
simples a sua manipulação e análise.
Comando para gerar os dados agrupados STAT>> ANOVA >> ONEWAY
Abaixo podemos visualizar os dados descritivos gerados pelo comando, para a variável
IDHMn.
One-way ANOVA: IDHM_Rn versus UFN
Source DF SS MS F P
UFN 25 102,5672 4,1027 479,41 0,000
Error 5538 47,3933 0,0086
Total 5563 149,9605
S = 0,09251 R-Sq = 68,40% R-Sq(adj) = 68,25%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---------+---------+---------+---------+
AC 22 0,37771 0,11764 (--*---)
85
AL 102 0,30216 0,08115 (*-)
AM 62 0,29555 0,10410 (-*-)
AP 16 0,44577 0,10836 (---*---)
BA 417 0,35589 0,09107 (*
CE 184 0,32443 0,07624 (*)
ES 78 0,57154 0,08769 (-*)
GO 246 0,57849 0,08338 (*)
MA 217 0,26815 0,10735 (*)
MG 853 0,51317 0,11292 (*
MS 78 0,58624 0,08443 (-*-)
MT 141 0,57464 0,09063 (*)
PA 143 0,35103 0,11832 (*-)
PB 223 0,33479 0,07809 (*)
PE 185 0,35515 0,09589 (-*)
PI 224 0,29901 0,08516 (*)
PR 399 0,59460 0,07792 (*
RJ 92 0,62030 0,08529 (-*)
RN 167 0,36740 0,08304 (-*)
RO 52 0,52581 0,07378 (-*-)
RR 15 0,36225 0,15795 (---*---)
RS 496 0,65604 0,08930 (*
SC 293 0,66810 0,08423 (*)
SE 75 0,36079 0,08216 (-*-)
SP 645 0,64458 0,08202 (*
TO 139 0,42871 0,10028 (-*)
---------+---------+---------+---------+
0,36 0,48 0,60 0,72
Pooled StDev = 0,09251
Podemos observar que alguns estados possuem alta variabilidade dos dados em relação à
média, como Acre, Amapá e Roraima. Já outros tem o desvio padrão com menor variabilidade
como Goiás, Santa Catarina e Ceara.
3.2.5. CONSIDERAÇÕES FINAIS
As análise comparativas dos dados nos permitem um resumo dos dados através de cálculos
específicos como médias e desvios padrões, tornando a análise dos dados mais fácil e simples.
Os gráficos de Boxplot e Dendograma são excelentes figuras visuais para podermos analisar e
interpretar os diferentes comportamentos dos dados. No dendograma podemos analisar as
similaridades dos dados e no Boxplot podemos ver as relações entre as médias e as variâncias
dos agrupamentos analisados. Trata-se de ferramentas úteis para análise de grandes volumes
de dados.
3.2 VARIÁVEIS QUANTITATIVAS
A análise deste tipo de variável permite a utilização de uma maior gama de ferramentas de
análise como histogramas, curvas de densidade, gráfico de ramos, box-plot e dot-plot, além de
informações numéricas como média, desvio-padrão, mediana, quartis, 5 números, intervalo de
confiança e teste de normalidade de Anderson-Darling. Também podemos fazer classificações
supervisionadas das variáveis quantitativas, através da análise discriminante.
3.2.1. ANÁLISE DISCRIMINANTE LINEAR POR REGIÃO
86
A análise discriminante é uma técnica da estatística multivariada utilizada para discriminar e
classificar objetos, e estuda a separação de objetos de uma população em duas ou mais
classes. Neste caso queremos discriminar os valores das variáveis IDHMn5, IDHM_Rn e
ESPVIDAn dos municípios6 do Brasil, e utilizaremos inicialmente a variável categórica
Região. Para geração de análise discriminante utilizaremos o comando do Minitab:
STAT >> MULTIVARIATE >> DISCRIMINANT ANALISYS
Discriminant Analysis: Região versus ESPVIDAn; IDHMn; IDHM_Rn Linear Method for Response: Região
Predictors: ESPVIDAn; IDHMn; IDHM_Rn
Group CO N NE S SE
Count 465 449 1794 1188 1668
Summary of classification
True Group
Put into Group CO N NE S SE
CO 149 47 35 224 243
N 38 217 432 50 223
NE 2 125 1255 2 55
S 139 15 13 653 454
SE 137 45 59 259 693
Total N 465 449 1794 1188 1668
N correct 149 217 1255 653 693
Proportion 0,320 0,483 0,700 0,550 0,415
N = 5564 N Correct = 2967 Proportion Correct = 0,533
Squared Distance Between Groups
CO N NE S SE
CO 0,0000 3,6130 7,9941 0,3673 0,3226
N 3,6130 0,0000 1,3618 6,2756 4,1179
NE 7,9941 1,3618 0,0000 11,6629 8,2410
S 0,3673 6,2756 11,6629 0,0000 0,6902
SE 0,3226 4,1179 8,2410 0,6902 0,0000
Linear Discriminant Function for Groups
CO N NE S SE
Constant -19,774 -9,782 -6,975 -23,662 -20,753
ESPVIDAn 25,071 19,245 9,337 26,926 26,327
IDHMn 13,714 13,055 27,423 12,880 23,887
IDHM_Rn 24,528 11,655 -0,554 29,640 13,734
Figura 2. Resultado do comando STAT >> MULTIVARIATE >> DISCRIMINANT ANALISYS
5 A letra “n” no final das variáveis representa que as mesmas foram normalizadas. 6 Para está análise excluiu-se o DF – Distrito Federal.
87
Com base nas informações apresentadas na figura 2 pode ser notado que a região que acertou
mais é Nordeste (0,700) e a que errou mais foi a região Centro Oeste (0,320). As informações
ainda exibem o cruzamento de dados entre as regiões, por exemplo, a região Nordeste possui
1794 municípios e apenas 1255 correspondem a região. O nome desta matriz é confusion
matrix ou matriz de confusão. Podemos concluir que o agrupamento por região não é uma boa
escolha segundo esta avaliação.
3.2.2. ANÁLISE DISCRIMINANTE LINEAR POR “2 BRASIS”
Esta segunda análise está interessada em verificar os possíveis agrupamentos dos dados
utilizando a variável 2 Brasis, calculada a partir do exercício anterior, e demonstra os
agrupamentos do Brasil segundo sua proximidade de dados de educação. Para esta análise
foram agrupadas as regiões de Sul, Sudeste e Centro-Oeste como COSSE, e as regiões de
Norte e Nordeste como NNE.
Discriminant Analysis: Reclassificação versus ESPVIDAn; IDHMn; IDHM_Rn Linear Method for Response: Reclassificação das Regiões
Predictors: ESPVIDAn; IDHMn; IDHM_Rn
Group COSSE NNE
Count 3321 2243
Summary of classification
True Group
Put into Group COSSE NNE
COSSE 3026 242
NNE 295 2001
Total N 3321 2243
N correct 3026 2001
Proportion 0,911 0,892
N = 5564 N Correct = 5027 Proportion Correct = 0,903
Squared Distance Between Groups
COSSE NNE
COSSE 0,00000 7,41307
NNE 7,41307 0,00000
Linear Discriminant Function for Groups
COSSE NNE
Constant -20,237 -7,107
ESPVIDAn 23,084 9,743
IDHMn 25,254 27,548
IDHM_Rn 13,132 -1,640
88
Existem duas possibilidades de realizar a análise discriminante que são a linear e a quadrática.
Dependendo da variável deve-se dar mais peso e mais atenção a um método em detrimento do
outro. Neste caso a linear já nos apresenta informações satisfatórias. Podemos observar que
alguns estados e municípios da região COSSE tem características das região NNE, visto pelo
número 537 municípios foram encontrados na intersecção entre COSSE e NNE.
3.2.3. ANÁLISE DISCRIMINANTE QUADRÁTICA POR “3 BRASIS”
Uma boa classificação deve resultar em pequenos erros, isto é, deve haver pouca
probabilidade de classificação inadequada, e para que isso ocorra a regra de classificação deve
considerar as probabilidades a priori e os custos de classificação errada. Outro fator que uma
regra de classificação deve considerar é se as variâncias das populações são iguais ou não.
Quando a regra de classificação assume que as variâncias das populações são iguais, as
funções discriminantes são ditas lineares e quando não são funções discriminantes
quadráticas. Vamos agora verificar a função quadrática para os 2 Brasis apresentado na
análise anterior.
Discriminant Analysis: Reclassificação versus ESPVIDAn; IDHMn; IDHM_Rn Quadratic Method for Response: Reclassificação das Regiões
Predictors: ESPVIDAn; IDHMn; IDHM_Rn
Group COSSE NNE
Count 3321 2243
Summary of classification
True Group
Put into Group COSSE NNE
COSSE 3025 241
NNE 296 2002
Total N 3321 2243
N correct 3025 2002
Proportion 0,911 0,893
N = 5564 N Correct = 5027 Proportion Correct = 0,903
From Generalized Squared Distance to Group
Group COSSE NNE
COSSE -15,43 -7,65
NNE -7,44 -14,73
No modelo quadrático a proporção não foi alterada permanecendo em 0.903. Seguindo o
princípio da simplicidade, vamos escolher o método linear, pois este é o mais simples.
89
Em Ciência, a parcimônia é a preferência pela explicação mais simples para uma observação.
Esta geralmente é considerada a melhor maneira de julgar as hipóteses. Parcimônia também é
um conceito utilizado na sistemática moderna que estabelece que ao construir e selecionar
árvores filogenéticas, ou seja, os dados, o melhor critério é baseado em seus princípios:
normalmente é correto o relacionamento mais simples encontrado entre dois indivíduos,
aquele que apresente o menor número de passos intermediários ou mudanças evolucionárias.
Portanto, não há diferença entre o método linear e o quadrático, o que não justifica a
utilização do método quadrático.
3.2.4. ANÁLISE DISCRIMINANTE LINEAR PARA DADOS AGRUPADOS
Na figura 2 acima podem-se verificar quatro grandes grupos de variáveis, agrupadas pela
similaridade dos dados. Os estados que possuem maior similaridade são Pernambuco e
Sergipe no grupo vermelho e Espírito Santo e Goiás no grupo azul. O nível de similaridade
dos dados destes estados está acima de 95 %, conforme indicado na escala apresentada no
eixo Y do gráfico.
SPSCRSMGRJPRM
TMS
GOESRRROTOAPMAPIALRNCEPBSEPEBAAMPAAC
0,00
33,33
66,67
100,00
Observations
Sim
ilari
ty
Dendograma média de estado ESPVIDAn x IDHMn x IDHM_Rn
Gráfico2. Dendograma da variáveis ESPVIDA x IDHM x IDHM_R por estados do Brasil (classificação não
supervisionada)
90
No mapa acima pode ser percebido a divisão por cores dos Estados de acordo com seu
agrupamento por similaridade. Nesta representação vale destacar há certa coerência com as
particularidades de cada estado, com o exemplo do agrupamento dos estados na cor verde se
justifica por aparentemente apresentarem baixa capacidade de infraestrutura entre outras
particularidades.
Neste exemplo abaixo vamos através do dendograma pesquisar o grau de similaridade das
médias das variáveis IDHMn, IDHM_Rn e ESPVIDAn nos agrupamentos. Com base na
análise discriminante poderemos verificar a proporção correta dos agrupamentos.
Discriminant Analysis: Agrupamentos versus Media ESPVID; Media IDHM_R; ... Linear Method for Response: Agrupamentos do Estado
Predictors: Media ESPVIDA EST; Media IDHM_Rest; Media IDHM est
Group G1 G2 G3 G4
Count 12 4 7 3
91
Summary of classification
True Group
Put into Group G1 G2 G3 G4
G1 12 0 0 0
G2 0 4 0 0
G3 0 0 7 0
G4 0 0 0 3
Total N 12 4 7 3
N correct 12 4 7 3
Proportion 1,000 1,000 1,000 1,000
N = 26 N Correct = 26 Proportion Correct = 1,000
Squared Distance Between Groups
G1 G2 G3 G4
G1 0,000 23,795 99,405 175,650
G2 23,795 0,000 26,239 70,698
G3 99,405 26,239 0,000 10,919
G4 175,650 70,698 10,919 0,000
Linear Discriminant Function for Groups
G1 G2 G3 G4
Constant -104,80 -186,10 -296,92 -382,84
Media ESPVIDA EST 268,04 372,72 467,54 528,56
Media IDHM_Rest 5,81 18,52 50,02 55,92
Media IDHM est 274,51 339,90 408,31 467,03
Neste caso a proporção correta é de 100%, ou seja, os agrupamentos gerados anteriormente
pelo agrupamento em 4 Brasis gerou a mesma proporção do método linear utilizado na análise
discriminante.
4. REGRESSÃO LOGÍSTICA ORDINAL PARA AS VARIÁVEIS: IDHMn, IDHM_Rn
E ESPVIDAn.
Inicialmente foram classificadas pela análise ANOVA as regiões para as variáveis: IDHMn,
IDHM_Rn e ESPVIDAn.
One-way ANOVA: IDHMn versus Região Source DF SS MS F P
Região 4 82,3938 20,5985 1795,58 0,000
Error 5559 63,7714 0,0115
Total 5563 146,1652
S = 0,1071 R-Sq = 56,37% R-Sq(adj) = 56,34%
92
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --+---------+---------+---------+-------
CO 465 0,6108 0,0829 (*-)
N 449 0,4278 0,1355 (*-)
NE 1794 0,3889 0,0975 (*
S 1188 0,6669 0,0937 *)
SE 1668 0,6328 0,1223 (*)
--+---------+---------+---------+-------
0,400 0,480 0,560 0,640
Pooled StDev = 0,1071
One-way ANOVA: IDHM_Rn versus Região Source DF SS MS F P
Região 4 90,9836 22,7459 2143,97 0,000
Error 5559 58,9768 0,0106
Total 5563 149,9605
S = 0,1030 R-Sq = 60,67% R-Sq(adj) = 60,64%
Individual 95% CIs For Mean Based on Pooled StDev
Level N Mean StDev ---------+---------+---------+---------+
CO 465 0,5786 0,0857 (*)
N 449 0,3927 0,1261 (*)
NE 1794 0,3305 0,0939 *)
S 1188 0,6384 0,0900 (*)
SE 1668 0,5726 0,1175 (*
---------+---------+---------+---------+
0,400 0,480 0,560 0,640
Pooled StDev = 0,1030
One-way ANOVA: ESPVIDAn versus Região Source DF SS MS F P
Região 4 140,4313 35,1078 2319,16 0,000
Error 5559 84,1530 0,0151
Total 5563 224,5843
S = 0,1230 R-Sq = 62,53% R-Sq(adj) = 62,50%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---+---------+---------+---------+------
CO 465 0,6772 0,0825 (*)
N 449 0,4886 0,1292 (*)
NE 1794 0,3714 0,1356 *)
S 1188 0,7358 0,1177 (*
SE 1668 0,7036 0,1202 *)
---+---------+---------+---------+------
0,40 0,50 0,60 0,70
Pooled StDev = 0,1230
93
Após esta análise chegou-se a classificação das regiões de acordo com as médias: NE (1); N
(2); CO (3); SE (4). Neste momento é realizado a Regressão Logística Ordinal.
Ordinal Logistic Regression: REGIÕES CODIFICA versus IDHM_Rn; IDHMn; ...
Link Function: Logit
Response Information
Variable Value Count
REGIÕES CODIFICADAS 1 1794
2 449
3 465
4 1668
5 1188
Total 5564
Logistic Regression Table
95% CI
Predictor Coef SE Coef Z P Odds Ratio Lower Upper
Const(1) 5,33758 0,124185 42,98 0,000
Const(2) 6,21802 0,132713 46,85 0,000
Const(3) 6,97998 0,140354 49,73 0,000
Const(4) 9,21375 0,161950 56,89 0,000
IDHM_Rn -10,9720 0,569948 -19,25 0,000 0,00 0,00 0,00
IDHMn 5,80239 0,580026 10,00 0,000 331,09 106,22 1031,96
ESPVIDAn -7,65374 0,303498 -25,22 0,000 0,00 0,00 0,00
Log-Likelihood = -5768,113
Test that all slopes are zero: G = 4781,031, DF = 3, P-Value = 0,000
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 18090,0 22241 1,000
Deviance 11536,2 22241 1,000
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures
Concordant 9834742 85,0 Somers' D 0,70
Discordant 1713649 14,8 Goodman-Kruskal Gamma 0,70
Ties 15742 0,1 Kendall's Tau-a 0,52
Total 11564133 100,0
Destaca-se que esta análise é confiável, pois o valor de P foi de “0”. O modelo apresentou
nível de concordância de 85% (acerto).
Foi aplicada também a análise de Regressão Logística Ordinal para os dados agrupados em
região, no entanto, este não se mostrou confiável por causa do número de dados analisados
serem muito baixos.
Ordinal Logistic Regression: grupos versus Media ESPVID; Media IDHM_R; ...
94
* WARNING * Algorithm has not converged after 20 iterations.
* WARNING * Convergence has not been reached for the parameter estimates
criterion.
* WARNING * The results may not be reliable.
* WARNING * Try increasing the maximum number of iterations.
Link Function: Logit
Response Information
Variable Value Count
grupos 1 12
2 4
3 7
4 3
Total 26
Logistic Regression Table
Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Const(1) 234,299 22694,1 0,01 0,992
Const(2) 287,421 20887,5 0,01 0,989
Const(3) 351,062 27929,3 0,01 0,990
Media ESPVIDA EST -276,986 60066,7 -0,00 0,996 0,00 0,00 *
Media IDHM_Rest -110,437 73535,1 -0,00 0,999 0,00 0,00 *
Media IDHM est -127,477 55619,0 -0,00 0,998 0,00 0,00 *
Log-Likelihood = -0,000
Test that all slopes are zero: G = 64,858, DF = 3, P-Value = 0,000
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 0,0000003 72 1,000
Deviance 0,0000006 72 1,000
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures
Concordant 229 100,0 Somers' D 1,00
Discordant 0 0,0 Goodman-Kruskal Gamma 1,00
Ties 0 0,0 Kendall's Tau-a 0,70
Total 229 100,0
5. CONSIDERAÇÕES FINAIS
A tarefa da análise discriminante é encontrar a melhor função discriminante linear ou
quadrática de um conjunto de variáveis que reproduza, tanto quanto possível, um
agrupamento a priori de casos considerados.
95
Um procedimento em passos é utilizado nesse programa, e em cada passo a variável mais
poderosa é introduzida na função discriminante. A função critério para selecionar a próxima
variável depende do número de grupos especificados (o número de grupos varia de 2 a 20).
Quando o número de variáveis é maior do que dois, então o critério de seleção de variáveis é
o traço do produto da matriz de covariância para as variáveis envolvidas e a matriz de
covariância interclasse em um passo particular.
Os cálculos podem ser realizados em toda a população ou em amostra de dados ou mesmo em
dados previamente agrupados.
Em nossas análises com as variáveis IDHMn, IDHM_Rn e ESPVIDAn, utilizamos a análise
discriminante linear e conseguimos um resultado de 0,903 de proporção correta. Isto
demonstra coerência na divisão em dois grupos. Além disso, é relevante ressaltar a
similaridade destes grupos (municípios) com base nestas variáveis, levando em conta
inclusive sua situação geográfica.
Na outra análise realizada com base no agrupamento apresentado no dendograma, onde pode
ser percebido 4 “Brasis”, a proporcionalidade ficou em 100%.
4. REGRESSÃO LOGÍSTICA ORDINAL PARA AS VARIÁVEIS: IDHMn, IDHM_Rn
E ESPVIDAn.
Inicialmente foram classificadas pela análise ANOVA as regiões para as variáveis: IDHMn,
IDHM_Rn e ESPVIDAn.
One-way ANOVA: IDHMn versus Região Source DF SS MS F P
Região 4 82,3938 20,5985 1795,58 0,000
Error 5559 63,7714 0,0115
Total 5563 146,1652
S = 0,1071 R-Sq = 56,37% R-Sq(adj) = 56,34%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev --+---------+---------+---------+-------
CO 465 0,6108 0,0829 (*-)
N 449 0,4278 0,1355 (*-)
NE 1794 0,3889 0,0975 (*
S 1188 0,6669 0,0937 *)
SE 1668 0,6328 0,1223 (*)
--+---------+---------+---------+-------
0,400 0,480 0,560 0,640
Pooled StDev = 0,1071
One-way ANOVA: IDHM_Rn versus Região
96
Source DF SS MS F P
Região 4 90,9836 22,7459 2143,97 0,000
Error 5559 58,9768 0,0106
Total 5563 149,9605
S = 0,1030 R-Sq = 60,67% R-Sq(adj) = 60,64%
Individual 95% CIs For Mean Based on Pooled StDev
Level N Mean StDev ---------+---------+---------+---------+
CO 465 0,5786 0,0857 (*)
N 449 0,3927 0,1261 (*)
NE 1794 0,3305 0,0939 *)
S 1188 0,6384 0,0900 (*)
SE 1668 0,5726 0,1175 (*
---------+---------+---------+---------+
0,400 0,480 0,560 0,640
Pooled StDev = 0,1030
One-way ANOVA: ESPVIDAn versus Região Source DF SS MS F P
Região 4 140,4313 35,1078 2319,16 0,000
Error 5559 84,1530 0,0151
Total 5563 224,5843
S = 0,1230 R-Sq = 62,53% R-Sq(adj) = 62,50%
Individual 95% CIs For Mean Based on
Pooled StDev
Level N Mean StDev ---+---------+---------+---------+------
CO 465 0,6772 0,0825 (*)
N 449 0,4886 0,1292 (*)
NE 1794 0,3714 0,1356 *)
S 1188 0,7358 0,1177 (*
SE 1668 0,7036 0,1202 *)
---+---------+---------+---------+------
0,40 0,50 0,60 0,70
Pooled StDev = 0,1230
Após esta análise chegou-se a classificação das regiões de acordo com as médias: NE (1); N
(2); CO (3); SE (4). Neste momento é realizado a Regressão Logística Ordinal.
Ordinal Logistic Regression: REGIÕES CODIFICA versus IDHM_Rn; IDHMn; ...
Link Function: Logit
Response Information
Variable Value Count
REGIÕES CODIFICADAS 1 1794
2 449
3 465
4 1668
5 1188
97
Total 5564
Logistic Regression Table
95% CI
Predictor Coef SE Coef Z P Odds Ratio Lower Upper
Const(1) 5,33758 0,124185 42,98 0,000
Const(2) 6,21802 0,132713 46,85 0,000
Const(3) 6,97998 0,140354 49,73 0,000
Const(4) 9,21375 0,161950 56,89 0,000
IDHM_Rn -10,9720 0,569948 -19,25 0,000 0,00 0,00 0,00
IDHMn 5,80239 0,580026 10,00 0,000 331,09 106,22 1031,96
ESPVIDAn -7,65374 0,303498 -25,22 0,000 0,00 0,00 0,00
Log-Likelihood = -5768,113
Test that all slopes are zero: G = 4781,031, DF = 3, P-Value = 0,000
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 18090,0 22241 1,000
Deviance 11536,2 22241 1,000
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures
Concordant 9834742 85,0 Somers' D 0,70
Discordant 1713649 14,8 Goodman-Kruskal Gamma 0,70
Ties 15742 0,1 Kendall's Tau-a 0,52
Total 11564133 100,0
Destaca-se que esta análise é confiável, pois o valor de P foi de “0”. O modelo apresentou
nível de concordância de 85% (acerto).
Foi aplicada também a análise de Regressão Logística Ordinal para os dados agrupados em
região, no entanto, este não se mostrou confiável por causa do número de dados analisados
serem muito baixos.
Ordinal Logistic Regression: grupos versus Media ESPVID; Media IDHM_R; ... * WARNING * Algorithm has not converged after 20 iterations.
* WARNING * Convergence has not been reached for the parameter estimates
criterion.
* WARNING * The results may not be reliable.
* WARNING * Try increasing the maximum number of iterations.
Link Function: Logit
Response Information
Variable Value Count
grupos 1 12
2 4
3 7
4 3
98
Total 26
Logistic Regression Table
Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Const(1) 234,299 22694,1 0,01 0,992
Const(2) 287,421 20887,5 0,01 0,989
Const(3) 351,062 27929,3 0,01 0,990
Media ESPVIDA EST -276,986 60066,7 -0,00 0,996 0,00 0,00 *
Media IDHM_Rest -110,437 73535,1 -0,00 0,999 0,00 0,00 *
Media IDHM est -127,477 55619,0 -0,00 0,998 0,00 0,00 *
Log-Likelihood = -0,000
Test that all slopes are zero: G = 64,858, DF = 3, P-Value = 0,000
Goodness-of-Fit Tests
Method Chi-Square DF P
Pearson 0,0000003 72 1,000
Deviance 0,0000006 72 1,000
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent Summary Measures
Concordant 229 100,0 Somers' D 1,00
Discordant 0 0,0 Goodman-Kruskal Gamma 1,00
Ties 0 0,0 Kendall's Tau-a 0,70
Total 229 100,0
Classification Tree
Warnings
Gain summary Tables are not displayed because profits are undefined.
Target category gains tables are not displayed because target categories are undefined.
Model Summary
Specifications Growing Method CHAID
Dependent Variable Região
Independent Variables ESPVIDAn, IDHMn, IDHM_Rn
Validation None
Maximum Tree Depth 3
99
Minimum Cases in Parent
Node
100
Minimum Cases in Child
Node
50
Results Independent Variables
Included
ESPVIDAn, IDHM_Rn, IDHMn
Number of Nodes 57
Number of Terminal Nodes 44
Depth 3
100
101
Risk
Estimate Std. Error
,412 ,007
Growing Method: CHAID
Dependent Variable: Região
Classification
Observed Predicted
CO N NE S SE Percent Correct
CO 26 0 17 85 337 5,6%
N 2 0 278 20 149 ,0%
NE 1 0 1586 30 177 88,4%
S 14 0 28 424 722 35,7%
SE 9 0 165 259 1235 74,0%
Overall Percentage ,9% ,0% 37,3% 14,7% 47,1% 58,8%
Growing Method: CHAID
Dependent Variable: Região
5. CONSIDERAÇÕES FINAIS
A tarefa da análise discriminante é encontrar a melhor função discriminante linear ou
quadrática de um conjunto de variáveis que reproduza, tanto quanto possível, um
agrupamento a priori de casos considerados.
Um procedimento em passos é utilizado nesse programa, e em cada passo a variável mais
poderosa é introduzida na função discriminante. A função critério para selecionar a próxima
variável depende do número de grupos especificados (o número de grupos varia de 2 a 20).
Quando o número de variáveis é maior do que dois, então o critério de seleção de variáveis é
o traço do produto da matriz de covariância para as variáveis envolvidas e a matriz de
covariância interclasse em um passo particular.
Os cálculos podem ser realizados em toda a população ou em amostra de dados ou mesmo em
dados previamente agrupados.
Em nossas análises com as variáveis IDHMn, IDHM_Rn e ESPVIDAn, utilizamos a análise
discriminante linear e conseguimos um resultado de 0,903 de proporção correta. Isto
demonstra coerência na divisão em dois grupos. Além disso, é relevante ressaltar a
102
similaridade destes grupos (municípios) com base nestas variáveis, levando em conta
inclusive sua situação geográfica.
Na outra análise realizada com base no agrupamento apresentado no dendograma, onde pode
ser percebido 4 “Brasis”, a proporcionalidade ficou em 100%.
3.2.1. ANÁLISE DE CORRESPONDÊNCIA DAS VARIÁVEIS
Nesta análise serão trabalhados os estados e as médias de educação por estado. Na análise de
correspondência será gerado um mapa contendo quais estados estão mais próximos e quais
variáveis tem a ver entre si. O comando para gerar o gráfico é:
STAT >> MULTIVARIATE >> SIMPLE CORRESPONDENCE ANALISYS
0,100,050,00-0,05-0,10
0,10
0,05
0,00
-0,05
-0,10
Component 1
Co
mp
on
en
t 2
idr
id
es
TO
SPSE
SC
RS
RR
RO
RN
RJ
PR
PI
PEPB
PA
MT
MS
MG
MA
GOES
CE
BAAP
AM
AL
AC
Symmetric Plot
Nesta análise trabalhamos com as variáveis IDHMn, ESPVIDAn e IDHM_Rn, representadas
pelos quadrados azuis. Os círculos vermelhos são as médias das variáveis por estado, e podem
ser identificados pela sigla.
Simple Correspondence Analysis: Media ESPVID; Media IDHM_R; Media IDHM e Relative Inertias
es id idr Total
AC 0,000 0,006 0,008 0,015
AL 0,025 0,008 0,006 0,039
AM 0,055 0,019 0,012 0,086
AP 0,005 0,000 0,006 0,011
BA 0,006 0,001 0,003 0,009
CE 0,007 0,033 0,067 0,107
103
ES 0,005 0,000 0,003 0,009
GO 0,003 0,000 0,002 0,005
MA 0,017 0,011 0,055 0,083
MG 0,044 0,012 0,013 0,069
MS 0,002 0,007 0,015 0,024
MT 0,000 0,004 0,003 0,007
PA 0,035 0,003 0,020 0,058
PB 0,005 0,000 0,005 0,010
PE 0,019 0,002 0,011 0,031
PI 0,001 0,001 0,003 0,005
PR 0,002 0,002 0,000 0,004
RJ 0,022 0,015 0,001 0,038
RN 0,013 0,000 0,018 0,031
RO 0,018 0,045 0,004 0,067
RR 0,127 0,070 0,013 0,210
RS 0,003 0,005 0,015 0,023
SC 0,002 0,001 0,005 0,008
SE 0,022 0,003 0,009 0,034
SP 0,003 0,000 0,004 0,007
TO 0,001 0,007 0,002 0,010
Total 0,440 0,256 0,304 1,000
Analysis of Contingency Table
Axis Inertia Proportion Cumulative Histogram
1 0,0019 0,6905 0,6905 ******************************
2 0,0008 0,3095 1,0000 *************
Total 0,0027
Row Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 AC 1,000 0,031 0,015 -0,010 0,075 0,002 -0,035 0,925 0,045
2 AL 1,000 0,024 0,039 0,065 0,965 0,055 -0,012 0,035 0,004
3 AM 1,000 0,027 0,086 -0,091 0,960 0,119 0,019 0,040 0,011
4 AP 1,000 0,038 0,011 0,026 0,837 0,013 0,011 0,163 0,006
5 BA 1,000 0,030 0,009 0,029 0,991 0,013 0,003 0,009 0,000
6 CE 1,000 0,031 0,107 0,041 0,179 0,028 0,089 0,821 0,284
7 ES 1,000 0,049 0,009 -0,022 0,975 0,012 -0,003 0,025 0,001
8 GO 1,000 0,049 0,005 -0,016 0,907 0,007 -0,005 0,093 0,001
9 MA 1,000 0,024 0,083 0,064 0,435 0,052 0,072 0,565 0,151
10 MG 1,000 0,046 0,069 -0,064 0,988 0,099 0,007 0,012 0,003
11 MS 1,000 0,048 0,024 -0,017 0,212 0,007 -0,033 0,788 0,062
12 MT 1,000 0,048 0,007 -0,002 0,015 0,000 -0,020 0,985 0,022
13 PA 1,000 0,031 0,058 -0,071 0,985 0,082 -0,009 0,015 0,003
14 PB 1,000 0,028 0,010 0,028 0,827 0,012 0,013 0,173 0,006
15 PE 1,000 0,030 0,031 0,053 0,985 0,044 0,007 0,015 0,001
16 PI 1,000 0,026 0,005 0,014 0,361 0,003 0,019 0,639 0,011
17 PR 1,000 0,050 0,004 0,012 0,623 0,004 -0,009 0,377 0,005
18 RJ 1,000 0,050 0,038 0,041 0,800 0,044 -0,020 0,200 0,025
19 RN 1,000 0,032 0,031 0,045 0,749 0,033 0,026 0,251 0,025
20 RO 1,000 0,041 0,067 0,037 0,300 0,029 -0,056 0,700 0,152
21 RR 1,000 0,036 0,210 -0,119 0,876 0,266 0,045 0,124 0,084
22 RS 1,000 0,054 0,023 -0,018 0,271 0,009 -0,029 0,729 0,054
23 SC 1,000 0,056 0,008 -0,015 0,580 0,007 -0,013 0,420 0,011
24 SE 1,000 0,030 0,034 0,056 1,000 0,050 0,001 0,000 0,000
25 SP 1,000 0,055 0,007 0,016 0,812 0,008 0,008 0,188 0,004
26 TO 1,000 0,038 0,010 -0,009 0,123 0,002 0,025 0,877 0,029
104
Column Contributions
Component 1 Component 2
ID Name Qual Mass Inert Coord Corr Contr Coord Corr Contr
1 es 1,000 0,358 0,440 -0,058 0,994 0,634 0,004 0,006 0,008
2 id 1,000 0,306 0,256 0,026 0,291 0,108 -0,040 0,709 0,586
3 idr 1,000 0,336 0,304 0,038 0,587 0,258 0,032 0,413 0,406
4. CONSIDERAÇÕES FINAIS
A análise de correspondência pode ser considerada como um caso especial da análise de
componentes principais (TRABALHO num. 7), porém dirigida a dados categóricos
organizados em tabelas de contingência e não a dados contínuos. O problema é análogo a
encontrar o maior componente principal de um conjunto de I observações e J variáveis, com
modificações devido à ponderação das observações e à métrica ponderada.
Trata-se de um modelo de regressão para variáveis dependentes ou de resposta binomialmente
distribuídas. É útil para modelar a probabilidade de um evento ocorrer como função de outros
fatores.
top related