os dados podem ser organizados: em tabelas quando é importante a apresentação dos valores

65
Conjunto de técnicas estatísticas e gráficas que permite explorar grandes massas de dados para uma primeira aproximação à realidade estudada, na procura de algum padrão ou comportamento relevante que esteja presente no conjunto de dados. Os dados podem ser organizados: Em tabelas quando é importante a apresentação dos valores Em gráficos ou mapas apresentação de distribuições, tendências ou relacionamentos entre variáveis Resumidos com o uso de estatísticas. Análise Descritiva ou Análise Exploratória de Dados

Upload: simone

Post on 12-Jan-2016

25 views

Category:

Documents


0 download

DESCRIPTION

Análise Descritiva ou Análise Exploratória de Dados. Conjunto de técnicas estatísticas e gráficas que permite explorar grandes massas de dados para uma primeira aproximação à realidade estudada, na procura de algum padrão ou comportamento relevante que esteja presente no conjunto de dados. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Conjunto de técnicas estatísticas e gráficas que permite explorar grandes massas de dados para uma primeira aproximação à realidade estudada, na procura de algum padrão ou comportamento relevante que esteja presente no conjunto de dados.

Os dados podem ser organizados:

• Em tabelas quando é importante a apresentação dos valores

• Em gráficos ou mapas apresentação de distribuições, tendências ou relacionamentos entre variáveis

• Resumidos com o uso de estatísticas.

Análise Descritiva ou Análise Exploratória de Dados

Page 2: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Variável: é uma característica de interesse que se pode medir e que apresenta distintos valores

Cada medida, ítem de formulário ou pergunta corresponde a uma variável que se deseja conhecer.

Por exemplo: idade, sexo, pressão arterial são variáveis que podem ser medidas ou observadas.

Sexo: M ou F / 0 ou 1 / 1 ou 3

Idade: qq valor fracionário a partir de 0.

Análise Exploratória de Dados

Page 3: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Fisio 2001

REC INICIAIS SEXO IDADE BAIRRORESI ESCOLA2OGR ALTURA BRACO --- -------- ---- ----- ------------------------- ---------- ------ ----- 1 PAMS F 19 JACAREPAGUA PRIV 168 24.5 2 ACPP F 21 JACAREPAGUA PUB 160 28.0 3 LTK F 19 PIEDADE PRIV 173 28.0 4 JAC F 22 PIEDADE PUB 174 32.0 5 LSS F 19 MEIER PRIV 158 24.0 6 PAGAC M 20 TIJUCA PRIV 177 29.0 7 KNL F 20 TIJUCA PRIV 162 22.5 8 VPR F 19 ENGENHO NOVO PRIV 168 27.0 9 WFC F 21 WONA/BELFORD ROXO PUB 170 33.0 10 PFS F 19 ILHA DO GOVERNADOR PRIV 161 26.5 11 RRS F 19 CENTENARIO/DUQUE CAXIAS PRIV 175 26.0 12 ARP F 19 VILA DA PENHA PUB 169 26.0 13 AAN F 24 BAIRRO DE FATIMA/NITEROI PRIV 166 25.0 14 PCCN F 21 ICARAI/NITEROI PRIV 171 25.0 15 ALM F 22 PARAISO/SAO GONCALO PUB 164 23.5 16 SM F 18 COPACABANA PRIV 170 25.5 17 RCF F 19 CATETE PRIV 168 24.0 18 TAG F 19 ICARAI/NITEROI PRIV 163 26.5 19 AHM F 21 FLAMENGO PUB 168 21.0 20 ASC F 18 CAMPO GRANDE PRIV 155 26.0 21 MRBC F 18 TIJUCA PRIV 166 25.0 22 ARP F 17 JARDIM AMERICA PRIV 160 27.5 23 MRL F 17 VILA ISABEL PRIV 163 26.0 24 JACG M 21 ILHA DO GOVERNADOR PRIV 170 30.0 25 PLS M 20 BOTAFOGO PRIV 182 32.5 26 CCD F 19 DEL CASTILHO PRIV 160 25.5 27 VP F 21 OLARIA PUB 172 24.5 28 PMAP F 17 MEIER PRIV 165 23.5 29 VRC F 19 BRAS DE PINA PUB 165 24.0 30 TSR F 20 TIJUCA PRIV 162 30.0 31 PVMHB M 18 LARANJEIRAS PRIV 174 30.0 32 TUP M 19 ILHA DO GOVERNADOR PRIV 170 30.5 33 IAM F 19 . PRIV 164 27.0

Page 4: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

SEXO | Freq Percent ------+----------------F | 28 84.8% M | 5 15.2% ------+----------------Total | 33 100.0% 

ESCOLA2OGR | Freq Percent Cum. -----------+----------------------PRIV | 25 75.8% 75.8%PUB | 8 24.2% 100.0%-----------+---------------------- Total | 33 100.0%

0

20

40

60

80

Privada Pública

Tipo de escola

%

F85%

M15%

Page 5: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

 

ALTURA | Freq Percent Cum. -------+----------------------155 | 1 3.0% 3.0%158 | 1 3.0% 6.1%160 | 3 9.1% 15.2%161 | 1 3.0% 18.2%162 | 2 6.1% 24.2%163 | 2 6.1% 30.3%164 | 2 6.1% 36.4%165 | 2 6.1% 42.4%166 | 2 6.1% 48.5%168 | 4 12.1% 60.6%169 | 1 3.0% 63.6%170 | 4 12.1% 75.8%171 | 1 3.0% 78.8%172 | 1 3.0% 81.8%173 | 1 3.0% 84.8%174 | 2 6.1% 90.9%175 | 1 3.0% 93.9%177 | 1 3.0% 97.0%182 | 1 3.0% 100.0%-------+---------------------- Total | 33 100.0% 

        Dificuldade de análise esta tabela não resumiu muito a informação

§        Variável quantitativa contínua

§        Distribuição de freqüências

§        Freqüência acumulada pode ser utilizada

§        30% dos alunos têm 1,63m ou menos

§        a metade possui 1,66m ou menos; a outra metade, isso ou mais

§        25% mais altos têm 1,70m ou mais

§        3% têm 1,77m ou mais.

 

Page 6: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Análise Exploratória de Dados

Numéricas

• Idade

• Peso

• Distância

• Salário

Categóricas

• Sexo

• Raça

• Estado Civil

• Gravidade de doença

Variáveis

Page 7: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Análise Exploratória de Dados

Variáveis Numéricas

Contínuas

•Altura(cm)

•Temperatura (oC)

Discretas

•No de filhos

•No de gânglios

Variáveis Categóricas

Ordinais

•Gravidade (L/M/S)

•Classe social (A/M/B)

•Incapacidade (I/lD/D)

•ASA

Nominais

•Sexo

•Religião

•Raça

Tipos de Variáveis

Page 8: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

As técnicas estatísticas diferem em função do tipo de variável que está sendo analisada.

As variáveis podem ser “medidas” em quatro escalas básicas: nominal, ordinal, intervalar e de razão.

Existem dois grandes grupos de variáveis: as categóricas ou qualitativas e as numéricas ou quantitativas.

Basicamente, as variáveis categóricas são medidas nas escalas nominal e ordinal, enquanto que as variáveis quantitativas são mensuradas nas escalas intervalar e de razão.

Análise Exploratória de Dados

Page 9: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

As variáveis nominais são representadas por categorias que não mantêm necessariamente relação entre elas. Não é possível realização de operações aritméticas, como soma ou produto, sendo possível basicamente a contagem das observações em cada categoria.

Exemplo: sexo, raça, diagnóstico

Escalas nominal e ordinal

Na escala ordinal as categorias podem ser representadas por nomes, símbolos ou números, porém há ordenação de uma categoria em relação à outra. A distância entre uma categoria e a outra não pode ser medida numericamente. Além da operação de contagem, permitem operações que envolvam ordenação (maior/menor).

Exemplo: gravidade da doença

Page 10: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Na escala intervalar o valor nulo não corresponde à ausência da característica medida. A escala possui um zero arbitrário.

Exemplo: temperatura - o 0ºC não corresponde `a ausência de temperatura, mas ao 0º da escala Celsius.

A escala de razão é uma escala intervalar, onde o zero corresponde à ausência da característica medida. Nesta escala, é válido afirmarmos que uma pessoa com 70Kg possui duas vezes o peso de uma criança com 35 Kg.

Exemplo: massa corporal, idade, tempo, pressão arterial ou temperatura Kelvin.

Escalas intervalar e de razão

Page 11: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Discretas valores inteiros.

Ex: número de leitos, números de casos, número de procedimentos.

Contínuas valores podem ser números fracionários e a variável pode apresentar qualquer valor pertencente ao conjunto dos números reais, só dependendo da precisão da medida.

Ex: pressão arterial, peso.

• Geralmente, as variáveis contínuas são resultado de medição e as discretas, de contagens.

Variáveis quantitativas

Page 12: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

• Um dos primeiros passos para análise de um conjunto de dados consiste na exploração da informação existente em cada variável separadamente, através da síntese de cada variável análise univariada.

Análise Univariada

• Tabelas

•Gráficos

•Mapas

•Medidas de resumo ou Estatísticas

Page 13: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Apresentação tabular

A apresentação tabular se faz mediante tabelas ou quadros (apresentam as bordas laterais fechando o conteúdo tabulado).

Qualquer tipo de variável pode ser tabulada, porém há uma diferenciação na construção de tabelas dos diferentes tipos de variáveis.

Page 14: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Normas para elaboração de tabelas

Toda tabela deve ser auto-explicativa

Normas do IBGE para apresentação de tabelas

As tabelas devem ser fechadas no alto e embaixo por linhas horizontais, não sendo fechadas à direita nem à esquerda por linhas verticais. É facultativo o emprego de traços verticais para a separação de colunas no corpo da tabela.

Em publicações que compreendem muitas tabelas, estas devem ser numeradas em ordem crescente, conforme a ordem de aparecimento.

Os totais e subtotais são destacados (negrito, itálico, caracteres afastados etc).

O título deve conter a descrição básica do conteúdo, local e época em que foram coletados os dados.

Deverá ser mantida uniformidade quanto ao número de casas decimais.

Page 15: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Tabulação de variáveis nominais

SEXO Freqüência absoluta

Freqüência relativa

Freqüência percentual

Masculino 207 0,4539 45,39

Feminino 249 0,5461 54,61

Total 456 1,0000 100,00

Distribuição de sexo dos recém-nascidos

Page 16: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Gráficos de variáveis nominais

Sexo dos RN

M45%

F55%

0

20

40

60

M F

sexo

%

Gráfico de setores, pizza, torta

Gráfico de colunas

0 50 100 150 200 250 300

fórcipe

pélvico

cesárea

normal

Tip

o d

e p

art

o

Nº de Gestantes

Gráfico de barras

Page 17: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Elementos de percepção visual

0

1

2

3

4

5

6

1 2 3 4 5

Setores: % Somam 100%

Page 18: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Tabulação de variáveis:

Ordinais

Quantitativas Discretas com poucos valoresAssemelha-se à construção de tabelas de variáveis categóricas nominais

Respeitar a ordem natural das categorias.

Permite acrescentar outro tipo de informação bastante útil freqüência percentual acumulada.

Grau de Anóxia

N FP FP acumulada

Sem Anóxia 94 22,12 22,12

Moderada 157 36,94 59,06

Severa 174 40,94 100,00

Total 425 100,00

Recém-nascidos, segundo o grau de anóxia

Page 19: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Tabulação de variáveis:

Ordinais

Quantitativas Discretas com poucos valoresAssemelha-se à construção de tabelas de variáveis categóricas nominais

Respeitar a ordem natural das categorias.

Permite acrescentar outro tipo de informação bastante útil freqüência percentual acumulada.

Recém-nascidos, segundo o grau de anóxia

Grau de anóxia

N % F % acumulada

Nenhuma 55 11,82 11,82 Leve 84 18,06 29,88 Moderada 152 36,69 62,57 Severa 174 37,42 100,00 Total 465 100,00

Page 20: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Tabulação de variáveis:

Ordinais

Quantitativas Discretas com poucos valores

Consultas de pré-natal

N FP FP acumulada

0 106 33,12 33,12

1 15 4,69 37,81

2 34 10,62 48,44

3 50 15,62 64,06

Número de consultas de pré-natal realizadas durante a gestação dos recém-nascidos.

4 47 14,69 78,75

5 23 7,19 85,94

6 32 10,00 95,94

7 9 2,81 98,758 1 0,31 99,06

9 0 0,00 99,06

10 3 0,94 100,00

Total 320 100,00

Page 21: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Gráfico de variáveis ordinais ou quantitativas discretas com poucos valores

Grau de anóxia

sem anóxia

22%

moderada

37%

severa

41%

0

20

40

60

80

100

120

0 1 2 3 4 5 6 7 8 9 10

No. de consultas

No

. de

re

cém

-na

sci

do

s

Page 22: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Tabulação de variáveis quantitativas•Criação de intervalos de valores (classes).

•Permite acrescentar freqüência percentual acumulada.

Distribuição dos pesos dos prematuros

400 ├─ 600 500 9 1,94 1,94

600 ├─ 800 700 47 10,10 12,04

800 ├─ 1000 900 73 15,70 27,74

1000 ├─ 1200 1100 104 22,37 50,11

1200 ├─ 1400 1300 121 26,02 76,13

1400 ├─ 1600 1500 111 23,87 100,00

Classes de pesos

pmi ni fpi Fpi

Total   465 100,00  

Page 23: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Gráficos de variáveis quantitativas

Histograma

0

5

10

15

20

25

30

600 800 1000 1200 1400 1600

peso (g)

Rec

ém-n

asci

dos

(%)

Page 24: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Gráficos de variáveis quantitativas

Polígono

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

300 500 700 900 1100 1300 1500 1700

Peso (g)

(%)

Page 25: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Gráficos de variáveis quantitativas

Polígono

Page 26: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Diferentes formatos de histogramas

simétrico assimétrico à esquerda assimétrico à direita 

truncado multimodal

Page 27: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Histogramas com classes de tamanhos diferentes

0%

5%

10%

15%

20%

25%

0 1 5 10 13 15 20 25 30 35 40 45 50 55 60 99

Idade (anos)

%

0.0%

1.0%

2.0%

3.0%

4.0%

5.0%

0 10 20 30 40 50 60 70 80 90

Idade (anos)

Pac

/an

o (

%)

Page 28: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Medidas de resumo ou estatísticas

Síntese numérica: medidas de resumo

•  Além das tabelas de freqüências, as variáveis podem ser resumidas em medidas que informam o “centro dos dados” e a variabilidade dos mesmos em relação a este “centro”.

Medidas de Posição ou de Tendência Central - média, mediana, moda

Medidas de Dispersão ou de Variabilidade – amplitude, distância interquartílica, desvio médio, variância, desvio padrão e coeficiente de variação.

Page 29: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Faixa de renda (PEA 1991)

0,0

5,0

10,0

15,0

20,0

25,0

30,0

35,0

40,0

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

salários mínimos

%

Faixa de renda pessoas % da PEA % acumulado

< 1 * 25.901.841 37,2 37,2

1 a 2 14.204.236 20,4 57,7

2 a 3 8.425.061 12,1 69,8

3 a 5 8.425.061 12,1 81,9

5 a 10 7.032.489 10,1 92,0

10 a 20 3.202.915 4,6 96,6

20 ou + 1.531.829 2,2 98,8

sem declaração 835.543 1,2 100,0

Total da PEA 69.558.975 100  

       

*inclui os sem rendimento

10.513.919 15,1  

Média estimada = 3,3 s.m.

Page 30: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Medidas de tendência central

Média Aritmética 1 2x x xn

n

... ii

n

x

n

1X =

=

Mediana

0 1 2 3 4 5 6 7 8 9 10

x

Valor xi

(metros):

1,20 1,22 1,23 1,25 1,26 1,27 1,28 1,29 1,30

Ordem: 1º 2º 3º 4º 5º 6º 7º 8º 9º

2

122

nxnx

dm

1,80

X=1,31

Page 31: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Medidas de tendência central

A média aritmética é muito sensível à presença de valores extremos enquanto que a mediana não. Pode-se dizer que a mediana é mais robusta que a média.

Em distribuições simétricas, a média e a mediana possuem valores iguais.

simétrico assimétrico à esquerda assimétrico à direita 

Média=mediana Média < mediana Média > mediana

Page 32: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Medidas de posição

Percentis - medidas que dividem um conjunto de dados em diversas partes são úteis na apresentação da distribuição de seus valores, principalmente se o conjunto de dados é não simétrico.

Os percentis dividem um conjunto de dados em cem partes de igual tamanho

A mediana representa o percentil 50.

Quartis – 1o. e 3o. Quartis (25% e 75%)

Quintis - 20% , 40%, 60% e 80%.

Page 33: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Gráficos de variáveis quantitativas

Box plot

30

35

40

45

50

C o mprim ento do R N

Q3 = 3° Quartil = 39

Q2 = 2° Quartil = 38

Q1 = 1° Quartil = 35

Mínimo

Q3 + 1,5 DQ = 39 + 6 = 45

DQ = 4

Observações Extremas

Page 34: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

704563N =

SEXO

21

SIST

2

300

200

100

0

4543512273001233745295125996839365316625298276859109350329151122

9285112471171

312

513871125374369283374110568129119576345932463028171036

358909N =

OB27

10

SIST

2

300

200

100

0

276859329593501093246122

85112471171

52310001106

36469123569312525583356802938841371027436101596411642452834725610861248840717314023957574312274353001233745125996295839741911812365316625298634957151817302103692

312

Page 35: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores
Page 36: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores
Page 37: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores
Page 38: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Gráfico 1 - Distribuição da renda em relação à mediana e aos percentis 80 e 20

0.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

5.5

6.0

6.5

Ron

dôni

a

Am

azon

as

Par

á

Toca

ntin

s

Pia

Rio

gra

nde

do N

orte

Per

nam

buco

Ser

gipe

Min

as G

erai

s

Rio

de

Jane

iro

Par

aná

Rio

Gra

nde

do S

ul

Mat

o G

ross

o

Dis

trito

Fed

eral

Sal

ário

s M

ínim

os

percentil 80 percentil 20 Med.

Page 39: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Medidas de dispersão

Amplitude

Desvio médio

Variância

Desvio padrão

Coeficiente de variação

Distância interquartílica

Page 40: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Dispersão ou variabilidade

Page 41: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

 

 

Aluno A: 5 - 5 - 5 - 5                    

Aluno B: 4 - 4 - 6 - 6                      

Aluno C: 3 - 5 - 7 - --                      

Aluno D: 0 - 5 - 5 - 10                      

Aluno E: 0 - 0 - 10 - 10                      

Notas

0 1 2 3 4 5 6 7 8 9 10

Medidas de dispersão

Page 42: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Amplitude

A amplitude total (At) é apenas uma indicação aproximada

da dispersão ou variabilidade. É definida como a diferença entre o maior e o menor valor do conjunto de dados .

At = valor máximo – valor mínimo

Ex: 5, 5, 5, 5 At=0 4, 4, 6, 6 At=2 0, 5, 5, 10 At=10

• Fácil de calcular, mas leva em conta apenas dois valores, desprezando a informação das outras observações do conjunto muito sensível à presença de valores extremos.

• É comum apresentar-se a medida de tendência central acompanhada do valor mínimo e máximo entre parênteses e não a amplitude.

Page 43: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Nota (E) desvio desvio absoluto desvio quadrático

x1 = 0 d1=0-5 = -5 5 25

x2 = 0 d2=0-5 = -5 5 25

x3 = 10 d3=10-5 = 5 5 25

       

Total d i = (xi-x) = 0 da i = |xi-x| = 20 (xi-x)2 =100

di = xi-x dai = |xi-x| dqi = (xi-x)2

x4 = 10 d4=10-5 = 5 5 25

x=20/4=5   dma i = |xi-x| = 5

n

dmq i = (xi-x)2 = 25

n

Desvio médio

xi

Page 44: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Variância

1

)(

1

)(

)(

2

2

1

2_

n

n

x

x

n

xx

xV

i

i

n

ii

33,13

4

14

)56()56()54()54()(

2222

xVB

Exemplo: Notas do aluno C: 4, 4, 6, 6

VA = 0 VB = 1,33 VC = 2 VD = 16,67 VE = 33,33

Page 45: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Desvio padrão

Sendo a variância uma medida que expressa um desvio quadrático médio, a unidade dela é o quadrado da unidade dos dados, e isto pode causar algumas dificuldades de interpretação. Para contornar esta situação, costuma-se usar a raiz quadrada da variância, o que é denominado de desvio padrão. O desvio padrão é mais adequado porque tem a mesma unidade dos dados.

Variância Desvio Padrão

S2 = (xi-x)2/n-1 S = (xi-x)2/n-1

Page 46: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

A B C1 1 13 44 95 46 236 47 397 48 4693 52 5494 53 6795 54 7696 55 85

100 100 100

Page 47: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

A B C1 1 13 44 95 46 236 47 397 48 4693 52 5494 53 6795 54 7696 55 85

100 100 100

500 500 500 somatório50 50 50 média50 50 50 mediana

45,66 22,41 31,07 desvio padrão91,31 44,81 62,14 CV

Page 48: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100

A

B

C

Page 49: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Coeficiente de variaçãoO desvio padrão, isoladamente, tem interpretação limitada sobre a variabilidade de um conjunto de dados.

Medida de dispersão é nula sabe-se imediatamente que o conjunto de dados é composto por valores iguai.

Quando deseja-se comparar uma variável entre grupos que apresentam valores com ordens de grandeza distintas.

Supondo a comparação de renda entre um grupo de indivíduos desprivilegiado economicamente, com média de renda de 1 salário mínimo e desvio padrão de 1 salário mínimo, com outro grupo privilegiado economicamente, cuja média de renda é de 30 salários mínimos e mesmo desvio padrão do primeiro grupo.

Grupo A Grupo B

Renda (salários mínimos) 1 (1) 30 (1) média (desvio padrão)

Supondo uma outra situação onde deseja-se comparar duas variáveis diferentes para um grupo de indivíduos

100 x )(

)(_

x

xsxCV

Page 50: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Faixas de referência

Faixa de normalidade, valores de referência ou faixa de referência

Variabilidade de determinada característica em uma população.

Auxilia na caracterização do que é típico em uma determinada população.

Empregado nos resultados de exames de laboratório

Não quer dizer que estar fora da faixa de referência seja ser “doente”.

Podemos usar média e desvio-padrão / percentis.

Page 51: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Faixas de referência

concentração de colesterol 140 180 220

Média ± 2 x desvio-padrão 95%

Percentil 2,5 e percentil 97,5

Page 52: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores
Page 53: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores
Page 54: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Análise Bivariada

Uma vez analisada e caracterizada cada variável do conjunto de dados, pode-se prosseguir a análise exploratória estudando a relação entre variáveis.

É importante a análise da variável desfecho (resposta ou dependente), por exemplo, em relação aos fatores de risco e confundimentos.

Esta é uma etapa importante, onde são levantadas hipóteses a serem testadas posteriormente com os métodos estatísticos específicos.

Tabelas de freqüência de dupla entrada apresentação das informações de uma variável distribuídas pelas categorias de uma segunda variável

Page 55: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Duas variáveis categóricas

Pré-Natal

NascidoVivo

Óbito Total

N % N % N %

Sim 155 54,2 131 45,8 286 73,1

Não 30 28,6 75 71,4 105 26,9

Total 185 47,3 206 52,7 391 100,0

01020304050607080

pré-natal sem pré-natal

(%)

Nascido vivo Óbito

Óbito neonatal, segundo realização ou não de pré-natal

Page 56: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Duas variáveis categóricas

Page 57: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Duas variáveis categóricas

Hipertensão

Total

Obeso* Não Sim Não 871 236 1107

% linha 78.7% 21.3% % coluna 91.4% 75.2% 87.4%

Sim 82 78 160 % linha 51.3% 48.8% % coluna 8.6% 24.8% 12.6%

Total 953 314 1267 75.2% 24.8% 100.0%

* Obeso=sim: IMC 30 kg/m2

78.7

51.3

21.3

48.8

0

10

20

30

40

50

60

70

80

90

Não Sim

Obeso

%

Normotenso Hipertenso91.4

75.2

8.6

24.8

0

10

20

30

40

50

60

70

80

90

100

Normotenso Hipertenso

Hipertensão

Não Sim

Page 58: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Série histórica entre grupos

Relação entre variável quantitativa discreta e categórica - análises de séries históricas, segundo grupos ou categorias, etapa importante na análise exploratória de séries de dados no tempo.

0

4000

8000

12000

16000

84 85 86 87 88 89 90 91 92 93 94 95 96

Anos

de c

asos

Homem Mulher

No de casos de Aids em homens e mulheres de 1984 a 1996 no Brasil

Page 59: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Variáveis quantitativa e categórica

Relação entre variável categórica e variável quantitativa contínua - apresentação tabular, onde a variável quantitativa contínua é apresentada em intervalos (classes) e as freqüências absolutas e percentuais são apresentadas, segundo cada código da variável categórica.

0

1020

30

4050

60

masc fem

Sexo

%

baixissimo muito baixo baixo

Categorias de peso, segundo o sexo dos recém-nascidos

249207N =

SEXO

21

PE

SO

1600

1400

1200

1000

800

600

400

200

Page 60: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Variáveis quantitativa e categórica

Outra maneira de apresentar variáveis quantitativas contínuas segundo diferentes códigos de uma variável categórica é através da utilização de medidas resumo, para cada categoria. Esta fase é fundamental no levantamento de hipóteses para posterior teste estatístico

Sexo Peso em g

Média Desvio Padrão

Masculino 1162,4 271,3

Feminino 1135,4 257,6

Categorias de peso, segundo o sexo dos recém-nascidos

Page 61: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Duas variáveis quantitativas

Relação entre variáveis quantitativas

Diagrama de espalhamento ou scatter plot

COMPRIM

50403020

PE

SO

1600

1400

1200

1000

800

600

400

Relação entre peso e comprimento dos recém-nascidos.

Page 62: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

BMI

5040302010

SIS

T2

300

200

100

0

Duas variáveis quantitativasDiagrama de espalhamento ou scatter plot

Relação entre IMC e pressão arterial sistólica – adultos I.Gov.

Page 63: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Coeficiente de correlação de Pearson

n

yy

n

xx

n

yxxy

r2

22

2 )()(

Page 64: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Mapas de pontos

Page 65: Os dados podem ser organizados:  Em tabelas    quando é importante a apresentação dos valores

Polígono ou estrela