hep 5800 - bioestatÍstica
TRANSCRIPT
1
UNIVERSIDADE DE SÃO PAULO
FACULDADE DE SAÚDE PÚBLICA
DEPARTAMENTO DE EPIDEMIOLOGIA
HEP 5800 - BIOESTATÍSTICA
REGINA T. I. BERNAL
NILZA NUNES DA SILVA
MARÇO/2012
HEP 5732 - BIOESTATÍSTICA
2
1. NOTAS HISTÓRICAS ........................................................................................................................................ 3
2. DEFINIÇÃO ......................................................................................................................................................... 5
3. ANÁLISE EXPLORATÓRIA DE DADOS ....................................................................................................... 7
4. LEVANTAMENTO DE DADOS ........................................................................................................................ 7
4.1. DEFINIÇÃO ........................................................................................................................................................... 7 4.2. FONTE DE DADOS E TEMPO ................................................................................................................................ 12
5. APRESENTAÇÃO TABULAR DE DADOS ................................................................................................... 13
5.1. TABELA DE FREQUÊNCIA ............................................................................................................................... 13 5.2. APRESENTAÇÃO ................................................................................................................................................. 15
EXERCÍCIOS ....................................................................................................................................................... 16
6. APRESENTAÇÃO GRÁFICA DE DADOS .................................................................................................... 17
6.1. VARIÁVEIS QUALITATIVAS OU QUANTITATIVA DISCRETA .................................................................................... 18 Diagrama de Superfícies em Colunas ou Barras ......................................................................................... 18 Diagramas por Superfícies em Colunas Superpostas ou Porcentagens Complementares........................... 18 Diagramas por Superfícies em Setores ........................................................................................................ 18 Diagrama por Pontos ................................................................................................................................... 18
6.2. VARIÁVEIS QUANTITATIVAS CONTÍNUAS ............................................................................................................ 19 Diagramas por Superfícies em Histogramas ............................................................................................... 19
6.3. VARIÁVEIS QUALITATIVAS ORDINAIS OU QUANTITATIVA DISCRETA .................................................................... 24 6.3. SÉRIES TEMPORAIS ............................................................................................................................................. 25 6.4. ESCALAS ARITMÉTICAS E LOGARÍTMICAS ........................................................................................................... 26 6.5 BOX PLOT ........................................................................................................................................................... 27
EXERCÍCIOS ....................................................................................................................................................... 28
7. MEDIDAS RESUMO ........................................................................................................................................ 29
7.1. MEDIDAS DE TENDÊNCIA CENTRAL ................................................................................................................... 29 Definição .............................................................................................................................................................. 29 Finalidade ............................................................................................................................................................ 29 Média aritmética .................................................................................................................................................. 29 Média Geométrica ................................................................................................................................................ 31 Média Harmônica ................................................................................................................................................ 31 Mediana ............................................................................................................................................................... 32 Quartis ................................................................................................................................................................. 33 Percentis .............................................................................................................................................................. 34 Moda .................................................................................................................................................................... 34
7.2. MEDIDAS DE DISPERSÃO .................................................................................................................................... 36 X-MEDIA ............................................................................................................................................................. 36 Interquartil ........................................................................................................................................................... 37
8. REFERÊNCIAS BIBLIOGRÁFICAS ......................................................................................................................... 40
3
1. NOTAS HISTÓRICAS
As primeiras aplicações da estatística estava voltadas para as necessidades de Estado, na
formulação de políticas públicas, fornecendo dados demográficos e econômicos à administração
pública. A abrangência da estatística aumentou no começo do século XIX para incluir a
acumulação e análise de dados de maneira geral. Hoje, a estatística é largamente aplicada nas
ciências naturais, e sociais, inclusive na administração pública e privada. Seus fundamentos
matemáticos foram postos no século XVII com o desenvolvimento da teoria das probabilidades
por Pascal e Fermat, que surgiu com o estudo dos jogos de azar. O método dos mínimos
quadrados foi descrito pela primeira vez por Carl Friedrich Gauss cerca de 1794. O uso de
computadores modernos tem permitido a computação de dados estatísticos em larga escala e
também tornaram possível novos métodos antes impraticáveis.1
A primeira tentativa para se tirar conclusões a partir de dados numéricos foi feita somente
no século 17, na Inglaterra, com o que foi denominado Aritmética Política de William Petty, que
evoluiu para o que se chama hoje de demografia. A análise de Graunt foi baseada sobre razões e
proporções de fatos vitais, nos quais ele observou uma regularidade estatística num grande
número de dados. Os dados usados por ele compreendiam uma serie anual de 1604 a 1660,
coletados nas paróquias de Londres, de onde ele tirou as seguintes conclusões: que havia maior
nascimento de crianças do sexo masculino, mas havia distribuição aproximadamente igual de
ambos os sexos na população geral; alta mortalidade nos primeiros anos de vida; maior
mortalidade nas zonas urbanas em relação às zonas rurais.2
No passado, tratar uma quantidade grande de dados era uma tarefa custosa e cansativa,
que exigia horas de trabalho tedioso. O computador contribui, positivamente, na difusão e uso
dos métodos estatísticos. Por outro lado, o computador possibilita uma automação que pode levar
um Indivíduo sem preparo específico a utilizar técnicas inadequadas para resolver um dado
problema. 3
A Estatística é área da ciência que trata da organização, descrição, análise e interpretação
dos dados resultantes da observação de fenômenos coletivos. Para cada tipo de variável existe
uma técnica adequada para análise dos dados. Devido à facilidade computacional na execução das
análises estatísticas, o pesquisador deve ter bom senso no uso das ferramentas estatísticas e nas
interpretações dos resultados. Em grandes ou pequenas amostras podem ocorrer resultados
estatísticos espúrios devido ao tamanho da amostra.
O importante é entender a Estatística como um meio; um instrumento e não um fim.
1 História da Estatística. Disponível <http://pt.wikipedia.org/wiki/Hist%C3%B3ria_da_estat%C3%ADstica>
2 Memória, J.M.Breve História da Estatística.
3 Magalhães, M.N. Noções de Probabilidade e Estatística. Sexta edição. Edusp, 2008
HEP 5732 - BIOESTATÍSTICA
4
Recursos computacionais
Atualmente existem vários programas voltados para o processamento e análises
estatísticas, entre os mais usados comercialmente são: SPSS e SAS. Os pacotes estatísticos
utilizam algoritmos para analise de dados provenientes de amostras aleatórias simples. Com o
avanço tecnológico os pacotes SAS, SPSS e STATA têm o módulo específico para análise de
dados provenientes de planos complexos de amostragem. As técnicas estatísticas implantadas
consideram as variáveis de planejamento da amostra.
O Departamento de Epidemiologia da FSP adotou o programa STATA como ferramenta
de processamento e análises estatísticas. O STATA 10.0 está disponível nos computadores do
Laboratório de Informática da Epidemiologia (LIE). Esse programa será usado como ferramenta
de processamento e análises estatística no curso de Bioestatística.
5
2. DEFINIÇÃO
PROPRIEDADES
- VARIAÇÕES ALEATÓRIAS
NATURAIS E NÃO EXPLICADAS
-VARIAÇÕES ENTRE INDIVÍDUOS
-VARIAÇÕES ENTRE OBSERVAÇÕES
EM UM MESMO INDIVÍDUO.
ORGANIZAÇÃO, DESCRIÇÃO, APRESENTAÇÃO
ANÁLISE E INTERPRETAÇÃO DE DADOS RESULTANTES DA
OBSERVAÇÃO DE FENÔMENOS COLETIVOS.
É A CIÊNCIA QUE TRATA DADOS NÚMERICOS
PROVENIENTES DE MENSURAÇAO EM
GRUPOS DE INDIVÍDUOS.
HEP 5732 - BIOESTATÍSTICA
6
Ramos da Estatística
“Estatística aplicada às ciências da vida”
epidemiologi
a
Biometria
Veterinária
Econometria
Demografia
Administração
ORGANIZAR
DESCREVER
APRESENTAR
ESTATÍSTICA
DESCRITIVA
ANÁLISE
INTERPRETAÇÃO
INFERÊNCIA ESTÁTISTICA
AMOSTRAGEM
EXPERIMENTOS
MODELAGEM
DISTRIBUIÇÕES
TABELAS
GRÁFICOS
MEDIDAS
probabilidade
7
3. ANÁLISE EXPLORATÓRIA DE DADOS
A estatística descritiva tem como objetivos: organizar, descrever, apresentar, analisar e
interpretar o conjunto de dados resultantes da observação de fenômenos coletivos.
4. LEVANTAMENTO DE DADOS
4.1. Definição
“ É a operação de coleta para descrição e/ou análise das características de
uma população.”
Usaremos como exemplo a pesquisa que descreve a experiência de acesso da população
de baixa renda do município de São Paulo a medicamentos, em 2005. A população de estudo é
composta por adultos com 40 anos ou mais de idade, residente no município de São Paulo, cuja
renda seja inferior ou igual a R$700,00. Essa pesquisa explora a contribuição do genérico como
estratégia facilitadora dessa experiência. Um dos principais objetivos é responder se a população
de estudo conhece e usa os medicamentos genéricos no mercado brasileiro.
Para cada elemento pesquisado existe um conjunto de características levantadas. Na
estatística essas características são chamadas de variáveis. Considerando a natureza numérica
dos possíveis resultados observados ou as ocorrências possíveis para as variáveis, citadas no
quadro 1, podemos agrupá-las em duas grandes categorias: Variáveis qualitativas e
quantitativas (Figura 1).
Os resultados quantitativos, obtidos por operação de contagem e estão inseridos no
conjunto dos números inteiros (0, 1, 2,...) correspondem às Variáveis Quantitativas Discretas.
Enquanto, os obtidos por uso de instrumentos de mensuração, projetados no conjunto dos
números reais, definem as Variáveis Quantitativas Contínuas.
Também os resultados resultantes de classificação denominados de qualitativos são
subdivididos em dois grupos: Variáveis Qualitativas Nominais cujos resultados de observação
são expressos por termos da linguagem natural; e as Variáveis Qualitativas Ordinais que usam
algum critério de ordenação para expressar os resultados.
Em geral, os possíveis resultados observados nas variáveis qualitativas são representados
por números, o que não altera sua natureza qualitativa.
Figura 1 – Classificação das variáveis quanto a natureza numérica
Tipos de Variáveis
Resultantes de
Classificação
Resultantes de contagem ou
mensuração
Qualitativas
Nominal Ordinal
Quantitativas
Contínua Discreta
Ex: Sexo
Estado civil
Classe social
Faixa etária
Renda
Idade
N de filhos
N de medicamentos
HEP 5732 - BIOESTATÍSTICA
8
Quadro 1 – Dicionário de variáveis da pesquisa
Variável Descrição Tipo Descrição
nm número sequencial
0 Não Favela
1 Favela
peso Peso da amostra
upa Unidade primária de amostragem
1 Masculino
2 Feminino
idade Qual a sua idade?(anos) 40 a 95
0 Sem escolaridade
1 Primeiro grau
2 Segundo grau
3 Terceiro grau
1 aposentado/pensionista
2 desempregado
3 dona de casa
4 trabalho com registro em carteira
5 trabalho sem registro em carteira
6 servidor público
1 Não
2 Sim
rendaQuanto o (a) Sr (a) ganhou no mês
passado? (salário bruto)0 a 7000
1 Não
2 Sim
1 Não
2 Sim
1 rádio
2 televisão
3 jornal/revista
4 outros
12 rádio/televisão
14 rádio/outros
23 televisão/jornal/revista
24 televisão/outros
34 jornal/revista/outros
123 rádio/televisão/jornal/revista
124 rádio/televisão/outros
234 televisão/jornal/revista/outros
1234rádio/televisão/jornal/revista/outros
1 igual
2 menor
3 maior
9 NR/NS
1 Não (especificar)
2 Sim (especificar)
9 NR/NS
1 Não (especificar)
2 Sim
9 NR/NS
1 Não
2 Sim
9 NR/NS
0
1
2
9
Questão Categoria
sexo Sexo
escolaridade (B1c)Até que ano da escola o (a) se. (a)
completou?
ativeconomica (B1d) Atividade econômica
trabalha O (a) Sr. (a) trabalha?
b2bO (a) Sr. (a) tem matrícula em algum
posto de saúde?
b3g Qual desse remédios é genérico?
Estratodominio
b3dO (a) Sr (a) confia no remédio
genérico?
b3eO (a) Sr (a) já comprou um remédio
genérico?
b3f
O (a) Sr (a) já recebeu algum
genérico em posto de saúde ou
hospital que atende pelo SUS?
b3aO (a) Sr. (a) já ouviu falar em
remédio genérico?
b3bComo o (a) Sr (a) ficou conhecendo o
remédio genérico?
b3c
O remédio genérico em relação ao
de marca mais conhecida, tem
preço:
9
Pensando ...
Classifique as variáveis levantadas na pesquisa de medicamentos quanto a sua natureza numérica:
Variável
Natureza numérica
nm
dominio
peso
upa
sexo
idade
escolaridade (B1c)
ativeconomica (B1d)
trabalha
renda
b2b
b3a
b3b
b3c
b3d
b3e
b3g
HEP 5732 - BIOESTATÍSTICA
10
Transformando variáveis
O recurso muito utilizado na estatística é transformar variáveis quantitativas em
qualitativas. Quando a variável quantitativa é transformada em 0 ou 1, essa nova variável é
resultante de uma classificação e conhecida como variável dicotômica, onde o valor 1 representa
o sucesso e 0 o fracasso. Para fazer essa passagem de quantitativa para qualitativa é necessário
definir um critério de classificação ou definir o número de intervalos para a nova variável. Para
exemplificar usaremos a variável anos de estudo que é de natureza quantitativa contínua.
Adotando o critério de classificação de 0, 1 a 8 anos, 9 a 11 anos e 12 anos ou mais, construímos
a nova variável denominada grau de instrução, cujos valores possíveis podem ser representados
por 1, 2, 3 e 4. A categoria 1 representa os indivíduos analfabetos, a categoria 2 representa os
indivíduos com 1 a 8 anos de estudo e assim sucessivamente (Figura 2). Os valores possíveis da
variável grau de instrução são representados por números e a eles são atribuídos nomes para cada
categoria da variável.
Figura 2 – Construção da variável Grau de instrução
Quantitativas Critério Qualitativa
Anos de estudo
Critério
0
[1 - 8]
[9 – 11]
>= 12
Grau instrução
1 (Analfabeto)
2 (Fundamental)
3 (Médio)
4 (Superior)
Exemplo:
Outros exemplos:
Alguns critérios para determinação do número de classes:
Se for muito pequeno o número de classes, é comum acontecer que características
importantes de distribuição fiquem ocultas. Por outro lado classes demais fornecerão maior
número de detalhes, mas resumirão de forma menos precisa a distribuição. A fórmula de Sturges
é usada para representar os possíveis valores de uma variável quantitativa em intervalos de
números reais.
Variáveis Critérios
Peso ao nascer
baixo peso : menos de 2.500g
inadequado: 2.500 |-- 3.000g
normal : 3.000g e mais
Duração da gestação
pré-termo : até 258 dias
a termo : 259 |-- 294 dias
pós-termo : 294 dias e mais
n° de gestações prévias
primigesta : zero gestações anteriores
secundigesta : uma gestação anterior
multigesta : duas e mais gestações
anteriores
Idade da mãe
adolescente : 10 |-- 20 anos
adulta : 20 |-- 35 anos
idosa : 35 anos e mais
11
O procedimento da fórmula de Sturges:
1) Encontrar o número de intervalos (k):
k=1+ 3,3*log(n), onde n é o número de registros válidos ou elementos observados com
informação.
2) Encontrar a amplitude de cada intervalo (h):
, valor máximo e mínino do conjunto de valores possíveis.
Usando como exemplo a variável renda levantada na pesquisa de medicamentos:
k=1+3,3*log(2921) = 12,43 aproximar para 12 intervalos
Podemos aproximar o valor para R$585
Assim, podemos representar os possíveis valores da variável renda em 12 intervalos com
amplitude de R$585,00.
Intervalos Valores
[ 0,00 ; 585,00] 1
[ 585,01; 1170,00] 2
[1170,01 ; 1755,00] 3
[1755,01 ; 2340,00] 4
[2340,01 ; 2925,00] 5
[2925,01 ; 3510,00] 6
[3510,01 ; 4095,00] 7
[4095,01 ; 4680,00] 8
[4680,01 ; 5265,00] 9
[5265,00 ; 5850,00] 10
[5850,01 ; 6435,00] 11
[6435,01 ; 7020,00] 12
Nota: É importante observar que o valor máximo da variável está dentro do último intervalo.
Representações dos intervalos:
[x1 ; x2] ou .x1|-| x2... maior ou igual a x1 e menor ou igual a x2
[x1 ; x2) ou x1 |- x2 maior ou igual a x1 e menor que x2
(x1 ; x2) ou x1 – x2 maior que x1 e menor que x2
Dica informe o valor mínimo e máximo de cada intervalo. Principalmente no primeiro e
no último intervalo. Assim, o leitor terá o conhecimento da amplitude do conjunto de
valores possíveis da variável.
k
imoimoh
minmax
33,58312
07000minmax
k
imoimoh
HEP 5732 - BIOESTATÍSTICA
12
4.2. Fonte de dados e Tempo
Os levantamentos de dados são classificados em fonte de dados primários ou secundários e no
tempo (contínuo, periódico ou ocasional). A fonte de dados primária ocorre no levantamento da
investigação, enquanto os dados secundários, já analisados anteriormente, são disponibilizados
para disseminação da informação. Todas as pesquisas levantadas pelo IBGE são de domínio
público e estão disponíveis no site.
No Brasil existem importantes fontes oficiais de dados secundários que devem ser aproveitados
para investigações da área da saúde.
O IBGE além de dispor dados socioeconômicos do Censo Demográfico, realizado a cada 10 anos,
também oferece dados específicos sobre saúde, levantados quinquenalmente pela PNAD.
Dados específicos sobre populações e condições de saúde podem ser encontrados no site do
DATASUS-MS. Encontram-se informações demográficas e epidemiológicas já classificadas
segundo sexo, faixa etária, municípios ou regiões geográficas. Importantes estudos
epidemiológicos podem ser elaborados, com economia de custo e tempo, a partir do uso dessas
bases de dados.
Ainda o SEADE, CVE, e a Prefeitura Municipal de São Paulo dispõem, respectivamente,
importantes arquivos de dados sobre doenças de notificação compulsória, mortalidade e
morbidade para todos os municípios do Estado de São Paulo.
13
5. APRESENTAÇÃO TABULAR DE DADOS
Nessa etapa inicial queremos conhecer os dados levantados, e para isso os valores das
variáveis são resumidos e apresentados no formato de tabela. A primeira análise a ser feita é a
consistência das informações coletadas. É nessa fase que identificaremos os problemas de
digitação e ausência de resposta ou “missing”. Após a validação dos dados iniciaremos a análise
descritiva das variáveis com objetivo de identificar o comportamento de cada variável de análise.
5.1. Tabela de frequência
O resultado de contagem dos valores possíveis de uma variável organizado em tabela informa o
comportamento da variável.
Se a variável é qualitativa ou quantitativa discreta simplesmente os valores possíveis são
listados e contados.
CONTAGEM, APURAÇÃO.
VARIAVEL RESULTADOS CONTAGEM FREQUENCIA TOTAL
SEXO
Variável qualitativa
MASCULINO ##### ##### ##### ##### #####
# 26
50
FEMININO
##### ##### ##### ##### ####
24
Quando a variável é quantitativa contínua os resultados são apresentados em intervalos de valores
e contados.
Intervalos de Renda frequência
[ 0,00 ; 585,00] 2223
[ 585,01; 1170,00] 563
[1170,01 ; 1755,00] 99
[1755,01 ; 2340,00] 22
[2340,01 ; 2925,00] 8
[2925,01 ; 3510,00] 3
[3510,01 ; 4095,00] 2
[4095,01 ; 4680,00] 0
[4680,01 ; 5265,00] 0
[5265,00 ; 5850,00] 0
[5850,01 ; 6435,00] 0
[6435,01 ; 7020,00] 1
Além do resultado de contagem (frequência absoluta) é apresentada a frequência relativa e a
acumulada.
A frequência relativa informa a proporção de cada ocorrência em relação ao total ( ) e a
soma é igual a 1. A frequência relativa permite a comparação com outras fontes de dados, desde
que os valores listados apresentem os mesmos intervalos de valores, no caso de uma variável
quantitativa contínua, ou as mesmas ocorrências quando se trata de uma variável qualitativa ou
quantitativa discreta. Na prática a frequência relativa é expressa em porcentagem e seus
resultados apresentam a distribuição de frequência da variável.
n
ni i
f
HEP 5732 - BIOESTATÍSTICA
14
Intervalos de Renda Frequência (ni ) fi
[ 0,00 ; 585,00] 2223 0,7610
[ 585,01; 1170,00] 563 0,1927
[1170,01 ; 1755,00] 99 0,0339
[1755,01 ; 2340,00] 22 0,0075
[2340,01 ; 2925,00] 8 0.0027
[2925,01 ; 3510,00] 3 0,0010
[3510,01 ; 4095,00] 2 0,0007
[4095,01 ; 4680,00] 0 0,0000
[4680,01 ; 5265,00] 0 0,0000
[5265,00 ; 5850,00] 0 0,0000
[5850,01 ; 6435,00] 0 0,0000
[6435,01 ; 7020,00] 1 0,0004
Total 2921 0,9999
A frequência acumulada representa as frequências relativas acumuladas de uma variável
que apresente uma ordenação (qualitativa ordinal, quantitativa discreta ou contínua). Seus
resultados facilitam a visualização de informações relevantes do comportamento da variável, e
podem ser usados para estabelecer ponto de corte em um determinado valor da variável. E ainda
informa o ponto ou o intervalo que divide a distribuição em duas partes iguais. No exemplo da
variável renda nota-se que 95% dos adultos ganham até R$1170,00.
Intervalos de Renda frequência % %acumulada
[ 0,00 ; 585,00] 2223 76.10 76.10
[ 585,01; 1170,00] 563 19.27 95.38
[1170,01 ; 1755,00] 99 3.39 98.77
[1755,01 ; 2340,00] 22 0.75 99.52
[2340,01 ; 2925,00] 8 0.27 99.79
[2925,01 ; 3510,00] 3 0.10 99.90
[3510,01 ; 4095,00] 2 0.07 99.97
[4095,01 ; 4680,00] 0 0.00 99.97
[4680,01 ; 5265,00] 0 0.00 99.97
[5265,00 ; 5850,00] 0 0.00 99.97
[5850,01 ; 6435,00] 0 0.00 99.97
[6435,01 ; 7020,00] 1 0.04 100.00
Total 2921 99.99
15
5.2. Apresentação
Seguiremos as normas definidas pelo IBGE com o objetivo de padronizar a apresentação tabular
dos dados. As normas estão disponíveis no arquivo Normas_de_apresentação_tabular.pdf.
A seguir são apresentadas as principais informações necessárias para elaboração de uma tabela.
APRESENTAÇÃO
TABELAS (apresenta distribuições de freqüências)
NORMAS IBGE
Tabela 1
Título – Distribuição de recém-nascidos segundo sexo.
Brasília, 1999.
SEXO N %
MASCULINO
TOTAL 50 100,0
Fonte: Lista de exercícios, curso HEP 5732, FSP, 2005.
Tabela 2 – Recém-nascidos segundo peso ao nascer (gramas) Brasília, 1999.
PESO NASCER N %
1950 |---- 2400 4 8,0
2400 |---- 2850 7 14,0
2850 |---- 3300 21 42,0
3300 |---- 3750 12 24,0
3750 |----|4200 6 12,0
TOTAL 50 100,0
Fonte: Ruiz F.M Saude,Brasília, 1999.
MODELO GERAL
Titulo:
Recém-nascidos segundo peso ao nascer (gramas)
Local A, 1999.
VARIÁVEL Freq.
Absoluta
Freq.
Relativa
Classes
Ou
Valores
TOTAL 50 100,0
Fonte:
HEP 5732 - BIOESTATÍSTICA
16
EXERCÍCIOS
Apresente a análise descritiva dos dados da pesquisa de medicamentos usando o programa
STATA. Use os dados do arquivo_pesq_medicamentos_curso_v1.xls e siga o roteiro:
1) Use o programa Stat Transf para conversão do arquivo no formato Excel para STATA/SE
version 9.
2) Abra o arquivo no programa.
3) Converter as variáveis no formato texto para numérica. Use o comando decode.
4) Criar a variável faixa de renda usando a fórmula de Sturges.
5) Atribuir os nomes das variáveis e das categorias.
6) Construir as tabelas de frequências para todas as variáveis de investigação.
7) Comente os resultados encontrados.
17
6. APRESENTAÇÃO GRÁFICA DE DADOS
Apesar da apresentação dos dados através de tabela ser mais precisa, a representação
gráfica tem a vantagem de transmitir os dados de uma maneira mais rápida e viva, oferecendo
uma visão imediata sobre o comportamento do fenômeno que estamos descrevendo.
Elaborar mapas e gráficos é uma arte que somente pode ser adquirida através de prática,
com os cuidados necessários para evitar posições tendenciosas, permitindo a visão clara dos
pontos essenciais a serem notados.
Portanto as regras básicas de elaboração de um gráfico são:
simplicidade
clareza
veracidade
A representação gráfica tem inúmeras aplicações na Estatística. Ela nos permite, por
exemplo, fazer uma análise exploratória dos dados, verificando seu comportamento, detectando
tendências e pontos atípicos ("outliers"), ou seja, observações demasiadamente distantes da massa
do conjunto de dados.
APRESENTAÇÃO GRÁFICA DE DADOS
- REPRESENTAM TABELAS (distribuições, coeficientes, series)
-EIXOS CARTESIANOS
MEDIDAS GEOMÉTRICAS
. Altura ou comprimento, área, ângulos
linhas, retângulos, círculos
- FIGURAS GEOMÉTRICAS
Bioestatística-aula 3
21/03/2006
- REPRESENTAM TABELAS (distribuições, coeficientes, series)
-EIXOS CARTESIANOS
X
zero
Frequencias
Ou outros
valores
(Y)
Resultados ou
valores
escalas
HEP 5732 - BIOESTATÍSTICA
18
6.1. Variáveis qualitativas ou quantitativa discreta
Diagrama de Superfícies em Colunas ou Barras
Simples: representação de uma única variável por meio de retângulos dispostos
verticalmente ou horizontalmente. Utiliza-se este tipo de gráfico para comparações de
uma só variável.
Múltiplas: permite a comparação de várias variáveis ao mesmo tempo.
Essas barras são construídas com o mesmo tamanho de base, de forma a permitir a
comparabilidade entre classes seja feita sempre de acordo com a altura (forma
vertical) ou comprimento (horizontal).
Diagramas por Superfícies em Colunas Superpostas ou Porcentagens
Complementares
Nesta representação as barras estarão superpostas, com uso para o caso de duas ou
mais variáveis.
No caso de porcentagens complementares, perde-se a comparabilidade de grandeza
entre as barras, naturalmente, sendo utilizada para comparação de estrutura.
Diagramas por Superfícies em Setores
A representação setorial tem seu uso intenso por possibilitar uma distinção clara entre os
setores envolvidos e favorecer a comparação com o total.
Diagrama por Pontos
Consiste na representação gráfica de uma informação por meio de pontos. Este gráfico
tem seu uso quando representamos fatos na sua distribuição espacial ou regional.
Exemplo:
xxx
xx
xx
xxx
xx
xxxx
x
xxxx
1 2 2 4 5
Tamanho da família
Núm
ero
de p
essoas
3
6
9
xxx
xx
xx
xxx
xx
xxxx
x
xxxx
1 2 2 4 5
Tamanho da família
Núm
ero
de p
essoas
3
6
9
19
6.2. Variáveis quantitativas contínuas
Diagramas por Superfícies em Histogramas
O histograma é formado por retângulos cujas áreas representam as frequências dos
intervalos de suas classes. Esta apresentação é indicada para variáveis contínuas, e,
portanto não há espaço entre as barras.
IDADE NUM. %
0 |– 5 50
5 |– 10 75
10 |– 15 100
15 |– 20 75
20|– 25 50
TOTAL 350
Fonte : IBGE, 17/03/2006 .
Número de residentes segundo idade . Muribeca, 2006.
100,0
14,3
21,4
28,6
14,3
21,4
0
| | | | | | 5 10 15 20 25
idade
Num.
-
-100
50
0
| | | | | | 5 10 15 20 25
idade
Num.
-
-100
50
HEP 5732 - BIOESTATÍSTICA
20
0
| | | | | | 5 10 15 20 25
idade
Num.
-
-100
50
0
| | | | | | 5 10 15 20 25
idade
Num.
-
-100
50
|
| |
0
| | | | | | 5 10 15 20 25
idade
Num.
-
-100
50
Construção de um polígono de frequência
21
0
| | | | | |5 10 15 20 25
idade
Num.
-
-100
50 |
||
|
|
|
| |
0
| | | | | | 5 10 15 20 25
idade
Num.
-
-100
50 |
||
|
|
|
| |
0
| | | | | | 5 10 15 20 25
idade
Num.
-
-100
50
Fonte : IBGE, 2006 .
Contra exemplo
Histograma com Intervalos de Classes Desiguais
É comum o uso de classes com tamanhos desiguais no agrupamento dos dados em tabelas
de frequências. Alguns cuidados especiais devem ser tomados quanto à análise e
construção de histograma.
A tabela seguinte fornece a distribuição de atendimentos em serviços de urgências de um
hospital X. Um primeiro cuidado é construir a coluna que indica as amplitudes de cada
classe. Um segundo passo é a construção da coluna da amplitude de cada classe, e o
terceiro passo é a construção das densidades de frequências em cada classe, ou seja, a
medida que indica qual a concentração por unidade da variável (ajuste na frequência em
relação a amplitude). De modo análogo, pode-se construir a densidade da proporção (ou
porcentagem) por unidade da variável.
HEP 5732 - BIOESTATÍSTICA
22
Para a construção do histograma, usa-se no eixo X o número de atendimentos e no eixo Y
o valor da densidade 1 ou 2.
Distribuição de atendimentos em serviço de urgência do hospital X Número de
atendimentos
Frequência
Absoluta
(A)
Amplitude Densidade1 Frequência Densidade
2
(B) (A)/(B) Relativa
(D)
(D)/(B)
0 |---- 10 5 10 0,5 0,02 0,002
10 |---- 20 20 10 2,0 0,08 0,008
20 |---- 30 35 10 3,5 0,14 0,014
30 |---- 40 40 10 4,0 0,16 0,016
40 |---- 60 50 20 2,5 0,20 0,010
60 |---- 80 30 20 1,5 0,12 0,006
80 |---- 100 20 20 1,0 0,08 0,004
100 |---- 140 20 40 0,5 0,08 0,002
140 |---- 180 15 40 0,38 0,06 0,0015
180 |---- 260 15 80 0,19 0,06 0,0008
Total 250
1) Construa o gráfico de barra usando no eixo da ordena os valores da freqüência absoluta
0
10
20
30
40
50
60
0 |- 10 10 |- 20 20 |- 30 30 |- 40 40 |- 60 60 |- 80 80 |- 100 100 |- 140 140 |- 180 180 |- 260
Número de empregados
Fre
qu
ên
cia
ab
so
luta
2) Construa o gráfico de barra usando no eixo da ordena os valores da densidade 1
3) Compare o gráfico 1 e 2. Qual a conclusão?
10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260
3,0
2,5
2,0
1,5
1,0
0,5
3,5
4,0
Número de empregados
Densid
ade 1
(nú
mero
de e
mpre
sas p
or
em
pre
gados)
10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260
3,0
2,5
2,0
1,5
1,0
0,5
3,5
4,0
Número de empregados
Densid
ade 1
(nú
mero
de e
mpre
sas p
or
em
pre
gados)
23
Pensando ...
Represente graficamente a variável renda levantada na pesquisa de medicamentos no espaço
quadriculado abaixo.
Faixa Renda n % %ac
[ 0 ; 400] 1957 67.0 67.0
[401; 800] 675 23.1 90.1
[800;7000] 289 9.9 100.0
Total 2921 100.0
Compare o gráfico anterior com a saída do histograma executado no programa STATA. Quais
são as diferenças?
0
5.0
e-0
4
.00
1.0
015
.00
2
Den
sity
0 2000 4000 6000 8000renda
HEP 5732 - BIOESTATÍSTICA
24
6.3. Variáveis qualitativas ordinais ou quantitativa discreta
Ogiva
É a representação gráfica de uma distribuição de frequências acumuladas, cujos segmentos
perpendiculares são traçados a partir do limite superior de cada classe. As frequências (absolutas
ou percentuais) são somadas conforme procedimento na ultima coluna da tabela abaixo, e
marcadas como no gráfico a seguir.
Tabela 2.8 - Distribuição do número de pacientes segundo idade.
Programa A. Centro de Saúde X, primeiro semestre de 1999.
Idade (anos) .f .f(acumulada)
10 15 10 10
15 20 15 25
20 25 60 85
25 30 65 150
30 35 40 190
35 40 50 240
40 45 30 270
Total 270
FONTE: Centro de Saúde X
Figura 2.9 - Distribuição do número acumulado de pacientes segundo
idade. Programa A. Centro de Saúde X, primeiro semestre de 1999.
10 15 20 25 30 35 40 45
idade (anos)
0
50
100
150
200
250
freqüência acumulada
0
10
20
30
40
50
60
70
80
90
100%
Fonte: Centro de Saúde X
Esse gráfico permite localizar o MEIO da distribuição (idade mediana 29 anos ) no
eixo horizontal. Também possibilita visualizar, de modo aproximado, os percentis
da distribuição, tais como:
a) percentagem de pacientes com idade até 30 anos 56%
b) percentagem de pacientes com idade igual a 25 anos ou mais 68,0%
c) o valor da variável que divide a distribuição em 2 partes iguais 29 anos
d) 70% dos pacientes apresentam idade igual ou inferior a 35 anos
e) a percentagem de pacientes cuja idade está compreendida entre 15 e 34 anos completos
68,0 %
25
6.3. Séries temporais
Consiste na representação gráfica de uma informação por meio de uma linha poligonal. O
gráfico de linhas é muito utilizado para acompanhar a evolução de uma variável ou também
para comparação entre duas ou mais variáveis. Nesse último caso, às vezes encontramos
dificuldades quando as séries em questão possuem unidades de medida ou grandeza diferentes. O
que se faz, em geral, é adotar uma escala adequada ou converter os dados para uma outra base, ou
ainda se utilizar de eixo suplementar.
Definição: Uma série temporal é qualquer conjunto de observações ordenadas no tempo.
Exemplo extraído do DATASUS: Evolução das Condições de Nascimento em São Paulo
0
5
10
15
20
25
0
10
20
30
40
50
60
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
Taxa B
ruta
de N
ata
lid
ad
e
%
Ano
Evolução das Condições de Nascimento
% com prematuridade
% de partos cesáreos
% baixo peso - geral
% de mães de 10-19 anos
% de mães de 10-14 anos
Taxa Bruta de Natalidade
Fonte: SINASC. Situação da base de dados nacional em 14/12/2009.
Nota: Dados de 2008 são preliminares.
Coeficiente de Mortalidade para algumas causas selecionadas (por 100.000 habitantes) Causa do Óbito 2002 2003 2004 2005 2006 2007 2008
Aids 11.4 10.7 9.5 9.4 9.4 8.5 9.3
Neoplasia maligna da mama (/100.000 mulheres) 18.8 19.2 18.6 19.7 20.4 20.0 20.8
Neoplasia maligna do colo do útero (/100.000 mulh) 5.2 4.8 4.4 5.5 4.5 4.6 4.2
Infarto agudo do miocardio 56.0 56.6 53.8 47.9 49.9 52.0 52.9
Doenças cerebrovasculares 54.5 52.0 53.8 49.6 50.8 50.1 52.6
Diabetes mellitus 21.2 21.2 21.5 18.6 19.5 20.5 20.7
Acidentes de transporte 9.5 13.8 13.4 14.2 14.9 15.7 14.3
Agressões 50.2 47.0 36.8 25.8 23.0 17.4 14.9
Fonte: SIM. Situação da base de dados nacional em 14/12/2009.
Nota: Dados de 2008 são preliminares.
HEP 5732 - BIOESTATÍSTICA
26
6.4. Escalas aritméticas e logarítmicas
Com relação a escala, em geral utilizamos a escala aritmética, porém em várias situações a
escala logarítmica se torna imprescindível. A denominação para esses gráficos é logarítmico ou
semi-logaritmico.
Os gráficos semi-logarítmicos são úteis quando as razões relativas de crescimento têm
significado ou quando são necessárias comparações entre razões de crescimento de duas séries ou
mais. Da mesma forma estes gráficos são úteis quando comparamos duas séries cujas magnitudes
são bastante diferenciadas.
BIOESTATISTICA 1 - 2006 (Aula 4)
ESCALA SEMILOG PARA DIAGRAMAS
LINEARES
ano total junho
1968 1,4 0,13
1969 1,5 0,12
1970 2,1 0,22
1971 6,6 0,37
1972 15,6 1,49
1973 26,5 2,24
1974 17 6,26
a) escala aritmética Coeficiente de mortalidade (por 100.000 hab.) por meningite meningocócica no Município de São Paulo, no período de
1968 a 1974 observados durante todo o ano (total) e mês de junho de cada ano
0
5
10
15
20
25
30
1968 1969 1970 1971 1972 1973 1974
Ano
Coefic
iente
total junho
Fonte: Ver. Saúde Pública, 10:1-16, 1976
b) escala logarítmica
Coeficiente de mortalidade (por 100.000 hab.) por meningite meningocócica no Município de São Paulo, no período
de 1968 a 1974 observados durante todo o ano (total) e mês de junho de cada ano
0,1
1
10
100
1968 1969 1970 1971 1972 1973 1974
Ano
Cefic
iente
total junho
Fonte: Ver. Saúde Pública, 10:1-16, 1976
27
6.5 Box Plot
O Box Plot (desenho esquemático ou esquema de cinco números) informa medidas de posição,
dispersão, assimetria, caudas e dados atípicos (outliers). A posição central é dada pela mediana e
a dispersão pela amplitude interquartílica. As medidas de posição q1, q2 e q3 informam a
assimetria da distribuição. Os comprimentos das caudas são dados pelas linhas que vão do
retângulo aos valores distantes e pelos valores atípicos.
Uma definição intuitiva de um "outlier" poderia ser: "uma observação que se desvia tanto das
demais, que nos faz suspeitar que fosse gerada por um mecanismo diferente".
Um conjunto de dados pode possuir uma ou mais observações que "parecem não pertencer ao
conjunto" e, portanto, para evitar distorções, deveriam ser descartadas antes da análise dos dados.
Escolher ou descartar tais observações é um processo subjetivo e, quando executado
inescrupulosamente pode levar a resultados indesejáveis. Para resolver este problema, foram
construídos testes que poderão ser utilizados para determinar se um "outlier aparente" está
realmente além do padrão exibido pelas outras observações.Este assunto será abordado no ítem
"Teste de Hipóteses".
No entanto uma representação gráfica pode nos auxiliar na detecção dos "outliers".
É importante lembrar que, muitas vezes, um "outlier" é uma observação pertinente, ou seja, um
"outlier" pode ser uma indicação de que o fenômeno que estamos estudando é, na realidade,
diferente daquele que pensamos ser.
Exemplos disso ocorrem frequentemente no campo da astronomia. "Outliers", muitas vezes,
indicaram a presença de astros que ainda não haviam sido descobertos pelo homem. A presença
(desconhecida) destes astros pode modificar o conjunto de observações do cientista, gerando
assim as "observações suspeitas".
Enfim, a eliminação ou não de um "outlier" é um problema que, independentemente de análise
matemática, deve ser resolvido pelo "bom senso" e crítica do especialista que está fazendo a
análise.
Exemplo: Saída do SPSS
Gráfico Box-Plot
Exemplo: Preço médio do produto A
90N =
LIGA_MIN
3,4
3,2
3,0
2,8
2,6
2,4
2,2
2,0
43
82
10
N 90
Range 1,2
Mean 2,99
Median 2,98
Percentil 25 2,94
Percentil 75 3,05
Interquartile Range 0,11
Variance 0,02
Skewness -2,92
Kurtosis 19,64
Outliers
Pontos Extremos
Mediana
3o. Quartil
1o. Quartil
Preço médio do produto A
HEP 5732 - BIOESTATÍSTICA
28
Cálculo do Box Plot
q3
q2
q1
Inter-quartil (IQ)
Q3+1.5*IQ
Q3+3*IQ
Q1-1.5*IQ
Q1-3*IQ
“outlier”
ponto extremo
*
*
*
*
“outlier”
ponto extremo
EXERCÍCIOS
Represente graficamente as variáveis levantadas na pesquisa de medicamentos usando o
programa STATA. Use os dados do arquivo_pesq_medicamentos_curso_v1.dta e siga o
roteiro:
1) Construir os gráficos para cada variável de investigação. Escolha o gráfico adequado para
cada tipo de variável.
2) Existe outlier na variável renda?
29
7. MEDIDAS RESUMO
A sintetização dos dados sob a forma de distribuição de frequência é uma primeira etapa no
estudo dos fenômenos estatísticos.
Necessitamos, além disso, de medidas que resumam as características peculiares do fenômeno.
Isso permite, entre outras coisas, comparar entre si, séries de dados, através do confronto desses
parâmetros.
As características que essas medidas devem possuir são relativas ao:
seu valor central
seu grau de dispersão em torno do valor central
seu grau de assimetria, se existir
7.1. Medidas de Tendência Central
Definição
O conceito de medida de tendência, diz respeito à medida de um valor que possa melhor
representar a tendência de um conjunto de números de uma variável. As três medidas mais
utilizadas são a média, a mediana e a moda.
Finalidade
As medidas de Tendência Central indicam o centro da distribuição de frequências ou a região
de maior concentração de frequência na distribuição.
Média aritmética
A média aritmética é a primeira idéia que ocorre quando se fala em “média” de alguma variável
numérica e é calculada dividindo-se a soma dos números do conjunto pelo tamanho do mesmo.
Assim a média entre 2, 4 e 6 é:
(2+4+6)/3 = 4.
A média populacional é convencionalmente denominada µ, e é calculada da forma genérica
como:
N
i
N XiNN
XXXX
1
321 1......., onde, N é o tamanho da população e “i” assume
valores de 1 até N e representa cada um dos indivíduos da população.
Já a média de uma amostra, ou média amostral, é designada por X e assume a forma:
n
x
n
xxxxX
n
i
i
n 1321 ......., onde n é o tamanho total da amostra e “i” assume valores de
1 até n e representa cada um dos indivíduos da amostra.
Observa-se que, dada uma amostra de tamanho n retirada de uma população de tamanho N, X é
apenas uma estimativa de µ, ou seja, a média amostral é uma estimativa da média populacional.
HEP 5732 - BIOESTATÍSTICA
30
Propriedades da média aritmética
1. A média de qualquer conjunto pode ser sempre calculada.
2. Para um dado conjunto de números a média é única.
3. A média é afetada por todos os valores do conjunto.
4. Somando-se, subtraindo-se, multiplicando ou dividindo cada elemento do conjunto por uma
constante a média também será acrescida, diminuída, multiplicada ou dividida por esta constante,
respectivamente.
Calculando a média de dados agrupados
Considere o número de internações (X) de um hospital, observado para os trinta dias do mês de
abril de 2003. Os dados são listados abaixo, por ordem cronológica. A tabela 1 apresenta sua
distribuição de frequências e demais colunas para calculo da média e da mediana
N = 30 dias amplitude : ( 0 =< X <=9 )
DIA 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X = Número de
internações
3 0 5 2 0 1 7 4 0 0 1 9 1 3 2
DIA 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
X = Número de
internações
5 2 7 5 1 0 4 6 4 0 3 5 8 5 6
Tabela 1 – Distribuição de freqüências de X
X F
0 6
1 4
2 3
3 3
4 3
5 5
6 2
7 2
8 1
9 1
total 30
Tabela 2 - Procedimento para cálculo. X F X . f
0 6 0
1 4 4
2 3 6
3 3 9
4 3 12
5 5 25
6 2 12
7 2 14
8 1 8
9 1 9
Total 30 99
Usando dados da terceira coluna ,…….. diaporernaçõesN
fXX ...........int...3,3
30
99.
31
Média Geométrica
É calculada através de raiz n-ésima do produto das N observações da variável.
N FN
FFg
NX...XXM 21
21
onde Fi é frequência
Esta média é utilizada quando variável em estudo apresenta um comportamento
exponencial ou segue uma progressão geométrica.
Exemplos: Índice Médio Mensal da Inflação, Crescimento Populacional.
Exemplo: Calcular a média geométrica dos valores 3, 6, 12, 24, 28
12282412635gM
obs: F1= F2 = F3 = F4 = F5 =1
Média Harmônica
É calculada através do recíproco da média aritmética dos recíprocos das observações da variável
aleatória.
N
i i
i
N
N
X
F
N
X
F...
X
F
X
F
NMh
12
2
1
1
Obs: NfN
i
i
1
Exemplo: Calcular a média harmônica para 2, 5, 8.
643
8
1
5
1
3
1
3,Mh
HEP 5732 - BIOESTATÍSTICA
32
Mediana
A mediana divide um conjunto ordenado de dados em dois grupos de quantidades iguais. A
metade do grupo estará abaixo e, a outra metade, acima da mediana. Isto significa que para um
conjunto de dados, se os mesmos forem ordenados, a mediana ocupará o centro deste conjunto.
Ex: Dada a variável x = {1, 3, 0, 2,4}, a mediana é 2, pois ordenando, temos {0,1,2,3,4}
Para se calcular a mediana de um conjunto de dados deve-se:
1) ordenar o conjunto;
2) verificar se há um número par ou ímpar de valores no conjunto;
3) verificar que, se o conjunto tiver um número ímpar de elementos, a mediana será o valor que
ocupa a posição central, ou seja, posição 2
1nneste conjunto, mas se o conjunto tiver um número
par de elementos, a mediana será a média entre as duas posições centrais, ou seja, a média das
posições 2
n e
2
2n (lembrando que n é o número de elementos do conjunto, ou da amostra).
Calculando a mediana em dados agrupados de uma variável discreta
Usando os dados da internação calcule a mediana dos dados apresentados na tabela 3.
Tabela 3– calculo da mediana em dados agrupados(frequências) X F % %
acumulada
0 6 20,0 20,0
1 4 13,3 33,3
2 3 10,0 43,3
3 3 10,0 53,3
4 3 10,0 63,3
5 5 16,7 80,0
6 2 6,7 86,7
7 2 6,7 93,4
8 1 3,3 96,7
9 1 3,3 100,0
total 30 100,0
N=30 (par).....Mediana = média dos dois valores de X que estão nas posições centrais.
Note que os dois valores localizados nos postos décimo quinto (N/2) e décimo sexto (N/2)+1
são iguais a 3..Portanto......mediana = 3 internações por dia
Observação : Se N for impar , o valor mediano ocupará o posto de ordem (N+1)/2 . Ou seja, a
mediana é expressa pelo valor de X que se localiza exatamente no meio da distribuição de
frequências .
33
Calculando a mediana de dados agregados em intervalos de valores
Os valores da variável estão agrupados em classes. O ponto médio de cada classe será tomado
como valor de X para calcular a média .
Tabela 4 - Média e Mediana para valores de X agrupados em classes
(1)
Numero
de internações
(2)
.f
(3)
Ponto
Médio (X)
(4)
X . f
(5)
f acumulada
(6)
%
(7)
%
acumulada
0 |------ 3 13 1,5 19,5 13 43,3 43,3
3 |------ 6 11 4,5 49,5 24 36,7 80,0
6 |------| 9 6 7,5 45,0 30 20,0 100,0
Total 30 114 100,0
O valor mediano ,que está no décimo quinto posto (30/2), situa-se na segunda classe. Ou seja, é
maior ou igual a 3 e menor que 6 . Usando calculo proporcional>>>poderemos seguir o seguinte
raciocínio .
A – vemos na coluna 5 da tabela 4 que faltam apenas (15 – 13=2) 2 dias para localizar o valor
mediano.
B - Mediana = 3 internações + (k)int?...... k int./2 dias = 3int / 11 dias
C - K interações = (3x2)/11 = 6/11 = 0,54 internações por dia
B - Mediana = 3 + 0,54 = 3,54 internações por dia .
Ou poderemos optar pelo uso da expressão abaixo:
Mediana será calculada pela expressão medhmedf
acfNiLMd .
)2/(,
Onde : Li = é o limite inferior da classe que contém a mediana ( 3 |---- 6 )
N = 30
.fac = frequencia acumulada até a classe anterior à que contém a mediana (13)
.fmed = frequência da classe que contem a mediana (11)
.hmed = amplitude da classe que contem a mediana (3)
Md = 3 + [(15 – 13) / 11] . 3 = 3 + 0,54 = 3,54 internações
Quartis
Os quartis dividem o conjunto de dados em quatro partes iguais e os percentis em 100 partes
iguais.
Quadro 1– Apresentação e explicação dos quartis.
Estatística Notação Definição, propriedades
1º quartil Q1
É o valor que ocupa a posição tal que um quarto dos dados (25%)
tomam valores menores ou iguais ao valor do primeiro quartil.
2º quartil
(Mediana)
Q2
Me
Coincide com o valor da mediana, ou seja 50% dos dados tomam
valores menores ou iguais aos da mediana. Entre o primeiro
quartil (Q1) e a mediana (Me) ficam 25% dos dados.
3º quartil Q3 É o valor que ocupa a posição tal que um quarto dos dados (25%)
tomam valores maiores ou iguais ao valor do terceiro quartil.
Entre a mediana (Me) e o terceiro quartil (Q3) ficam 25%
HEP 5732 - BIOESTATÍSTICA
34
Percentis
Os percentis dividem o conjunto de dados em 100 partes iguais.
Quadro 2 – Percentis.
Percentil Notação Definição, propriedades
1º P1 1% dos dados tomam valores menores ou iguais
5º P5 5% dos dados tomam valores menores ou iguais
10º P10 10% dos dados tomam valores menores ou iguais
25º P25 25% dos dados tomam valores menores ou iguais (Q1)
50º P50 50% dos dados tomam valores menores ou iguais (Q2 = Me)
75º P75 25% dos dados tomam valores maiores ou iguais (Q3)
90º P90 10% dos dados tomam valores maiores ou iguais
95º P95 5% dos dados tomam valores maiores ou iguais
99º P99 1% dos dados tomam valores maiores ou iguais
Moda
A moda é o valor que aparece com maior freqüência. É a medida menos usada.
Ex: Seja x = {0, 1, 0, 2, 3, 4, 4, 0, 3, 2, 5, 6}, a moda é 0.
Seja x= {3; 1; 2; 3; 3; 4; 5; 1,5; 2; 1,5; 0; 4; 1,5; 1,5; 6} a moda é 1,5.
A moda (valor da variável que ocorreu com maior frequência) é igual a 0 para a variável tratada
como discreta na Tabela 2. Na tabela 4, com os valores agrupados em classe, a classe ( 3 – 6 )
contém a moda.
A expressão abaixo pode ser usada para calcular a moda em valores agrupados em classe, quando
a classe modal for única e não estiver situada nos extremos da distribuição.
calcula-se a moda pela expressão: hdd
diLModa .
21
1
onde:
( L1 ) é o limite inferior da classe modal
(.d1 ) a diferença entre a frequência da classe modal e a da classe imediatamente anterior .
(.d2 ) a diferença entre a frequência da classe modal e da classe imediatamente seguinte, e
( h ) é a amplitude da classe modal
35
Comparação entre Média, Mediana e Moda
Muitas vezes é necessário decidir qual a medida de tendência central que mais se adequada aos
objetivos. A seguir, segue uma tabela que apresenta vantagens e limitações de cada uma delas.
Quadro 3 – Vantagens e desvantagens de cada uma das medidas de tendência central.
Vantagens Limitações Tipo de Variáveis
Reflete todos os valores
da amostra
Menos sensível à valores
extremos que a média
Média
Mediana
ModaRepresenta um valor
típico
É influenciada por valores
extremosContínua e Discreta
Mais difícil de ser determinada
para grande quantidade de dadosContínua e Discreta
Não tem função em certos
conjunto de dados
Contínua, Discreta,
Nominal e Ordinal
Pensando ....
Durante uma verificação de qualidade no conteúdo de seis recipientes de café instantâneo,
foram obtidas as seguintes as seguintes notas:
6,03 5,59 6,40 6,00 5,99 6,02
Qual a quantidade média e mediana encontrada?
Suponha que o terceiro valor tenha sido incorretamente medido e que na verdade seja de
6,04. Determine novamente a nota média e mediana.
Qual a conclusão?
HEP 5732 - BIOESTATÍSTICA
36
7.2. Medidas de Dispersão
As medidas de tendência central nos dão uma idéia da concentração dos dados em torno de um
valor. Entretanto, é preciso também conhecer suas características de espalhamento ou dispersão.
Para avaliar quantitativamente o grau de variabilidade ou dispersão dos valores de um conjunto
de números em torno de um valor médio, faz-se uso das denominadas medidas de dispersão:
Variância e Desvio padrão
Amplitude
Interquartil
Variância e Desvio padrão
A variância e o desvio padrão é a medida de dispersão universalmente usada em variáveis
discretas e contínuas. Informa a distância média de todos os valores observados de X em torno da
sua média aritmética .
Cálculo da Variância e do Desvio padrão:
1
)(
1
2
n
xx
Varância
n
i
i
1
)(
. 1
2
n
xx
padrãoDesvio
n
i
i
Cálculo do desvio padrão quando os dados estão agrupados:
Voltando à tabela 1, desenvolve-se o seguinte procedimento:
X F X-MEDIA (X-MEDIA)2 (X-MEDIA)
2 . F
0 6 0 - 3,3= - 3,3 10,89 10,89 X 6=65,34
1 4 1 - 3,3= - 2,3 5,29 5,29 X 4 = 21,16
2 3 2 - 3,3= - 1,3 1,69 1,69 X 3 = 5,07
3 3 3 - 3,3= - 0,3 0,O9 0,O9 X 3 = 0,27
4 3 4 - 3,3= 0,7 0,49 0,49 X 3 = 1,47
5 5 5 - 3,3= 1,7 2,89 2,89 X 5 = 14,45
6 2 6 - 3,3= 2,7 7,29 7,29 X 2 = 14,58
7 2 7 - 3,3= 3,7 13,69 13,69 X 2 = 27,38
8 1 8 - 3,3= 4,7 22,09 22,09 X 1 = 22,09
9 1 9 - 3,3= 5,7 32,49 32,49 X 1 = 32,49
30 204,30
Variância = 204,30 / 30 = 6,81 internações 2
Desvio padrão = 81,6 = 2,61 internações
Note que a variância é igual a media dos desvios ao quadrado. Isto decorre da propriedade da
média, cuja soma dos desvios simples é sempre igual a zero.
37
Coeficiente de variação = 2,61/3,3= 0,791 ou 79,1% . significa que a dispersão da distribuição
em torno da média de internações é alta (muito próximo de 100%) . Ou seja, o desvio padrão é
quase igual a média , o que indica que há valores muito distantes da média .
Síntese:
1 - Informações descritivas
Variável : numero de internações ; N = 30
Amplitude = 9 internações ( 0 – 9 );
média = 3,3 internações; dp = 2,61 internações
2 – Os cálculos serão iguais para variáveis continuas. Apenas observe que os valores de X serão
expressos pelos pontos médios das classes.
3 – Observe a formula da Variância: média dos quadrados dos desvios em relação à média da
distribuição.
Amplitude
Uma medida de dispersão é a da amplitude total do conjunto de dados calculada pela diferença
entre o valor máximo menos o valor mínimo.
Exemplo: x={-1, 2, 0, 3, 2, 1}, amplitude é 3 – (-1) = 4.
A amplitude pode levar a erros de avaliação, pois não representa o conjunto dos dados. Muitas
vezes reflete muito mal a dispersão dos mesmos.
Aplicações: Controle de qualidade, Temperatura entre outras.
Interquartil
É uma medida de dispersão definida como a diferença entre o terceiro e o primeiro quartis. Essa
medida de dispersão é usada para expressar a variabilidade em torno da mediana.
Aplicações: Na construção do Box Plot e para expressar a variabilidade em torno da mediana.
HEP 5732 - BIOESTATÍSTICA
38
EXERCICIO
1)
Numero Fuma Pressão sistólica Pressão diastólica IMC
1 0 152 71 1
2 0 124 77 1
3 0 105 61 1
4 1 146 96 1
5 1 167 120 2
6 0 156 94 0
7 0 133 89 0
8 0 144 81 2
9 0 186 138 1
10 1 103 75 0
11 0 98 67 1
12 0 131 87 1
13 1 155 99 1
14 0 163 90 1
15 1 136 74 1
16 1 129 66 1
17 0 170 112 1
18 0 160 85 2
19 0 142 86 1
20 11 142 82 1
21 0 115 76 1
22 1 201 119 1
23 0 129 83 1
24 0 158 92 1
25 0 113 70 2
26 1 149 84 0
27 1 157 98 0
28 1 132 78 2
29 0 146 88 2
30 0 175 103 1
31 1 142 79 1
32 0 118 68 0
a) Calcule média, mediana e moda para a pressão sistólica.
b) Repita calculo das medidas anteriores para os dados separados (estratos) fumantes e não
fumantes.
c) Compare os resultados. Tente uma conclusão.
39
2) Ambos os conjuntos de dados representados na figura a seguir têm média igual a 50. Um
deles tem desvio padrão de 3,8 e outro, de 5,8. Qual é qual? Calcule o coeficiente de variação e
justifique sua resposta.
0
5
10
15
20
25
30
35
39 42 45 48 51 54 57 60
0
5
10
15
20
25
30
35
39 42 45 48 51 54 57 60valor valor
% %
(a) (b)
3) Dado três conjuntos de dados A, B e C. Calcule a média e desvio padrão. Comente os
resultados. Qual a conclusão?
A: 4, 4, 4, 4, 4, 4, 4, 4
B: 3, 3, 3, 3, 5, 5, 5, 5
C: 1, 1, 3, 3, 5, 5, 7, 7
4) Associe as distribuições (4.1) com as medidas de posição (4.2):
(4.1)
UniformeSimétrico
Assimétrico à direita Assimétrico à esquerda
(a) (b)
(c) (d)
(4.2) Medidas de posição:
1) Média = Mediana = Moda
2) Média > Mediana
3) Média < Mediana
Respostas:
5) É importante informar a média e desvio padrão de uma variável quantitativa? Justifique.
HEP 5732 - BIOESTATÍSTICA
40
8. Referências bibliográficas
BUSSAB, W.O.; MORETTIN, P. A., Estatística Básica, 5a. ed., São Paulo: Saraiva, 2006.
MORETIM, P.A.; TOLOI, C.M.C. Análise de Séries Temporais, 2ª ed., São Paulo: Edgard
Blücher, 2006.
SILVA, NN. Amostragem Probabilística. 2ª ed., São Paulo: Editora da Universidade de São
Paulo, 2001.