PRINCÍPIOS GERAIS DO
MÉTODO CIENTÍFICO
&
ALGUMAS NOÇÕES DE ESTATÍSTICA E
DE BIOESTATÍSTICA
AULA 11
Prof. Dr. João H. G. Scatena
Cuiabá
Abril/2014
MÉTODO CIENTÍFICO
2
O método científico é a sistematização, de
modo claro e bem organizado, dos passos que
deverão ser dados, ou etapas que deverão ser
seguidas, para se responder a uma
determinada questão.
Neste sentido, não existe um único método
e nem o melhor método. Existe um método
mais adequado, dada o questão fundamental
de pesquisa.
MÉTODO CIENTÍFICO
3
MÉTODO CIENTÍFICO
4
Na pesquisa, o método adequado é aquele
que, face à pergunta original do pesquisador:
a) permite coleta e processamento corretos
dos dados;
b) ofereça os elementos adequados para
sua análise;
c) atenda os seus objetivos
Método quantitativo, qualitativo ou ambos?
Qual a prevalência da Hepatite B em Mato
Grosso?
O uso de agrotóxico tem sido causador do
aumento de câncer em Mato Grosso?
Em Cuiabá, como a violência doméstica tem se
expressado em suas vítimas, no que tange às
relações sociais?
Qual a percepção dos gestores de saúde, da
esfera regional e municipal, sobre o processo
de regionalização?
MÉTODO CIENTÍFICO
5
Medir, contar, calcular, inferir sempre
fizeram parte dos métodos adotados em
pesquisas das ciências físicas e biológicas:
Método quantitativo
Já a apreensão dos significados, da
percepção, das representações, dos
valores fazem parte dos métodos
desenvolvidos e adotados pelas ciências
humanas e sociais: Método qualitativo.
MÉTODO CIENTÍFICO
6
A pesquisa epidemiológica insere-se no
contexto do método quantitativo. É empírica,
baseada na coleta sistemática de dados sobre
eventos ligados à saúde em uma população
definida e na quantificação desses eventos.
O tratamento numérico dos fatores
investigados se dá através:
Mensuração de variáveis, geralmente em
amostras aleatórias;
Estimação de parâmetros populacionais;
Testes estatísticos de hipóteses
MÉTODO CIENTÍFICO
7
ALGUMAS NOÇÕES DE ESTATÍSTICA E
DE BIOESTATÍSTICA
8
Berquó: “É o ramo do conhecimento científico
que consta de um conjunto de processos que
têm por objeto a observação, a classificação
formal e a análise dos fenômenos coletivos ou
de massa (finalidade descritiva) e, por fim,
investigar a possibilidade de fazer
inferências indutivas válidas a partir dos
dados observados e buscar métodos capazes
de permitir esta inferência (finalidade
indutiva)”
ESTATÍSTICA
9
Estatística
Descrição Inferência Estatística
10
Subdivisão em duas áreas principais:
Estatística Matemática: Diz respeito ao
desenvolvimento de novos métodos de
inferência estatística e requer o conhecimento
de abstrações matemáticas para a sua
implementação. Tem por finalidade o estudo
das propriedades matemáticas dos fenômenos
de massa e a dedução e demonstração
rigorosas dos procedimentos e fórmulas usados
naquela.
ESTATÍSTICA E BIOESTATÍSTICA
11
Estatística Aplicada: diz respeito à
aplicação de métodos da matemática
estatística em áreas específicas como
economia, psicologia, administração medicina,
biologia, saúde pública etc.
Bioestatística, assim, “é o ramo da
estatística aplicada que diz respeito à
aplicação de métodos estatísticos em questões
médicas e biológicas” (Rosner).
Bioestatística é a estatística aplicada às
ciências da vida” (Berquó).
ESTATÍSTICA E BIOESTATÍSTICA
12
Importância da bioestatística em
investigação médica
Há cada vez mais aspectos mensuráveis
quantitativamente em medicina;
Há um grande espectro de variação
intrínseca na maioria dos processos
biológicos;
Provê meios de organizar informação de
maneira formal, ampla e sistematizada.
ESTATÍSTICA E BIOESTATÍSTICA
13
PESQUISA EPIDEMIOLÓGICA
Medir, contar, calcular, inferir.
A pesquisa epidemiológica é empírica,
baseada na coleta sistemática de dados sobre
eventos ligados à saúde em uma população
definida e na quantificação desses eventos.
Tratamento numérico mediante:
Mensuração de variáveis, geralmente em
amostras aleatórias;
Estimação de parâmetros populacionais;
Testes estatísticos de hipóteses14
Universo populacional
População-alvo
População de estudo
Amostra populacional
Noções de amostragem:
POPULAÇÃO E AMOSTRA
15
População (ou universo populacional):
refere-se ao grupo total, ou seja, todos os
indivíduos com uma mesma condição, sem
“fronteiras”. Um conceito teórico,
estatístico, não necessariamente limitado
ao conceito geográfico de população.
Amostra: é toda fração
(independentemente de seu tamanho)
obtida de uma população.
POPULAÇÃO E AMOSTRA
16
População-alvo: conjunto maior depessoas, com características demográficas,sociais ou clínicas (das quais se extraiu umaamostra), para as quais os resultados serãogeneralizados (ex.: gestantes adolescentesbrasileiras; todos os estudantes da UFMT).
A Amostra (população de estudo) é osubconjunto da população-alvo disponívelpara estudo (ex.: 1000 gestantesaleatoriamente selecionadas em 26 estados +DF; alunos da UFMT de 10 salas de aulaselecionadas aleatoriamente).
POPULAÇÃO E AMOSTRA
17
Pop. alvo
n3
n1 n2
n4
Universo
Populacional
18
N
Amostra
ESTATÍSTICA, PARÂMETRO E ESTIMATIVA
O resultado de qualquer cálculo estatístico
realizado em um grupo de indivíduos
(população ou amostra) gera uma
estatística.
Quando a estatística é obtida em uma
população denomina-se parâmetro.
Quando a estatística é obtida em uma
amostra denomina-se estimativa (de
parâmetro).
19
AMOSTRAGEM
É o ato de se obter uma amostra de uma
população, esta entendida como um conjunto
de elementos, cada um deles apresentando
uma ou mais características em comum.
Amostra é simplesmente uma parte da
população, mas há casos em que ela se impõe
(resistência de material ou produtos; testes
terapêuticos ou de experimentação de novas
tecnologias; pesquisas exploratórias;
inquéritos rápidos; necessidade de qualquer
conhecimento em prazo curto etc.). 20
AMOSTRAGEM
Algumas vantagens da amostra, em
relação à população total
Custo menor
Resultado em menor tempo
Objetivos podem ser mais amplos
Dados mais fidedignos
21
Não probabilística (ou de conveniência): é
uma amostra composta de indivíduos que atendem
os critérios de entrada e que são de fácil acesso do
investigador, mas que não representam uma
aleatoriedade.
Amostra intencional: quando as unidades que
compõem a amostra são escolhidas pelo
pesquisador;
Amostra auto definida: quando os critérios de
inclusão/exclusão pré-determinados a definem.
Amostra definida pela facilidade na execução do
projeto.
AMOSTRA PROBABILÍSTICA X NÃO
PROBABILÍSTICA
22
AMOSTRA PROBABILÍSTICA
Amostra aleatória simples
Amostra aleatória estratificada
Amostra sistemática
Amostra por conglomerados
Amostra por estágios múltiplos
AMOSTRA ALEATÓRIA SIMPLES
(COM OU SEM REPOSIÇÃO)
É coletada enumerando-se as unidades da
população e selecionando-se aleatoriamente um
subconjunto.
Cada unidade amostral, antes da tomada da
amostra tem igual probabilidade (n÷N) de
pertencer a ela.
Suponha que se queira uma amostra de 200
prontuários do HUJM dos 1200 pacientes
ambulatoriais de 2014, para a análise da
quantidade de exames solicitados e de sua
positividade ou negatividade. A probabilidade de
cada prontuário ser sorteado é 16,7%. 24
AMOSTRA ALEATÓRIA SIMPLES
(COM OU SEM REPOSIÇÃO)
Sem reposição: Para sortear os 200
prontuários, coloco 1200 números (ou fichas
numeradas de 1 a 1200) num recipiente e
retiro uma a uma até completar 200.
Com reposição: Do mesmo recipiente, retiro
uma ficha, anoto o nº e devolvo-a. Retiro uma
2ª ficha, anoto o nº e devolvo-a. Repito o
processo até ter 200 números diferentes.
Uso de tabela de números aleatórios
AMOSTRA ALEATÓRIA ESTRATIFICADA
Quando o pesquisador deseja que as
subpopulações que compõem a população,
segundo uma característica qualquer (sexo,
raça/cor, renda, faixa etária etc.), sejam
representadas na amostra com a mesma (ou
bem próxima) proporcionalidade em que se
encontram na população alvo.
Basta fazer subamostras de tamanho
proporcional (ou aproximado) à distribuição da
característica na população alvo.
AMOSTRA ALEATÓRIA ESTRATIFICADA
No exemplo do HUJM, se eu sei que 400
prontuários são da Médica, 200 da Cirúrgica,
350 da Pediatria e da 250 da GO, no processo
de seleção da amostra devo sortear:
67 prontuários da Médica (0,167 x 400)
33 prontuários da Cirúrgica (0,167 x 200)
58 prontuários da Pediatria (0,167 x 350)
42 prontuários da GO (0,167 x 250)
AMOSTRA SISTEMÁTICA
Se assemelha à amostragem aleatória simples,
porque inicialmente enumera-se as unidades da
população. Difere da aleatória simples porque a
seleção da amostra é feita por um processo
periódico pré-ordenado.
Ex.: amostra de 20% dos doentes de gonorreia
diagnosticados numa clínica de DST, com 100
casos. Sorteia-se um valor de 1 a 5. Se o
sorteado for o 2, incluem-se na amostra o
paciente 2, o 7, o 12 e assim por diante de cinco
em cinco.
Parte-se de uma ordenação natural da população
(registro de alunos, prontuários, registro DO
etc.).
Conhecendo-se o tamanho da população (N) e o
tamanho da amostra (n), calcula-se o intervalo
de amostragem (N/n = k) e faz-se um sorteio
entre o primeiro registro e o k registro,
encontrando-se o início amostral (i). Esse
procedimento define a aleatoriedade da amostra.
O n será definido por i; i + k; i + 2k; i +
3k;..........i + (n-1)k. (Cuidado quando o k não for
número inteiro)
30
AMOSTRA SISTEMÁTICA
No exemplo do HUJM, n = 200 e N = 1200.
Portanto k = 6 (1200/200).
Se os prontuários estão ordenados de 1 a 1200, é
só fazer o sorteio do início amostral (i). Se foi
sorteado o nº 5, os prontuários amostrados
seriam: 5, 11, 17, 23, 29, 35, 41, 47, 53, 59, ....,
1187, 1193, 1199.
Que procedimento eu deveria adotar para
garantir a estratificação pelos quatro tipos de
clínicas, neste processo de amostra sistemática
31
AMOSTRA SISTEMÁTICA
AMOSTRA POR CONGLOMERADOS
É uma amostra aleatória de agrupamentosnaturais de indivíduos (conglomerados) napopulação.
Tem vantagens logísticas na sua aplicação,porém aumenta a complexidade da análiseestatística porque os indivíduos de um mesmoconglomerado tendem a ter uma certahomogeneidade.
Ex.: num estudo de sobrepeso em uma população deadolescentes, alunos do ensino médio, foram sorteadasas salas de aula das escolas de um município eaplicado um questionário a todos os alunosadolescentes das turmas sorteadas.
A unidade amostral não é o indivíduo, mas um
conglomerado, ou seja, um conjunto de unidades
elementares da população. Pode ser uma classe
ou uma turma de escola, um escola, um bairro,
uma rua, um quarteirão, um domicílio.
Como a unidade amostral é o conglomerado, faz-
se sua numeração e sorteio como já mencionado e
todos os sujeitos de interesse da pesquisa que
pertencem àquele conglomerado devem ser
estudados.
AMOSTRA POR CONGLOMERADOS
AMOSTRA POR CONGLOMERADOS
Em relação ao tamanho, as amostras por
conglomerados, deve-se pagar uma “multa” (o “n”
deve ser maior), pelo fato da unidade amostral não
ser um indivíduo (indivíduos de um mesmo
conglomerado tendem a ser mais uniformes, do
que indivíduos selecionados aleatoriamente)
Há fórmulas mais complexas para calcular o “n”
nesse caso, mas na prática costuma-se duplicar o
valor de “n” calculado para uma amostra aleatória
simples, obtendo-se um resultado muito próximo
ao das fórmulas complexas.
AMOSTRA POR ESTÁGIOS MÚLTIPLOS
São amostras obtidas por métodos
combinados.
Exemplo: numa pesquisa sobre tabagismoem estudantes de ensino médio foramsorteadas as escolas e depois as turmas(amostra por conglomerados). De cadaturma, foram sorteados 20% dos alunos dosexo masculino e 20% dos alunos do sexofeminino (amostra aleatória estratificada).
TAMANHO DA AMOSTRA
Há grande número de equações para o cálculo
do tamanho amostral, dependendo da situação
e do propósito.
Para estimar uma média populacional:
2.
E
Zn
Z: valor crítico relativo ao nível de confiança desejado
(90%: 1,645; 95%: Z=1,96; 99%: Z=2,575)
σ : desvio-padrão populacional
E: margem de erro ou erro máximo da estimativa
TAMANHO DA AMOSTRA
Outra equação para estimar uma média:
(A)
)()(Z2
22
4 sn
: erro , ou o grau de confiança (1 - ) desejado
s: o desvio-padrão estimado
A: amplitude (A) do Intervalo de Confiança
TAMANHO DA AMOSTRA
Para diferença entre duas médias:
(d)
)()Z(Z2
22
2 sn
e : erro e erro aceitáveis
s: o desvio-padrão estimado
d: diferença estimada entre as duas médias
TAMANHO DA AMOSTRA
Para uma proporção (Epi-Info):
e
(Z)2
2
)1( ppn
Z: valor crítico relativo ao nível de confiança (90%:
1,645; 95%: Z=1,96; 99%: Z=2,575)
p: a proporção estimada
e: margem de erro que se admite (ex: 2%, 5%, 10%)
TAMANHO DA AMOSTRA
Cuiabá tem uma população de cerca de 250
mil pessoas com mais de 20 anos. Queremos
saber qual a proporção de dislipidemia nessa
população, com uma margem de erro de 5% e
um nível de confiança de 95%. Vamos supor
que conhecemos essa proporção em Campo
Grande (21%).
Quantos adultos eu deveria entrevistar em
Cuiabá para conhecer tal proporção?
TAMANHO DA AMOSTRA
Solução:
e
(Z)2
2
)1( ppn
Ou seja, será preciso entrevistar 253 adultos para
conhecer o percentual de dislipidemia em Cuiabá e, a
partir dele, fazer inferência para toda a população,
com nível de confiança de 95%.
33,2520025,0
6308,0 )79,0(21,0
0,05
(1,95)2
2
n
TAMANHO DA AMOSTRA
Para uma proporção:
(A)
)(Z2
2
)1( 4 ppn
: erro , ou o grau de confiança (1 - ) desejado p: a
proporção estimada
A: amplitude do Intervalo de Confiança
TAMANHO DA AMOSTRA
Para diferença entre duas proporções:
)-(
)(Z
21
)1(2
2
00
2
pp
Z ppn
e : erro e erro aceitáveis
p0: o valor médio (ponderado) das duas proporções
(p1 - p2): a diferença estimada entre as duas proporções
PESQUISA EPIDEMIOLÓGICA
Medir, contar, calcular, inferir.
A pesquisa epidemiológica é empírica,
baseada na coleta sistemática de dados sobre
eventos ligados à saúde em uma população
definida e na quantificação desses eventos.
Tratamento numérico mediante:
Mensuração de variáveis, geralmente em
amostras aleatórias;
Estimação de parâmetros populacionais;
Testes estatísticos de hipóteses44
DADOS EM SAÚDE
Variável: um atributo ou uma
característica que, quando
observada, pode variar de um
indivíduo para outro
45
Esquematicamente, pode-se ter:
1.a.Normalmente Registrados
1. Dados Existentes
1.b. Não Registrados
2. Dados Inexistentes
DADOS EM SAÚDE
46
DADOS EM SAÚDE
Dados Secundários: São dados
quantitativos ou qualitativos existentes e
rotineiramente registrados:
Por Sistemas Nacionais de Informação
SINASC SIM
SIH-SUS SIA-SUS
SINAN HIPERDIA
SIOPS VIGITEL
47
DADOS SECUNDÁRIOS
Por sistemas, serviços e instâncias de saúde
(ou outros setores)
Leis, resoluções, portarias
Atas de CES, CMS, CIB, CGR
Registros em Rel. de Ocorrência
Ambulatorial
Registros em Prontuários Médicos
Registros em Livros de Serviços
Artigos, teses, dissertações, etc. 48
DADOS EM SAÚDE
Dados Primários: São dados quantitativos ou
qualitativos, existentes ou não, e que não têm
registro rotineiro (ao menos daquela variável de
interesse)
Violência doméstica Satisfação do usuário
Diabetes entre idosos Tabagismo
Efeitos de uma nova droga ou vacina
Intercorrências pós cirurgias bariátricas
Afecções respiratórias secundárias a queimadas49
DADOS EM SAÚDE
A aplicação (ou não) de ferramentas e modelos
estatísticos na análise dos dados coletados vai
depender, em grande parte, do nível de
mensuração desses dados.
O nível mais elementar de mensuração
consiste na classificação dos indivíduos de uma
população, a partir das variáveis de estudo,
tentando-se constituir grupos de indivíduos
dentro de determinadas categorias.50
VÁRIÁVEIS E NÍVEIS DE MENSURAÇÃO
As variáveis podem ser qualitativas (ou
categóricas) e quantitativas (ou
numéricas), dependendo do nível de
mensuração em que podem ser medidas.
As variáveis qualitativas podem ser
nominais e ordinais
As variáveis quantitativas podem ser
contínuas e discretas
51
CLASSIFICAÇÃO DE VÁRIÁVEIS E
NÍVEIS DE MENSURAÇÃO
QUALITATIVA QUANTITATIVA
ORDINALNOMINAL
DISCRETA CONTÍNUA
52
VARIÁVEIS
Qualitativas (Categóricas)
Expressam uma qualidade (sexo, raça, cor, brilho)
Medidas em escala nominal ou ordinal
Escala nominal (Categóricas nominais):
quando cada observação só pode ser classificada
em determinadas categorias, que não permitem
ordenação. Não se aplicam as operações usuais de
aritmética. Se a classificação só é possível em
duas categorias fala-se em variáveis binárias ou
dicotômicas. Ex: Sexo, Tabagismo (sim/não),
Crescimento bacteriano (sim/não) 53
VARIÁVEIS
Qualitativas (Categóricas)
Escala ordinal (Categóricas ordinais):
quando além de classificar os indivíduos pode-se
ordená-los, relativamente ao grau em que
possuem a característica em questão. Na escala
nominal valem apenas as operações de maior do
que ou menor do que.
Grau de Escolaridade (analfabeto, curso
primário, secundário, superior);
Nível Socioeconômico (A, B, C, D, E);
PH (ácido, neutro, básico)
Nível de poluição (baixo, moderado, alto) 54
VARIÁVEIS
Quantitativas (ou Numéricas)
Discretas: somente podem assumir valores
pertencentes a um conjunto enumerável
(inteiros). Resultam geralmente de contagem.
Nº de filhos, Nº dentes (CPOD), Nº anos
completos de estudo, Nº. colônias de bactérias.
Contínuas: quando a variável puder assumir
qualquer valor numérico num determinado
intervalo de variação (reais). Resultam
geralmente de medições. Peso, estatura,
dosagem de eletrólitos, pressão arterial etc.55
VARIÁVEIS
Quantitativas (ou Numéricas)
São mensuradas principalmente em escala
de razões
Fala-se em escala de razões quando as
características assumem valores ao longo de
uma escala de zero a “n”, onde o zero é fixado
de maneira não arbitrária.
Permitem a aplicação de todas as operações
aritméticas (soma, média, mediana,
variância, desvio padrão, etc.)
56
APURAÇÃO DE DADOS
(QUANTIFICAÇÃO DE EVENTOS)
Processo de determinar o número de
constituintes que vai compor cada uma
das categorias originadas ao se classificar
a população de estudo de acordo com os
aspectos (variáveis) investigados
A apuração visa determinar as
frequências das categorias, ou o número
de indivíduos pertencentes à categoria.
57
APURAÇÃO DE DADOS
Em geral, inicialmente são construídas
tabelas unidimensionais, com as
distribuições das frequências absolutas
(números) e relativas (percentuais) das
categorias de uma só variável, mesmo que
a tabela contemple diversas variáveis
(TABELÃO).
Dependendo da variável em estudo, a
utilização de frequências acumuladas é
aconselhável.58
59
APRESENTAÇÃO TABULAR
ELEMENTOS ESSENCIAIS
TÍTULO
CABEÇALHO
COLUNA INDICADORA
CORPO
FONTE
60
Se a intenção é mostrar os dados em uma
tabela e se há um número muito grande de
categorias (por ex. idade variando de 10 a
50 anos) , o ideal é que elas sejam
agrupadas em classes de categorias (como
se verá à frente);
Por exemplo: num banco de dados de
nascimentos, se eu quero explorar a idade
materna e contemplar a “adolescência”,
posso trabalhar com intervalos de 5 anos
61
APURAÇÃO/APRESENTAÇÃO DE DADOS
Distribuição de mães residentes em Sorriso, que deram à luz em
2011, segundo idade
Faixa Etária f % % acum.
10|-15 10 0,7 0,7
15|-20 239 17,8 18,5
20|-25 377 28,2 46,7
25|-30 379 28,3 75,0
30|-35 204 15,2 90,2
35|-40 109 8,1 98,3
40|-45 21 1,6 99,9
45|-50 1 0,1 100
Total 1340 10062
Fonte: Elaboração própria com base em dados do SINASC
Eventualmente (como quando que se
apreendem os dados do Datasus pelo
Tabnet), as variáveis estão apresentadas
em categorias de classes.
Neste caso, é possível calcular medidas
resumo usando fórmulas específicas
Medidas resumo, medidas de posição ou
medidas de tendência central: Média,
mediana e moda.
63
APURAÇÃO/APRESENTAÇÃO DE DADOS
1. Média Aritmética: representa o centro de
equilíbrio da distribuição. A Média
Aritmética Simples é definida pela soma de
todas as observações, dividida pelo número
total de observações.
Em termos estatísticos (formula “genérica”):
1.1.
nx
n
iix
1
MÉDIA ARITMÉTICA
64
1.2.
nx
k
iii fx
1
Média Aritmética em Distribuições de
Frequência (qdo pelo menos uma é 1)
Na maioria das pesquisas, trabalha-se com
centenas ou milhares de observações, e obviamente
uma mesma medida (da variável em estudo) é
encontrada em vários indivíduos, o que leva à sua
apresentação numa distribuição de frequências, as
quais podem variar de 0 a k.
65
Média Aritmética em Distribuições de Frequência com Intervalo de Classe
nx
k
iipmi fx
1
1.3
Onde pmi= ponto médio do intervalo da classe
Às vezes, dada a amplitude de variação dos valores
da variável estudada, é necessário o seu
agrupamento em classes, variando de 0 a k. Neste
caso , a média é dada por:
66
Distribuição de mães residentes em Sorriso, que deram à luz em
2011, segundo idade
Faixa Etária f Pto médio
10|-15 10 12,5 125
15|-20 239 17,5 4182,5
20|-25 377 22,5 8482,5
25|-30 379 27,5 10422,5
30|-35 204 32,5 6630
35|-40 109 37,5 4087,5
40|-45 21 42,5 892,5
45|-50 1 47,5 47,5
Total 1340 34870 67
Fonte: Elaboração própria com base em dados do SINASC
fx ipmi
68
APURAÇÃO/APRESENTAÇÃO DE DADOS
Média Aritmética em Distribuições de
Frequência com intervalo de classe:
anosx 02,261340
34870
nx
k
iipmi fx
1
2. Mediana (Med): é a medida que divide a
distribuição (ordenada em ordem crescente
ou decrescente) em duas partes com igual
número de elementos. Ou seja, a mediana é
uma “separatriz”.
Por essa característica, a mediana é
influenciada pelo tamanho da amostra (se n
par ou impar), embora essa influência seja
tanto menor quanto maior a amostra.
O cálculo oferece o “posto” ocupado pela
observação, cujo valor será a mediana.
MEDIANA
69
2.1. Se o número de observações for impar a
mediana será o valor relativo à observação que
ocupa a posição
2.2. Se o número de observações for par a
mediana será o valor relativo à observação que
ocupa a posição a média entre as posições
e
MEDIANA
2
1n
2
n
1
2
n
70
A expressão pode ser utilizada
para o cálculo da posição do elemento
que representa a mediana,
independentemente de o “n” ser par ou
ímpar, desde que o aluno ou
pesquisador saiba utilizar corretamente
seus resultados
MEDIANA
2
1n
71
Por ex: Para um n = 179, a mediana vai ser
dada pelo valor da variável ocupada pela 90ª
pessoa da amostra [(179+1)/2];
Se o n = 244, a mediana seria ocupada pela
122,5ª pessoa da amostra [(244 + 1)/2]. Só que
ela “não existe”, mas existem a 122ª e a 123ª;
ou seja a mediana será dada pela média dos
valores da variável expressa por essas duas
pessoas.
MEDIANA
72
APURAÇÃO/APRESENTAÇÃO DE DADOS
Numa Distribuição de Frequência (sem ou com
Intervalo de Classe), há necessidade de se
calcular as frequências absolutas ou relativas
acumuladas e o valor da Med é obtido pelo
seguinte cálculo
73
f
fLMed
classemed
acumant
i
n
a
2
Li = Limite inferior da classe onde se situa a mediana
a = amplitude do intervalo de classe
n/2 = posição da mediana (independentemente se par ou impar)
facumant = frequência acumulada anterior à mediana
fclassemed = frequência simples da classe mediana
MEDIANA
Mediana em Distribuição de Frequência ou Distribuição de Frequência com
Intervalo de Classe
Quando os dados são organizados numa
distribuição de frequência (com ou sem
intervalo de classe) há que se considerar a
frequência acumulada, a frequência absoluta,
a amplitude do intervalo entre outros
elementos. Neste caso, a Mediana respeita a
seguinte equação aritmética:74
f
fLMed
classemed
acumant
i
n
a
22.1
Li = Limite inferior da classe onde se situa a mediana
a = amplitude do intervalo de classe
n/2 = posição da mediana (independentemente se par ou impar)
facumant = frequência acumulada anterior à mediana
fclassemed = frequência simples da classe mediana
75
Distribuição de mães residentes em Sorriso, que deram à luz em
2011, segundo idade
Faixa Etária f % % acum.
10|-15 10 0,7 0,7
15|-20 239 17,8 18,5
20|-25 377 28,2 46,7
25|-30 379 28,3 75,0
30|-35 204 15,2 90,2
35|-40 109 8,1 98,3
40|-45 21 1,6 99,9
45|-50 1 0,1 100
Total 1340 10076
Fonte: Elaboração própria com base em dados do SINASC
Distribuição de mães residentes em Sorriso, que deram à luz em
2011, segundo idade
Faixa Etária f % % acum.
10|-15 10 0,7 0,7
15|-20 239 17,8 18,5
20|-25 377 28,2 46,7
25|-30 379 28,3 75,0
30|-35 204 15,2 90,2
35|-40 109 8,1 98,3
40|-45 21 1,6 99,9
45|-50 1 0,1 100
Total 1340 10077
Fonte: Elaboração própria com base em dados do SINASC
APURAÇÃO/APRESENTAÇÃO DE DADOS
78
f
fLMed
classemed
acumant
i
n
a
2
anosMed 58,253,28
7,462
100
525
anosMed 58,25379
6262
1340
525
OU
MODA
3. Moda (Mo): É o valor mais frequente entre
todos os observados na distribuição, ou seja, é o
valor da variável que apresenta frequência
máxima.
A moda nem sempre existe e também pode não
ser única
Pode ser utilizada para variáveis quantitativas
e qualitativas
A forma como se organiza a distribuição em
intervalos de classe pode influenciá-la
Quando de distribuição com intervalo de classe
fala-se em Classe Modal79
Quando os dados estão apresentados em intervalos
de classe pode-se calcular o valor exato da moda
utilizando-se a equação abaixo (Moda de Czuber),
desde que a moda não se encontre nos extremos da
distribuição:
Li = Limite inferior da classe onde se situa a moda
a = amplitude do intervalo de classe
d1 = frequência da classe anterior à classe modal
d2 = frequência da classe posterior à classe modal
APURAÇÃO/APRESENTAÇÃO DE DADOS
21
1
dd
daLMo i
Distribuição de mães residentes em Sorriso, que deram à luz em
2011, segundo idade
Faixa Etária N
10|-15 10
15|-20 239
20|-25 377
25|-30 379
30|-35 204
35|-40 109
40|-45 21
45|-50 1
Total Total81
Fonte: Elaboração própria com base em dados do SINASC
Neste caso a Moda de Czuber fica superestimada,
porque na distribuição mais desagregada
constatou-se que ela é bimodal (23 e 27) e a
organização em intervalos deixou-as em classes
distintas. Se as classes fossem organizadas de
modo que um dos intervalos fosse 23|-28 , a Mo
seria 25,87 anos
APURAÇÃO/APRESENTAÇÃO DE DADOS
21
1
dd
daLMo i
anosMo 24,28204377
377525
Se a Média, a Mediana e a Moda são
consideradas “Medidas Resumo”, “Medidas
de Posição” ou “Medidas de Tendência
Central”, há outras, que mensuram a
dispersão.
As medidas de dispersão (ou de
variabilidade) mais utilizadas são a
Variância (S2)e o Desvio Padrão (S),
este último informa a variabilidade das
medidas da distribuição estudada, em
relação à média. 83
APURAÇÃO/APRESENTAÇÃO DE DADOS
84
VARIÂNCIA E DESVIO PADRÃO
1
1
2
2
n
xxn
i
i
S4.1
4.2
4.3
11
2
2
n
fxxk
i
ii
S
1
1
2
2
n
fxxk
i
ipmi
S
quando
quando
quandon
x
k
iipmi fx
1
nx
k
iii fx
1
nx
n
iix
1
Apresentação gráfica de uma variável
quantitativa, na forma de um
histograma ou um polígono de
frequência;
A relação entre Média, Mediana e Moda
A dispersão da distribuição dos valores,
em relação à média.
São elementos importantes para
observar se a distribuição tende à
normal 85
APURAÇÃO/APRESENTAÇÃO DE DADOS
MEDIDAS DE POSIÇÃO OU MEDIDAS DE
TENDÊNCIA CENTRAL
A Média ( ), a Mediana (Med) e a Moda
(Mo) são conhecidas como “Medidas Resumo”,
“Medidas de Posição” ou “Medidas de
Tendência Central”.
Elas oferecem importantes informações sobre o
universo (a população de estudo) que está
sendo investigado.
A magnitude dessas três medidas, ou pelo
menos duas delas (Média e Mediana), ajuda a
visualizar a simetria ou a assimetria da
distribuição, quando ela tende à normal.
x
86
APURAÇÃO/APRESENTAÇÃO DE DADOS
A distribuição normal é perfeitamente
Simétrica quando: Média = Mediana =
Moda
Distribuições Assimétricas
Assimetria Positiva ou Distribuição
Assimétrica à Direta - geralmente:
Mo<Med<Média;
Assimetria Negativa ou Distribuição
Assimétrica à Esquerda - geralmente
Mo>Med>Média.87
0
10
20
30
40
50
60
70
80
90
Idade
Distribuição de mães residentes em Sorriso, que deram à
luz em 2011, segundo idade
Fonte: Elaboração própria com base em dados do SINASC
88
Distribuição de mães residentes em Sorriso, que deram à
luz em 2011, segundo idade
0
10
20
30
40
50
60
70
80
90
Média = 25,52 ; Mediana = 25 anos; Moda 23 e 27 (Bimodal)
Média
Médiana
Moda
Média > Mediana > Moda 23
89
Distribuição dos nascimentos segundo peso ao nascer,
Sorriso, 2011.
Plotagem de todos os pesos agregados em 19
classes, cada qual com amplitude de 250 gramas.
0
50
100
150
200
250
300
350
90
Distribuição dos nascimentos segundo peso ao nascer,
Sorriso, 2011.
Mo>Med>Média: Assimetria Negativa ou
Distribuição Assimétrica à Esquerda
0
50
100
150
200
250
300
350
x
MoMed
91
PRINCÍPIOS GERAIS DO
MÉTODO CIENTÍFICO
&
ALGUMAS NOÇÕES DE ESTATÍSTICA E
DE BIOESTATÍSTICA
AULA 192
Prof. Dr. João H. G. Scatena
Cuiabá
Abril/2014