estatística descritivafbgoncalves/c2.pdf · rio de janeiro 30 22,2 rio grande do sul 35 25,9 minas...
TRANSCRIPT
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Estatística Descritiva
Flávio B. GonçalvesBaseado no material do Prof. Marcos Prates
2018/01
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição1 Introdução
O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística
2 Análise DescritivaTipos de VariáveisGráficos e TabelasSintese Numérica
3 Medidas de Tendência CentralMédia AritméticaMédia PonderadaMedianaModa
4 Medidas de VariabilidadeVariânciaDesvio PadrãoCoeficiente de Variação
5 Medidas de PosiçãoPercentisEscore PadronizadoBoxplot
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística
Definição
Estatística: ciência que se preocupa com a descrição, análisee interpretação de dados experimentais.
A Estatística está dividida em duas grandes áreas:
Estatística Descritiva: que se preocupa com a organizaçãoe descrição de dados;
Inferência Estatística: que trata da análise e interpretaçãodos dados.
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística
A Estatística é aplicável a qualquer ramo do conhecimentoonde se manipulem dados experimentais, como por exemplo:
Medicina;
Ciências Biológicas;
Engenharia;
Economia;
Ciências Sociais,
Ciência da Computação (Machine Learning),
Administração, ....
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística
Definição
População: é um conjunto de elementos com pelo menos umacaracterística comum. Essa característica comum devedelimitar inequivocamente quais os elementos que pertencema população e quais os que não pertencem.
Uma vez perfeitamente caracterizada a população, opasso seguinte é o levantamento de dados acerca dacaracterística (ou características) de interesse do estudoem questão.Na maioria das vezes não é conveniente, ou mesmopossível, realizar o levantamento dos dados referentes atodos os elementos da população.
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística
Devemos, então, limitar nossas observações a umaparcela da população, isto é, uma amostra provenientedesta população.
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística
Definição
Amostra: Uma amostra é qualquer subconjunto (finito) dapopulação.
Para que as conclusões sobre o fenômeno em estudosejam válidas, a amostra deve ser representativa dapopulação.A escolha "subjetiva"das observações que irão compor aamostra, em geral, produz uma amostra tendenciosa, epode levar conclusões completamente equivocadas.Amostras tendenciosas podem ser evitadas se o processode amostragem for aleatório;
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística
Uma amostra aleatória pode ser obtida de duas formas:1 com reposição;2 sem reposição;
Obervação
O processo de amostragem é de fundamental importância nateoria Estatística!!!
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística
O objetivo da Inferência Estatística é tirar conclusõessobre a população com base nos resultados observadosem amostras extraídas dessas populações.A Inferência Estatística baseia-se num processo deindução, isto é, um processo de raciocínio em que,partindo do conhecimento de uma parte, procura-se tirarconclusões sobre a realidade, no todo.É importante notar que o processo de indução (ouinferência) não é exato, pois o mesmo sempre estarásujeito a erros.A Inferência Estatística nos diz até que ponto poderemosestar errando em nossas induções, e com queprobabilidade!!!
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística
Em suma, a Inferência Estatística busca obter resultadossobre as populações a partir de amostras, dizendotambém qual a precisão desses resultados, e com queprobabilidade se pode confiar nas conclusões obtidas.Evidentemente, a forma como as inferências serãorealizadas irá depender de cada tipo de problema.É intuitivo pensar que, quanto maior a amostra, maisprecisas e confiáveis serão as inferências realizadas sobrea população.Neste contexto, resultados mais perfeitos seriam obtidospelo exame completo de toda a população, ao qual secostuma denominar censo ou recenseamento.Em muitos casos, porém, tal afirmação pode não serválida!!!
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística
Amostras podem ser coletadas/examinadas por umaequipe de alto nível, fornecendo resultados confiáveis, aopasso que, para fazer o censo, deveríamos recorrer a umaequipe bem maior, cujo nível médio seria mais baixo,diminuindo a confiabilidade dos dados obtidos.
Na maioria dos casos é possível determinar o tamanhonecessário para uma amostra de tal forma a garantirinferências suficientemente precisas e confiáveis.
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Obervação
Para os conceitos apresentados a seguir será irrelevante se oconjunto de elementos observados constitui uma amostra ou toda apopulação.
Uma vez dispondo-se dos resultados observados, o passoseguinte deverá ser, necessariamente, extrair as informaçõescontidas nesses resultados.
É necessário que se tenham bem definidas quais característicasde interesse deverão ser verificadas.
Se houver n elementos fisicamente considerados no estudo,estes elementos fornecerão n valores associados a uma dadacaracterística de interesse.
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Desta forma, iremos sempre trabalhar com os valores dealguma variável de interesse, e não com os elementosoriginalmente considerados.
Tipos de variáveis:
Variáveis Qualitativas
Nominais;Ordinais;
Variáveis Quantitativas
Discretas;Contínuas;
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Definição
Variáveis Qualitativas: Uma variável será qualitativa quandoresultar em uma classificação por tipos ou atributos.
Definição
Variáveis Quantitativas: Uma variável será quantitativa quandoseus valores forem expressos em números que representamcontagens ou medidas.
Definição
Variáveis Qualitativas Nominais: não existe nenhuma ordenaçãonatural dos atributos (ou qualidades) da variável;
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Exemplos
População: moradores de uma cidade.
1 Variável: sexo (masculino, feminino).
2 Variável: cor dos olhos (pretos, castanhos, verdes ou azuis).
Definição
Variáveis Qualitativas Ordinais: existe uma ordenação natural dosatributos (ou qualidades) da variável;
Exemplo
População: eleitores de uma cidade.
Variável: desempenho do atual prefeito (ótimo, bom, regular,ruim, péssimo).
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Definição
Variáveis Qualitativas Discretas: os possíveis valores da variávelformam um conjunto finito ou infinito enumerável. Variáveisquantitativas discretas são, em geral, resultados de contagens.
Exemplos
1 População: casais residentes em uma cidade.
Variável: número de filhos.
2 População: as jogadas possíveis de um dado.
Variável: valor obtido em cada jogada.
3 População: aparelhos produzidos em uma linha de montagem.
Variável: número de defeitos.
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Definição
Variáveis Qualitativas Contínuas: os possíveis valores da variávelformam um intervalo de números reais. Variáveis quantiativascontínuas são, em geral, resultados de mensurações (sujeitas aerros!!!).
Exemplos
1 População: casais residentes em uma cidade.
Variável: altura.
2 População: sabonetes de certa marca e tipo.
Variável: peso líquido.
3 População: aparelhos produzidos em uma linha de montagem.
Variável: diâmetro externo.
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
O primeiro passo para se descrever graficamente um conjuntode dados observados é verificar as frequências dos diversosvalores existentes da variável.
Definição
Frequência simples (ou absoluta): definimos a frequência de umdado valor de uma variável (qualitativa ou quantitativa) como onúmero de vezes que esse valor foi observado.
Denotaremos a frequência do i-ésimo valor observado por fi .
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Sendo n o número total de elementos observados, verifica-seimediatamente que
k∑i=1
fi = n, (1)
onde k é o número de diferente valores existentes da variável.
Definição
Distribuição de frequências: é a associação das respectivasfrequências a todos os distintos valores observados da variável emestudo.
Alternativamente, poderemos usar as frequências relativas.
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Definição
Frequência relativa: definimos a frequência relativa (denotaremosp′i ), ou proporção de um dado valor de uma variável (qualitativa ouquantitativa) como o quociente de sua frequência pelo número totalde elemntos observados, isto é,
p′i =fin. (2)
Evidentemente, temos quek∑
i=1
p′i = 1.
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Exemplo
Considere a distribuição dos fundos relativos a cada região do Brasil,de acordo com o Anuário da Bolsa de Valores de São Paulo de 1970.
Tabela: Distribuição dos fundos relativos às regiões do Brasil.
Número de EstabelecimentosEstado Unidades %São Paulo 38 28,1Rio de Janeiro 30 22,2Rio Grande do Sul 35 25,9Minas Gerais 15 11,1Demais Estados 17 12,7Total 135 100
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Variáveis qualitativas (categóricas) podem ser representadas dediversas formas.
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Figura: Gráfico de setores (pizza) (a) e gráfico de barras (b).
Estatística Descritiva
O gráfico de barras também é adequado para representar adistribuição de frequências de variáveis quantitativas discretas.
Exemplo
Considere o conjunto de dados a seguir, constituído hipoteticamentepor 20 valores da variável "número de defeitos por unidade", obtidosa partir de aparelhos retirados de uma linha de montagem.
2 4 2 1 23 1 0 5 10 1 1 2 01 3 0 1 2
Tabela: Distribuição do númerode defeitos por unidade.
xi fi p′i0 4 0,201 7 0,352 5 0,253 2 0,104 1 0,055 1 0,05
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Exemplo
Tabela: Distribuição do númerode defeitos por unidade.
xi fi p′i0 4 0,201 7 0,352 5 0,253 2 0,104 1 0,055 1 0,05
Figura: Gráfico de barras -distribuição do número dedefeitos por unidade.
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Quando tratamos de variáveis quantitativas, uma outra forma derepresentação gráfica baseada nas frequências acumuladaspode ser de interesse.
Definição
Frequência acumulada: a frequência acumulada (denotaremos Fi )em qualquer ponto do eixo das abscissas é definida como a somadas frequências de todos os valores menores ou iguais ao valorcorrespondente a esse ponto. Analogamente, teríamos asfrequências relativas acumuladas (denotada neste caso por P ′i ).
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Exemplo
Tabela: Distribuição do número de defeitos por unidade.
xi fi F ′i p′i P ′i0 4 4 0,20 0,201 7 11 0,35 0,552 5 16 0,25 0,803 2 18 0,10 0,904 1 19 0,05 0,955 1 20 0,05 1,00
Estatística Descritiva
Quando a variável de interesse é contínua o gráfico de barrasnão é mais adequado para a representação da distribuição defrequências da variável devido à característica contínua damesma.
Exemplo
O nível de albumina no sangue, um indicador do estado nutricional,foi medido em um grupo de n = 60 pacientes, obtendo-se osresultados apresentados na tabela abaixo.
Tabela: Nível de albumina no sangue (g/dL).
4.44 4.47 4.48 4.51 4.54 4.54 4.61 4.64 4.66 4.684.68 4.69 4.71 4.73 4.76 4.76 4.76 4.81 4.86 4.864.87 4.88 4.90 4.90 4.95 4.95 4.96 4.97 4.98 4.984.99 5.00 5.01 5.01 5.01 5.02 5.04 5.05 5.08 5.095.09 5.10 5.11 5.11 5.16 5.17 5.18 5.18 5.19 5.245.24 5.26 5.27 5.27 5.29 5.32 5.35 5.46 5.50 5.85
A representação adequada de variáveis quantitativas contínuasdá-se através da construção de classes de frequências.
Note que ao agruparmos os dados em classes de frequênciaspara facilitar a visualização dos dados, alguma informação éperdida.
Tabela: Distribuição de frequências do nível de albumina no sangue(g/dL).
frequência absoluta frequência relativaClasse simples acumulada simples acumulada
[4.20,4.44) 1 1 0.02 0.02[4.44,4.68) 10 11 0.17 0.2[4.68,4.92) 13 24 0.23 0.41[4.92,5.16) 21 45 0.35 0.77[5.16,5.40) 12 57 0.18 0.95[5.40,5.64) 2 59 0.03 0.98[5.64,5.88) 1 60 0.02 1
Total 60 - 1 -
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Como construir as classes de frequências?n - número total de observações disponíveis;k - número classes;h - amplitude das classes;R - amplitude do conjunto de dados (diferença entre omaior e o menor valores observados);
Temos que
h ≈ Rk
; (3)
Emm geral, aceita-se como razoáveis valores de k variando de5 a 15.
Algumas regras para a escolha de k :1 k =
√n;
2 k = 1 + 3.3 log10(n);
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Figura: Histograma (a) e gráfico das frequências acumuladas (ogiva) (b) para avariável nível de albumina no sangue (g/dL)
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
O histograma também pode ser usado em algumas situaçõespara representar a distribuição de frequências de uma variávelquantitativa discreta.
Exemplo
Considere o conjunto de dados a seguir, constituído hipoteticamentepor 40 valores da variável "número diário de furtos"corridos em umadeterminada cidade.
0 0 0 1 1 1 1 1 1 11 1 2 2 2 2 2 2 2 33 3 4 4 4 4 4 5 5 67 7 8 9 9 11 13 17 18 25
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Exemplo
Tabela: Distribuição do número de pessoas com AIDS segundo osexo, no período 1983 à 1996.
ano homens mulheres1983 100 1001984 200 801985 400 801986 1000 1201987 2000 3001988 3000 16001989 5000 30001990 20000 130001991 50000 180001992 100000 250001993 100000 290001994 120000 385001995 110000 400001996 100000 45000
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
Exemplo
Figura: Número de pessoas com AIDS segundo o sexo, no período 1983 à 1996.
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Tipos de VariáveisGráficos e TabelasSintese Numérica
A sintese numérica de um conjunto de observações pode ser divididaem:
medidas de tendência central;
medidas de variabilidade;
medidas de posição;
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Média AritméticaMédia PonderadaMedianaModa
Média aritmética (populational):
µ =1N
N∑i=1
xi (4)
em que
N é o tamanho da população em estudo;
Média aritmética (amostral):
x̄ =1n
n∑i=1
xi (5)
em que
n é o tamanho da amostra (parcela da população);
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Média AritméticaMédia PonderadaMedianaModa
A média ponderada é definada como
X̄ =n∑
i=1
wixi (6)
em que
n é o número de elementos observados;wi é tal que 0 ≤ wi ≤ 1 e
∑ni=1 wi = 1;
Para dados em classes de frequência, temos
X̄ ≈n∑
i=1
p′i x∗i (7)
em que x∗i denota o ponto médio da i-ésima classe.
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Média AritméticaMédia PonderadaMedianaModa
A mediana é definada como aquele valor que divide o conjuntode observações em duas partes de igual tamanho, ou seja, amediana é o valor md tal que 50% da observações seencontram abaixo (acima) deste valor;
Cálculo da mediana:
ordenamos os dados (em ordem crescente);Caso 1: n é ímpar
md = x n+12
; (8)
Caso 1: n é par
md =12
(x n2
+ x n2 +1); (9)
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Média AritméticaMédia PonderadaMedianaModa
A moda (denotaremos mo) é definada como o valor observadocom mais frequência;
Exemplo: Os dados a seguir representam as idades, em anoscompletos, de todas as crianças atendidas em um certo dia porum posto de saúde.
1,4,0,1,1,7,3,2,0,0,1,4,0,5,2,1,3,3
Tabela: Distribuição de frequência da idade das crianças atendidas.
idade 0 1 2 3 4 5 7freq 4 5 2 3 2 1 1
neste caso, temos que mo = 1;
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
Média AritméticaMédia PonderadaMedianaModa
Cálculo da moda (variáveis contínuas):
mo = LImo +∆1
∆1 + ∆2× h (10)
em que
LImo - limite inferior da classe modal;h - amplitude das classes;∆1 = fmo − fant∆2 = fmo − fpostfmo - freq. da classe modal;fant - freq. da classe anterior à classe modal;fpost - freq. da classe posterior à classe modal;
Observação: Este procedimento só é válido para distribuiçõesunimodais!
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
VariânciaDesvio PadrãoCoeficiente de Variação
A amplitude total (AT) de um conjunto de dados é definida édefinida como a diferença entre o maior e o menor valorobservado, isto é,
AT = max −min, (11)
em que
max - denota o maior valor observado;min - denota o menor valor observado;
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
VariânciaDesvio PadrãoCoeficiente de Variação
A variância populacional é definida como
σ2 =1N
N∑i=1
(xi − µ)2; (12)
A variância amostral é definida como
S2 =1
n − 1
n∑i=1
(xi − x̄)2, (13)
em que
N é o tamanho da população em estudo;µ é a média populacional;n é o tamanho da amostra (parcela da população);x̄ é a média amostral;
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
VariânciaDesvio PadrãoCoeficiente de Variação
O desvio padrão populacional é definida como
σ =
√√√√ 1N
N∑i=1
(xi − µ)2; (14)
O desvio padrão amostral é definida como
S =
√√√√ 1n − 1
n∑i=1
(xi − x̄)2; (15)
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
VariânciaDesvio PadrãoCoeficiente de Variação
O coeficiente de variação é definida como
CV =Sx̄, (16)
em que
S é o desvio padrão amostral;x̄ é a média amostral;
se estivermos trabalhando com dados referentes a toda apopulação, substituímos S e x̄ por σ e µ em (16),respectivamente;
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
VariânciaDesvio PadrãoCoeficiente de Variação
Observações
quanto menor é o CV, menor é o grau de dispersão (ouvariabilidade) associado ao conjunto de dados;
o CV é uma medida adimensional, isto é, não depende daunidade de medida utilizada;
bastante útil para comparar a variabilidade entre conjuntos dedados medidos em escalas diferentes (como por exemplo, pesoe altura);
possibilita a comparação da variabilidade de uma variável entrediferentes grupos (por exemplo, o peso de homens e mulheres);
valores do CV inferiores a 0.25 indicam que o conjunto de dadosé razoavelmente homogêneo;
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
PercentisEscore PadronizadoBoxplot
O percentil de ordem k (onde k é qualquer valor entre 0 e 100),denotado por Pk , é o valor tal que k% dos valores observadossão menores ou iguais a Pk .
Cálculo de Pk :
ordene os dados (em ordem crescente);obtenha L = (k/100)× n, em que n denota o número deobservações, e k é a ordem do percentil;se L não é inteiro⇒ arredonte L para o maior inteiro maispróximo (L ↑ L̃) e tome
Pk = xL̃ (17)
se L é inteiro, tome
Pk =12
(xL + xL+1) (18)
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
PercentisEscore PadronizadoBoxplot
definimos
Q1 - primeiro quantil (Q1 = P25);Q2 - segundo quantil (Q2 = P50 = mo);Q3 - terceiro quantil (Q3 = P75);
a distância interquartílica (DI) é definida da seguinte forma
DI = Q3 −Q1; (19)
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
PercentisEscore PadronizadoBoxplot
Os escores padronizados (EP) são medidas que, calculadaspara cada observação do conjunto de dados, nos permitemfazer comparações entre valores de variáveis medidas emescalas diferentes;
O EP associado a i-ésima observação é definido como
EPi =xi − x̄
S(20)
se estivermos trabalhando com dados referentes a toda apopulação, substituímos S e x̄ por σ e µ em (20);
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
PercentisEscore PadronizadoBoxplot
Passos para a construção do Boxplot1 obtenha Q1, Q2, Q3 e DI;2 calcule
LI = Q1 − 1.5 ∗ DI - limite inferior;LS = Q3 + 1.5 ∗ DI - limite superior;
3 numa reta são marcados Q1, Q2 e Q3;4 acima dessa reta, constrói-se um retângulo com limites
iguais as posições de Q1 e Q3, e cortado por um segmentode reta na posição relativa a mediana (Q2);
5 a partir dos limetes do retângulo, traçam-se linhas até:encontrar um valor extremo (mínimo/máximo);caso o mínimo ou máximo ou ambos se encontrarem forados limites (LI e LS), traça-se linhas até o limitecorrespondente;
Observação: Observações fora do intervalo [LI,LS] sãoconsideradas observações discrepantes (outliers);
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
PercentisEscore PadronizadoBoxplot
Figura: Boxplot do nível de albumina no sangue (g/dL) medido em um grupo den = 60 pacientes.
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
PercentisEscore PadronizadoBoxplot
Exemplo: Contagem de linfócitos T CD4
doença de Hodgkin: corresponde a um dos vários tipos decâncer do sistema linfático.
20 pacientes em remissão de doença de Hodgkin;
20 pacientes em remissão de malignidades disseminadas nãodoença de Hodgkin;
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
PercentisEscore PadronizadoBoxplot
Tabela: Número de células T4/mm3 em amostras de sangue.
Número Hodgkin Não Hodgkin1 171 1162 257 1513 288 1924 295 2085 396 3156 397 3757 431 3758 435 3779 554 410
10 568 42611 795 44012 902 50313 958 67514 1004 68815 1104 70016 1212 73617 1283 75218 1378 77119 1621 97920 2415 1252
Estatística Descritiva
IntroduçãoAnálise Descritiva
Medidas de Tendência CentralMedidas de Variabilidade
Medidas de Posição
PercentisEscore PadronizadoBoxplot
Figura: Boxplot do número de células T4/mm3 em amostras de sangue.
Estatística Descritiva