estatística descritivafbgoncalves/c2.pdf · rio de janeiro 30 22,2 rio grande do sul 35 25,9 minas...

54
Introdução Análise Descritiva Medidas de Tendência Central Medidas de Variabilidade Medidas de Posição Estatística Descritiva Flávio B. Gonçalves Baseado no material do Prof. Marcos Prates 2018/01 Estatística Descritiva

Upload: others

Post on 16-Jan-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Estatística Descritiva

Flávio B. GonçalvesBaseado no material do Prof. Marcos Prates

2018/01

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição1 Introdução

O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística

2 Análise DescritivaTipos de VariáveisGráficos e TabelasSintese Numérica

3 Medidas de Tendência CentralMédia AritméticaMédia PonderadaMedianaModa

4 Medidas de VariabilidadeVariânciaDesvio PadrãoCoeficiente de Variação

5 Medidas de PosiçãoPercentisEscore PadronizadoBoxplot

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística

Definição

Estatística: ciência que se preocupa com a descrição, análisee interpretação de dados experimentais.

A Estatística está dividida em duas grandes áreas:

Estatística Descritiva: que se preocupa com a organizaçãoe descrição de dados;

Inferência Estatística: que trata da análise e interpretaçãodos dados.

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística

A Estatística é aplicável a qualquer ramo do conhecimentoonde se manipulem dados experimentais, como por exemplo:

Medicina;

Ciências Biológicas;

Engenharia;

Economia;

Ciências Sociais,

Ciência da Computação (Machine Learning),

Administração, ....

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística

Definição

População: é um conjunto de elementos com pelo menos umacaracterística comum. Essa característica comum devedelimitar inequivocamente quais os elementos que pertencema população e quais os que não pertencem.

Uma vez perfeitamente caracterizada a população, opasso seguinte é o levantamento de dados acerca dacaracterística (ou características) de interesse do estudoem questão.Na maioria das vezes não é conveniente, ou mesmopossível, realizar o levantamento dos dados referentes atodos os elementos da população.

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística

Devemos, então, limitar nossas observações a umaparcela da população, isto é, uma amostra provenientedesta população.

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística

Definição

Amostra: Uma amostra é qualquer subconjunto (finito) dapopulação.

Para que as conclusões sobre o fenômeno em estudosejam válidas, a amostra deve ser representativa dapopulação.A escolha "subjetiva"das observações que irão compor aamostra, em geral, produz uma amostra tendenciosa, epode levar conclusões completamente equivocadas.Amostras tendenciosas podem ser evitadas se o processode amostragem for aleatório;

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística

Uma amostra aleatória pode ser obtida de duas formas:1 com reposição;2 sem reposição;

Obervação

O processo de amostragem é de fundamental importância nateoria Estatística!!!

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística

O objetivo da Inferência Estatística é tirar conclusõessobre a população com base nos resultados observadosem amostras extraídas dessas populações.A Inferência Estatística baseia-se num processo deindução, isto é, um processo de raciocínio em que,partindo do conhecimento de uma parte, procura-se tirarconclusões sobre a realidade, no todo.É importante notar que o processo de indução (ouinferência) não é exato, pois o mesmo sempre estarásujeito a erros.A Inferência Estatística nos diz até que ponto poderemosestar errando em nossas induções, e com queprobabilidade!!!

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística

Em suma, a Inferência Estatística busca obter resultadossobre as populações a partir de amostras, dizendotambém qual a precisão desses resultados, e com queprobabilidade se pode confiar nas conclusões obtidas.Evidentemente, a forma como as inferências serãorealizadas irá depender de cada tipo de problema.É intuitivo pensar que, quanto maior a amostra, maisprecisas e confiáveis serão as inferências realizadas sobrea população.Neste contexto, resultados mais perfeitos seriam obtidospelo exame completo de toda a população, ao qual secostuma denominar censo ou recenseamento.Em muitos casos, porém, tal afirmação pode não serválida!!!

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

O que é EstatísticaPopulação e AmostraO papel da Inferência Estatística

Amostras podem ser coletadas/examinadas por umaequipe de alto nível, fornecendo resultados confiáveis, aopasso que, para fazer o censo, deveríamos recorrer a umaequipe bem maior, cujo nível médio seria mais baixo,diminuindo a confiabilidade dos dados obtidos.

Na maioria dos casos é possível determinar o tamanhonecessário para uma amostra de tal forma a garantirinferências suficientemente precisas e confiáveis.

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Obervação

Para os conceitos apresentados a seguir será irrelevante se oconjunto de elementos observados constitui uma amostra ou toda apopulação.

Uma vez dispondo-se dos resultados observados, o passoseguinte deverá ser, necessariamente, extrair as informaçõescontidas nesses resultados.

É necessário que se tenham bem definidas quais característicasde interesse deverão ser verificadas.

Se houver n elementos fisicamente considerados no estudo,estes elementos fornecerão n valores associados a uma dadacaracterística de interesse.

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Desta forma, iremos sempre trabalhar com os valores dealguma variável de interesse, e não com os elementosoriginalmente considerados.

Tipos de variáveis:

Variáveis Qualitativas

Nominais;Ordinais;

Variáveis Quantitativas

Discretas;Contínuas;

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Definição

Variáveis Qualitativas: Uma variável será qualitativa quandoresultar em uma classificação por tipos ou atributos.

Definição

Variáveis Quantitativas: Uma variável será quantitativa quandoseus valores forem expressos em números que representamcontagens ou medidas.

Definição

Variáveis Qualitativas Nominais: não existe nenhuma ordenaçãonatural dos atributos (ou qualidades) da variável;

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Exemplos

População: moradores de uma cidade.

1 Variável: sexo (masculino, feminino).

2 Variável: cor dos olhos (pretos, castanhos, verdes ou azuis).

Definição

Variáveis Qualitativas Ordinais: existe uma ordenação natural dosatributos (ou qualidades) da variável;

Exemplo

População: eleitores de uma cidade.

Variável: desempenho do atual prefeito (ótimo, bom, regular,ruim, péssimo).

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Definição

Variáveis Qualitativas Discretas: os possíveis valores da variávelformam um conjunto finito ou infinito enumerável. Variáveisquantitativas discretas são, em geral, resultados de contagens.

Exemplos

1 População: casais residentes em uma cidade.

Variável: número de filhos.

2 População: as jogadas possíveis de um dado.

Variável: valor obtido em cada jogada.

3 População: aparelhos produzidos em uma linha de montagem.

Variável: número de defeitos.

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Definição

Variáveis Qualitativas Contínuas: os possíveis valores da variávelformam um intervalo de números reais. Variáveis quantiativascontínuas são, em geral, resultados de mensurações (sujeitas aerros!!!).

Exemplos

1 População: casais residentes em uma cidade.

Variável: altura.

2 População: sabonetes de certa marca e tipo.

Variável: peso líquido.

3 População: aparelhos produzidos em uma linha de montagem.

Variável: diâmetro externo.

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

O primeiro passo para se descrever graficamente um conjuntode dados observados é verificar as frequências dos diversosvalores existentes da variável.

Definição

Frequência simples (ou absoluta): definimos a frequência de umdado valor de uma variável (qualitativa ou quantitativa) como onúmero de vezes que esse valor foi observado.

Denotaremos a frequência do i-ésimo valor observado por fi .

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Sendo n o número total de elementos observados, verifica-seimediatamente que

k∑i=1

fi = n, (1)

onde k é o número de diferente valores existentes da variável.

Definição

Distribuição de frequências: é a associação das respectivasfrequências a todos os distintos valores observados da variável emestudo.

Alternativamente, poderemos usar as frequências relativas.

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Definição

Frequência relativa: definimos a frequência relativa (denotaremosp′i ), ou proporção de um dado valor de uma variável (qualitativa ouquantitativa) como o quociente de sua frequência pelo número totalde elemntos observados, isto é,

p′i =fin. (2)

Evidentemente, temos quek∑

i=1

p′i = 1.

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Exemplo

Considere a distribuição dos fundos relativos a cada região do Brasil,de acordo com o Anuário da Bolsa de Valores de São Paulo de 1970.

Tabela: Distribuição dos fundos relativos às regiões do Brasil.

Número de EstabelecimentosEstado Unidades %São Paulo 38 28,1Rio de Janeiro 30 22,2Rio Grande do Sul 35 25,9Minas Gerais 15 11,1Demais Estados 17 12,7Total 135 100

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Variáveis qualitativas (categóricas) podem ser representadas dediversas formas.

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Figura: Gráfico de setores (pizza) (a) e gráfico de barras (b).

Estatística Descritiva

O gráfico de barras também é adequado para representar adistribuição de frequências de variáveis quantitativas discretas.

Exemplo

Considere o conjunto de dados a seguir, constituído hipoteticamentepor 20 valores da variável "número de defeitos por unidade", obtidosa partir de aparelhos retirados de uma linha de montagem.

2 4 2 1 23 1 0 5 10 1 1 2 01 3 0 1 2

Tabela: Distribuição do númerode defeitos por unidade.

xi fi p′i0 4 0,201 7 0,352 5 0,253 2 0,104 1 0,055 1 0,05

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Exemplo

Tabela: Distribuição do númerode defeitos por unidade.

xi fi p′i0 4 0,201 7 0,352 5 0,253 2 0,104 1 0,055 1 0,05

Figura: Gráfico de barras -distribuição do número dedefeitos por unidade.

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Quando tratamos de variáveis quantitativas, uma outra forma derepresentação gráfica baseada nas frequências acumuladaspode ser de interesse.

Definição

Frequência acumulada: a frequência acumulada (denotaremos Fi )em qualquer ponto do eixo das abscissas é definida como a somadas frequências de todos os valores menores ou iguais ao valorcorrespondente a esse ponto. Analogamente, teríamos asfrequências relativas acumuladas (denotada neste caso por P ′i ).

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Exemplo

Tabela: Distribuição do número de defeitos por unidade.

xi fi F ′i p′i P ′i0 4 4 0,20 0,201 7 11 0,35 0,552 5 16 0,25 0,803 2 18 0,10 0,904 1 19 0,05 0,955 1 20 0,05 1,00

Estatística Descritiva

Quando a variável de interesse é contínua o gráfico de barrasnão é mais adequado para a representação da distribuição defrequências da variável devido à característica contínua damesma.

Exemplo

O nível de albumina no sangue, um indicador do estado nutricional,foi medido em um grupo de n = 60 pacientes, obtendo-se osresultados apresentados na tabela abaixo.

Tabela: Nível de albumina no sangue (g/dL).

4.44 4.47 4.48 4.51 4.54 4.54 4.61 4.64 4.66 4.684.68 4.69 4.71 4.73 4.76 4.76 4.76 4.81 4.86 4.864.87 4.88 4.90 4.90 4.95 4.95 4.96 4.97 4.98 4.984.99 5.00 5.01 5.01 5.01 5.02 5.04 5.05 5.08 5.095.09 5.10 5.11 5.11 5.16 5.17 5.18 5.18 5.19 5.245.24 5.26 5.27 5.27 5.29 5.32 5.35 5.46 5.50 5.85

A representação adequada de variáveis quantitativas contínuasdá-se através da construção de classes de frequências.

Note que ao agruparmos os dados em classes de frequênciaspara facilitar a visualização dos dados, alguma informação éperdida.

Tabela: Distribuição de frequências do nível de albumina no sangue(g/dL).

frequência absoluta frequência relativaClasse simples acumulada simples acumulada

[4.20,4.44) 1 1 0.02 0.02[4.44,4.68) 10 11 0.17 0.2[4.68,4.92) 13 24 0.23 0.41[4.92,5.16) 21 45 0.35 0.77[5.16,5.40) 12 57 0.18 0.95[5.40,5.64) 2 59 0.03 0.98[5.64,5.88) 1 60 0.02 1

Total 60 - 1 -

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Como construir as classes de frequências?n - número total de observações disponíveis;k - número classes;h - amplitude das classes;R - amplitude do conjunto de dados (diferença entre omaior e o menor valores observados);

Temos que

h ≈ Rk

; (3)

Emm geral, aceita-se como razoáveis valores de k variando de5 a 15.

Algumas regras para a escolha de k :1 k =

√n;

2 k = 1 + 3.3 log10(n);

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Figura: Histograma (a) e gráfico das frequências acumuladas (ogiva) (b) para avariável nível de albumina no sangue (g/dL)

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

O histograma também pode ser usado em algumas situaçõespara representar a distribuição de frequências de uma variávelquantitativa discreta.

Exemplo

Considere o conjunto de dados a seguir, constituído hipoteticamentepor 40 valores da variável "número diário de furtos"corridos em umadeterminada cidade.

0 0 0 1 1 1 1 1 1 11 1 2 2 2 2 2 2 2 33 3 4 4 4 4 4 5 5 67 7 8 9 9 11 13 17 18 25

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Exemplo

Tabela: Distribuição do número de pessoas com AIDS segundo osexo, no período 1983 à 1996.

ano homens mulheres1983 100 1001984 200 801985 400 801986 1000 1201987 2000 3001988 3000 16001989 5000 30001990 20000 130001991 50000 180001992 100000 250001993 100000 290001994 120000 385001995 110000 400001996 100000 45000

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

Exemplo

Figura: Número de pessoas com AIDS segundo o sexo, no período 1983 à 1996.

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Tipos de VariáveisGráficos e TabelasSintese Numérica

A sintese numérica de um conjunto de observações pode ser divididaem:

medidas de tendência central;

medidas de variabilidade;

medidas de posição;

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Média AritméticaMédia PonderadaMedianaModa

Média aritmética (populational):

µ =1N

N∑i=1

xi (4)

em que

N é o tamanho da população em estudo;

Média aritmética (amostral):

x̄ =1n

n∑i=1

xi (5)

em que

n é o tamanho da amostra (parcela da população);

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Média AritméticaMédia PonderadaMedianaModa

A média ponderada é definada como

X̄ =n∑

i=1

wixi (6)

em que

n é o número de elementos observados;wi é tal que 0 ≤ wi ≤ 1 e

∑ni=1 wi = 1;

Para dados em classes de frequência, temos

X̄ ≈n∑

i=1

p′i x∗i (7)

em que x∗i denota o ponto médio da i-ésima classe.

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Média AritméticaMédia PonderadaMedianaModa

A mediana é definada como aquele valor que divide o conjuntode observações em duas partes de igual tamanho, ou seja, amediana é o valor md tal que 50% da observações seencontram abaixo (acima) deste valor;

Cálculo da mediana:

ordenamos os dados (em ordem crescente);Caso 1: n é ímpar

md = x n+12

; (8)

Caso 1: n é par

md =12

(x n2

+ x n2 +1); (9)

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Média AritméticaMédia PonderadaMedianaModa

A moda (denotaremos mo) é definada como o valor observadocom mais frequência;

Exemplo: Os dados a seguir representam as idades, em anoscompletos, de todas as crianças atendidas em um certo dia porum posto de saúde.

1,4,0,1,1,7,3,2,0,0,1,4,0,5,2,1,3,3

Tabela: Distribuição de frequência da idade das crianças atendidas.

idade 0 1 2 3 4 5 7freq 4 5 2 3 2 1 1

neste caso, temos que mo = 1;

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

Média AritméticaMédia PonderadaMedianaModa

Cálculo da moda (variáveis contínuas):

mo = LImo +∆1

∆1 + ∆2× h (10)

em que

LImo - limite inferior da classe modal;h - amplitude das classes;∆1 = fmo − fant∆2 = fmo − fpostfmo - freq. da classe modal;fant - freq. da classe anterior à classe modal;fpost - freq. da classe posterior à classe modal;

Observação: Este procedimento só é válido para distribuiçõesunimodais!

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

VariânciaDesvio PadrãoCoeficiente de Variação

A amplitude total (AT) de um conjunto de dados é definida édefinida como a diferença entre o maior e o menor valorobservado, isto é,

AT = max −min, (11)

em que

max - denota o maior valor observado;min - denota o menor valor observado;

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

VariânciaDesvio PadrãoCoeficiente de Variação

A variância populacional é definida como

σ2 =1N

N∑i=1

(xi − µ)2; (12)

A variância amostral é definida como

S2 =1

n − 1

n∑i=1

(xi − x̄)2, (13)

em que

N é o tamanho da população em estudo;µ é a média populacional;n é o tamanho da amostra (parcela da população);x̄ é a média amostral;

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

VariânciaDesvio PadrãoCoeficiente de Variação

O desvio padrão populacional é definida como

σ =

√√√√ 1N

N∑i=1

(xi − µ)2; (14)

O desvio padrão amostral é definida como

S =

√√√√ 1n − 1

n∑i=1

(xi − x̄)2; (15)

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

VariânciaDesvio PadrãoCoeficiente de Variação

O coeficiente de variação é definida como

CV =Sx̄, (16)

em que

S é o desvio padrão amostral;x̄ é a média amostral;

se estivermos trabalhando com dados referentes a toda apopulação, substituímos S e x̄ por σ e µ em (16),respectivamente;

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

VariânciaDesvio PadrãoCoeficiente de Variação

Observações

quanto menor é o CV, menor é o grau de dispersão (ouvariabilidade) associado ao conjunto de dados;

o CV é uma medida adimensional, isto é, não depende daunidade de medida utilizada;

bastante útil para comparar a variabilidade entre conjuntos dedados medidos em escalas diferentes (como por exemplo, pesoe altura);

possibilita a comparação da variabilidade de uma variável entrediferentes grupos (por exemplo, o peso de homens e mulheres);

valores do CV inferiores a 0.25 indicam que o conjunto de dadosé razoavelmente homogêneo;

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

PercentisEscore PadronizadoBoxplot

O percentil de ordem k (onde k é qualquer valor entre 0 e 100),denotado por Pk , é o valor tal que k% dos valores observadossão menores ou iguais a Pk .

Cálculo de Pk :

ordene os dados (em ordem crescente);obtenha L = (k/100)× n, em que n denota o número deobservações, e k é a ordem do percentil;se L não é inteiro⇒ arredonte L para o maior inteiro maispróximo (L ↑ L̃) e tome

Pk = xL̃ (17)

se L é inteiro, tome

Pk =12

(xL + xL+1) (18)

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

PercentisEscore PadronizadoBoxplot

definimos

Q1 - primeiro quantil (Q1 = P25);Q2 - segundo quantil (Q2 = P50 = mo);Q3 - terceiro quantil (Q3 = P75);

a distância interquartílica (DI) é definida da seguinte forma

DI = Q3 −Q1; (19)

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

PercentisEscore PadronizadoBoxplot

Os escores padronizados (EP) são medidas que, calculadaspara cada observação do conjunto de dados, nos permitemfazer comparações entre valores de variáveis medidas emescalas diferentes;

O EP associado a i-ésima observação é definido como

EPi =xi − x̄

S(20)

se estivermos trabalhando com dados referentes a toda apopulação, substituímos S e x̄ por σ e µ em (20);

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

PercentisEscore PadronizadoBoxplot

Passos para a construção do Boxplot1 obtenha Q1, Q2, Q3 e DI;2 calcule

LI = Q1 − 1.5 ∗ DI - limite inferior;LS = Q3 + 1.5 ∗ DI - limite superior;

3 numa reta são marcados Q1, Q2 e Q3;4 acima dessa reta, constrói-se um retângulo com limites

iguais as posições de Q1 e Q3, e cortado por um segmentode reta na posição relativa a mediana (Q2);

5 a partir dos limetes do retângulo, traçam-se linhas até:encontrar um valor extremo (mínimo/máximo);caso o mínimo ou máximo ou ambos se encontrarem forados limites (LI e LS), traça-se linhas até o limitecorrespondente;

Observação: Observações fora do intervalo [LI,LS] sãoconsideradas observações discrepantes (outliers);

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

PercentisEscore PadronizadoBoxplot

Figura: Boxplot do nível de albumina no sangue (g/dL) medido em um grupo den = 60 pacientes.

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

PercentisEscore PadronizadoBoxplot

Exemplo: Contagem de linfócitos T CD4

doença de Hodgkin: corresponde a um dos vários tipos decâncer do sistema linfático.

20 pacientes em remissão de doença de Hodgkin;

20 pacientes em remissão de malignidades disseminadas nãodoença de Hodgkin;

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

PercentisEscore PadronizadoBoxplot

Tabela: Número de células T4/mm3 em amostras de sangue.

Número Hodgkin Não Hodgkin1 171 1162 257 1513 288 1924 295 2085 396 3156 397 3757 431 3758 435 3779 554 410

10 568 42611 795 44012 902 50313 958 67514 1004 68815 1104 70016 1212 73617 1283 75218 1378 77119 1621 97920 2415 1252

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

PercentisEscore PadronizadoBoxplot

Figura: Boxplot do número de células T4/mm3 em amostras de sangue.

Estatística Descritiva

IntroduçãoAnálise Descritiva

Medidas de Tendência CentralMedidas de Variabilidade

Medidas de Posição

PercentisEscore PadronizadoBoxplot

Figura: Histograma do número de células T4/mm3 em amostras de sangue: doençade Hodgkin (a) e não doença de Hodgkin (b).

Estatística Descritiva