aula 3 e 4 - medidas de tendência central e de...

39
Ana Paula Fernandes | [email protected] | (34) 99645 1975 Bioestatística Aula teórica: medidas de tendência central ou de posição medidas de dispersão ou de variabilidade Medicina, Educação Física e Terapia Ocupacional 1

Upload: others

Post on 30-Jan-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • Ana Paula Fernandes | [email protected] | (34) 99645 1975

    BioestatísticaAula teórica: 
medidas de tendência central ou de posição medidas de dispersão ou de variabilidade

    Medicina, Educação Física e Terapia Ocupacional

    1

  • Medidas resumoTendência central• Média

    • Mediana

    • Moda

    • Quartis e Percentis

    Dispersão• Amplitude

    • Variância

    • Desvio-padrão

    • Coeficiente de variação

    • Amplitude interquartil

  • MEDIDAS DE TENDÊNCIA CENTRAL OU DE POSIÇÃO

  • Média aritmética

    • Média: é a medida de tendência central mais utilizada. • É fácil de calcular, tem uma interpretação familiar e propriedades estatísticas

    que a tornam muito útil nas comparações entre populações e outras situações que envolvam inferências.

    • Representa o valor ︎provável︎ de uma variável, por isso, é muitas vezes chamada de valor esperado ou, ainda, esperança matemática, quando calculada para a população.

  • Analogias

    • Imagine a média como o centro de gravidade de uma distribuição.

    • Considere que um aluno realizou quatro provas obtendo as notas 


    3, 6, 8 e 8 (10 é o máximo).

  • Cálculo da média

    x̄ =∑ xn

    x = {3, 6, 8, 8}

    x̄ =3 + 6 + 8 + 8

    4= 6,25

  • Cálculo da média para dados em grupamento simplesExemplo: número de dentes perdidos ou danificados em uma amostra de 50 pessoas tratadas em determinada clínica dentária

    Nro. de dentes


    x

    Nro. de pessoas

    ff . x

    0 9 01 5 52 6 123 7 214 9 365 5 256 4 247 3 218 2 16

    Soma 50 160

    x = {0,0,0,0,0,0,0,0,0, 1,1,1,1,1, . . . , 7,7,7, 8,8}

    x̄ =∑ f ⋅ x

    nx̄ =

    16050

    = 3,2

    A média informa que, se um novo cliente procurar a clínica, o número esperado de dentes perdidos ou danificados nessa pessoa é 3.

  • Cálculo da média para dados grupados por intervalo de classeExemplo: amostra de crianças da primeira série de uma escola rural.

    Idade 
(anos) f

    Ponto médio

    x f . x

    5,5 |- 6,5 1 6 6

    6,5 |- 7,5 20 7 140

    7,5 |- 8,5 7 8 56

    8,5 |- 9,5 2 9 18

    Soma 30 - 220

    x̄ =∑ f ⋅ x

    n

    x̄ =22030

    = 7,3333.. ≈ 7,3

  • Mediana

    • A mediana (md) é o valor de x, em uma série ordenada de dados, que divide a série em dois subgrupos de igual tamanho.

    • É um valor tal que tenha igual quantidade de valores menores e maiores do que ele.

    • Uma característica importante da mediana é a de que ela não é afetada pelos extremos da série.

  • Identificando a mediana

    x = {7, 0, 2, 15, 29}

    x = {0, 2, 7, 15, 29}Ordem crescente!

    md = 7

    x = {0, 2, 7, 15, 1496} md = 7

    n + 12

    =62

    = 3

    Posição

  • Identificando a mediana

    x = {1, 3, 7, 98}

    n + 12

    =52

    = 2,5

    entre o 2o. e 3o. elemento

    md = 3 + 72

    = 5

  • Mediana para dados em grupamento simplesNro. de dentes


    x

    Nro. de pessoas

    ff . x F Fr

    0 9 0 9 0,181 5 5 14 0,282 6 12 20 0,403 7 21 27 0,544 9 36 36 0,725 5 25 41 0,826 4 24 45 0,907 3 21 48 0,968 2 16 50 1,00

    Soma 50 160 -

    20 primeiros valores

    n + 12

    =512

    = 25,5 Posição

    25o. valor é x = 3

    26o. valor é x = 3

    md = 3 + 32

    = 3

  • Mediana para dados grupados por intervalo de classe

    Idade 
(anos) f

    Ponto médio

    xf . x F

    5,5 |- 6,5 1 6 6 1

    6,5 |- 7,5 20 7 140 21

    7,5 |- 8,5 7 8 56 28

    8,5 |- 9,5 2 9 18 30

    Soma 30 - 220 -

    n + 12

    =312

    = 15,5

    Classe que contém a mediana 6,5 |- 7,5

    Limite inferior |- Limite superior

    Linf |- Lsuph: amplitude dos intervalos h = 1

  • Mediana para dados grupados por intervalo de classe

    Idade 
(anos) f

    Ponto médio

    xf . x F

    5,5 |- 6,5 1 6 6 1

    6,5 |- 7,5 20 7 140 21

    7,5 |- 8,5 7 8 56 28

    8,5 |- 9,5 2 9 18 30

    Soma 30 - 220 -

    md = Linf + h(n2 − Fant

    fmd )

    md = 6,5 + 1(302 − 1

    20 ) = 7,2

  • A mediana é uma medida de tendência central útil quando:

    • A distribuição dos dados é assimétrica.

    F8

    2868

    Posição: 116/2 = 58

    50% da amostra está abaixo do valor 2

  • Quanto mais assimétrica a série, mais recomendado é o uso da mediana como representante dos dados, justamente

    porque ela não é afetada pelos valores extremos da série.

  • Moda• A moda é o valor mais freqüente de uma série de valores.

  • • Quando os dados estão apresentados em intervalos de classe, costuma-se indicar o intervalo modal. Se, porém, o pesquisador deseja estimar um valor único para a moda, pode usar o ponto médio do intervalo modal.

    • Nas representações gráficas, a moda aparece como um pico de freqüência.

  • Bimodal

    • Quando a distribuição é bimodal, pode-se suspeitar de que a população estudada é, na verdade, uma mistura de duas populações estatísticas. (amostras grandes)

  • AIQ = Q3 - Q1 Amplitude Inter Quartil:

    135 140 145 150 155 160 170 175 180 190 200 200 200 215 225 240 250 265 270 295 320 390 400 420 435

    50%50%

    25% 25% 25% 25%

    mediana

    Q1 Q2 Q3

    Quartis Décis Percentis

    Quartil

    (Medida de dispersão)

  • Gráfico: Boxplot 150

    200

    250

    300

    350

    400

    Q1

    Q2 = mediana

    Q3

    170

    200

    270

    Q3 + 1,5(AIQ)

    Q1 - 1,5(AIQ)

    420

    20

    Outlier

    435

    Histogram of x

    x

    Frequency

    100 150 200 250 300 350 400 450

    02

    46

    8

    150 200 250 300 350 400

  • MEDIDAS DE DISPERSÃO OU DE VARIABILIDADE

  • As medidas de tendência central SÃO INSUFICIENTES para representar um conjuntos de dados, pois nada revelam sobre sua variabilidade.

    Exemplo: Aluno A: 6; 6; 6; 6; 6 Total de pontos: 30, média : 6

    Aluno B: 7; 5; 6; 4; 8 Total de pontos: 30, média : 6

  • Amplitude de variaçãoExemplo: Aluno A: 6; 6; 6; 6; 6 Total de pontos: 30, média : 6

    Aluno B: 7; 5; 6; 4; 8 Total de pontos: 30, média : 6

    Amplitude = maior valor - menor valor

    Aluno A: 6-6 = 0 (nenhuma variabilidade)

    Aluno B: 8-4 = 4 (quanto maior a amplitude, maior a variação)

  • A amplitude tem dois defeitos como medida de variação:

    1. Só utiliza os valores extremos (maior e menor valor), nada informando sobre os intermediários.

    2. Quando avaliada em amostras, freqüentemente fornece uma subestimativa da amplitude populacional, já que dificilmente a amostra vai apresentar tanto o valor mais baixo como o mais alto (geralmente os mais raros) da população.

  • Variância• Para levar em conta todos os valores observados na série, foi sugerido o

    uso dos desvios de cada valor em relação à média, reunindo-se tais informações em uma quantidade denominada variância.

    • Variância populacional: é a média populacional

    • Variância amostral: é a média amostral

    σ2 =∑ (x − μ)2

    s2 =∑ (x − x̄)2

    n − 1x̄

  • Exemplo de cálculo da variânciaEm um estudo com jogadores de futebol americano do ensino médio que sofreram lesões, os pesquisadores colocaram os jogadores em dois grupos.

    Jogadores que se recuperaram das concussões em 14 dias ou menos foram colocados no grupo 1. Aqueles que levaram mais de 14 dias foram para o grupo 2.

    Os tempos de recuperação (em dias) para o grupo 1 estão listados a seguir. Encontre a variância e o desvio padrão amostrais dos tempos de recuperação.
(Adaptado de: The American Journal of Sports Medicine.)

    4 7 6 7 9 5 8 10 9 8 7 10

  • 4 7 6 7 9 5 8 10 9 8 7 10Amostra n=12

    4 -3,5 12,255 -2,5 6,256 -1,5 2,257 -0,5 0,257 -0,5 0,257 -0,5 0,258 0,5 0,258 0,5 0,259 1,5 2,259 1,5 2,2510 2,5 6,2510 2,5 6,2590 0 39

    x − x̄ (x − x̄)2x

    x̄ =∑ xn

    =9012

    = 7,5

    MÉDIA AMOSTRAL

    s2 =∑ (x − x̄)2

    n − 1=

    3911

    = 3,54545... ≈ 3,5

    VARIÂNCIA AMOSTRAL

  • Desvio padrão• Uma dificuldade com a variância: não poder ser apresentada com a

    mesma unidade com que a variável foi medida (se observamos como o cálculo da variância foi feito, veremos que a unidade que acompanha o valor da variância é o quadrado da unidade de mensuração de x).

    s2 =∑ (x − x̄)2

    n − 1Exemplo:

    representa número de dias de recuperação

    A média representa o número médio de dias de recuperação

    O desvio em relação a média também tem a mesma unidade: dias de recuperação

    O quadrado é dias de recuperação ao quadrado!

    x

    (x − x̄)

    (x − x̄)2

  • Desvio padrão• A solução é extrair a raiz quadrada positiva da variância, já que, com isso, se

    volta à unidade original da variável.

    • Essa nova medida de variabilidade é denominada desvio padrão, usando-se o símbolo , se for calculado na população, ou , se os dados pertencem a uma amostra (em artigos científicos, é comum encontrar-se também a abreviatura DP ou SD Standard Deviation).

    σ s

  • Cálculo do desvio padrão

    • Voltando ao exemplo que calculamos a variância amostral

    s2 =∑ (x − x̄)2

    n − 1=

    3911

    = 3,54545... ≈ 3,5 dias de recuperação ao quadrado

    VARIÂNCIA AMOSTRAL

    DESVIO PADRÃO AMOSTRAL

    s =3911

    ≈ 1,9 dias de recuperação

  • Interpretando o desvio padrão• Ao interpretar o desvio padrão de um conjunto de dados, lembre-se de que

    ele é uma medida que indica o quanto, em média, os valores se desviam da média desse conjunto. Quanto mais espalhados estiverem os valores, maior será o desvio padrão.

    x̄ = 7,5

    s ≈ 1,9

    DESVIO PADRÃO

    MÉDIA

    dias de recuperação

    x̄ ± s7,5 ± 1,9

    5,6 ⟷ 9,44 6 5 7 7 7 8 8 9 9 10 10

  • Coeficiente de Variação• O coeficiente de variação representa a variabilidade como uma fração em

    relação à média e é calculado do seguinte modo:

    CV =sx̄

    CV % = 100 ⋅sx̄

    x̄ = 7,5

    s ≈ 1,9

    DESVIO PADRÃO

    MÉDIA

    CV =1,97,5

    ≈ 0,2533 ou 25,33 %

  • x̄ = 7,5s ≈ 1,9

    GRUPO 1

    CV =1,97,5

    ≈ 0,2533 ou 25,33 %

    Exemplo: Jogadores que se recuperaram das concussões em 14 dias ou menos foram colocados no grupo 1. Aqueles que levaram mais de 14 dias foram para o grupo 2.

    Uso do CV - comparação

    x̄ = 12,5s ≈ 2,1

    GRUPO 2

    CV =2,1

    12,5≈ 0,168 ou 16,8 %

  • FIM