seção 2.4 valores atípicos (outliers),mrubens/cursos/... · estatística: revelando o poder dos...

15
Estatística: Revelando o poder dos dados Lock 5 Seção 2.4 Valores Atípicos (Outliers), Diagramas de Caixa (Boxplots), e Relações Quantitativas / Categóricas

Upload: others

Post on 12-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Seção 2.4 Valores Atípicos (Outliers),mrubens/cursos/... · Estatística: Revelando o poder dos dados Lock5 Boxplot Para desenhar um boxplot: •Desenhe uma escala numérica apropriada

Estatística: Revelando o poder dos dados Lock5

Seção 2.4

Valores Atípicos (Outliers), Diagramas de Caixa (Boxplots), e

Relações Quantitativas / Categóricas

Page 2: Seção 2.4 Valores Atípicos (Outliers),mrubens/cursos/... · Estatística: Revelando o poder dos dados Lock5 Boxplot Para desenhar um boxplot: •Desenhe uma escala numérica apropriada

Estatística: Revelando o poder dos dados Lock5

Sumário

Uma variável quantitativa (continuação)Regra formal para outliersBoxplots

Uma variável quantitativa e uma variável categóricaBoxplots lado a ladoEstatísticas por grupoDiferença nas médias

Page 3: Seção 2.4 Valores Atípicos (Outliers),mrubens/cursos/... · Estatística: Revelando o poder dos dados Lock5 Boxplot Para desenhar um boxplot: •Desenhe uma escala numérica apropriada

Estatística: Revelando o poder dos dados Lock5

Outliers Os outliers podem ser identificados

informalmente olhando-se um gráfico, mas como uma regra, a maioria dos valores de dados estará a até 1,5(AIQ) dos quartis

Um valor de dado é um outlier se ele for

Menor que Q1 – 1.5(AIQ)

ou

Maior que Q3 + 1.5(AIQ)

Page 4: Seção 2.4 Valores Atípicos (Outliers),mrubens/cursos/... · Estatística: Revelando o poder dos dados Lock5 Boxplot Para desenhar um boxplot: •Desenhe uma escala numérica apropriada

Estatística: Revelando o poder dos dados Lock5

Boxplot

Para desenhar um boxplot:

• Desenhe uma escala numérica apropriada para os dados

• Desenhe uma caixa que se estende de Q1 a Q3

• Divida a caixa com uma linha na posição da mediana

• Desenhe uma linha de cada quartil até o valor de dados mais extremo que não seja um outlier

• Identificar cada outlier individualmente plotando com um símbolo como um asterisco ou ponto

Page 5: Seção 2.4 Valores Atípicos (Outliers),mrubens/cursos/... · Estatística: Revelando o poder dos dados Lock5 Boxplot Para desenhar um boxplot: •Desenhe uma escala numérica apropriada

Estatística: Revelando o poder dos dados Lock5

Uma Variável Quantitativa

Receita mundial para todos os filmes de Hollywood de 2011

HollywoodMovies2011

More graphics on profits for Hollywood movies

Page 6: Seção 2.4 Valores Atípicos (Outliers),mrubens/cursos/... · Estatística: Revelando o poder dos dados Lock5 Boxplot Para desenhar um boxplot: •Desenhe uma escala numérica apropriada

Estatística: Revelando o poder dos dados Lock5

Boxplot

MedianaQ1

Q3

• Linhas (“bigodes”) se estendem de cada quartil até o valor mais extremo que não seja um outlier

Outliers

meio, 50% dos dados

Rec

eita

Mu

nd

ial

(em

US$

mil

es)

Page 7: Seção 2.4 Valores Atípicos (Outliers),mrubens/cursos/... · Estatística: Revelando o poder dos dados Lock5 Boxplot Para desenhar um boxplot: •Desenhe uma escala numérica apropriada

Estatística: Revelando o poder dos dados Lock5

Comendo Cachorro-Quente Quantos cachorros-quentes você pode comer em 10

minutos?

O boxplot abaixo mostra o número de cachorros-quentes comidos pelos vencedores do famoso concurso de comer cachorro-quente de Nathan 2002 - 2011

Estimar a mediana. Estimar a AIQ. Estimar a amplitude.

Page 8: Seção 2.4 Valores Atípicos (Outliers),mrubens/cursos/... · Estatística: Revelando o poder dos dados Lock5 Boxplot Para desenhar um boxplot: •Desenhe uma escala numérica apropriada

Estatística: Revelando o poder dos dados Lock5

Resumo: Uma Variável Quantitativa Estatísticas Resumo

Centro: média, mediana Dispersão: desvio padrão, amplitude, AIQ Percentis Resumo dos cinco números

Visualização Gráfico de pontos (dotplot) Histograma Diagrama de caixa (boxplot)

Outros Conceitos Forma: simétrica, assimétrica, em forma de sino Outliers, robustez (resistência) Escores z

Page 9: Seção 2.4 Valores Atípicos (Outliers),mrubens/cursos/... · Estatística: Revelando o poder dos dados Lock5 Boxplot Para desenhar um boxplot: •Desenhe uma escala numérica apropriada

Estatística: Revelando o poder dos dados Lock5

Relação entre Variáveis Quantitativas e Categóricas

Objetiva analisar uma variável quantitativa dividida, segmentada ou estratificada por grupos categóricos

Page 10: Seção 2.4 Valores Atípicos (Outliers),mrubens/cursos/... · Estatística: Revelando o poder dos dados Lock5 Boxplot Para desenhar um boxplot: •Desenhe uma escala numérica apropriada

Estatística: Revelando o poder dos dados Lock5

Chá e o Sistema Imunológico

Mednick, Cai, Kanady, and Drummond (2008). “Comparing the benefits of caffeine, naps and placebo on verbal, motor and perceptual memory,” Behavioral Brain Research, 193, 79-86.

• Os participantes foram aleatorizados para beber cinco ou seis xícaras de chá ou café todos os dias durante duas semanas (ambas as bebidas contêm cafeína, mas apenas o chá contém L-teanina)

• Após duas semanas, amostras de sangue foram expostas a um antígeno, e a produção de interferon gama (resposta do sistema imunológico) foi medida

• Variável explicativa: chá ou café• Variável de resposta: medida do interferon gama

Page 11: Seção 2.4 Valores Atípicos (Outliers),mrubens/cursos/... · Estatística: Revelando o poder dos dados Lock5 Boxplot Para desenhar um boxplot: •Desenhe uma escala numérica apropriada

Estatística: Revelando o poder dos dados Lock5

Chá e o Sistema Imunológico

Se os bebedores de chá tiverem níveis significativamente mais altos de interferon gama, podemos concluir que beber chá em vez de café causou um aumento nesse aspecto da resposta imune?

Sim! Este é um experimento aleatorizado, então é possível tirar conclusões sobre a causalidade!

Page 12: Seção 2.4 Valores Atípicos (Outliers),mrubens/cursos/... · Estatística: Revelando o poder dos dados Lock5 Boxplot Para desenhar um boxplot: •Desenhe uma escala numérica apropriada

Estatística: Revelando o poder dos dados Lock5

Boxplots Lado a Lado

Com gráficos lado a lado, inclui-se um gráfico para a variável quantitativa (tal como um diagrama de caixa, histograma ou diagrama de pontos) para cada grupo na variável categórica, todos usando um eixo numérico comum.

Page 13: Seção 2.4 Valores Atípicos (Outliers),mrubens/cursos/... · Estatística: Revelando o poder dos dados Lock5 Boxplot Para desenhar um boxplot: •Desenhe uma escala numérica apropriada

Estatística: Revelando o poder dos dados Lock5

Estatísticas Quantitativas por uma Variável Categórica

Qualquer uma das estatísticas que usamos para uma variável quantitativa pode ser analisada separadamente para cada nível de uma variável categórica

Nível médio de interferon gama por tipo de bebida:

Tea Coffee

ҧ𝑥𝑇 = 17.70 ҧ𝑥𝐶 = 34.82

Page 14: Seção 2.4 Valores Atípicos (Outliers),mrubens/cursos/... · Estatística: Revelando o poder dos dados Lock5 Boxplot Para desenhar um boxplot: •Desenhe uma escala numérica apropriada

Estatística: Revelando o poder dos dados Lock5

Diferença nas Médias

Muitas vezes, ao comparar uma variável quantitativa entre duas categorias, e calcular adiferença nas médias

ҧ𝑥𝑇 − ҧ𝑥𝐶 = 34.82 − 17.70 = 17.12

Tea Coffee

ҧ𝑥𝑇 = 17.70 ҧ𝑥𝐶 = 34.82

Page 15: Seção 2.4 Valores Atípicos (Outliers),mrubens/cursos/... · Estatística: Revelando o poder dos dados Lock5 Boxplot Para desenhar um boxplot: •Desenhe uma escala numérica apropriada

Estatística: Revelando o poder dos dados Lock5

Resumo: Uma Variável Quantitativa e uma Variável Categórica

Estatísticas resumo Quaisquer estatísticas resumidas de

variáveis quantitativas, discriminadas por grupos Diferença nas médias

Visualização Boxplots lado a lado (ou gráficos de pontos, ou

histogramas)