seção 2.4 valores atípicos (outliers),mrubens/cursos/... · estatística: revelando o poder dos...
TRANSCRIPT
Estatística: Revelando o poder dos dados Lock5
Seção 2.4
Valores Atípicos (Outliers), Diagramas de Caixa (Boxplots), e
Relações Quantitativas / Categóricas
Estatística: Revelando o poder dos dados Lock5
Sumário
Uma variável quantitativa (continuação)Regra formal para outliersBoxplots
Uma variável quantitativa e uma variável categóricaBoxplots lado a ladoEstatísticas por grupoDiferença nas médias
Estatística: Revelando o poder dos dados Lock5
Outliers Os outliers podem ser identificados
informalmente olhando-se um gráfico, mas como uma regra, a maioria dos valores de dados estará a até 1,5(AIQ) dos quartis
Um valor de dado é um outlier se ele for
Menor que Q1 – 1.5(AIQ)
ou
Maior que Q3 + 1.5(AIQ)
Estatística: Revelando o poder dos dados Lock5
Boxplot
Para desenhar um boxplot:
• Desenhe uma escala numérica apropriada para os dados
• Desenhe uma caixa que se estende de Q1 a Q3
• Divida a caixa com uma linha na posição da mediana
• Desenhe uma linha de cada quartil até o valor de dados mais extremo que não seja um outlier
• Identificar cada outlier individualmente plotando com um símbolo como um asterisco ou ponto
Estatística: Revelando o poder dos dados Lock5
Uma Variável Quantitativa
Receita mundial para todos os filmes de Hollywood de 2011
HollywoodMovies2011
More graphics on profits for Hollywood movies
Estatística: Revelando o poder dos dados Lock5
Boxplot
MedianaQ1
Q3
• Linhas (“bigodes”) se estendem de cada quartil até o valor mais extremo que não seja um outlier
Outliers
meio, 50% dos dados
Rec
eita
Mu
nd
ial
(em
US$
mil
hõ
es)
Estatística: Revelando o poder dos dados Lock5
Comendo Cachorro-Quente Quantos cachorros-quentes você pode comer em 10
minutos?
O boxplot abaixo mostra o número de cachorros-quentes comidos pelos vencedores do famoso concurso de comer cachorro-quente de Nathan 2002 - 2011
Estimar a mediana. Estimar a AIQ. Estimar a amplitude.
Estatística: Revelando o poder dos dados Lock5
Resumo: Uma Variável Quantitativa Estatísticas Resumo
Centro: média, mediana Dispersão: desvio padrão, amplitude, AIQ Percentis Resumo dos cinco números
Visualização Gráfico de pontos (dotplot) Histograma Diagrama de caixa (boxplot)
Outros Conceitos Forma: simétrica, assimétrica, em forma de sino Outliers, robustez (resistência) Escores z
Estatística: Revelando o poder dos dados Lock5
Relação entre Variáveis Quantitativas e Categóricas
Objetiva analisar uma variável quantitativa dividida, segmentada ou estratificada por grupos categóricos
Estatística: Revelando o poder dos dados Lock5
Chá e o Sistema Imunológico
Mednick, Cai, Kanady, and Drummond (2008). “Comparing the benefits of caffeine, naps and placebo on verbal, motor and perceptual memory,” Behavioral Brain Research, 193, 79-86.
• Os participantes foram aleatorizados para beber cinco ou seis xícaras de chá ou café todos os dias durante duas semanas (ambas as bebidas contêm cafeína, mas apenas o chá contém L-teanina)
• Após duas semanas, amostras de sangue foram expostas a um antígeno, e a produção de interferon gama (resposta do sistema imunológico) foi medida
• Variável explicativa: chá ou café• Variável de resposta: medida do interferon gama
Estatística: Revelando o poder dos dados Lock5
Chá e o Sistema Imunológico
Se os bebedores de chá tiverem níveis significativamente mais altos de interferon gama, podemos concluir que beber chá em vez de café causou um aumento nesse aspecto da resposta imune?
Sim! Este é um experimento aleatorizado, então é possível tirar conclusões sobre a causalidade!
Estatística: Revelando o poder dos dados Lock5
Boxplots Lado a Lado
Com gráficos lado a lado, inclui-se um gráfico para a variável quantitativa (tal como um diagrama de caixa, histograma ou diagrama de pontos) para cada grupo na variável categórica, todos usando um eixo numérico comum.
Estatística: Revelando o poder dos dados Lock5
Estatísticas Quantitativas por uma Variável Categórica
Qualquer uma das estatísticas que usamos para uma variável quantitativa pode ser analisada separadamente para cada nível de uma variável categórica
Nível médio de interferon gama por tipo de bebida:
Tea Coffee
ҧ𝑥𝑇 = 17.70 ҧ𝑥𝐶 = 34.82
Estatística: Revelando o poder dos dados Lock5
Diferença nas Médias
Muitas vezes, ao comparar uma variável quantitativa entre duas categorias, e calcular adiferença nas médias
ҧ𝑥𝑇 − ҧ𝑥𝐶 = 34.82 − 17.70 = 17.12
Tea Coffee
ҧ𝑥𝑇 = 17.70 ҧ𝑥𝐶 = 34.82
Estatística: Revelando o poder dos dados Lock5
Resumo: Uma Variável Quantitativa e uma Variável Categórica
Estatísticas resumo Quaisquer estatísticas resumidas de
variáveis quantitativas, discriminadas por grupos Diferença nas médias
Visualização Boxplots lado a lado (ou gráficos de pontos, ou
histogramas)