tratamento da informaÇÃo/anÁlise de dados aula 07 · com um diagrama de barras, por exemplo, é...

54
CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA 6 DE DEZEMBRO DE 2014 TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 Humberto José Bortolossi http://www.professores.uff.br/hjbortol/ Universidade Federal Fluminense

Upload: phungdien

Post on 09-Dec-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICAINSTITUTO DE MATEMÁTICA E ESTATÍSTICA

6 DE DEZEMBRO DE 2014

TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS

AULA 07

Humberto José Bortolossihttp://www.professores.uff.br/hjbortol/

Universidade Federal Fluminense

Page 2: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

CAPÍTULO 14: ESTATÍSTICA DESCRITIVA

Page 3: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

OBJETIVOS DO CAPÍTULO 14

Interpretar e produzir um resumo gráfico efetivo de um conjunto de dados.

Identificar os vários tipos de variáveis.

Interpretar e produzir resumos numéricos de um conjunto de dados incluindopercentis e resumos dos cinco números.

Descrever a dispersão de um conjunto de dados usando amplitude, amplitudeinterquartílica e desvio padrão.

Page 4: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

DESENHANDO E RESUMINDO DADOS ESTATÍSTICOS

Entre os principais objetivos da coleta de dados estão dar um sentido a uma estóriaestatística, descobrir algum fato novo sobre o nosso mundo e, por último, mas nãomenos importante, defender um ponto de vista, não importa o quão estranho eleseja. Mas o que fazer quando temos muitos dados?

Um propósito importante da estatística é o de descrever grandes quantidades dedados de forma inteligível, útil e, caso necessário, convincente.

A estatística descritiva, assunto deste capítulo, trata justamente das maneiras de sealcançar esse propósito.

Page 5: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

DESENHANDO E RESUMINDO DADOS ESTATÍSTICOS

Imagine que nossos dados consistam dos resultados dos testes de um grupo dealunos em um exame padronizado. Se estamos lidando com um pequeno grupo deestudantes – digamos uma única turma – então é razoável olhar para a coleção dosresultados dos testes do grupo e obter um “panorama geral" (como o grupo seapresentou em comparação com outros grupos, quantos atingiram a nota mínima,etc.).

Por outro lado, se estamos lidando com um grupo grande (centenas, milhares oumesmo milhões de alunos), tentar obter um “panorama geral” olhando para as notasindividuais dos alunos é impossível. A quantidade de dados torna-se esmagadora –um enorme murmúrio de números.

Page 6: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

DESENHANDO E RESUMINDO DADOS ESTATÍSTICOS

Existem duas estratégias para se tentar obter algum sentido de um conjunto grandede números. Uma é a de apresentar os dados sob a forma de imagens ou diagramas,a outra é a de usar resumos numéricos que servem como uma “fotografiainstantânea" do conjunto de dados.

Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas desetores) são introduzidas na Seção 14.1. A Seção 14.2 é um breve desvio ondeapresentamos os diversos tipos de variáveis (categóricas, numéricas, discretas econtínuas) que precisam ser consideradas quando se quer descrever graficamenteum conjunto de dados. Nas Seções 14.3 e 14.4 discutimos os resumos numéricos deum conjunto de dados. Médias, medianas, quartis e percentis nos dizem algo sobreo valor numérico dos dados (elas são chamadas de medidas de posição) e sãodiscutidas na Seção 14.3. Amplitudes, amplitudes interquartílicas e desvios padrãofornecem informações sobre a dispersão dos dados (elas são conhecidos comomedidas de dispersão) e são discutidas na Seção 14.4.

Page 7: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

SEÇÃO 14.1: DESCRIÇÃO GRÁFICA DE DADOS

Page 8: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

CONJUNTO DE DADOS

Um conjunto de dados (data set) é uma coleção de dados normalmente organizadana forma tabular. Os elementos de um conjunto de dados são denominados pontosde dados (data points).

Como de costume, usaremos a letra N para representar o tamanho do conjunto dedados. Em aplicações da vida real, conjuntos de dados podem variar em tamanho derazoavelmente pequeno (com uma dúzia de pontos de dados) até muito grande (comcentenas de milhões de pontos de dados). Quanto maior o conjunto de dados, maisprecisamos de uma boa maneira de descrevê-lo e resumi-lo.

Para ilustrar muitas das ideias deste capítulo, vamos precisar de um conjunto dedados razoável: grande o suficiente para ser realista, mas não tão grande a ponto denos dar muito trabalho. O Exemplo 14.1, que vamos revisitar várias vezes nocapítulo, fornece um tal conjunto de dados. Este conjunto de dados, definido a partirde uma classe hipotética de estatística, é fictício, mas, exceto pelos detalhes, eledescreve uma situação que nos é familiar.

Page 9: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.1: RESULTADOS DO EXAMEDE ESTATÍSTICA

Como de costume, no dia após o exame da sua turma de estatística,o Dr. Blackbeard postou os resultados na Internet (Tabela 14-1). O conjunto dedados consiste de N = 75 pontos de dados (o número de alunos que fizeram o teste).Cada ponto de dados (listados na segunda coluna) é uma pontuação (score) entre 0 e25 (o Dr. Blackbeard não dá pontuação parcial). Observe que os números listados naprimeira coluna não são pontos de dados, eles são registros acadêmicos (IDs)utilizados como substitutos de nomes para proteger os direitos de privacidade dosestudantes.

Como qualquer aluno, os alunos da turma de estatística do Dr. Blackbeard têm umapergunta prioritária em suas mentes quando olham para Tabela 14-1: “Como foi queeu me saí no exame?”. Cada aluno pode responder a essa pergunta consultandodiretamente da tabela. É a pergunta seguinte que é estatisticamente muito maisinteressante: “Como a turma como um todo se saiu no exame?”. Para respondera esta última questão, vamos ter que encontrar uma maneira de empacotaras informações da Tabela 14-1 num bloco compacto, organizado e inteligível.

Page 10: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.1: RESULTADOS DO EXAMEDE ESTATÍSTICA

Page 11: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.2: RESULTADOS DO EXAMEDE ESTATÍSTICA – PARTE 2

O primeiro passo para resumir as informações da Tabela 14-1 é organizaras pontuações em uma tabela de frequência (frequency table) como a Tabela 14-2.Nesta tabela, o número abaixo de cada pontuação indica a frequência da pontuação,ou seja, o número de alunos que receberam a pontuação específica. Podemosfacilmente ver na Tabela 14-2 que existe um estudante com pontuação 1, um compontuação 6, dois com pontuação 7, seis com pontuação 8, e assim por diante. Noteque as notas com uma frequência igual a zero não estão listadas na tabela.

Enquanto que a Tabela 14-2 é uma melhoria considerável se comparada coma Tabela 14-1, podemos fazer ainda melhor. A Figura 14-1 mostra a mesmainformação de uma forma muito mais visual chamada de diagrama de barras (bargraph).

Page 12: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.2: RESULTADOS DO EXAMEDE ESTATÍSTICA – PARTE 2

Os diagramas de barras são fáceis de se ler e eles dão um bom panorama geral dosdados. Com um diagrama de barras, por exemplo, é fácil detectar os pontos dedados discrepantes (em inglês, outliers) que não se encaixam no padrão geral dosdados. Neste exemplo, existem dois valores discrepantes: a pontuação 24 ea pontuação 1.

Figu

ra 1

4.1

Page 13: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.2: RESULTADOS DO EXAMEDE ESTATÍSTICA – PARTE 2

Neste diagrama os resultados dos testes estão listados em ordem crescente em umeixo horizontal e a frequência de cada pontuação no teste está indicada pela alturada barra acima do resultado do teste. Observe que no diagrama de barras, até mesmoos resultados dos testes com frequência de zero também se destacam: simplesmentenão há coluna acima destas pontuações.

Figu

ra 1

4.1

Page 14: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.2: RESULTADOS DO EXAMEDE ESTATÍSTICA – PARTE 2

Podemos também expressar o diagrama de barras em termos de frequênciasrelativas, isto é, indicando as frequências em termos percentuais da população total.A Figura 14-2 mostra um diagrama de barras usando frequências relativas parao conjunto de dados da Tabela 14-1.

Figu

ra 1

4.2

Page 15: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.2: RESULTADOS DO EXAMEDE ESTATÍSTICA – PARTE 2

Note que no desenho está indicado explicitamente que estamos lidando compercentagens em vez de contagens totais e, também, que o tamanho do conjunto dedados é N = 75. Isso permite que qualquer pessoa possa estimar as frequênciasabsolutas. Por exemplo, a Figura 14-2 indica que 12% dos 75 alunos tirarampontuação 12 no exame. Assim, 75 × 0,12 = 9 alunos tiraram pontuação 12.

Figu

ra 1

4.2

Page 16: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.2: RESULTADOS DO EXAMEDE ESTATÍSTICA – PARTE 2

A mudança de frequências absolutas para frequências relativas (e vice-versa) nãoaltera o formato do diagrama: o que ocorre nada mais é do que uma mudança deescala.

Figu

ra 1

4.2

Page 17: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

PICTOGRAMAS

Diagramas que usam ícones ou imagens em vez de barras para mostraras frequências são comumente referidos como pictogramas (pictograms).O objetivo de um pictograma não é o de apenas informar, mas, também, o deimpressionar e persuadir. Em tais casos, um ícone ou uma imagem bem escolhidapode provocar um efeito melhor do que apenas usar uma barra simples.

Figu

ra 1

4.3

Page 18: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.3: FATURAMENTO DA CORPORAÇÃO XYZ

O responsável pela setor de vendas da Corporação XYZ apresentou o pictogramaabaixo em uma reunião com os executivos da empresa. Você vê algum problema oualgo de enganoso com esse diagrama?

Cuidado! Para dar a ilusão de que o faturamento “dobrou” a cada dois anos,o responsável usou o truque de transladar o eixo vertical (que começa em 50 e nãoem zero).

Page 19: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.3: FATURAMENTO DA CORPORAÇÃO XYZ

Como um consumidor educado, você deve estar sempre atento a esses truques. Emdescrições gráficas de dados, uma linha tênue separa objetividade de propaganda.O pictograma a seguir é mais preciso!

Page 20: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

O TRUQUE NO WASHINGTON POST (06/09/2012)

Reportagem: Bill Clinton’s Speech (in Graphs) por Sarah Kliff publicado no JornalWashington Post em 6 de setembro de 2012.

Fonte: http://www.washingtonpost.com/blogs/ezra-klein/wp/2012/09/06/bill-clintons-speech-in-graphs/

No diagrama à direita, parece que o discurso do ex-presidente Bill Clinton foi maisde três vezes maior do que o da primeira-dama Michelle Obama, mas, na verdade,ele foi menor do que o dobro.

Page 21: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

JÁ CAIU NO TESTE PISA

Page 22: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

SEÇÃO 14.2: DESCRIÇÃO GRÁFICA DE DADOS

Page 23: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

O QUE É UMA VARIÁVEL EM ESTATÍSTICA?

Tannembaum: em Estatística, uma variável (variable) é qualquer característica quevaria com os membros de uma população.

Moore, McCabe e Craig (Introduction to the Practice of Statistics): uma variável équalquer característica de um indivíduo. Uma variável pode assumir valoresdiferentes para diferentes indivíduos.

Dytham (Choosing and Using Statistics: A Biologist’s Guide): para poder fazeralguma estatística você vai precisar de dados para trabalhar. Primeiro, você devedecidir no que é que você está interessado e, em seguida, você deve selecionar umavariável adequada. A variável é a propriedade que você mede.

Page 24: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

O QUE É UMA VARIÁVEL EM ESTATÍSTICA?

Pinheiro, da Cunha, Carvajal e Gomes (Estatística Básica – A Arte de Trabalharcom Dados): quando é feito um levantamento de dados a respeito de umdeterminado assunto, eles costumam ser representados em uma tabela de dadosbrutos na qual cada linha corresponde a uma observação e cada coluna correspondea uma variável. As observações também são às vezes chamadas de indivíduos,sujeitos, objetos, casos, unidades amostrais, etc. As variáveis também costumam serreferidas como atributos, características, propriedades, etc.

Muitos livros não definem o que é uma variável (veja, por exemplo, o livroEstatística Básica de Bussab e Morettin).

Proposta de definição: uma variável para uma população P é uma função X: P → C,onde C é um conjunto não vazio.

Page 25: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

TIPOS DE VARIÁVEIS

Uma variável que representa uma quantidade mensurável é denominada de umavariável numérica ou quantitativa (numerical or quantitative variable) Quandoa diferença entre os valores de uma variável quantitativa pode ser arbitrariamentepequena, chamamos a variável de contínua (continuous). Quando os valorespossíveis de alteração de uma variável quantitativa ocorre em incrementos mínimos,chamamos a variável de discreta (discrete).

Exemplos de variáveis discretas: o resultado de um teste de QI de uma pessoa,o tamanho do sapato de uma pessoa, o número de pontos marcados em um jogo debasquete.

Exemplos de variáveis contínuas: a altura de uma pessoa, o seu peso, o tamanho deseu pé (em oposição ao tamanho de seu sapato), o tempo que uma pessoa leva paracorrer um quilômetro.

Page 26: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

TIPOS DE VARIÁVEIS

Às vezes, no mundo real, a distinção entre variáveis contínuas e discretas pode nãoestar clara.

Peso, altura e idade são variáveis contínuas na teoria, mas, na prática, elas sãofrequentemente arredondadas para o centímetro mais próximo, grama mais próximae ano mais próximo (ou mês mais próximo no caso de bebês), momento este emessas variáveis se tornam variáveis discretas.

Por outro lado, o dinheiro, o qual é, em teoria, uma variável discreta (porquea diferença entre os dois valores não pode ser inferior a um centavo), é quasesempre considerada como contínua, porque na maioria das situações reais umamoeda pode ser pensada como uma quantidade infinitamente pequena de dinheiro.

Continuidade é uma conveniência: podemos usar recursos de cálculo diferencial eintegral para estudar variáveis contínuas.

Page 27: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

TIPOS DE VARIÁVEIS

Variáveis também podem descrever características que não podem ser medidasnumericamente: sexo, nacionalidade, cor do cabelo e assim por diante.As variáveis desse tipo são denominadas variáveis categóricas ou qualitativas(categorical or qualitative variables). De certa forma, as variáveis qualitativasdevem ser tratadas de forma diferente das variáveis numéricas: elas não podem, porexemplo, ser adicionadas e multiplicadas.

Alguns autores fazem ainda uma segunda classificação para variáveis qualitativas.Elas podem ser nominais quando seus valores estão em categorias que não podemser ordenadas (exemplos: sexo, raça, nacionalidade, área de atividade) ou ordinaisquando seus valores estão em categorias que podem ser ordenadas (exemplos: classesocial, nível de instrução).

Page 28: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

TIPOS DE VARIÁVEIS

variável

quantitativa

qualitativa

contínua

discreta

nominal

ordinal

Page 29: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

TIPOS DE VARIÁVEIS

Se considerarmos uma variável como uma função X: P → C, então dizer que X éuma variável quantitativa significa dizer que o conjunto C é um subconjunto dosnúmeros reais (alguns autores permitem que C seja um subconjunto de IRn).

Dizer que uma variável quantitativa X: P → C é discreta significa dizer que X(P) éum conjunto finito ou é um conjunto enumerável sem pontos de acumulação em IR(dizemos que um ponto q de IR é ponto de acumulação de Y = X(P) se para todoε > 0, existe y em Y, com y diferente de q, tal que a distância de y a q é menor doque ε).

Page 30: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.4: MATRÍCULAS NA UNIVERSIDADE ESTADUAL DA TASMÂNIA

A Tabela 14-3 mostra as matrículas (enrollments) de graduação em cada uma dascinco escolas da Universidade Estadual da Tasmânia. A sexta categoria (“Other")inclui alunos não declarados, alunos de cursos interdisciplinares e assim por diante.

Page 31: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.4: MATRÍCULAS NA UNIVERSIDADE ESTADUAL DA TASMÂNIA

A Figura 14-5 mostra dois diagramas de barras que descrevem o equivalente dainformação na Tabela 14-3. A única diferença entre os dois diagramas é que, nodiagrama (b), os valores da variável qualitativa estão no eixo vertical.

Page 32: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.4: MATRÍCULAS NA UNIVERSIDADE ESTADUAL DA TASMÂNIA

Quando o número de classes é pequena, como é o caso aqui, outra forma comum dedescrever as frequências relativas das categorias é através de um diagrama desetores (pie chart). Em um diagrama de setores, todo o círculo representa todaa população (100%), e os setores representam as classes (classes) ou categorias(categories), com o tamanho (ângulo) de cada setor proporcional à frequênciarelativa da classe correspondente.

Page 33: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.4: MATRÍCULAS NA UNIVERSIDADE ESTADUAL DA TASMÂNIA

A regra geral na elaboração de diagramas de setores é que um setor que representax% é descrito por um ângulo de (3,6) x graus.

Page 34: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.5: QUEM ESTÁ VENDO TV À NOITE?

De acordo com dados da Nielsen Media Research, os percentuais da audiência deTV durante o horário nobre (20:00-23:00), divididas por faixa etária, sãoos seguintes: adultos (18 anos ou mais), 63%; adolescentes (12-17 anos), 17%;crianças (2-11 anos), 20%. Os números exatos variam de ano para ano. Os númerosapresentados são médias calculadas ao longo de vários anos. O diagrama de setoresa seguir mostra essa quebra da composição do público por faixa etária.

Page 35: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.5: QUEM ESTÁ VENDO TV À NOITE?

Um diagrama de setores, como este, pode ser usado para tentar argumentar quecrianças e adolescentes realmente não assistem TV tanto quanto geralmente seacredita. O problema com esta conclusão é que crianças representam apenas 15% dapopulação em geral enquanto que adolescentes apenas 8%. Em termos relativos, umpercentual maior de adolescentes (retirados da população total de adolescentes)estão assistindo TV no horário nobre mais do que qualquer outro grupo, comcrianças em segundo lugar e adultos por último.

Page 36: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.5: QUEM ESTÁ VENDO TV À NOITE?

A moral desse exemplo é que usar percentagens absolutas, como fizemos nodiagrama de setores, pode ser muito enganador. Quando se comparaas características de uma população que é dividida em categorias, é essencial levarem conta as dimensões relativas das várias categorias.

Page 37: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

DIAGRAMAS DE SETORES ×DIAGRAMAS DE BARRAS

Page 38: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

CUIDADO COM DIAGRAMAS DE SETORES 3D

No diagrama de setores 3D, o Item C parece descrever a mesma área do Item A, enquanto que, de fato, sua área é menos do que a metade

Diagrama de Setores 3D (enganador) Diagrama de Setores UsualComparação

Page 39: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

DIAGRAMAS DE SETORES: EFEITO PACMAN

Page 40: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

DIAGRAMAS DE SETORES

Para conjuntos de dados pequenos,tabelas são preferíveis ao uso dediagramas. Uma tabela é quase sempremelhor do que um diagrama de setorestolo; a única coisa pior do que umdiagrama de setores é uma coleção deles,onde se é pedido para o leitor compararquantidades localizadas de formadesordenada dentro e entre os diagramas– Dadas sua baixa densidade de dados esua falha em ordernar númerosvisualmente, diagramas de setores nuncadeveriam ser usados. (Tufte, Edward R.(2006). The Visual Display ofQuantitative Information. Cheshire,Conn.: Graphics Press. p. 178.)

Page 41: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

INTERVALOS DE CLASSES

Embora a distinção entre os dados qualitativos e quantitativos seja importante emmuitos aspectos da estatística, quando se trata de decidir qual é a melhor forma dese apresentar graficamente as frequências de uma população, um problema crítico éo número de categorias em que os dados podem cair.

Quando o número de categorias é muito grande (digamos, algumas dezenas), umdiagrama de barras ou um pictograma podem se tornar confusos e ineficazes. Istoacontece mais frequentemente com dados quantitativos: variáveis quantitativaspodem assumir infinitos valores e, mesmo quando isso não ocorre, o número devalores pode ser muito grande para qualquer representação gráfica razoável.

Nosso próximo exemplo ilustra a forma de lidar com esta situação.

Page 42: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.6: OS RESULTADOS EM MATEMÁTICA DO TESTE SAT EM 2007

O SAT (uma vez sigla para Scholastic Aptitude Test ou Scholastic Assessment Test)é um exame educacional padronizado nos Estados Unidos aplicado a estudantes doensino médio, que serve de critério para admissão nas universidades norte-americanas (semelhante ao ENEM brasileiro, embora as universidades não sebaseiem somente nas notas dos alunos para aprová-los). O SAT é composto de trêspartes: uma parte de matemática, uma seção de escrita, e uma seção de leituracrítica, com as pontuações de cada seção variando de um mínimo de 200 para ummáximo de 800 pontos, subindo em incrementos de 10 pontos.

Em 2007, 1.494.531 estudantes americanos fizeram o SAT. Como podemosdescrever os resultados da parte de matemática? De certa forma, este é o mesmoproblema que foi apresentado no Exemplo 14.1, sendo apenas um teste diferente ecom um número muito maior de alunos. Poderíamos criar uma tabela de frequência(ou um diagrama de barras) com o número de alunos para cada uma das possíveispontuações: 200, 210, 220, ..., 790, 800. O problema é que existem 61 diferentespossíveis pontuações entre 200 e 800, e este número é muito grande para umdiagrama de barras eficaz.

Page 43: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.6: OS RESULTADOS EM MATEMÁTICA DO TESTE SAT EM 2007

Em situações como esta, é costume apresentar uma imagem mais compacta dosdados agregando-se conjuntos de pontuações em categorias chamadas de intervalosde classe (class intervals). A decisão sobre como os intervalos de classe serãodefinidos e quantos intervalos serão usados vai depender do grau de detalhamentoque se quer estabelecer, mas, como uma regra geral, o número de intervalos declasse deve estar em algum lugar entre 5 e 20.

Pontuações SAT são geralmente agregadas em 12 intervalos de classe comessencialmente o mesmo tamanho: 200-249, 250-299, 300-349, ..., 700-749,750-800.

Usando estes intervalos de classe, a distribuição de notas da parte de matemática doSAT de 2007 é dada na tabela a seguir. O diagrama de barras associado é mostradoà direita da tabela (Fonte: The College Board).

Page 44: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.6: OS RESULTADOS EM MATEMÁTICA DO TESTE SAT EM 2007

Page 45: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.7: RESULTADOS DO EXAMEDE ESTATÍSTICA – PARTE 3

O processo de conversão das pontuações de um teste (uma variável quantitativa) emfaixas de pontuação (uma variável qualitativa) exige a criação de intervalos declasse para as séries de faixas diferentes. Normalmente, o professor tem a liberdadepara decidir como fazer isso. Um método padrão é usar uma escala de classificaçãoabsoluta, geralmente com intervalos de classe de (quase) mesmo comprimento paratodas as faixas, exceto F (por exemplo, A = 90%-100%, B = 80%-89%,C = 70%-79%, D = 60%-69%, F = 0%-59%).

Outra abordagem frequente é utilizar uma escala de classificação relativa. Aquio professor enquadra os intervalos de classe das faixas de acordo como desempenho da turma no teste, frequentemente variando os comprimentos dosintervalos de classe.

Page 46: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.7: RESULTADOS DO EXAMEDE ESTATÍSTICA – PARTE 3

Para ver a classificação relativa em ação, vamos considerar as notas do teste deestatística apresentadas no Exemplo 14.1. Depois de olhar para o desempenhoglobal da turma (ver o Exemplo 14.2), Dr. Blackbeard opta por “ajustar”os resultados dos testes usando intervalos de classe de sua própria criação.Os intervalos de classe e os resultados correspondentes estão apresentados naTabela 14-5.

Page 47: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.7: RESULTADOS DO EXAMEDE ESTATÍSTICA – PARTE 3

A distribuição de faixas do teste de estatística pode ser agora melhor vista por meiodo diagrama de barras da figura a seguir. A imagem fala por si só: o teste foi umaprova muito dura!

Page 48: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

HISTOGRAMAS

Quando uma variável quantitativa é contínua, os seus possíveis valores podemvariar de acordo com incrementos infinitamente pequenos. Como consequência, nãohá lacunas entre os intervalos de classe e nossa velha maneira de fazer as coisas(usando barras separadas) não funcionará mais. Neste caso, vamos usar umavariação de um diagrama de barras que é chamado de histograma (histogram).Ilustraremos o conceito de histograma no próximo exemplo.

Page 49: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.8: SALÁRIOS INICIAIS DOS FORMANDOS DA UNIVERSIDADE ESTADUAL DA TASMÂNIA

Suponha que queiramos usar um diagrama para exibir a distribuição dos saláriosiniciais dos formandos da Universidade Estadual da Tasmânia (UET).

Os salários iniciais para os N = 3258 formandos variam de US$ 40.350a US$ 74.800 anuais. Devemos escolher os comprimentos dos intervalos de classecom base nestes dados e de acordo com o nível de detalhamento que queremosexibir.

Page 50: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.8: SALÁRIOS INICIAIS DOS FORMANDOS DA UNIVERSIDADE ESTADUAL DA TASMÂNIA

Uma escolha razoável seria usar intervalos de classe definidos com incrementos deUS$ 5.000. A Tabela 14-6 dá a frequência dos salários iniciais anuais usando estesintervalos de classe. Escolhemos o valor inicial de US$ 40.000 por conveniência.

Page 51: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.8: SALÁRIOS INICIAIS DOS FORMANDOS DA UNIVERSIDADE ESTADUAL DA TASMÂNIA

Um histograma com a frequência relativa de cada intervalo de classe é apresentadona figura a seguir. Como podemos ver, um histograma é parecido com um diagramade barras. Contudo, várias diferenças importantes existem.

Page 52: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.8: SALÁRIOS INICIAIS DOS FORMANDOS DA UNIVERSIDADE ESTADUAL DA TASMÂNIA

Para começar, porque um histograma é usado paravariáveis contínuas, não pode haver lacunas entreos intervalos de classe, e segue-se, portanto, queas barras de um histograma devem se tocar. Entreoutras coisas, isso nos obriga a fazer uma decisãoarbitrária: o que acontece com um valor que caiexatamente no limite entre dois intervalos declasse? Ele deve sempre pertencer ao intervalo declasse da esquerda ou da direita? Isso é chamadode a “convenção de extremidade”. As marcassobrescritas “+" na Tabela 14-6 indicam comoescolhemos lidar com a convenção da extremidadena figura ao lado. Um salário inicial anual deexatamente US$ 50.000, por exemplo, será listadono intervalo de classe 45.000+ -50.000 em vez dointervalo de classe 50.000 + -55.000.

Page 53: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

EXEMPLO 14.8: SALÁRIOS INICIAIS DOS FORMANDOS DA UNIVERSIDADE ESTADUAL DA TASMÂNIA

Ao criar histogramas, devemos tentar, tanto quanto possível, definir os intervalos declasse todos com o mesmo comprimento. Quando os intervalos de classe nãopossuem um mesmo comprimento, as regras para a criação de um histograma sãoconsideravelmente mais complicadas, uma vez que não é mais apropriado usaras alturas das barras para indicar as frequências dos intervalos de classe. Maisdetalhes nos Exercícios 73 e 74.

Page 54: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes ... de três vezes maior do que

AGORA: EXERCÍCIOS EM SALA DE AULA