tratamento da informaÇÃo/anÁlise de dados aula 07 · descrições gráficas de dados (diagramas...

50
CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA 9 DE SETEMBRO DE 2014 TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 Humberto José Bortolossi http://www.professores.uff.br/hjbortol/ Universidade Federal Fluminense

Upload: buixuyen

Post on 12-Feb-2019

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

CURSO DE ESPECIALIZAÇÃO EM ENSINO DE MATEMÁTICA

INSTITUTO DE MATEMÁTICA E ESTATÍSTICA 9 DE SETEMBRO DE 2014

TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS

AULA 07

Humberto José Bortolossi http://www.professores.uff.br/hjbortol/

Universidade Federal Fluminense

Page 2: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

CAPÍTULO 14: ESTATÍSTICA DESCRITIVA

Page 3: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

OBJETIVOS DO CAPÍTULO 14

Interpretar e produzir um resumo gráfico efetivo de um conjunto de dados.

Identificar os vários tipos de variáveis.

Interpretar e produzir resumos numéricos de um conjunto de dados incluindo percentis e resumos dos cinco números.

Descrever a dispersão de um conjunto de dados usando amplitude, amplitude interquartílica e desvio padrão.

Page 4: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

DESENHANDO E RESUMINDO DADOS ESTATÍSTICOS

Entre os principais objetivos da coleta de dados estão dar um sentido a uma estória estatística, descobrir algum fato novo sobre o nosso mundo e, por último, mas não menos importante, defender um ponto de vista, não importa o quão estranho ele seja. Mas o que fazer quando temos muitos dados? Um propósito importante da estatística é o de descrever grandes quantidades de dados de forma inteligível, útil e, caso necessário, convincente. A estatística descritiva, assunto deste capítulo, trata justamente das maneiras de se alcançar esse propósito.

Page 5: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

DESENHANDO E RESUMINDO DADOS ESTATÍSTICOS

Imagine que nossos dados consistam dos resultados dos testes de um grupo de alunos em um exame padronizado. Se estamos lidando com um pequeno grupo de estudantes – digamos uma única turma – então é razoável olhar para a coleção dos resultados dos testes do grupo e obter um “panorama geral" (como o grupo se apresentou em comparação com outros grupos, quantos atingiram a nota mínima, etc.). Por outro lado, se estamos lidando com um grupo grande (centenas, milhares ou mesmo milhões de alunos), tentar obter um “panorama geral” olhando para as notas individuais dos alunos é impossível. A quantidade de dados torna-se esmagadora – um enorme murmúrio de números.

Page 6: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

DESENHANDO E RESUMINDO DADOS ESTATÍSTICOS

Existem duas estratégias para se tentar obter algum sentido de um conjunto grande de números. Uma é a de apresentar os dados sob a forma de imagens ou diagramas, a outra é a de usar resumos numéricos que servem como uma “fotografia instantânea" do conjunto de dados. Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1. A Seção 14.2 é um breve desvio onde apresentamos os diversos tipos de variáveis (categóricas, numéricas, discretas e contínuas) que precisam ser consideradas quando se quer descrever graficamente um conjunto de dados. Nas Seções 14.3 e 14.4 discutimos os resumos numéricos de um conjunto de dados. Médias, medianas, quartis e percentis nos dizem algo sobre o valor numérico dos dados (elas são chamadas de medidas de posição) e são discutidas na Seção 14.3. Amplitudes, amplitudes interquartílicas e desvios padrão fornecem informações sobre a dispersão dos dados (elas são conhecidos como medidas de dispersão) e são discutidas na Seção 14.4.

Page 7: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

ANTES DE COMEÇAR COM O TANNENBAUM...

Distribuição de frequência e seus gráficos: http://www.uff.br/cdme/distfreq/ Fazer a atividade e resolver os exercícios disponíveis nesse ícone: Não esquecer de avaliar o software através desse ícone: Atividade vale ponto extra. Atenção para as definições dos tipos de variáveis e para as instruções de como construir diagramas de barras e diagramas de setores.

Page 8: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

SEÇÃO 14.1: DESCRIÇÃO GRÁFICA DE DADOS

Page 9: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

CONJUNTO DE DADOS

Um conjunto de dados (data set) é uma coleção de dados normalmente organizada na forma tabular. Os elementos de um conjunto de dados são denominados pontos de dados (data points). Como de costume, usaremos a letra N para representar o tamanho do conjunto de dados. Em aplicações da vida real, conjuntos de dados podem variar em tamanho de razoavelmente pequeno (com uma dúzia de pontos de dados) até muito grande (com centenas de milhões de pontos de dados). Quanto maior o conjunto de dados, mais precisamos de uma boa maneira de descrevê-lo e resumi-lo. Para ilustrar muitas das ideias deste capítulo, vamos precisar de um conjunto de dados razoável: grande o suficiente para ser realista, mas não tão grande a ponto de nos dar muito trabalho. O Exemplo 14.1, que vamos revisitar várias vezes no capítulo, fornece um tal conjunto de dados. Este conjunto de dados, definido a partir de uma classe hipotética de estatística, é fictício, mas, exceto pelos detalhes, ele descreve uma situação que nos é familiar.

Page 10: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.1: RESULTADOS DO EXAME DE ESTATÍSTICA

Como de costume, no dia após o exame da sua turma de estatística, o Dr. Blackbeard postou os resultados na Internet (Tabela 14-1). O conjunto de dados consiste de N = 75 pontos de dados (o número de alunos que fizeram o teste). Cada ponto de dados (listados na segunda coluna) é uma pontuação (score) entre 0 e 25 (o Dr. Blackbeard não dá pontuação parcial). Observe que os números listados na primeira coluna não são pontos de dados, eles são registros acadêmicos (IDs) utilizados como substitutos de nomes para proteger os direitos de privacidade dos estudantes. Como qualquer aluno, os alunos da turma de estatística do Dr. Blackbeard têm uma pergunta prioritária em suas mentes quando olham para Tabela 14-1: “Como foi que eu me saí no exame?”. Cada aluno pode responder a essa pergunta consultando diretamente da tabela. É a pergunta seguinte que é estatisticamente muito mais interessante: “Como a turma como um todo se saiu no exame?”. Para responder a esta última questão, vamos ter que encontrar uma maneira de empacotar as informações da Tabela 14-1 num bloco compacto, organizado e inteligível.

Page 11: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.1: RESULTADOS DO EXAME DE ESTATÍSTICA

Page 12: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.2: RESULTADOS DO EXAME DE ESTATÍSTICA – PARTE 2

O primeiro passo para resumir as informações da Tabela 14-1 é organizar as pontuações em uma tabela de frequência (frequency table) como a Tabela 14-2. Nesta tabela, o número abaixo de cada pontuação indica a frequência da pontuação, ou seja, o número de alunos que receberam a pontuação específica. Podemos facilmente ver na Tabela 14-2 que existe um estudante com pontuação 1, um com pontuação 6, dois com pontuação 7, seis com pontuação 8, e assim por diante. Note que as notas com uma frequência igual a zero não estão listadas na tabela. Enquanto que a Tabela 14-2 é uma melhoria considerável se comparada com a Tabela 14-1, podemos fazer ainda melhor. A Figura 14-1 mostra a mesma informação de uma forma muito mais visual chamada de diagrama de barras (bar graph).

Page 13: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.2: RESULTADOS DO EXAME DE ESTATÍSTICA – PARTE 2

Os diagramas de barras são fáceis de se ler e eles dão um bom panorama geral dos dados. Com um diagrama de barras, por exemplo, é fácil detectar os pontos de dados discrepantes (em inglês, outliers) que não se encaixam no padrão geral dos dados. Neste exemplo, existem dois valores discrepantes: a pontuação 24 e a pontuação 1.

Figu

ra 1

4.1

Page 14: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.2: RESULTADOS DO EXAME DE ESTATÍSTICA – PARTE 2

Neste diagrama os resultados dos testes estão listados em ordem crescente em um eixo horizontal e a frequência de cada pontuação no teste está indicada pela altura da barra acima do resultado do teste. Observe que no diagrama de barras, até mesmo os resultados dos testes com frequência de zero também se destacam: simplesmente não há coluna acima destas pontuações.

Figu

ra 1

4.1

Page 15: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.2: RESULTADOS DO EXAME DE ESTATÍSTICA – PARTE 2

Podemos também expressar o diagrama de barras em termos de frequências relativas, isto é, indicando as frequências em termos percentuais da população total. A Figura 14-2 mostra um diagrama de barras usando frequências relativas para o conjunto de dados da Tabela 14-1.

Figu

ra 1

4.2

Page 16: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.2: RESULTADOS DO EXAME DE ESTATÍSTICA – PARTE 2

Note que no desenho está indicado explicitamente que estamos lidando com percentagens em vez de contagens totais e, também, que o tamanho do conjunto de dados é N = 75. Isso permite que qualquer pessoa possa estimar as frequências absolutas. Por exemplo, a Figura 14-2 indica que 12% dos 75 alunos tiraram pontuação 12 no exame. Assim, 75 × 0,12 = 9 alunos tiraram pontuação 12.

Figu

ra 1

4.2

Page 17: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.2: RESULTADOS DO EXAME DE ESTATÍSTICA – PARTE 2

A mudança de frequências absolutas para frequências relativas (e vice-versa) não altera o formato do diagrama: o que ocorre nada mais é do que uma mudança de escala.

Figu

ra 1

4.2

Page 18: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

PICTOGRAMAS

Diagramas que usam ícones ou imagens em vez de barras para mostrar as frequências são comumente referidos como pictogramas (pictograms). O objetivo de um pictograma não é o de apenas informar, mas, também, o de impressionar e persuadir. Em tais casos, um ícone ou uma imagem bem escolhida pode provocar um efeito melhor do que apenas usar uma barra simples.

Figu

ra 1

4.3

Page 19: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.3: FATURAMENTO DA CORPORAÇÃO XYZ

O responsável pela setor de vendas da Corporação XYZ apresentou o pictograma abaixo em uma reunião com os executivos da empresa. Você vê algum problema ou algo de enganoso com esse diagrama? Cuidado! Para dar a ilusão de que o faturamento “dobrou” a cada dois anos, o responsável usou o truque de transladar o eixo vertical (que começa em 50 e não em zero).

Page 20: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.3: FATURAMENTO DA CORPORAÇÃO XYZ

Como um consumidor educado, você deve estar sempre atento a esses truques. Em descrições gráficas de dados, uma linha tênue separa objetividade de propaganda. O pictograma a seguir é mais preciso!

Page 21: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

O TRUQUE NO WASHINGTON POST (06/09/2012)

Reportagem: Bill Clinton’s Speech (in Graphs) por Sarah Kliff publicado no Jornal Washington Post em 6 de setembro de 2012.

Fonte: http://www.washingtonpost.com/blogs/ezra-klein/wp/2012/09/06/bill-clintons-speech-in-graphs/

No diagrama à direita, parece que o discurso do ex-presidente Bill Clinton foi mais de três vezes maior do que o da primeira-dama Michelle Obama, mas, na verdade, ele foi menor do que o dobro.

Page 22: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

SEÇÃO 14.2: DESCRIÇÃO GRÁFICA DE DADOS

Page 23: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

O QUE É UMA VARIÁVEL EM ESTATÍSTICA?

Tannembaum: em Estatística, uma variável (variable) é qualquer característica que varia com os membros de uma população. Moore, McCabe e Craig (Introduction to the Practice of Statistics): uma variável é qualquer característica de um indivíduo. Uma variável pode assumir valores diferentes para diferentes indivíduos. Dytham (Choosing and Using Statistics: A Biologist’s Guide): para poder fazer alguma estatística você vai precisar de dados para trabalhar. Primeiro, você deve decidir no que é que você está interessado e, em seguida, você deve selecionar uma variável adequada. A variável é a propriedade que você mede.

Page 24: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

O QUE É UMA VARIÁVEL EM ESTATÍSTICA?

Pinheiro, da Cunha, Carvajal e Gomes (Estatística Básica – A Arte de Trabalhar com Dados): quando é feito um levantamento de dados a respeito de um determinado assunto, eles costumam ser representados em uma tabela de dados brutos na qual cada linha corresponde a uma observação e cada coluna corresponde a uma variável. As observações também são às vezes chamadas de indivíduos, sujeitos, objetos, casos, unidades amostrais, etc. As variáveis também costumam ser referidas como atributos, características, propriedades, etc. Muitos livros não definem o que é uma variável (veja, por exemplo, o livro Estatística Básica de Bussab e Morettin). Proposta de definição: uma variável para uma população P é uma função X: P → C, onde C é um conjunto não vazio.

Page 25: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

TIPOS DE VARIÁVEIS

Uma variável que representa uma quantidade mensurável é denominada de uma variável numérica ou quantitativa (numerical or quantitative variable) Quando a diferença entre os valores de uma variável quantitativa pode ser arbitrariamente pequena, chamamos a variável de contínua (continuous). Quando os valores possíveis de alteração de uma variável quantitativa ocorre em incrementos mínimos, chamamos a variável de discreta (discrete). Exemplos de variáveis discretas: o resultado de um teste de QI de uma pessoa, o tamanho do sapato de uma pessoa, o número de pontos marcados em um jogo de basquete. Exemplos de variáveis contínuas: a altura de uma pessoa, o seu peso, o tamanho de seu pé (em oposição ao tamanho de seu sapato), o tempo que uma pessoa leva para correr um quilômetro.

Page 26: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

TIPOS DE VARIÁVEIS

Às vezes, no mundo real, a distinção entre variáveis contínuas e discretas pode não estar clara. Peso, altura e idade são variáveis contínuas na teoria, mas, na prática, elas são frequentemente arredondadas para o centímetro mais próximo, grama mais próxima e ano mais próximo (ou mês mais próximo no caso de bebês), momento este em essas variáveis se tornam variáveis discretas. Por outro lado, o dinheiro, o qual é, em teoria, uma variável discreta (porque a diferença entre os dois valores não pode ser inferior a um centavo), é quase sempre considerada como contínua, porque na maioria das situações reais uma moeda pode ser pensada como uma quantidade infinitamente pequena de dinheiro. Continuidade é uma conveniência: podemos usar recursos de cálculo diferencial e integral para estudar variáveis contínuas.

Page 27: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

TIPOS DE VARIÁVEIS

Variáveis também podem descrever características que não podem ser medidas numericamente: sexo, nacionalidade, cor do cabelo e assim por diante. As variáveis desse tipo são denominadas variáveis categóricas ou qualitativas (categorical or qualitative variables). De certa forma, as variáveis qualitativas devem ser tratadas de forma diferente das variáveis numéricas: elas não podem, por exemplo, ser adicionadas e multiplicadas. Alguns autores fazem ainda uma segunda classificação para variáveis qualitativas. Elas podem ser nominais quando seus valores estão em categorias que não podem ser ordenadas (exemplos: sexo, raça, nacionalidade, área de atividade) ou ordinais quando seus valores estão em categorias que podem ser ordenadas (exemplos: classe social, nível de instrução).

Page 28: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

TIPOS DE VARIÁVEIS

variável

quantitativa

qualitativa

contínua

discreta

nominal

ordinal

Page 29: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

TIPOS DE VARIÁVEIS

Se considerarmos uma variável como uma função X: P → C, então dizer que X é uma variável quantitativa significa dizer que o conjunto C é um subconjunto dos números reais (alguns autores permitem que C seja um subconjunto de IRn). Dizer que uma variável quantitativa X: P → C é discreta significa dizer que X(P) é um conjunto finito ou é um conjunto enumerável sem pontos de acumulação em IR (dizemos que um ponto q de IR é ponto de acumulação de Y = X(P) se para todo ε > 0, existe y em Y, com y diferente de q, tal que a distância de y a q é menor do que ε).

Page 30: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.4: MATRÍCULAS NA UNIVERSIDADE ESTADUAL DA TASMÂNIA

A Tabela 14-3 mostra as matrículas (enrollments) de graduação em cada uma das cinco escolas da Universidade Estadual da Tasmânia. A sexta categoria (“Other") inclui alunos não declarados, alunos de cursos interdisciplinares e assim por diante.

Page 31: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.4: MATRÍCULAS NA UNIVERSIDADE ESTADUAL DA TASMÂNIA

A Figura 14-5 mostra dois diagramas de barras que descrevem o equivalente da informação na Tabela 14-3. A única diferença entre os dois diagramas é que, no diagrama (b), os valores da variável qualitativa estão no eixo vertical.

Page 32: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.4: MATRÍCULAS NA UNIVERSIDADE ESTADUAL DA TASMÂNIA

Quando o número de classes é pequena, como é o caso aqui, outra forma comum de descrever as frequências relativas das categorias é através de um diagrama de setores (pie chart). Em um diagrama de setores, todo o círculo representa toda a população (100%), e os setores representam as classes (classes) ou categorias (categories), com o tamanho (ângulo) de cada setor proporcional à frequência relativa da classe correspondente.

Page 33: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.4: MATRÍCULAS NA UNIVERSIDADE ESTADUAL DA TASMÂNIA

A regra geral na elaboração de diagramas de setores é que um setor que representa x% é descrito por um ângulo de (3,6) x graus.

Page 34: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.5: QUEM ESTÁ VENDO TV À NOITE?

De acordo com dados da Nielsen Media Research, os percentuais da audiência de TV durante o horário nobre (20:00-23:00), divididas por faixa etária, são os seguintes: adultos (18 anos ou mais), 63%; adolescentes (12-17 anos), 17%; crianças (2-11 anos), 20%. Os números exatos variam de ano para ano. Os números apresentados são médias calculadas ao longo de vários anos. O diagrama de setores a seguir mostra essa quebra da composição do público por faixa etária.

Page 35: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.5: QUEM ESTÁ VENDO TV À NOITE?

Um diagrama de setores, como este, pode ser usado para tentar argumentar que crianças e adolescentes realmente não assistem TV tanto quanto geralmente se acredita. O problema com esta conclusão é que crianças representam apenas 15% da população em geral enquanto que adolescentes apenas 8%. Em termos relativos, um percentual maior de adolescentes (retirados da população total de adolescentes) estão assistindo TV no horário nobre mais do que qualquer outro grupo, com crianças em segundo lugar e adultos por último.

Page 36: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.5: QUEM ESTÁ VENDO TV À NOITE?

A moral desse exemplo é que usar percentagens absolutas, como fizemos no diagrama de setores, pode ser muito enganador. Quando se compara as características de uma população que é dividida em categorias, é essencial levar em conta as dimensões relativas das várias categorias.

Page 37: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

INTERVALOS DE CLASSES

Embora a distinção entre os dados qualitativos e quantitativos seja importante em muitos aspectos da estatística, quando se trata de decidir qual é a melhor forma de se apresentar graficamente as frequências de uma população, um problema crítico é o número de categorias em que os dados podem cair. Quando o número de categorias é muito grande (digamos, algumas dezenas), um diagrama de barras ou um pictograma podem se tornar confusos e ineficazes. Isto acontece mais frequentemente com dados quantitativos: variáveis quantitativas podem assumir infinitos valores e, mesmo quando isso não ocorre, o número de valores pode ser muito grande para qualquer representação gráfica razoável. Nosso próximo exemplo ilustra a forma de lidar com esta situação.

Page 38: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.6: OS RESULTADOS EM MATEMÁTICA DO TESTE SAT EM 2007

O SAT (uma vez sigla para Scholastic Aptitude Test ou Scholastic Assessment Test) é um exame educacional padronizado nos Estados Unidos aplicado a estudantes do ensino médio, que serve de critério para admissão nas universidades norte-americanas (semelhante ao ENEM brasileiro, embora as universidades não se baseiem somente nas notas dos alunos para aprová-los). O SAT é composto de três partes: uma parte de matemática, uma seção de escrita, e uma seção de leitura crítica, com as pontuações de cada seção variando de um mínimo de 200 para um máximo de 800 pontos, subindo em incrementos de 10 pontos. Em 2007, 1.494.531 estudantes americanos fizeram o SAT. Como podemos descrever os resultados da parte de matemática? De certa forma, este é o mesmo problema que foi apresentado no Exemplo 14.1, sendo apenas um teste diferente e com um número muito maior de alunos. Poderíamos criar uma tabela de frequência (ou um diagrama de barras) com o número de alunos para cada uma das possíveis pontuações: 200, 210, 220, ..., 790, 800. O problema é que existem 61 diferentes possíveis pontuações entre 200 e 800, e este número é muito grande para um diagrama de barras eficaz.

Page 39: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.6: OS RESULTADOS EM MATEMÁTICA DO TESTE SAT EM 2007

Em situações como esta, é costume apresentar uma imagem mais compacta dos dados agregando-se conjuntos de pontuações em categorias chamadas de intervalos de classe (class intervals). A decisão sobre como os intervalos de classe serão definidos e quantos intervalos serão usados vai depender do grau de detalhamento que se quer estabelecer, mas, como uma regra geral, o número de intervalos de classe deve estar em algum lugar entre 5 e 20. Pontuações SAT são geralmente agregadas em 12 intervalos de classe com essencialmente o mesmo tamanho: 200-249, 250-299, 300-349, ..., 700-749, 750-800. Usando estes intervalos de classe, a distribuição de notas da parte de matemática do SAT de 2007 é dada na tabela a seguir. O diagrama de barras associado é mostrado à direita da tabela (Fonte: The College Board).

Page 40: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.6: OS RESULTADOS EM MATEMÁTICA DO TESTE SAT EM 2007

Page 41: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.7: RESULTADOS DO EXAME DE ESTATÍSTICA – PARTE 3

O processo de conversão das pontuações de um teste (uma variável quantitativa) em faixas de pontuação (uma variável qualitativa) exige a criação de intervalos de classe para as séries de faixas diferentes. Normalmente, o professor tem a liberdade para decidir como fazer isso. Um método padrão é usar uma escala de classificação absoluta, geralmente com intervalos de classe de (quase) mesmo comprimento para todas as faixas, exceto F (por exemplo, A = 90%-100%, B = 80%-89%, C = 70%-79%, D = 60%-69%, F = 0%-59%). Outra abordagem frequente é utilizar uma escala de classificação relativa. Aqui o professor enquadra os intervalos de classe das faixas de acordo com o desempenho da turma no teste, frequentemente variando os comprimentos dos intervalos de classe.

Page 42: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.7: RESULTADOS DO EXAME DE ESTATÍSTICA – PARTE 3

Para ver a classificação relativa em ação, vamos considerar as notas do teste de estatística apresentadas no Exemplo 14.1. Depois de olhar para o desempenho global da turma (ver o Exemplo 14.2), Dr. Blackbeard opta por “ajustar” os resultados dos testes usando intervalos de classe de sua própria criação. Os intervalos de classe e os resultados correspondentes estão apresentados na Tabela 14-5.

Page 43: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.7: RESULTADOS DO EXAME DE ESTATÍSTICA – PARTE 3

A distribuição de faixas do teste de estatística pode ser agora melhor vista por meio do diagrama de barras da figura a seguir. A imagem fala por si só: o teste foi uma prova muito dura!

Page 44: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

HISTOGRAMAS

Quando uma variável quantitativa é contínua, os seus possíveis valores podem variar de acordo com incrementos infinitamente pequenos. Como consequência, não há lacunas entre os intervalos de classe e nossa velha maneira de fazer as coisas (usando barras separadas) não funcionará mais. Neste caso, vamos usar uma variação de um diagrama de barras que é chamado de histograma (histogram). Ilustraremos o conceito de histograma no próximo exemplo.

Page 45: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.8: SALÁRIOS INICIAIS DOS FORMANDOS DA UNIVERSIDADE ESTADUAL DA TASMÂNIA

Suponha que queiramos usar um diagrama para exibir a distribuição dos salários iniciais dos formandos da Universidade Estadual da Tasmânia (UET). Os salários iniciais para os N = 3258 formandos variam de US$ 40.350 a US$ 74.800 anuais. Devemos escolher os comprimentos dos intervalos de classe com base nestes dados e de acordo com o nível de detalhamento que queremos exibir.

Page 46: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.8: SALÁRIOS INICIAIS DOS FORMANDOS DA UNIVERSIDADE ESTADUAL DA TASMÂNIA

Uma escolha razoável seria usar intervalos de classe definidos com incrementos de US$ 5.000. A Tabela 14-6 dá a frequência dos salários iniciais anuais usando estes intervalos de classe. Escolhemos o valor inicial de US$ 40.000 por conveniência.

Page 47: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.8: SALÁRIOS INICIAIS DOS FORMANDOS DA UNIVERSIDADE ESTADUAL DA TASMÂNIA

Um histograma com a frequência relativa de cada intervalo de classe é apresentado na figura a seguir. Como podemos ver, um histograma é parecido com um diagrama de barras. Contudo, várias diferenças importantes existem.

Page 48: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.8: SALÁRIOS INICIAIS DOS FORMANDOS DA UNIVERSIDADE ESTADUAL DA TASMÂNIA

Para começar, porque um histograma é usado para variáveis contínuas, não pode haver lacunas entre os intervalos de classe, e segue-se, portanto, que as barras de um histograma devem se tocar. Entre outras coisas, isso nos obriga a fazer uma decisão arbitrária: o que acontece com um valor que cai exatamente no limite entre dois intervalos de classe? Ele deve sempre pertencer ao intervalo de classe da esquerda ou da direita? Isso é chamado de a “convenção de extremidade”. As marcas sobrescritas “+" na Tabela 14-6 indicam como escolhemos lidar com a convenção da extremidade na figura ao lado. Um salário inicial anual de exatamente US$ 50.000, por exemplo, será listado no intervalo de classe 45.000+ -50.000 em vez do intervalo de classe 50.000 + -55.000.

Page 49: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

EXEMPLO 14.8: SALÁRIOS INICIAIS DOS FORMANDOS DA UNIVERSIDADE ESTADUAL DA TASMÂNIA

Ao criar histogramas, devemos tentar, tanto quanto possível, definir os intervalos de classe todos com o mesmo comprimento. Quando os intervalos de classe não possuem um mesmo comprimento, as regras para a criação de um histograma são consideravelmente mais complicadas, uma vez que não é mais apropriado usar as alturas das barras para indicar as frequências dos intervalos de classe. Mais detalhes nos Exercícios 73 e 74.

Page 50: TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 07 · Descrições gráficas de dados (diagramas de barras, pictogramas e diagramas de setores) são introduzidas na Seção 14.1.A

AGORA: EXERCÍCIOS EM SALA DE AULA