d e a de dados ma ntroduÇÃo - ufop · 2012. 3. 28. · no capítulo 6, são mostrados os tipos...

120
DESCRIÇÃO E APRESENTAÇÃO DE DADOS: UMA INTRODUÇÃO THIAGO REZENDE DOS SANTOS BOLSISTA: GABRIEL JULIANO CAMÊLO UNIVERSIDADE FEDERAL DE OURO PRETO INSTITUTO DE CIÊNCIAS EXATAS E BIOLÓGICAS DEPARTAMENTO DE MATEMÁTICA ABRIL DE 2011

Upload: others

Post on 15-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

DESCRIÇÃO E APRESENTAÇÃO DE DADOS: UMA INTRODUÇÃO

THIAGO REZENDE DOS SANTOS

BOLSISTA: GABRIEL JULIANO CAMÊLO

UNIVERSIDADE FEDERAL DE OURO PRETO

INSTITUTO DE CIÊNCIAS EXATAS E BIOLÓGICAS

DEPARTAMENTO DE MATEMÁTICA

ABRIL DE 2011

Page 2: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

ELABORAÇÃO DE UM MATERIAL DIDÁTICO PARA A DISCIPLINA DE ESTATÍSTICA I

UNIVERSIDADE FEDERAL DE OURO PRETO

OURO PRETO, ABRIL DE 2011

2

Neste projeto pró-ativa, desenvolvemos um material pra a disciplina de Estatística I com o apóio da PROGRAD.

Page 3: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Índice

1.Introdução_______________________________________________52.História da Estatística_______________________________________4 2.1.Panorama Histórico_________________________________________________7

2.2.Estatística no século XIX ___________________________________________8

2.3.Aleatoriedade _____________________________________________________8

2.4.Probabilidade______________________________________________________9 2.5.O experimento de Fisher ____________________________________________9 2.6.Cronologia________________________________________________________11

3.Estatística: definição, conceitos, importantes, motivação e aplicações s ______________13 3.1.Definição _________________________________________________________13

3.2.População e Amostra_______________________________________________14

3.3.Censo e Amostragem _______________________________________________15

3.4.Parametro e Estatística _____________________________________________15

3.5.Variável__________________________________________________________16

3.5.1. Os tipos de variáveis __________________________________________16

3.6.Exemplos de Dados em Diversas áreas do conhecimento _________________17

4.Noções de Metodologia Científico_____________________________23 4.1. Natureza da ciência ________________________________________________23 4.2. Conceito de Método ________________________________________________24 4.3. Método científico __________________________________________________24

5.Técnicas de Pesquisa________________________________________25 5.1. Métodos Experimentais e Estatísticos__________________________________25 5.2. Preparação da Pesquisa_____________________________________________27 5.3. Elaboração do Questionário _________________________________________29

6.Tipos de levantamentos de Dados_____________________________33 6.1. Método de coleta de dados___________________________________________33 6.2. Conceitos básicos de Amostragem ____________________________________36

6.2.1. Métodos de Amostragem Probabilística __________________________376.2.1.1. Amostragem Aleatória Simples (AAS) ____________________37

3

Page 4: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

6.2.1.2. Amostragem Sistemática _______________________________386.2.1.3. Amostragem Aleatória Estratificada (AAE) _______________38

6.2.2. Amostragem não-probabilística_________________________________386.2.2.1. Intencional __________________________________________396.2.2.2. Por “Júris” __________________________________________396.2.2.3. Por Quotas __________________________________________39

7.Organização e Tabulação dos Dados _________________________41

8. Análise dos Dados: Tabelas e Gráficos__________________________44

8.1. Tabelas___________________________________________________________44 8.2. Gráficos__________________________________________________________45 8.3. Tabelas para Variáveis Quantitativas _________________________________47

8.4. Tabelas para Variáveis Qualitativas___________________________________72

8.5. Vários Tipos de Gráficos ___________________________________________76

8.6. Dados dos alunos do curso de Estatística I _____________________________89

9. Medidas de síntese Numérica_________________________________106

9.1. Medidas de síntese Numérica para dados brutos _______________________106 9.2. Medidas de síntese Numérica dados agrupados sem intervalo de classe ____110 9.3. Medidas de síntese Numérica dados agrupados com intervalo de classe ____112

10.Conclusão________________________________________________119

4

Page 5: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Capítulo 1

Introdução

O intuito da preparação deste material é auxiliar as aulas da disciplina de Estatística I do curso de Estatística do DEMAT-UFOP. A disciplina consiste em conceitos básicos de pesquisa, planejamento, descrição, análise e apresentação de dados. De uma forma simples e objetiva, abordam-se todas as etapas do processo de pesquisa científica desde da elaboração e planejamento do projeto até a análise e apuração dos resultados. A estrutura deste texto segue as etapas do método científico estatístico de pesquisa, como mostrado no organograma abaixo:

5

Definição do Problema

PLANEJAMENTO

Tiposde Levantamento

e Coleta

Organizaçãoe Tabulaçãodos Dados

Apresentação e Análise dos

Dados

CONCLUSÃO

Page 6: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Cada capítulo aborda um pouco de cada uma das etapas no organograma. Para algumas fases, faz-se necessário o uso de planilhas eletrônicas, bem como análise dos dados coletados. Desta forma, são introduzidos alguns softwares para as análises.

Na parte computacional, serão usados os softwares MINITAB e Excel para a confecção de tabelas, gráficos e medidas de resumo dos dados. Isto é, os leitores são introduzidos e aprendem, de uma forma bem interativa, métodos de análise de dados básica nesses softwares, bem como adquirem familiaridade com os mesmos. Todas as rotinas e arquivos criados podem ser disponibilizados através de uma simples requisição.

O Minitab é um programa de computador proprietário voltado para fins estatísticos. É muito utilizado nas universidades nos cursos introdutórios de estatística. Também é utilizado em empresas num nível mais avançado de utilização, tendo funções mais específicas voltadas para gerenciamento. Sua interface é parecida com a de uma planilha eletrônica como Microsoft Excel ou Calc do OpenOffice mas com a capacidade de executar análises estatísticas complexas. O programa foi desenvolvido em 1972. O Minitab geralmente é utilizado em conjunto com o Seis Sigma, que é uma forma de aperfeiçoar processos rotineiros. Atualmente, milhares de entidades públicas e privadas no mundo usam essa poderosa ferramenta em seu ambiente de trabalho. Dentre elas mais de 4000 universidades em mais de 80 países.

Diferenciais: Fácil de usar e de aprender, o Minitab oferece ferramentas de Controle da Qualidade, Planejamento de Experimentos (DOE), Análise de Confiabilidade e Estatística Geral, além de ser o software mais utilizado no desenvolvimento de projetos Seis Sigma. Outros diferenciais: • Utilizado em mais de 80 países por mais de 30 mil empresas; • Ensinado em mais de 4.000 universidades em todo o mundo; • Fácil de aprender e de operar; • O software mais completo para a metodologia Seis Sigma; • Diferentes modalidades de licença, de acordo com a necessidade do cliente; • Parceria com várias empresas no fornecimento de cursos, treinamentos e consultorias; • Total apoio aos usuários.

O Microsoft Office Excel é um programa de planilha eletrônica escrito e produzido pela Microsoft para computadores que utilizam o sistema operacional Microsoft Windows e também computadores Macintosh da Apple. Seus recursos incluem uma interface intuitiva e capacitadas ferramentas de cálculo e de construção de gráficos que, juntamente com marketing agressivo, tornaram o Excel um dos mais populares aplicativos de computador até hoje. É, com grande vantagem, o aplicativo de planilha eletrônica dominante, disponível para essas plataformas e o tem sido desde a versão 5 em 1993 e sua inclusão como parte do Microsoft Office.

Este está organizado da seguinte forma: No Capítulo 2, é discorrido um pouco sobre a história da Estatística. No Capítulo 3, são apresentados conceitos fundamentais e definições essenciais em estatística. No Capítulo 4, é feita uma breve introdução sobre metodologia de pesquisa. No Capítulo 5, são abordados o método estatístico e técnicas de pesquisa. No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras de organização e tabulação dos dados. No Capítulo 8, a análise dos dados através de tabelas e gráficos é feita. No Capítulo 9, as medidas de síntese númerica são mostradas. Finalmente, no Capítulo 10, é feita a conclusão e as considerações finais do trabalho.

6

Page 7: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Capítulo 2

História da Estatística “To understand God's thoughts we must study

statistics, for these are the measure of His purpose.”

Florence Nightingale

2.1. Panorama Histórico

Todas as ciências têm suas raízes na história do homem. A Matemática, que é considerada “a ciência que une à clareza do raciocínio a síntese da linguagem”, originou-se do convívio social, das trocas, da contagem, com caráter prático, utilitário, empírico.

A Estatística, ramo da Matemática Aplicada teve origem semelhante. Desde a Antiguidade, vários povos registravam o número de habitantes, de nascimentos, de óbitos, faziam estimativas das riquezas individual e social, distribuíam eqüitativamente terras ao povo, cobravam impostos e realizam inquéritos quantitativos por processos que, hoje, chamaríamos de “estatísticas”. Na Idade Média colhiam-se informações geralmente com finalidades tributárias ou bélicas.

A partir do século XVI começaram a surgir às primeiras análises sistemáticas de fatos sociais, como batizados, casamentos, funerais, originando as primeiras tábuas e tabelas e os primeiros números relativos. No século XVIII o estudo de tais fatos foi adquirindo, aos poucos, feição verdadeiramente científica. Godofredo Achenwall batizou a nova ciência (ou método) com o nome de Estatística, determinando o seu objetivo e suas relações com as ciências.

As tabelas tornaram-se mais completas, surgiram as representações gráficas e o cálculo das probabilidades, e a Estatística deixou de ser simples catalogação de dados numéricos coletivos para se tornar o estudo de como chegar a conclusões sobre o todo (população), partindo da observação de partes desse todo (amostras). Isso o que denominamos com Inferência estatística indutiva.

Atualmente, o público leigo (leitor de jornais e revistas) posiciona-se em dois extremos divergentes e igualmente errôneos quanto à validade das conclusões estatísticas: ou crê em sua infalibilidade ou afirma que elas nada provam. Os que pensam assim ignoram os objetivos, o campo e o rigor do método estatístico; ignoram a Estatística, quer teórica quer prática, ou a conhecem muito superficialmente. Na era da energia nuclear, os estudos estatísticos têm avançado rapidamente e com seus processos, técnicas têm contribuído para a organização dos negócios e recursos do mundo moderno.

2.2. Estatística no século XIX

7

Page 8: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

A ciência chegou ao século XIX com a firme visão filosófica de que o Universo funcionaria como o mecanismo de um imenso relógio. Acreditava-se que havia um pequeno número de fórmulas matemáticas (como as leis do movimento de Newton e as leis de Boyle) capazes de descrever a realidade e prever eventos futuros. Tudo de que se necessitava para tal predição era um conjunto completo dessas fórmulas e um grupo de medições a elas associadas, realizadas com suficiente precisão. A cultura popular levou mais de 40 anos para se pôr em ida com essa visão científica.

A observação de planetas e cometas a partir da Terra não se ajustava com precisão às posições previstas, fato que Laplace e seus colegas cientistas atribuíram a erros nas observações, algumas vezes atribuíveis a alterações na atmosfera da Terra, outras vezes a falhas humanas. Laplace reuniu todos esses erros numa peça extra (a função erro), que atrelou a suas descrições matemáticas. Essa função erro absorveu e deixou apenas as puras leis do movimento para prever as verdadeiras posições dos corpos celestes. Acreditava-se que, com medições cada vez mais precisas, diminuiria a necessidade da função erro. Como ela dava conta de pequenas discrepâncias entre o observado e o previsto, a ciência do século XIX estava nas garras do determinismo filosófico – a crença de que tudo é determinado de antemão pelas condições iniciais do Universo e pelas fórmulas matemáticas que descrevem seus movimentos.

No final do século XIX, os erros haviam aumentado, em vez de diminuir. À proporção que as medições se tornavam mais precisos, novos erros se revelavam. O andar do Universo mecânico era trôpego. Falharam as tentativas de descobrir de as leis que Newton e Laplace tinham utilizado mostravam-se meras aproximações grosseiras. Gradualmente, a ciência começou a trabalhar com um novo paradigma, o modelo estatístico da realidade. No final do século XX, quase toda a ciência tinha passado a usar modelos estatísticos.

2.3. Aleatoriedade

Para o cientista moderno, o conceito de distribuição probabilística nos permite estabelecer à aleatoriedade e nos dá limitada capacidade de prever eventos futuros aleatórios. Assim, eventos aleatórios não são simplesmente indomados, inesperados e imprevisíveis – sua estrutura pode ser descrita matematicamente.

2.4 Probabilidade

8

Page 9: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Apesar da natureza incompleta da teoria de probabilidade, ela se mostrou útil para idéia, que então se desenvolvia de distribuição estatística. Uma distribuição estatística ocorre quando consideramos um problema científico específico.

Usando as ferramentas da probabilidade, eles construíam uma fórmula teórica para aquela distribuição, “a função de distribuição probabilística”, ou simplesmente a função de distribuição, que utilizaram para examinar a questão.

Com os avanços da teoria de medida e integração e da análise matemática, A.N. Kolmogorov, em 1933, lança axiomatização da probabilidade ou a definição axiomática. Agora a medida de probabilidade pode lançar mão de ferramentas mais sofisticadas da matemática. A probabilidade é levada mais a sério e tem todo rigor e formalidade que os matemáticos tanto apreciam.

2.5. O experimento de Fisher

Era uma tarde de verão em Cambridge, Inglaterra, no final dos anos 1920. Um grupo de professores universitários, suas esposa e alguns convidados tomara lugar a uma mesa no jardim para o chá da tarde. Uma das mulheres insistia em afirmar que o chá servido sobre o leite parecia ficar com o gosto diferente do que apresentava ao receber o leite sobre ele. As cabeças científicas dos homens zombaram do disparate. Qual seria a diferença? Não podiam perceber diferença alguma na química da mistura. Um homem de estatura baixa, magro, de óculos grossos interessou pelo problema. “Vamos testar a proposição”.

E assim naquela tarde de verão em Cambridge. O homem de cavanhaque era Ronal Aymler Fisher, na época com 30 e tantos anos, que posteriormente receberia o título de sir Ronald Fisher.Em 1935, publicou The Design of experiments, em cujo segundo capitulo descreveu o experimento da senhora provando chá.

Livro de Fisher

O livro sobre desenho experimental de Fisher foi um elemento importante na revolução que atravessou todos os campos da ciência na primeira metade do século XX. Bem antes de Fisher entrar em cena, experimentos científicos já vinham sendo realizados havia centenas de anos. Em Design of Experiments, Fisher

9

Ilustração 2.1 - A.N. Kolmogorov

Ilustração 2.2 - R.A. Fisher

Page 10: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

forneceu alguns exemplos de bom desenho experimental, e deduziu regras gerais para eles. No entanto, a matemática dos métodos de Fisher era muito sofisticada, e a maioria dos cientistas não era capaz de gerar os seus próprios planejamentos a não ser que seguisse o padrão de algum dos que Fisher apresentara em seu livro.

Os cientistas agrícolas reconheceram o grande valor do trabalho de Fisher sobre o planejamento de experimentos, e os métodos Fisherianos, logo, dominaram as escolas de agricultura na maior parte do mundo de língua inglesa.

Fisher versus Pearson

Laplace, em 1820, descrevia a primeira distribuição probabilística. Pearson descobriu uma família de distribuições que denominou skew distributions (distribuições assimétricas).

Pearson acreditava que as distribuições estatísticas descreviam as verdadeiras coleções de dados que ele iria analisar; Fisher acreditava que a verdadeira distribuição é fórmula matemática abstrata, e os dados coletados só podem ser usados para estimar os parâmetros da distribuição verdadeira.

O triunfo de Fisher:

• Fisher propôs o método de estimação de máxima verossimilhança (MLE);• Estabeleceu critérios para comparar os estimadores; •

Experimentos aleatórios controlados;• Análise de Variância;• Graus de liberdade;• Contribuições na pesquisa agronômica;• Os métodos de Pearson jazem na poeira da história.

Fisher publicou um artigo intitulado “Cigarros, câncer e estatística” na Centennial Review e dois artigos na Nature “Câncer de pulmão e cigarros?” e “Câncer e Fumar”;

Ele insistia que a evidência usada paramostrar que fumar causava câncer de

pulmão era cheia de imperfeições.

2.6. Cronologia1

1

10

Ilustração 2.3 - R.A. Fisher e seu cachimbo

Page 11: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Ano Evento Pessoa1857 Nascimento Karl Pearson K. Pearson1876 Nascimento de William Gosset W. S.Gosset (“Student”)1886 Nascimento de Paul Lévy P. Lévy1890 Nascimento Ronald Aylmer Fisher R. A. Fisher1893 Nascimento Harald Cramér H. Cramér1894 Nascimento Jerzy Neyman J. Neyman1895 Descoberta distribuições Assimétricas K. Pearson1895 Nascimento Egon Pearson E. Pearson1902 Primeira edição Biometrika Galton, Pearson e Weldon1903 Nascimento A. N. Kolmogorov A. N.Kolmogorov1908 Teste t de Student W.S. Gosset1912 1ª publicação de Fisher Fisher1915. Distribuição Coeficiente de Correlação Fisher1915 Nascimento John Tukey Tukey1916 Lema Glivenko-Cantelli Cantelli1917 Nascimento Savage Savage1919 Fisher Est. Exp.Rothamsted *** Fisher1920 1º dos artigos de integração de Lebesgue Lebesgue1925 1ª Ed. Statistical methods for research workers Fisher1925 Teoria MV Fisher1928 Teste hipóteses Neyman,Pearson1933 Axiomatização probabilidade Kolmogorov1934 Intervalos confiança J.Neyman1934 Prova Teorema Central do Limite Lévy, Lindeberg1945 Testes não-paramétricos Wilcoxon1947 Testes nãoparamétricos Mann-Whitney1948 Inferência estatística não paramétrica Pitman1949 Estudos observacionais Cochran1957 Polêmica cigarros Fisher1959 Formulação Definitiva testes hipóteses E. L. Lehmann1970 Teoria confiabilidade e distribuição Weibull N. Mann1972 Modelos lineares Generalizados J. A. Nelder1976 Modelos ARIMA Box e Jenkins1977 Testes de significância Cox1977 Publicação Exploratory Data Analysis Tukey1979 Bootstrap Efron1987 Morte Kolmogorov Kolmogorov1990 Splines for Observation al Data Wahba1990 MCMC Gelfand e Smith2000 Morte Tukey Tukey2009 Morte Lehmann Lehmann2010 Morte Nelder Nelder

Fonte: Livro The Lady Tasting Tea

11

Page 12: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Os interessados em mais detalhes da história da estatística podem consultar o livro Uma senhora toma chá (The Lady Tasting Tea). Boa parte desse capítulo foi baseado no mesmo. Outros livros interessantes são Um Desafio aos Deuses (conta a história da teoria do risco) e o Andar do Bêbado o qual aborda como a aleatoriedade pode influenciar nossas vidas.

A seguir, será apresentado os conceitos fundamentais, definições e aplicações em Estatística.

Capítulo 3

12

Page 13: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Estatística: definição, conceitos importantes, motivação e aplicações

“A Estatística nada mais é que o bom senso em números.”

Pierre Simon, Marquês de Laplace Matemático francês do século XVIII.

Todo dia ouvimos ou lemos essa frase, aplicada às informações a respeito de todo tipo de assunto:

• Desemprego• Acidentes• Saúde Pública• Infração• Educação• Divórcio• Turismo• Comércio• Etc., etc., etc...

É cada vez mais freqüente a necessidade de se compreender as informações veiculadas. Estar “alfabetizado” também supõe saber ler e interpretar dados.

As “Estatísticas” são usadas para o conhecimento, fazer previsões e tomar decisões.

3.1. Definição

Estatística é a ciência da coleta, organização, análise e interpretação de dados com o objetivo de conhecimento e tomada de decisão. A palavra Estatística vem do latim status, que significa estado.

Isto porque os primeiros usos da Estatística envolviam compilação de dados e confecção de gráficos que descreviam alguns aspectos demográficos e sociais (como nascimentos e mortes) de um estado, o Império Romano.

Objetivos do Aprendizado de Estatística

• Saber fazer ou criticar o que está feito.• Tornar-se mais crítico em sua análise de informações quantitativas;• Tornar-se menos sujeito as afirmações enganosas baseadas em números

ou gráficas distorcidos.• Aguçar sua capacidade de reconhecer dados estatísticos distorcidos e de

interpretar adequadamente dados não distorcidos.

13

Page 14: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Os Dados

Dados são informações (sobre pessoas, plantas, objetos, etc) obtidas através de medição, observação ou contagem.

Exemplos:

• Medição de pressão sanguínea de um paciente;• Circunferência do tronco de uma árvore;• Classificação de uma peça produzida: defeituosa ou não;• PIB de um país;• Número de alunos de uma escola.

Construção de Modelos Estatísticos

I. Descrever a relação entre variáveis para entender um fenômeno.Ex .: Entender o efeito no preço de venda de um imóvel, de características como área construída, número de cômodos, idade, localização, etc.

II. Prever o valor de uma variável a partir dos valores de outras variáveis.Ex .: Calcular a probabilidade de ocorrência de um tornado a partir de medições de vento, umidade, temperatura, pressão, etc.

III. Substituir a medição de uma variável pela observação dos valores de outras variáveis.

Ex .: Substituir a medição da quantidade de gordura abdominal feita através de tomografia (muito cara, disponível em poucos consultórios médicos) por medidas de fácil obtenção como circunferência da cintura, circunferência e prega cutânea do abdômen.

3.2. População e Amostra

Podemos inferir (deduzir) determinadas características de uma população se extraímos uma amostra representativa desta.

População: Coleção de unidades individuais (pessoas ou resultados experimentais) com uma ou mais características comuns, que se pretendem estudar.

Amostra: Conjunto de dados ou observações, recolhidos a partir de um subconjunto da população, que se estuda com o objetivo de tirar conclusões pra a população de onde foi recolhida.

14

Page 15: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

População: Coleção de unidades individuais (pessoas ou resultados experimentais) com uma ou mais características comuns, que se pretendem estudar.Amostra: Conjunto de dados ou observações, um subconjunto escolhido a partir da população.OBS.: Podemos inferir determinadas características de uma população se extraímos uma amostra representativa da população.

3.3. Censo e Amostragem

Um censo consiste da coleta dos dados da população inteira. Usualmente, é impraticável observar toda a população:

- A população é muito grande.Ex .: Respostas de todos os adolescentes brasileiros sobre fumo.

- A população é infinita.Ex .: As medições de poluição em um rio

Na maioria dos casos os dados são obtidos via amostragem.

3.4. Parâmetro e estatística

Dois conceitos importantes agora: parâmetro e estatística.

Parâmetro: Descrição numérica de uma característica da população. Será conhecido apenas se toda a população for observada.

Estatística: Descrição numérica de uma característica da amostra.

Exemplo 1: Uma pesquisa foi realizada com 1000 adolescentes brasileiros sobre o (mau!) hábito de fumar:

_ 280 responderam que “fumam” e_ 720 responderam que “não fumam”.

População: Consiste das respostas de todos os (milhões de) adolescentes brasileiros.Amostra: Consiste das 1000 respostas obtidas na pesquisa.

15

Page 16: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Um Censo consiste da coleta dos dados da população inteira. Usualmente, é impraticável observar toda a população. A população é muito grande.

Exemplo: Resposta de todos os adolescentes brasileiros sobre o fumo.

Parâmetro: Descrição numérica de uma característica da população. Será conhecido apenas se toda a população for observada.

Estatística: Descrição numérica de uma característica da amostra.

Exemplo 2: Proporção de adolescentes brasileiros que fumam – parâmetro (Valor desconhecido, pois não há pesquisa com todos os adolescentes do Brasil).

Proporção de adolescentes na amostra que responderam “fumo” – estatística.

3.5. VariávelPodemos definir uma variável, como algum valor ou quantidade que pode variar de

uma pessoa a outra, de um item a outro. Em geral, denotamos as variáveis por letras maiúsculas.

Exemplo 3: _ Estatura é um variável porque este valor variar de uma pessoa a outra._ O número de acidentes em uma estrada é uma variável, porque ele pode variar de

0,1,2,3,...

3.5.1. Os tipos de variáveis

Variáveis qualitativas: Atributos ou classificações não numéricas.Exemplo 4: Sexo (masculino, feminino), Escolaridade (nenhuma, primário, ensino

médio, etc). Essas variáveis se subdividem em:i) Nominais : Variáveis qualitativas classificadas por nomes ou rótulos, mas a

ordenação não az sentido.ii) Ordinais: Variáveis qualitativas que podem ser ordenadas, mas a operação

de diferença não faz sentido.

Variáveis quantitativas: Contagens ou medições numéricas.

Exemplo 5: Idade, número de filhos, altura, peso.

Essas variáveis se subdividem em:i) Discretas: O número de valores possíveis é finito ou infinito enumerável.ii) Contínuas: Têm infinitos valores possíveis numa escala contínua de

medição, sem vazios, interrupções ou saltos.

Importante:

1) Uma variável originalmente quantitativa pode ser coletada de forma qualitativa.Exemplo 6: Variável idade._ Anos completo (0,1,2,.........100,...) - Quantitativa_ Faixa etária (anos) {0 a5; 6 a 10; .....; > 100}- Qualitativa

16

Page 17: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

2) Nem toda variável representada por números é quantitativa.

Exemplo 7: Número de telefone.

3) A identificação da natureza da variável é de suma importância para determinar que tipo de operação, tipo de gráfico e tabela pode ser feita com mesma.

Exercício:

O IBGE selecionou aleatoriamente 5000 famílias na região metropolitana de Belo Horizonte para avaliar o perfil sócio – econômico.

Qual é a população amostrada?

A renda média das famílias da região metropolitana de Belo Horizonte, baseada no estudo, é dois salários mínimos. Estatística ou Parâmetro?

3.6. Exemplos de Dados em Diversas áreas do conhecimento

Exemplo 1: Estatísticas sociais.

Gráfico de barras horizontais 3.1: Distribuição da população do país segundo a raça.

17

Page 18: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Exemplo 2: Estudos sobre criminalidade.

Tabela 3.1: Índices de criminalidade

Gráfico de pizza 3.2: Movimento gerado pelo crime

18

Page 19: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Exemplo 3: Trânsito e Engenharia de tráfego

Gráfico de barras horizontais 3.3: Comparação de Infrações cometidas.Fonte: GPROM/BHTRANS

Exemplo 4: Medicina.

Faixas de referências de exames médicos

A tecnologia permitiu a quantificação de diversas características dos seres vivos através de exames, como os de sangue, tomografia, ecocardiograma, etc.

Uma mesma variável pode ser medida em muitos seres, mas mesmo que todos sejam sadios, produzirá resultados diferentes em cada indivíduo.

Exemplo 5: Medicina.

Taxa de hemoglobina(g/dl) de147 cavalos sadios.

Gráfico de barras verticais 3.4: Taxa de hemoglobina(g/dl) de147 cavalos sadios.

19

Page 20: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Pergunta: Se todos são sadios, qual é o valor da taxa de hemoglobina que vamos considerar normal? A resposta é uma faixa de referência.

Faixa de Referência: Intervalo de valores para os quais o indivíduo é considerado “normal” para a característica.

Valor dentro da faixa: indivíduo normal.Valor fora da faixa: indivíduo doente.

A construção de uma faixa de referência para uma determinada característica é baseada em valores que uma grande parte(90%, 95%) da população sadia possui.

Faixa de referência de 90% pra taxa de hemoglobina é 8.72 a 15.28 g%.

Exemplo 6: Água e saneamento

Plano de amostragem para controle da qualidade bacteriológica da água em redes de distribuição

Apresentar um plano mensal de amostragem para o controle da qualidade bacteriológica, em redes de abastecimento público, a fim de manter um controle preventivo, sob vigilância permanente, da potabilidade da água, desde que entra no sistema de distribuição até as ligações domiciliares, obedecendo a Portaria 36/GM de 19 de janeiro de 1990 do Ministério da Saúde.

Exemplo 7: Indústria.

• Avaliação de processo;• Melhoria dos processos;• Controle de Qualidade

Exemplo 8: Mercado Financeiro.

• Movimentação financeira;• Cálculo do valor de risco de um ativo de carteira;• Concessão de empréstimo e crédito;• Banco do Brasil.

Exemplo 9: Arqueologia.

• Análises arqueológicas;• Poucos dados;• Métodos Bayesianos.

20

Page 21: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Exemplo 10: Esportes.

• Beisebol;• Vôlei (Bernardinho);• Basquete;• Futebol (Previsão de partidas);• Atletismo (Smith & Miller, 1986, JRSS B).

Exemplo 11: Futebol.

Resultados 2003Os gráficos abaixo mostram as chances de um time ser rebaixado com determinado

número de pontos em duas rodadas distintas.

Gráficos de linhas verticais 3.5: Probabilidade de um time ser rebaixado em rodadas distintas

Os gráficos abaixo mostram as chances de um time se classificar para a Libertadores com determinado número de pontos em duas rodadas distintas.

Gráficos de linhas verticais 3.6: Probabilidade se classificar para libertadores em rodadas distintas Exemplo 12: Política e Marketing.

• Pesquisas de opinião;• Perfil dos políticos;• Indicadores de qualidade;• Lançamento de um novo produto.

21

Page 22: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Exemplo 13: Biologia.

• Genética;• Genoma, DNA;• Milhões de cadeias codificadas;• Leis de Formação.

Exemplo 14: Educação.• Avaliações educacionais;• Métodos Educacionais;• Teoria de Resposta ao Item (TRI)• (modelos) aplicados à avaliação do ENEM.

A seguir, será apresentado as noções de metodologia de pesquisa, para, na sequência, ser abordado o método estatístico de pesquisa.

22

Page 23: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Capítulo 4

Noções de Metodologia CientíficaTemos os seguintes tipos de conhecimento:

I. Conhecimento religioso;II. Conhecimento filosófico;

III. Conhecimento popular;IV. Conhecimento científico.

O conhecimento popular é transmitido de geração pra geração, baseado em imiticação e experiências pessoais.

Já o conhecimento científico é transmitido por intermédio de treinamento apropriado, sendo um conhecimento obtido de modo racional, conduzido por mio de procedimento científico. Vamos nos ater nesse tipo de conhecimento.

4.1. Natureza da ciência

A Palavra ciência pode ser entendida em duas acepções:

i. Latu sensu tem, simplesmente o significado “conhecimento”.ii. Structo sensu não se refere a um conhecimento qualquer, mas aquele, além de

aprender ou registrar fatos, os demonstra por suas causas construtivas ou determinantes.

Conceito de ciência

i. “A ciência é um conjunto de conhecimentos racionais, certos ou prováveis, obtidos metodicamente sistematizados e verificáveis, que fazem referência a objetos de uma mesma natureza.” (Ander – egg).

ii. “Acumulação de conhecimentos sistemáticos.” Para que pesquisar? Adquirir conhecimento.

As pesquisas se classificam em três categorias:

a) Pesquisas para resolver problemas: Descobrir a resposta para um problema especifico ou descrever um fenômeno da melhor forma possível.

b) Pesquisas para formular Teorias: Tentar descobrir relações entre fenômenos e o porquê da existência da relação.

c) Pesquisa para testar teorias: Similar à anterior, mas com a necessidade de se formular precisamente a teoria a ser testada.

23

Page 24: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

4.2. Conceito de Método

Um método é um procedimento regular, explícito e passível de ser repetido para conseguirmos alcançar um objetivo.

4.3. Método científico

É o caminho da ciência para chegar a um objetivo. A metodologia são as regras estabelecidas para o método científico, por exemplo, observar, formular hipóteses, e elabora instrumentos de pesquisa, etc.

Elementos do método científico:

Meta: O objetivo do estudo.Modelo: Qualquer abstração do que está sendo trabalhado ou estudado.Dados: As observações realizadas para representar a natureza do fenômeno.Avaliação: Processo de decisão sobre a validade do modelo.Previsão: Mudanças necessárias no modelo.

Exemplos:

1) Cozinhar a partir de uma receita:

Meta: Preparar um prato de comida.Modelo: A receita.Dados: A degustação durante a preparação.Avaliação: Decisões relativas ao sabor do prato.Previsão: Mudanças na receita.

2) Escrever uma monografia:

Meta: Escrever a monografia.Modelo: Relatório Parcial.Dados: Comentários do orientador ou outras pessoas.Avaliação: Comparação dos comentários.Previsão: Um novo relatório.

Há vários tipos de métodos científicos, entretanto abordaremos apenas o experimental e o estatístico.

No próximo capítulo, será apresentado o método estatístico e algumas técnicas de pesquisa, bem como o planejamento e a definição de um problema de interesse.

24

Page 25: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Capítulo 5

Técnicas de Pesquisa

5.1. Métodos Experimentais e Estatísticos

Atualmente, quase todo acréscimo de conhecimento resulta do estudo. Se bem que muito desse conhecimento possa ter sido observado unicamente, por acaso, a verdade é que desenvolvemos processos científicos para seu estudo e para adquirirmos tais conhecimentos.

Relembrando: Método científico é o caminho da ciência para se chegar a um objetivo.

O método experimental consiste em manter constantes todas as causas(fatores), menos uma, e variar esta causa de modo que o pesquisador possa descobrir seus efeito, caso existam.Obs.: É o método preferido no estudo da Física e da Química, etc. Física e Química experimental.

Exemplo 1: Observar o processo de ebulição da água.Mantém todas as outras condições (fatores) constantes pressão, umidade,

temperatura ambiente. E observamos o que acontece quando, esquentamos a água.Muitas vezes temos a necessidade de descobrir fatos em um campo em que o

método experimental não se aplica( por exemplo, nas ciências sociais).

O método estatístico, diante da impossibilidade de manter as causas constantes, admite todas a causas presentes variando-as, registrando essas variações e procurando determinar, no resultado final, que inferências cabem a cada uma delas.

Exemplo 2: A determinação das causas que definem o preço de uma mercadoria.Para aplicarmos o método experimental, teríamos de fazer variar a quantidade de

mercadoria e verificar se tal fato iria influenciar seu preço. Porém, seria necessário que não houvesse alteração nos outros fatores. Assim, deveria existir no momento da pesquisa:

Uma uniformidade dos salários; O gasto dos consumidores deveria permanecer constante; A fixação do nível geral dos preços das outras necessidades, etc.

Mas controlar tudo isso é impossível (impraticável).Por isso, lançamos mão do método científico estatístico.

Relembrando: Estatística é a ciência da coleta, organização, análise e interpretação de dados com o objetivo de conhecimento e tomada de decisão. A coleta, a organização e a descrição dos dados estão a cargo da Estatística Descritiva, enquanto que a análise e a interpretação desses dados ficam a cargo da Estatística Indutiva ou Inferencial.

O aspecto essencial da Estatística é o de proporcionar métodos inferenciais, que permitam conclusões que transcendam os dados obtidos inicialmente.

25

Page 26: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Assim, a análise e a interpretação dos dados estatísticos tornam o diagnóstico de uma empresa (escola), o conhecimento de seus problemas (produtividade), a formulação de soluções apropriadas e um planejamento da ação.

Fases e métodos estatísticos

A validação da pesquisa deve passar, necessariamente pelas fases apresentadas abaixo:

1) Definição do problema : Saber exatamente o que se pretende pesquisar.

2) Planejamento da pesquisa :Determinar o procedimento necessário para resolver o problema, com levantar

informações sobre o assunto. É importante a escolha das perguntas em um questionário que, na medida do possível, devem ser fechadas.

3) Coleta de dados :Após cuidadoso planejamento e a devida determinação das características ao

fenômeno, partimos para a coleta.A coleta pode ser:

a) Direta : Quando é feita sobre elementos informativos de registro (nascimentos, casamentos). Quando os dados são coletados pelo próprio pesquisador através de inquéritos e questionários.

b) Indireta : Quando é inferida de elementos conhecidos e/ou do conhecimento de outros fenômenos relacionados com o fenômeno estudado.

Exemplo: Estudo sobre a aprovação dos alunos do curso de Estatística nos cursos de cálculo.

Coleta direta: Questionários, perguntas aos alunos.Coleta Indireta: Obter os dados através da seção de ensino.

26

Page 27: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

4) Crítica de dados :Obtidos os dados, eles devem ser cuidadosamente, criticados à procurar de

possíveis falhas e imperfeições em erros grosseiros ou de certo vulto, que possam inferir sensivelmente nos resultados.

Objetivo: Eliminar erros capazes de provocar futuros enganos.

5) Apuração dos dados: Nada mais é que a soma e o processamento dos dados obtidos a a disposição

mediante a critérios de classificação. Pode ser manual, eletromecânica ou eletrônica.

6) Exposição ou apresentação dos dados: Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser

apresentados sob a forma adequada (tabelas ou gráficos), tornando o mais fácil o exame daquilo que está sendo objeto de tratamento estatístico.

7) Análise dos resultados: O objetivo último da estatística é tirar conclusões sobre o todo (população) a partir

de informações fornecidas por parte representativa do todo (amostra). Assim, realizadas as fases anteriores (Estatística descritiva), fazemos uma análise dos resultados obtidos, através dos métodos da Estatística Indutiva ou Inferencial, que tem por base a indução ou a inferência.

Essa fase consiste em tirar conclusões que auxiliem o pesquisador a resolver o seu problema, descrevendo o fenômeno através do cálculo de medidas estatísticas.

5.2. Preparação da Pesquisa

Preparação da pesquisa (Anteprojeto da pesquisa)

Decisão (Definição do problema)

É a primeira etapa de uma pesquisa, o momento em que pesquisador toma a decisão de realizá-lo, no interesse próprio, de alguém ou de alguma entidade. Nem sempre é fácil determinar o que se pretende investigar, e a realização da pesquisa é ainda mais difícil, pois exige, do pesquisador dedicação, persistência, paciência e esforço contínuo.

Especificação do objetivo

Toda pesquisa deve ter um objetivo determinado pra saber o que se vai procurar. O objetivo torna explicito o problema, aumentando os conhecimentos sobre determinado assunto. Respondem às perguntas: Por quê? Para quê? Para quem?

Elaboração de um esquema

Desde que se tenha tomado a decisão de realizar uma pesquisa, deve-se pensar na elaboração de um esquema que poderá ser ou não modificado e que facilite a sua viabilidade. O esquema auxilia o pesquisador a conseguir uma abordagem mais objetiva, imprimindo uma ordem lógica ao trabalho.

Para que as fases da pesquisa se processem normalmente, tudo deve ser bem estudado, inclusive a obtenção de recursos materiais, humanos e de tempo.

27

Page 28: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Constituição da equipe de trabalho

Esse é outro aspecto importante no início da pesquisa: englobam recrutamento e treinamento de pessoas, distribuição das tarefas e todo o equipamento necessário ao pesquisador. A pesquisa pode ser realizada apenas por uma pessoa. Responde a pergunta: Quem?

Levantamento de recursos e cronograma

Quando a pesquisa é solicitada por alguém ou por uma entidade, que vai patrociná-la, o pesquisador deverá fazer uma previsão de gastos a serem feitos durante a mesma, especificando cada um deles. Seria, portanto, um orçamento aproximado do montante de recursos necessários, não podendo ser rígido. Deve haver recursos financeiros para levara a cabo este estudo, um cronograma, para executar a pesquisa em suas diferentes etapas, não poderá faltar. Responde às perguntas: Quanto? Quando?

Anteprojeto de Pesquisa

1. Definir o assunto ou tema de pesquisa.2. Especificação de objetivos

Responde ás perguntas: Por quê? Para quê? Para quem?3. Constituição da equipe de trabalho.

Responde à pergunta: Quem?4. Levantamento de Recursos.

Responde a pergunta: Quanto?5. Cronograma.

Para executar a pesquisa em suas diferentes etapas. Responde à pergunta: Quando?6. Bibliografia básica

Material de consulta.

Exemplo:

1- Perfil dos alunos da disciplina de estatística I, 2°/2010.

2- Avaliar, descrever, conhecer o perfil dos alunos (Quem?) da Estatística. É importante para os professores e departamento (Para quem?) elaborar projetos de pesquisa e disciplinas para os mesmos, já que se conhece muito pouco sobre esses novos alunos (Por quê?).

3- Equipe de trabalho: (Quem?).Exemplo: João, Maria, José, Joaquim e Thiago.Exemplo: Thiago. (Apenas um).

4- Custo:_ Papel, tinta, etc;_ Passagens;

28

Page 29: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

5- Cronograma:

Atividades Agosto Setembro Outubro Novembro DezembroDef. Projeto X

Elaborar Questões X XColeta X

Apuração e tabulação XAnálise e interpretação X XConfecção do relatório

e ApresentaçãoX

6- Bibliografia

5.3. Elaboração do Questionário

Após da definição das hipóteses e objetivos, é necessário definir as variáveis e perguntas que comporão o questionário de forma a se obter as informações necessárias para confirmar ou refutar as hipóteses e conjecturas feitas no início do projeto.

Um questionário deve ser: Claro e objetivo, priorizando o entendimento das perguntas pelo entrevistado; Simples e curto; Para variáveis nominais ordinais, utlize a escala Likert, isto é, utilize 5 classes; Possuir um cabeçalho, explicando os objetivos da pesquisa e a sua importância; Construa as perguntas pensando na codificação e tabulação dos dados, facilitnado

assim as fases de apuração e análise dos mesmos; Faça um pré-teste em poucos indivíduos para eliminar possíveis erros antes de

entrevistar todos os indivíduos.

Exemplos de questionários:

Exemplo 1:

Questionário

O objetivo é avaliar o acesso a cultura e informação dos alunos, verificando os fatoresque influenciam nesse quesito. Podendo assim, levantar idéias de acessibilidade eincentivo à cultura.

1)Qual o seu sexo?

( ) Feminino. ( ) Masculino.

2) Você está trabalhando atualmente?

( ) Sim. ( ) Não.

29

Page 30: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

3) Você acha que a sua cidade incentiva a promoção de eventos culturais?

( )Sim. ( )Não.

4) Como você avalia o preço relacionado ao acesso cultural em sua cidade?

( ) Barato. ( ) Condizente. ( ) Caro.

5) Você já viajou ou viajaria para alguma realização cultural?

( ) Sim. ( )Não.

6) Sua faculdade ou sem emprego costumam promover eventos ligados à cultura?

( ) Sim. ( )Não.

7) O seu grupo de amigos participa e gosta de eventos culturais?

( )Sim. ( )Não.

8) Se houvesse mais incentivo cultural você acha que freqüentaria mais tais eventos?

( ) Sim. ( )Não.

30

Page 31: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Exemplo 2:

31

Page 32: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

No próximo capítulo, será apresentado os tipos de levantamento de dados, de estudos que podem ser realizados de acordo com a definição do um problema de interesse.

Capítulo 6

Tipos de levantamentos de Dados

32

Page 33: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Se os dados não forem coletados de maneira apropriada, eles podem ser de tal modo inútil que nenhuma manipulação estatística poderá salva-los. Toda decisão tomada ou conclusão obtida usando os resultados de um estudo estatístico é tão boa ou tão confiável quanto o processo usado na obtenção dos dados.

6.1. Método de coleta de dados

Vamos estudar quatro formas de se obter conjuntos de dados: Estudos Experimentais; Estudos Observacionais; Estudo de Simulação; Pesquisas do tipo survey.

A adoção de um método vai depender da situação em estudo e do objetivo da investigação.

Estudos Experimentais: O pesquisador aplica um tratamento a uma amostra da população e observa as respostas de interesse. Outra amostra da população é usada com grupo de controle, no qual nenhum tratamento (ou um placebo) é aplicado. As respostas dos grupos tratamento e controle são comparados.

Exemplo:Estudo sobre o efeito da Vitamina C na gripe.Grupos comparados: Pessoas que recebem vitamina C (tratamento) e pessoas que

recebem um placebo (controle).O pesquisador pode alocar aleatoriamente (sortear) os participantes do estudo a um

desses dois grupos (não precisa, e nem deve ser, uma decisão de cada pessoa).

Estudos Observacionais: O pesquisador observa ou mede as características de interesse de uma amostra da população, mas não muda as condições existentes, ou seja, não há interferência do pesquisador na definição dos grupos.

Exemplos:Estudo sobre o efeito do fumo no câncer de pulmão.Os grupos comparados são pessoas fumantes e não-fumantes. O pesquisador não

pode determinar quem vai pertencer a cada um dos grupos (é uma decisão de cada pessoa).Estudo sobre o efeito da raça na inteligência de cães.Os grupos comparados são cães de diferentes raças. O pesquisador não pode

determinar qual cão vai pertencer a cada uma das raças (é inerente ao cão).

Estudos de simulação: Usam modelos matemáticos, físicos, etc, para reproduzir as condições de um situação ou processo, muitas vezes com o uso de computadores.

Atados quando a reprodução da “vida real” é impraticável por ser perigosa, antiética, cara ou demorada.

Exemplos: Fabricantes de automóveis usam bonecos para crash tests. Estudos sobre a velocidade de espalhamento de vírus letais em grandes

cidades.

Pesquisas do tipo survey: Investigam características de uma população a partir de uma amostra, geralmente através de questionários preenchidos em entrevistas, por e-mail, etc.

Exemplos:

33

Page 34: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Uma pesquisa eleitoral para conhecer as intenções de votos pra candidatos a governador.

Uma pesquisa de mercado sobre a preferência de marcas de sabão em pó.

Estudo Transversal: Os dados são coletados em um ponto no tempo.Exemplo:Um estudo sobre a presença da larva do mosquito da dengue nas residências de BH

em janeiro de 2010.

Estudo longitudinal: Os dados são coletados em vários pontos no tempo.Exemplo:O estudo longitudinal de Saúde do Adulto (ELSA Brasil) tem o propósito de

investigar a incidência e os fatores de risco para doenças crônicas, em particular, as cardiovasculares e diabetes.

Os sujeitos da pesquisa - com idade entre 35 e 74 anos – farão exames físicos/clínicos e entrevistas em vários momentos ao longo do período do estudo.

Estudo retrospectivo (ou de caso-controle): Os dados são coletados do passado, voltando-se no tempo (registros, exames, etc).

Exemplo: Estudo sobre o efeito do fumo no câncer de pulmão.Dois grupos são definidos: “Pessoas com câncer de pulmão”(casos) e ”pessoas sem

câncer de pulmão”(controles).Investiga-se cada pessoa “fumou” ou “não fumou” nos últimos anos. Compara-se as

“proporções de fumantes” entre os “casos” e “controles”; Se a proporção de fumantes é significativamente maiôs entre os casos, conclui-se que a ocorrência de câncer de pulmão está associada ao fumo.

Estudo prospectivo (ou corte): Os dados são coletados no futuro, de grupos (chamados de cortes) que compartilham fatores comuns e diferem apenas na variável estudada.

Exemplo: Estudo sobre o efeito do fumo no câncer de pulmão.Dois grupos são definidos: “pessoas que fumam” (“expostos”) e “pessoas que não

fumam” (“não expostos”).As pessoas são acompanhadas durante um longo período. A o final do período,

observa-se se cada pessoa “teve ou não câncer”.Comparam-se as “proporções de doentes” entre “expostos” e não expostos:Se a proporção de doentes é significativamente maior entre os expostos, conclui-se

que a ocorrência de câncer de pulmão está associada ao fumo.

Aleatorização: Sorteio dos participantes entre os grupos comparados. Garantir grupos iguais em todos os fatores que afeta a resposta, exceto por

aquele sendo comparado.Exemplo: Ômega-3 pode proteger com insuficiência cardíaca?

34

Page 35: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Fatores controlados: Idade, sexo, hábitos alimentares, etc...

Estabelecimento de Categorias

• Categoria é a classe, o grupo ou o tipo em uma série classificada.• As perguntas ou as hipóteses da pesquisa, quando formuladas, oferecem base para

o estabelecimento de determinadas regras.Exemplo:Categoria:• Sexo – masculino e feminino. Classe social – classe alta, classe média e classe

baixa;• Subcategorias: Classe social – classe alta-alta, alta-média, alta-baixa; média-alta,

média-média, média-baixa; baixa-alta, baixa-média, baixa-baixa.

Codificação

Codificar significa organizar os dados em classes ou categorias, atribuindo a cada categoria um item e dando a cada um deles um símbolo (número ou letra).

Sem a codificação é difícil a tabulação, e ela torna-se mais complicada se o número de casos for muito grande.

• Sexo – masculino (0) e feminino (1);• Classe social – classe alta (A), classe média (M) e classe baixa (B).

Tabulação

A tabulação é definida como sendo “a arrumação de dados em planilhas (tabelas), de maneira a permitir a verificação das relações que eles guardam entre si”.

A tabulação pode ser:• Manual;• Mecânica;• Eletrônica.

6.2. Conceitos básicos de Amostragem

A amostragem é o processo de retirada de uma amostra da população e é usada intuitivamente um nosso cotidiano. Por exemplo, para verificar o tempero de um alimento em preparação.

Nas pesquisas cientificas, em que se deseja conhecer algumas características de uma população, também é muito comum se observar apenas uma amostra de elementos e, a partir dos resultados dessa amostra obter valores aproximados ou estimativas, para as Características populacionais de interesse.

A seleção dos elementos que serão efetivamente observados, deve ser feito sob uma metodologia adequada, de tal forma que os resultados das amostras sejam informados para avaliar características de toda a população.

35

Page 36: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

O universo ou população de uma pesquisa depende do assunto a ser investigado, e a amostra, que realmente será submetida à verificação , é obtida ou determinada por uma técnica específica de amostragem.

Há duas grandes divisões no processo de amostragem: A probabilística e não-probabilística.

i) Amostragem probabilística:

A característica primordial é poder ser submetida a tratamento estatístico. Ela se caracteriza pela aleatoriedade da seleção dos indivíduos ou elementos amostrais. A amostra é representativa da população, os resultados obtidos para a amostra podem ser estendidos para a população.

ii) Amostragem não-probabilística :

A característica principal das técnicas de amostragem não-probabilísticas é a de que, não fazendo uso de formas aleatórias de seleção, os dados não se prestam a tratamento estatístico que leva à inferência sobre a população. A amostra não é representativa e os resultados através da mesma são válidos apenas para a amostra.Exemplo disso são os estudos de casos tão comuns em diversas áreas como geogradia e medicina e etc.

Exemplo 1: Numa pesquisa eleitoral, a três dias de uma eleição municipal, a população pode ser definida como todos os eleitores com domicílios eleitorais no município.OBS.: Na prática, a população se restringe aos eleitores residentes no município. Os parâmetros devem ser as porcentagens de votos de cada candidato à prefeitura, no momento da pesquisa.

Razões para o uso de amostragem?

1) Economia: Em geral, torna-se bem mais econômico o levantamento de somente uma parte da população.

2) Tempo: Numa pesquisa eleitoral, a três dias de uma eleição presidencial, não haveria tempo suficiente para pesquisar toda a população de eleitores do país, mesmo que houvesse recursos financeiros em abundância.

3) Confiabilidade dos dados: Quando se pesquisa um número reduzido de elementos, pode-se dar mais atenção aos casos individuais, evitando erros nas respostas.

4) Operacionalidade: É a mais fácil realizar operaões de pequena escala. Um dos problema s típicos nos grandes censos é o controle dos entrevistadores ( recenseadores).

Quando o uso de amostragem não é interessante1) População pequena: Se a população for pequena (digamos, de 50 elementos) para

tomar uma amostra capaz de gerar resultados precisos para os parâmetros da população, necessitamos de uma amostra relativamente grande.

2) Característica de fácil mensuração: Talvez a população não seja tão pequena, mas a variável que se deseja observar é de tão fácil mensuração, que não compensa investir num plano de amostragem. Por exemplo, para verificar a porcentagem de funcionários favoráveis à mudanças de horários de um turno de trabalho, podemos entrevistar toda a

36

Page 37: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

população no próprio local de trabalho. Essa atitude pode também ser politicamente mais recomendável.

3) Necessidade de alta precisão: A cada dez anos o IBGE realiza um Censo Demográfico pra estudar diversas características da população. Dentre estas características tem-se o parâmetro número de habitantes residentes no país, que é o fundamental para o planejamento do país.6.2.1. Métodos de Amostragem Probabilística

6.2.1.1. Amostragem Aleatória Simples (AAS)

A amostragem aleatória simples é, do ponto de vista conceitual e computacional, o método mais direto de se amostra uma população.

Para a seleção de uma amostra aleatória simples precisamos ter uma lista completa dos elementos da população (ou unidades de amostragens apropriadas). Este tipo de amostragem consiste em selecionar a amostra através de um sorteio, sem restrição.

Propriedade: Qualquer subconjunto da população, com o mesmo número de elementos, tem a mesma probabilidade de fazer parte da amostra. Em particular, temos que cada elemento da população tem a mesma probabilidade de pertencer à amostra.

A amostragem aleatória simples pode ser feita com ou sem reposição. Na prática, a amostragem aleatória simples pode ser feita numerando-se a população de 1 a N e sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, n números dessa seqüência, os quais corresponderão aos elementos pertencentes à amostra.

Exemplo 1: Com o objetivo de estudar algumas características dos alunos de Estatística I 2°/2010, vamos extrair uma amostra aleatória simples de tamanho cinco (n=5).

Na lista de presença, os alunos estão numerados de 1 a 51.Podemos fazer a amostragem de 3 maneiras:

1) Escrevemos os números de 1 a 51, em pedaços iguais de um mesmo papel, colocando-os em uma urna. Retiramos 5 papéis, um a um, sem reposição.

2) Usamos a tabela de números aleatórios, construída de modo que dez algarismos (0 a 9) são distribuídos ao acaso nas linha e colunas.

3) Usar um gerador de números aleatórios de um computador que gere números aleatórios entre 1 a 51.

6.2.1.2. Amostragem Sistemática

Muitas vezes é possível obter uma amostra de características parecidas com a amostra aleatória simples, por um processo bem mais rápido daquele da amostra aleatória simples, que denominamos amostragem sistemática.

Exemplo 2: Se queremos tirar uma amostra de 5 alunos, dentre um população de 51 alunos, sistematicamente temos que passar pelas seguintes etapas:i) Tenha uma lista com todos os indivíduos da população.ii) Determinar o intervalo de amostragem pela relação N/n = 51/5 ≈ 10.iii) Sortear um número entre 1 a N/n = 5 para iniciar o processo de amostragem. Por

exemplo, o 5.iv) A partir do elemento sorteado, tome indivíduos de N/n em N/n para fazer parte da

amostra. (5, 15, 25, 35, 45).

37

Page 38: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Exemplo 3: Amostragem sistemática com a população de alunos de Estatística I 2°/2010.

N = 51, n=5, N/n = 51/5 ≈ 10.Sorteie um número de 1 a 10. Por exemplo, 5, (5, 15, 25, 35, 45).

6.2.1.3. Amostragem Aleatória Estratificada (AAE)

A técnica da amostragem estratificada consiste um dividir a população em subgrupos, que denominaremos de estratos. Estes estratos devem ser internamente mais homogêneos do que a população, com respeito às variáveis em estudo. Por exemplo, para estudar o interesse dos funcionários de uma empresa, em realizar um programa de treinamento (promoção), poderíamos estratificar esta população por níveis hierárquicos, ou ainda, por setores homogêneos com respeito de que está estudando. Neste contexto, um prévio conhecimento sobre a população em estudo é fundamental.

Sobre os diversos estratos da população, são realizadas seleções aleatórias, de forma independente.

A amostra completa é obtida através da agregação das amostras de cada estrato.Procedimento:A proporcionalidade do tamanho de cada estrato da população é mantida na

amostra. Por exemplo, se um estrato corresponde a 20% do tamanho da população, ele também deve corresponder a 20 % da amostra.

Dentro de cada estrato é feito um procedimento de amostragem;

Exemplo 4: Amostragem estratificada dos alunos de Estatística I 2°/2010.2 estratos: homens e mulheres.A proporção de mulheres e de homens é 39% e 61 %, respectivamente.N = 51, n = 5, 39% ≈ 2 mulheres, 61% ≈ homens.Fazemos duas listas com os homens e as mulheres e retiramos 2 mulheres e 3

homens dessas listas por amostragem aleatória simples sem reposição.

6.2.2. Amostragem não-probabilística

A caracterização principal das técnicas de amostragem não-probabilista é a de não fazer uso de formas aleatórias de seleção.

6.2.2.1. Intencional

O tipo mais comum de amostra não-probabilista é denominado intencional. Nesta, o pesquisador está interessado na opinião (ação, intenção e etc.) de determinados elementos da população, mas não representativos da mesma. Seria o caso onde se deseja saber como pensam os líderes de opinião de determinada comunidade.

O pesquisador não se dirige, portanto, à “massa”, isto é, a elementos representativos da população em geral, mas àqueles que exercem as funções de lideres de opinião na comunidade.

6.2.2.2. Por “Júris”

38

Page 39: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Técnica utilizada principalmente quando se desejam obter informações detalhadas, durante certo espaço e tempo, sobre questões particulares. A atualização mais comuns de “júris” prende-se, em geral, a estudos realizados por órgãos oficiais, principalmente sobre orçamento familiar ou audiência de programas de rádio e TV.

Funcionamento:São selecionadas donas de casa “representativas” segundo alguns critérios como os

sócios econômicos;Pode-se que as donas de casa preencham longos relatórios de despesas, com a

finalidade de descobrir como são distribuídos os gastos no que se refere ao orçamento.Geralmente, os componentes dos “júris” recebem certa quantia como “recompensa”

pelo trabalho de preencher os relatórios, mas não o suficiente para alterar de modo significativo seu padrão de vida ou influir no tipo de aquisições.

6.2.2.3. Por Quotas

A técnica não-probabilística mais utilizada em levantamentos de mercado, prévias eleitorais e sondagem de opinião pública, é a de quotas.

A amostragem por quotas pressupões 3 etapas:1) Classificação da população em termos de propriedades que se presume (ou se

sabe) serem relevantes para a característica a estudar, para tanto, é necessário acesso a dados censitários, cadastros, listas e outras fontes de representação da população.

2) Construção de uma “maqueta” (réplica) da população a ser pesquisada, com a determinação (relativas à amostra total) da proporção da população que deve ser colocada em cada classe ou estrato (com base na sua constituição conhecida, presumida ou estimada).

3) Fixação de quotas para cada entrevistador, que terá a responsabilidade de selecionar as pessoas a serem pesquisadas, de tal modo que a amostra total venha conter a proporção de cada classe ou estrato, tal como foi fixado na segunda etapa.

Exemplo: Pesquisa de intenção de voto. Supondo que a população geral é composta de 52% de mulheres, 48% de homens; 14% entre 16 a 25 anos incompletos, 36% entre 25 e 45 anos incompletos, 36% entre 45 e 65 anos incompletos e 14% com mais de 65 anos; 10% da classe sócio-econômica A, 15% da B, 25% da C e 50% da D. Com quotas independentes, o pesquisador deverá entrevistar:

Sexo Idade Classe sócio-econômica MH

52%48%

16 |---------- 2525 |---------- 4545 |---------- 6565 e mais

14%36%36%14%

ABCD

10%15%25%50%

Total 100% 100% 100%Tabela 6.1: Distribuição dos aluno segundo sexo, idade e classe sócio-econêmica

OBS.: Assemelha-se muito com a técnica de amostragem estratificada (probabilística), porém na última faze a escolha do elemento é feito subjetivamente pelo entrevistador, ao invés de ser aleatório;

39

Page 40: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Há uma grande polêmica entre os institutos de pesquisa, estatísticos e pessoas que utilizam técnicas não-probabilísticas (Não há nenhum respaldo técnico para o cálculo da margem de erro e tamanho da amostra.).

A seguir, será mostrado como organizar e tabular os dados coletados de acordo com tipo de levantamento de dados estabelecido a priori.

Capítulo 7

Organização e Tabulação dos Dados

Depois de coletados, os dados devem ser armazenados em um planilha de dados ou um banco de dados, no computador.

A planilha de dados é composta por linhas e colunas:

40

Page 41: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Cada linha contém os dados de um indivíduo; Cada coluna corresponde a uma das variáveis medidas.

O banco de dados tem uma estrutura mais elaborada, adequada para conjuntos de dados maiores e mais complexos.Exemplo: Ursos Pardos.Pesquisadores do Instituto Amigos do Urso Pardo estudam os ursos pardos

selvagens que vivem em certa floresta do Canadá.Na fase inicial do estudo, 97 ursos foram identificados.Os dados de cada urso foram coletados através do preenchimento de uma ficha de

coleta.Fichas de coleta de dados dos ursos

Planilha (parcial) do Conjunto de Dados dos Ursos

Ilustração 7.1: Ficha de dados de um urso

41

Page 42: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Ilustração 7.2: Banco de dados dos Ursos do Instituto

No próximo capítulo, será estudado as possíveis formas de analisar os dados coletados que já estão organizados e tabulados.

Organização do banco de dados no MINITAB e EXCEL

Nas próximas sessões serão utilizados os softwares Minitab e Excel para melhor exemplificação dos exemplos abordados. No Minitab é possível construir tabelas de frequências, fazer análises descritivas, plotagem de gráficos e muitas outras análises como inferência.

O MINITAB tem a estruturação do banco de dados semelhante a muitos outros softwares. De posse do seu banco de dados o mesmo é organizado da seguinte forma:

• As linhas representam os indivíduos ou observações do banco de dados.

• As colunas representam as variáveis referentes aos indivíduos ou observações.

42

Page 43: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

No Excel, a estruturação do banco de dados é feita da mesma forma que o Minitab.

43

Page 44: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Capítulo 8

Análise dos Dados: Tabelas e GráficosÉ muito importante saber o tipo da variável que se prentende estudar, pois ele nos

indica o tipo de tabela e gráfico mais adequado para a análise da variável.

8.1. Tabelas

TABELAS

Para a normalização das tabelas, a ABNT recomenda o uso da Norma Tabular do IBGE (1993).

• As tabelas apresentam informações tratadas estatisticamente.

• Seu conteúdo interno deve ser apresentado em fonte Arial, tamanho 10 e espaçamento simples de entrelinhas.

• Devem ser alinhadas preferencialmente às margens laterais do texto e, quando pequenas, centralizadas na página.

Na parte superior da tabela deve constar:• A palavra Tabela, alinhada à lateral esquerda desta, sucedida do número que a

identifica, em algarismos arábicos, conforme a ordem em que aparece no texto;• O título, escrito preferencialmente com a primeira letra em maiúscula, respeitando

nomes próprios e siglas, precedido por um hífen, sem ponto final.• Devem ser apresentados em fonte Arial, tamanho 12 e espacejamento simples de

entrelinhas.

Exemplo:

Tabela 1 - Atitudes perante os direitos civis, de acordo com a classe social

Na parte inferior da tabela deve constar:

• A fonte de onde foram extraídos os dados, precedida da palavra Fonte (quando retirada de local impresso). É importante lembrar que nem sempre terá fonte, pois os dados primários são coletados pelo autor do trabalho;

• Opcionalmente, esclarecimentos e observações de natureza geral, precedidos da palavra Nota.

• Devem ser apresentados em tamanho 10 e espaçamento simples.

Exemplo:

Fonte: MARCONI, M. de A.; LAKATOS, E. M. Metodologiacientífica. 3. ed. São Paulo: Atlas, 2000. p. 51.

44

Page 45: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Exemplo completo de Tabela:

QUADROS

• Seguem as mesmas regras das tabelas.

8.2. Gráficos

As ilustrações são apresentadas no texto na forma de desenhos, esquemas, fluxogramas, fotografias, gráficos, mapas, organogramas, plantas, retratos etc.

• Sua identificação deve aparecer na parte inferior, em fonte Arial, tamanho 10, espaçamento simples de entrelinhas, seguida de seu número de ordem de ocorrência no texto, em algarismos arábicos, precedida da palavra Figura e o mais próximo possível do texto a que se refere.

• Abaixo da identificação, informam-se os dados abreviados (autor, data e paginação) de onde foram extraídos, quando de fonte publicada anteriormente (não se deve esquecer de acrescentar os dados completos da obra na seção REFERÊNCIAS).

45

Page 46: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

• Quando houver um grande número de figuras distintas (superior a cinco elementos), recomenda-se o uso da terminologia própria para cada tipo (figuras, lâminas, plantas, fotografias, gráficos e outros), conforme os exemplos abaixo.

Ilustração 8.1: Quadrinhos

46

Page 47: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

As três regras da apresentação de dados

Há três coisas que você sempre deve fazer primeiro com os dados?

1. Faça um gráfico.Uma exposição visual dos dados revela aspectos deles que você provavelmente não vê em uma tabela de números. Isso ajuda você a pensar com clareza sobre as relações que podem surgir nos dados e, assim, a escolher o método de análise.

2. Faça um gráfico.Um gráfico bem feito realmente faz uma grande parte da tarefa de análise dos dados. Um gráfico revela que você não esperava ver: valores extremos (possivelmente errados) ou padrões inesperados.

3. Faça um gráfico.A melhor maneira de se comunicar com as pessoas é mostrar a elas um gráfico adequado e bem feito.

Gráfico Estatístico

• O gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir, no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápido à compreensão que as séries.

• A apresentação gráfica de um fenômeno deve obedecer a certos requisitos fundamentais para ser realmente útil:

• I. Simplicidade:• II. Clareza:• III. Veracidade:

8.3. Tabelas para Variáveis Quantitativas

Variáveis Quantitativas: contagens ou medições.Exemplos: - número de filhos de uma mulher;

- número de ovos posto por um inseto; - peso de um urso.

47

Page 48: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Variáveis Quantitativas Discretas

Quando a variável tem poucos valores possíveis, sua tabela de distribuição de freqüências pode ter uma linha para valor.

Exemplo: Número de filhos por família na localidade A.25 famílias pesquisadas.Dados observados:3 2 4 2 21 2 0 5 32 3 4 3 11 2 2 1 22 3 5 3 2Valores assumidos pela variável: 0, 1, 2, 3, 4 e 5.

Tabela de distribuição de freqüências do número de filhos por família na localidade A.

Tabela 8.1: distribuição de frequências do número de filhos por família na localidade A

48

Page 49: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Representação gráfica da distribuição de frequências do número de filhos por família na localidade A.

Freqüências Absolutas Freqüências Relativas

Gráfico de barras 8.1: Frequências Absolutas Gráfico de barras 8.2: Frequências Relativas

Tabela de distribuição de freqüências do número de filhos por família na localidade B

Tabela 8.2: distribuição de freqüências do número de filhos por família na localidade B.

49

Page 50: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Representação gráfica da distribuição de freqüências do número de filhos por família na localidade B.

Frequências Absolutas Frequências Relativas

Gráfico de barras 8.3: Frequências Absolutas Gráfico de barras 8.4: Frequências Relativas

Comparação gráfica da distribuição de freqüênciasDo número de filhos por família entre as localidades A e B:

Gráfico de barras 8.5: Frequências Relçativass Gráfico de barras 8.6: Frequências Relativas

Exemplo: Em uma pesquisa foi perguntado a 26 pessoas de baixa renda:“Incluindo crianças e adultos, qual você acha que é o tamanho ideal de família ?”

50

Page 51: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Como fazer

Assim como o MINITAB o Microsoft Excel, é uma ótima ferramenta para análises estatística. Possui algumas rotinas e funções prontas e outras que podem ser criadas pelo usuário. Para construção de gráficos o mesmo possui muitas opções. Podemos organizar o banco de dados no Excel da mesma forma que foi organizado no MINITAB.

Criando tabela de frequência para variável Membros Família. Está variável representa o total de membros a qual é constituída a família do aluno.

1° Nas colunas livres da planilha criamos a tabela de frequência com todos os possíveis valores da variável.

Na coluna P4 para 1, temos 4 alunos que possuem apenas um membro na família, ou seja moram sozinhos. Mas como fazer isso sem ficar contando os valores? No Excel existem várias funções que nos auxiliam nessas contagens, principalmente quando o banco de dados é muito grande.

51

Page 52: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

2° Para se fazer está contagem utilizamos a função CONT.SE, onde na mesma o primeiro parâmetro corresponde ao intervalo ou faixa de valores ao qual se deseja fazer a contagem( no caso a coluna com a variável Membros Família) e o segundo parâmetro a condição desejada entre aspas duplas, como se segue no exemplo.

Para os outros valores o processo é semelhante, com a mudança apenas na condição desejada. Que será 2,3,4,5,6,7

3° Na frequência relativa dividimos o valor de cada linha pelo total das observações. Para se obter o total Absoluto e relativo, usamos a função SOMA. Na célula P11 escrevemos a seguinte função =SOMA(P4:P10), onde P4:P10 contém o intervalo de ambas as frequências as quais se deseja fazer a soma. E repetimos o processo para a célula Q11.

52

Page 53: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

4° De posse dessa tabela podemos criar um gráfico de barra. Para isso selecionamos a coluna a qual se deseja plotar o gráfico.

53

Page 54: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

5° Clique na guia inserir vá até a opção gráficos em colunas, clique, e selecione a primeira opção em coluna 2D.

6° Automaticamente o gráfico é criado. Podendo-se inserir titulo e outras mudanças necessárias. Para a construção do gráfico de frequências relativas o processo é o mesmo.

54

Page 55: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

O Diagrama de Pontos

Cada ponto representa uma observação da variável. Observações com mesmo valor são representadas com pontos empilhados.

Exemplo: Tamanho ideal da família (continuação).

Como fazer

Infelizmente não é possível plotar alguns gráficos no Excel, como por exemplo: O Diagrama de pontos e Diagrama de Ramos e Folhas. Para isso devemos recorrer ao MINITAB.

Para o nosso exemplo dos alunos do curso de Estatística vamos construir um gráfico de pontos para a variável Membros Família.

1° Vá até a barra de menu e clique na opção Graph, abrirá um submenu com várias opções. Clique na opção Dotplot.

55

Page 56: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

2° Abrirá uma janela com várias opções de Diagramas de pontos. Em One Y selecione a opção Simple, como mostrado no exemplo e clique em ok.

3° Na próxima janela que se abrir selecione a variável Membros Família e clique em ok. Se preferir clique no botão Labels e adicione um titulo.

56

Page 57: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

4° Abrirá uma nova sessão com o gráfico de pontos da variável Membros Família.

57

Page 58: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Como fazer

Construindo o gráfico de Ramos e Folhas para a variável Grau expectativa, esta variável mede o grau da expectativa através de um nota atribuída pelo aluno para o curso.

1° Seguiremos o mesmo passo do exemplo anterior. E selecionamos a opção Stem-and-Leaf.

2° Na janela que se segue selecione a variável Grau expectativa e clique em ok.

58

Page 59: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

3° Abrirá uma sessão com o diagrama de Ramos e Folhas da variável em questão.

Voltando à Tabela de Distribuição de Freqüências

Se a variável assume um grande número de valores distintos, fica inviável considerar cada valor como uma classe na tabela ou no gráfico de distribuição de freqüências. A solução é agrupar os valores para formar as classes.

Exemplo: Número de ovos postos por um inseto. 250 insetos observados.Valores assumidos pela variável: 10, 11, 12, ... , 44.

59

Page 60: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Tabela da distribuição de freqüências donúmero de ovos postos por inseto.

Tabela 8.3: Distribuição de frequências do número de ovos postos por inseto

Representação gráfica da distribuição de freqüênciasdo número de ovos postos por inseto.

Gráfico de barras 8.7: Distribuição de frequências do número de ovos postos por inseto

60

Page 61: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Gráficos de barras 8.8: Segundo a faixa de valores adotados

Variáveis Quantitativas Contínuas

Como a variável contínua tem um número infinito de valores possíveis, a tabela de distribuição de freqüências é formada por classes.

Exemplo: Emissões (em toneladas) de óxido de enxofre por uma indústria em 70 dias.

Gráficos barras verticais 8.8: exemplos

Passos para construção de uma tabela de distribuição de freqüências de uma variável contínua

1 – Encontre o menor e o maior valor das observações.2 – Determine o tamanho das classes.3 – Construa as classes, começando antes do valor mínimo e terminando

depois do valor máximo.

61

Page 62: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

4 – O número de classes está associado:• ao tamanho de classe escolhido: uma tabela de freqüência não deve ter

menos de 6 classes (muito resumida) ou mais de 15 classes (muito dispersa);• à quantidade de observações: um grande número de observações pode ser

distribuído em muitas classes; mas um pequeno número de observações requer poucas classes.5- O bom senso deve prevalecer na construção das classes:

Se a primeira tabela de distribuição de freqüências construída não adequada (muito resumida ou muito dispersa) aumente ou diminua o número de classes, diminuindo ou aumentando o tamanho delas.Observação:

Devido aos arredondamentos feitos na coluna de freqüências relativas, pode acontecer da soma dos valores dessa coluna ser diferente de 100% (99,9% ou 100,1%, por exemplo, no caso de usarmos uma casa decimal). Nesse caso, o bom senso recomenda fazer o ajuste na classe mais freqüente.

Exemplo: Emissões de Óxido de Enxofre (ton.) de uma indústria em 70 dias.

1 - min = 6.2 Max = 31.82 - Tamanho de classe: 5 toneladas.3 - O símbolo |- significa quea classe contém seu limites inferiores, mas não o

limite superior, que está contido na próxima classe.

1a classe: 5.0 |- 10.02a classe: 10.0 |- 15.03a classe: 15.0 |- 20.04a classe: 20.0 |- 25.05a classe: 25.0 |- 30.06a classe: 30.0 |- 35.0

Tabela 8.4: Distribuição de Emissão de óxido de enxofre

62

Page 63: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

O ajuste (subtrair 0.1% na freqüência relativa da quarta classe) foi feito na classe de segunda maior freqüência (28.6%), pois a classe de maior freqüência (30.0%) é o valor exato de 21/ 70.

Tabela da distribuição de frequênciasdas emissões de óxido de enxofre

por uma indústria em 70 dias

Tabela 8.5: Distribuição de frequências das emissões de óxido de enxofre por uma indústria em 70 dias

O Histograma

Um gráfico de barras unidas para representar a distribuição de freqüências de variáveis contínuas.

Histograma 8.9: Exemplo

63

Page 64: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Exemplo: Emissões de Óxido de Enxofre (ton.) de uma indústria em 70 dias.

Histograma 8.10: Emissões de Óxido de Enxofre (ton.) de uma indústria em 70 dias

Como fazer

Construindo histograma da variável Idade (idade dos alunos), no MINITAB.

1° Vá até a barra de menu e clique na opção Graph, e selecione Histogram.

64

Page 65: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

2° Na janela que se segue escolha a opção Simple.

3° Agora selecione a variável Idade, e clique em ok. Se preferir clique em Labels e adicione um título.

65

Page 66: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

4° Abrirá uma nova sessão com o histograma da variável Idade.

66

Page 67: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Outros Exemplos de Histogramas: Pirâmides Etárias.

Pirâmide etária da população brasileira

Histograma 8.11: Pirâmide etária da população brasileira

Fonte: http: //www.ibge.gov.br

Pirâmide etária da população austríaca

67

Page 68: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Histograma 8.12: Pirâmide etária da população austríaca

Fonte: http://www.undp.org/popin/wdtrends/belowrep/estimate.htm O Polígono de Frequências

Polígono de frequência 8.13: Exemplo

Ponto médio = limite inferior + limite superior 2

No exemplo daTabela de distribuição de freqüências das emissões de óxido de enxofre.

Tabela 8.6: Distribuição de frequências das emissões de óxido de enxofre

Ponto médio da classe: limite inferior + limite superior 2

68

Page 69: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Ex.: na primeira classe ( 5.0 |- 10.0 ), LI = 5.0 e LS = 10.0; assim, ponto médio = (5.0+10.0)/2 = 15.0/2 = 7.5.

Polígono de freqüência sobre histograma paraEmissão de óxido de enxofre (toneladas) por uma indústria durante 70 dias.

Polígono de frequência 8.14: Emissão de óxido de enxofre (toneladas) por uma indústria durante 70 dias

Tabelas com Classes de Tamanhos Diferentes

Exemplo: Um site de games on-line coletou os seguintes dados sobre o tempo (horas) que os jogadores ficam conectados jogando sem interrupção.

Tabela 8.7: Exemplo

69

Page 70: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Alguém sugeriu o seguinte gráfico:

Histograma 8.15: Exemplo 2

Este gráfico está correto?Não, pois a área das barras não está proporcional à freqüência.

Então, como calculamos a altura de cada barra corretamente?Sabemos que área da barra = freqüência da classeE que área = largura X alturaLogo, freqüência = amplitude X altura.E daí altura = freqüência/amplitude. O que define a chamada densidade de freqüência da classe = freqüência da classe,

amplitude da classe

Tabela 8.8: Exemplo 3

70

Page 71: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Agora o histograma certo, usando a densidade de freqüência:

Histograma 8.16: Exemplo 4

A densidade da Freqüência

A densidade da freqüência refere-se à construção de valores dados. Está relacionada com a freqüência, mas não é a mesma coisa. Veja uma analogia para demonstrar a relação entre as duas.

Suponha que você tenha despejado uma quantidade de suco em um copo.

E se você despejasse a mesma quantidade de suco em um copo mais largo?O nível do suco varia com a largura do copo; quanto mais largo o copo, mais baixo

é o nível.O espaço que o suco ocupa no copo (Largura x altura) lhe diz a quantidade de suco

que está no copo.

71

Page 72: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

8.4. Tabelas para Variáveis Qualitativas

Ilustração 8.2: Quadrinho Morfetus

Variáveis Qualitativas: Expressam categorias/ Classes não numéricas

Exemplos: Sexo, raça, classe social, escolaridade; Grau de satisfação, de concordância; Resultado da luta do Gato com Morfeteus (fez gato de palhaço, bobo ou

trouxa).

Listagem dos Dados

Exemplo: Questionário respondido pelos alunos

Tabela de Distribuição de Freqüências

Mostra coma às observações se distribuem nas classes as variável.

Variáveis Nominais e OrdinaisContagem de observações – freqüência absoluta (freqüência simples).

Porcentagem de observações – freqüência relativa = obsdetotalNabsolutafreq

__..

°

72

Page 73: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Variáveis Ordinais

Contagem de observações acumuladas até a classe – freqüência absoluta (freqüência acumuladas).

Porcentagem de observações acumuladas até a classe – freqüência relativa =

obsdetotalNabsolutafreq

__..

°

Exemplo: Questionário respondido pelos alunos.

Tabela da variável discreta: Sexo

Tabela 8.9: Variável discreta sexo

Como fazer

Criando tabela de frequência no Excel para a variável Sexo.

1° Montamos a tabela como se segue no exemplo abaixo.

2° Novamente usaremos a função CONT.SE, já apresentada. Para a contagem do número de pessoas de sexo masculino, selecionamos a célula correspondente e digitamos a função: =CONT.SE(G2:G52;"M"). A contagem de pessoas do sexo feminino se procede da mesma forma, só que agora alterando a condição de M para F.

73

Page 74: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

3° Na frequência relativa dividimos o valor de cada linha pelo total das observações. Para se obter o total Absoluto e relativo, usamos a função SOMA. Na célula P11 escrevemos a seguinte função =SOMA(P4:P5), onde P4:P5 contém o intervalo de ambas as frequências as quais se deseja fazer a soma. E repetimos o processo para a célula Q11.

A construção de tabelas de frequências para os próximos exemplos são deixadas como exercícios para o leitor, o processo a ser utilizado será o mesmo aos dos exemplos apresentados anteriormente, modificando-se apenas a estrutura da tabela e as variáveis a serem analisadas.

74

Page 75: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Tabela da variável qualitativa nominal: Escolha

Tabela 8.10: Variável qualitativa nominal escolha

Tabela da variável qualitativa ordinal: Inglês leitura

Tabela 8.11: Variável qualitativa ordinal inglês leitura

Tabela da variável qualitativa ordinal: Inglês fala

Tabela 8.12: Variável qualitativa ordinal inglês fala

75

Page 76: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

8.5. Vários Tipos de Gráficos

Diagramas

• Os diagramas são gráficos geométricos de, no máximo, duas dimensões; para construção, em geral, fazemos uso do sistema cartesiano.

Gráfico de Setores (Circular ou de “Torta” / ”Pizza”)

• Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos ressaltar a participação do dado no total.

• O total é representado pelo círculo, que fica dividido em tantos setores quantas são as partes.

• Os setores são tais que suas áreas são respectivamente proporcionais aos dados da série;

• Obtemos cada setor por meio de uma regra de três simples e direta. Lembrando que o total da série corresponde a 360º.

Gráfico de pizza 8.17: Exemplo 5

76

Page 77: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Exemplo: Questionário respondido pelos alunos

Variáveis Nominais

Gráfico de pizza 8.18: Sexo Gráfico de pizza 8.19: Escolha do Curso

Circulo dividido em setores com áreas proporcionais ás freqüências.No sentido horário: maior freqüência – menor freqüência.

77

Page 78: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Como fazer

Construindo Gráfico de Pizza Para Variável Escolha.1° Para construir o gráfico de Pizza da Variável Escolha, temos que ter nossa tabela

de frequências montada como se segue abaixo. De posse dessa tabela, selecionamos a guia inserir, em opções de gráficos escolhemos o opção pizza. Dentro dessa opção são apresentados vários modelos. Escolha oque melhor resuma o seu conjunto de dados.

2° Abrirá uma nova guia (Ferramentas de gráficos), selecione o estilo de Gráfico e layout de Gráfico de sua preferência, vá a opção selecionar dados.

3° Na janela Selecionar Fonte de Dados, você pode digitar o intervalo onde estão contidos os seus dados, ou de uma forma mais prática você pode selecionar o conjunto de dados já resumidos em uma tabela de frequências como no exemplo apresentado. Após esse procedimento clique em ok.

78

Page 79: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

4° O gráfico será criado. Para adicionar titulo, clique duas vezes no texto apresentado no mesmo e insira um novo.

79

Page 80: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Gráficos em Colunas ou em Barras

• É a representação de uma série por meio de retângulos, dispostos verticalmente (em colunas) ou horizontalmente (em barras).

• Quando em colunas, os retângulos têm a mesma base e as alturas são proporcionais aos respectivos dados.

• Quando em barras, os retângulos têm a mesma altura e os comprimentos são proporcionais aos respectivos dados.

• Assim estamos assegurando a proporcionalidade entre as áreas dos retângulos e os dados estatísticos.

Gráficos de Barras verticais (ou horizontais)

Constituídos por barras lado a lado (ou empilhadas);- As barras representam as classes das variáveis;- As alturas (ou comprimentos) são proporcionais às freqüências das classes.

Gráfico de barras verticais 8.20: Exemplo 6

Variáveis ordinais

Gráficos de barras verticais 8.21: Inglês Leitura e Fala

Barras verticais com alturas proporcionais às freqüências simples. Respeitar a ordenação das categorias, independentes das freqüências.

80

Page 81: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Como fazer

Construindo gráfico de barras para variável Inglês Leitura.

1° Para constuir o gráfico de barras para variavel Inglês Leitura, repita o mesmo procedimento . Em opções de gradicos selecione Colunas escolha um modelo que melhor represente os seus dados.

2° Na nova guia (Ferramentas de gráficos), selecione o estilo de Gráfico de sua preferência, vá a opção Selecionar dados.

81

Page 82: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

3° Na janela Selecionar Fonte de Dados, selecione o conjunto de dados resumidos na tabela de frequências. Após esse procedimento clique em ok

4° O gráfico será criado. Para adicionar titulo, clique duas vezes no texto apresentado no mesmo e insira um novo.

82

Page 83: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Gráfico em colunas ou em barras múltiplas

• Este tipo de gráfico é geralmente empregado quando queremos representar, simultaneamente, dois ou mais fenômenos estudados com o propósito de comparação.

Comparação de variáveis de mesmas categorias

Opção 1: Múltiplos Gráficos

Gráficos de barras verticais 8.22: Inglês Leitura e Fala

Opção 2: Único gráfico com barras segmentadas.

Gráficos de barras Horizontais 8.23: Inglês Leitura e Fala

83

Page 84: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Como fazer

Construindo gráfico de barras segmentadas para as variáveis Inglês Leitura e Inglês Fala no Excel.

1° De posse da tabela de ambas as variáveis crie uma sub-tabela, com os dados resumidos. Como se segue no Exemplo.

2° Vá até a guia Inserir. Na opção gráfica selecione o tipo barra, e depois clique na opção Barras 100% Emplilhadas.

3° Na nova guia Ferramentas de Gráficos em Design, selecione o estilo de gráfico e Layout que melhor resuma o seu conjunto de dados. Clique na opção Selecionar Dados.

84

Page 85: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

4° Na janela que se abrir, em Intervalo de dados do gráfico selecione as células onde se encontram os mesmo juntamente com seus rótulos. Como se segue no exemplo abaixo. Click em ok.

5° O gráfico será criado, com a comparação simultânea das variáveis em uma mesma escala.

85

Page 86: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Opção 3: Único gráfico com barras lado a lado.

Gráfico de barras verticais 8.24: Inglês Leitura e Fala

Como fazer

A construção deste gráfico é feita de forma semelhante ao do gráfico anterior.

1° Selecione gráfico em colunas e selecione Colunas agrupadas na opção coluna 2D.

86

Page 87: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

2° Para a entrada de dados de tabelas distintas, selecione o conjunto de dados da primeira tabela juntamente com seu rótulo. Para inserir o conjunto de dados da outra tabela, mantenha a tecla Ctrl pressionada e com o mouse selecione a faixa ou coluna a qual eles estão contidos. Como ambas as variáveis apresentam os mesmo rótulos, não é necessário fazer a seleção novamente. Clique em ok.

3° O gráfico será criado.

Gráfico em linha

87

Page 88: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

• Este tipo de gráfico se utiliza da linha poligonal para representar a série estatística.• O gráfico em linha constitui uma aplicação do processo de representação das

funções de um sistema de coordenadas cartesianas.

Gráfico em linha 8.25: Valor de uma ação no decorrer do tempo

Cartograma

• O cartograma é a representação gráfica sobre uma carta geográfica.• Este gráfico é empregado quando o objetivo é o de representar os dados

estatísticos diretamente relacionados com áreas geográficas.Duas aplicações:• Representar dados absolutos (população) – neste caso, lançamos mão, em geral,

dos pontos, em número proporcional aos dados.• Representar dados relativos (densidade) – neste caso, lançamos mão, em geral, de

hachuras e cores.

88

Page 89: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Cartograma 8.26: Distribuição espacial de mortalidade infantil em Porto Alegre em 1997. Fonte: Secretaria Municipal de Saúde (SMS) de Porto Alegre.

Pictograma

O pictograma constitui um dos processos gráficos que melhor fala ao público, pela sua forma ao mesmo tempo atraente e sugestiva. A representação gráfica consta de figuras.

8.6. Dados dos alunos do curso de Estatística ISerá que podemos obter alguma informação com os dados repassados pela universidade através do diário de classe dos alunos do curso de Estatística I?

Tabela 1: Distribuição dos alunos segundo o seu Tipo

Como fazer

89

Page 90: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

1° Vá até a barra de menu e clique na opção Stat, abrirá um submenu com várias opções. Selecione a opção Tables e depois a subopção Taly Individual variables.

2° Abrirá uma nova janela com um quadro à esquerda apresentando todas as variáveis em estudo. Clique na variável a qual se deseja construir a tabela de frequência (no caso Tipo Aluno) e depois clique no botão select. A variável selecionada aparecerá no quadro variables. Em Display selecione as opções Counts, Percents, Cumulative counts, Cumulative percents. Depois clique em OK.

3° O programa abrirá uma sessão, apresentando a tabela de frequência da variável selecionada (Tipo Aluno).

90

Page 91: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Tabela: Distribuição dos alunos segundo o Sexo

Tabela 8.13: Distribuição dos alunos segundo o sexo

Como fazer

Construindo tabela de frequência para variável qualitativa nominal sexo:

Para construir a tabela de frequência para variável sexo, devemos seguir os passos da construção da tabela apresentada anteriormente, com a diferença apenas que a variável agora em questão é o Sexo.

Selecione a variável Sexo e clique em ok.

91

Page 92: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Abrirá uma nova sessão com a tabela de frequência da variável em questão (sexo).

Para a construção de tabelas de frequência das variáveis dos exemplos posteriores o processo e análogo ao apresentado até aqui.

92

Page 93: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Tabela: Distribuição dos alunos segundo o Ano de entrada

Tabela 8.14: Distribuição dos alunos segundo o ano de entrada

Tabela: Distribuição dos Alunos segundo o Curso

Tabela 8.15: Distribuição dos alunos segundo o curso

Tabela cruzada: Distribuição dos Alunos segundo o Tipo do Aluno e o Sexo

Tabela cruzada 8.16: Distribuição dos alunos segundo o tipo do aluno e o sexoComo fazer

93

Page 94: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Construindo tabela cruzada para a variável Tipo Aluno e Sexo:

As tabelas cruzadas são utilizadas quando se deseja fazer a análise de duas variáveis simultaneamente.

1° Para construir a tabela cruzada da variável Tipo Aluno e Sexo devemos seguir alguns passos já conhecidos. Novamente vá até a barra de menu e clique na opção Stat. Selecione a opção Tables e depois a subopção Cross tabulation and Chi-Square.

2° Abrirá uma nova janela com um quadro à esquerda apresentando todas as variáveis em estudo. Em For rows(para linhas) selecione a variável Tipo Aluno, em For columns(para colunas) selecione a variável Sexo. Em Display selecione as opções Counts, Percents, Cumulative counts, Cumulative percents. Depois clique em OK.

94

Page 95: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

3° O programa abrirá uma sessão, apresentando a tabela cruzada das variáveis selecionadas (Tipo Aluno e Sexo).

95

Page 96: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Será que podemos apresentar esses dados de uma forma mais visual?

Gráfico 1: Distribuição dos Alunos Segundo o Sexo

FM

C ategory

60,8%

39,2%

Distribuição dos alunos segundo o sexo

Gráfico de pizza 8.27: Distribuição dos Alunos Segundo o Sexo

Como fazer

O MINITAB também se apresenta como uma ótima ferramenta na construção de gráficos, com uma grande variedade de opções é dos mais completos no mercado.

Construindo o gráfico de pizza da variável qualitativa nominal Sexo, devemos:

1° Vá até a barra de menu e clique na opção Graph, abrirá um submenu com várias opções. Clique na opção Pie Char.

96

Page 97: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

2° Abrirá uma nova janela com um quadro à esquerda apresentando todas as variáveis em estudo. Primeiro selecione a opção Chart counts of unique values. Clique na variável a qual se deseja construir a tabela de frequência (no caso Sexo) e depois clique no botão select. A variável selecionada aparecerá no quadro Categorical variables. E clique em Ok.

Se preferir clique no botão Labels e adicione um titulo ao gráfico.

97

Page 98: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

3° O programa abrirá uma janela, apresentando o gráfico da variável selecionada (Sexo).

98

Page 99: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Gráfico 2: Distribuição dos Alunos Segundo o Curso

Gráfico de pizza 8.28: Distribuição dos alunos segundo o curso

Gráfico 3: Distribuição dos Alunos Segundo o Ano

2010200920082007

40

30

20

10

0

Ano

Coun

t

40

7

31

Distribuição dos Alunos segundo o Ano

Gráfico de barras verticais 8.29: Distribuição dos alunos segundo o ano

99

Page 100: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Como fazer

Construindo o gráfico de barra da variável discreta Ano (ano que o aluno iniciou o curso).

1° Vá até a barra de menu e clique na opção Graph, abrirá um submenu com várias opções. Clique na opção Bar_ Char.

2° Abrirá uma nova janela. Em Bars represent selecione a opção counts of unique values, e selecione o tipo de gráfico simples. Clique em Ok.

100

Page 101: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

3° Nesta Janela selecione a variável Ano. E clique em ok.

Se preferir clique no botão Labens e adicione um titulo ao gráfico.

101

Page 102: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

4° O programa exibirá o gráfico em barras da variável selecionada (Ano).

Gráfico 4: Distribuição dos Alunos Segundo o seu Tipo

VeteranoC alouro

C ategory

78,4%

21,6%

Distribuição dos alunos segundo o seu tipo

Gráfico de Pizza 8.30: Distribuição dos alunos segundo o seu tipo

102

Page 103: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Para fazer este gráfico, siga os passos da criação do gráfico de pizza 3.7.

Gráfico 5: Distribuição dos Alunos Segundo o Sexo e o Tipo do Aluno

Sexo MF

35

30

25

20

15

10

5

0

Coun

t

VeteranoC alouro

Tipo A luno

Chart of Sexo; Tipo Aluno

Gráfico de barras 8.31: Distribuição dos alunos segundo o sexo e o tipo do aluno

Como fazer

Construindo o gráfico de barra empilhada das variáveis Tipo do Aluno e sexo.

1° Repita os passos apresentados no Gráfico de barras verticais 3.9.

2° Abrirá uma nova janela. Em Bars represent selecione a opção counts of unique values, e selecione o tipo de gráfico stack. Clique em Ok.

103

Page 104: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

3° O programa abrirá uma janela, selecione primeiramente a variável Sexo e depois a variável Tipo Aluno. E mantenha a opção Stack categories of last categorical variables. Com isso se garante que as categorias serão divididas pela categoria da ultima variável selecionada. Se preferir clique em Labels e adicione um titulo para o gráfico. Clique em Ok.

4° O programa exibirá o gráfico de barra empilhada das variáveis Sexo e Tipo Aluno.

104

Page 105: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

A seguir, será apresentado formas de se extrair informações dos dados através de medidas de síntese numérica, além de tabelas e gráficos.

105

Page 106: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Capítulo 9

Medidas de síntese Numérica

As médidas de síntese numérica resumem todo em conjunto em um número que o represente. Essas medidas podem ser de locação ou tendência central (um valor mais comum), de dispersão (variabilidade dos dados em torno de um valor) e de forma (comportamento dos dados em torno de um valor).

É importante as ber como os dados estão dispostos, haja vista que as medidas de síntese numérica são calculadas de forma diferente dependendo, porém a idéia é a mesma. Os dados podem ser:

• Brutos (não-agrupados);• Agrupados sem intervalo de classe;• Agrupados com intervalo de classe.

9.1. Medidas de síntese Numérica para dados brutos

A distribuição de variáveis quantitativas pode ter suas características descritas e resumidas em medidas de:

Tendência central (ou localização): Moda, mediana, média.Variabilidade (ou dispersão): Amplitude total, variância, desvio padrão,

coeficiente de variação.Forma (ou assimetria): Coeficiente de assimetria de Pearson.Curtose (achatamento): Coeficiente percentílico.

Notação:X representa a variável.n é o número de observações (elementos na amostra).i é o indexador do elemento – i = 1,2,3,..., n-1, n.xi é o valor da variável no i-ésimo elemento da amostra (na ordem em que

foram coletados).x i][ é o valor da variável no i-ésimo elemento da amostra quando colocamos em

ordem crescente. Assim:]1[X < ]2[X <...< ]1[ −iX < ][iX < ]1[ +iX <...< ]1[ −nX < ][nX

106

Page 107: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Exemplo: Na amostra de alunos de uma sala, observou-se altura de cada um.

Os valores ordenados são:

Moda

O(s) valor (es) mais freqüente(s).

Mediana

O valor “do meio”, metade dos valores são menores ou iguais á mediana.

A mediana divide o conjunto de dados em duas partes: metade dos valores são menores ou iguais à mediana.

107

Page 108: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Dispor os dados em ordem crescente: ]1[X , ]2[X , ..., ][nX .Se o n é impar, há apenas um valor do meio: ]2/)1[( +nX .

Mediana = ]2/)1[( +nX .

Se o n é par, há dois valores do meio: ]2/)[(nX e ]12/[ +nX .

Mediana = 2

]2/[]12/[ nn XX ++

Média Aritmética Simples (Média)

Considere os valores observados para a variável X:x1 , x2 , x3 , ... , xn .

A média (aritmética simples) desses valores é dada por:

X = n

xxxx n++++,...

321

Ou, de modo abreviado, X = n

n

iix∑

= 1 .

Exemplo: .

Exemplo: Idade dos formandos de Ciência da Computação.

Existem vários tipos de média, tais como a aritmética, geométrica ou harmônica; Simples ou ponderada; aparada.

Moda versus Média e Mediana

Moda é mais adequada para variáveis com distribuição multimodais.

Exemplo: Tamanho de família ideal.

Média versus Mediana

A média é uma medida resumo muito mais usada do que a mediana:- Facilidade de tratamento estatístico,- Propriedades como estimador.

Mas a média é muito influenciada por valores extremos, (valores muito grandes ou muito pequenos), que “puxam” o valor da média em direção a si.

108

Page 109: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

A mediana não é tão influenciada por valores extremos, se um elemento do conjunto de dados tem o seu valor alterado, sua ordem continua a mesma, a mediana não se altera.

Exemplo: Salário (s.m.) dos 20 funcionários de uma empresa.

Diagrama de pontos 9.1: Exemplo 1

Retirando o valor 30: mediana = 3 e média = 4,9.Posição moda/mediana/média versus Forma

Identificar o elemento típico de um conjunto de dados não é suficiente para caracterizá-lo. Dois conjuntos de dados podem ter o mesmo elemento típico, mas serem diferentes um do outro. É necessário quantificar a dispersão em torno do elemento típico, ou seja, quantificar a variabilidade de um conjunto de dados.

109

Page 110: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

9.2. Medidas de síntese Numérica para dados agrupados sem intervalo de classe

Conjunto de dados (Exemplo 1):Consideremos a distribuição da renda de 34 famílias em salários mínimos abaixo:

Tabela 9.1: Frequências absolutas

Problema inicial:

Como calcular a renda média, a mediana, a moda, a amplitude e o desvio padrão desse conjunto de dados agrupados sem intervalos de classe?

A média

A média pode ser calculada utilizando a seguinte fórmula:

x = ∑

=

=n

ii

n

iii

f

fx

1

1

Cálculo da média para o Exemplo 1:

Sabemos que:

781

=∑=

n

iii fx e 34

1

=∑=

n

iif

Logo,

x = 30,23478

5

1

5

1 ==∑

=

=

ii

iii

f

fx

110

Page 111: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

A Mediana

A mediana é a menor freqüência acumulada que supera o valor

21

∑=

n

iif

OBS.: No caso em que existir uma freqüência acumulada ( F i ), tal que:

F i = 2

1∑

=

n

iif

A mediana será dada por: Md = 2

1xx ii ++

.

Cálculo da mediana para o exemplo 1:

Temos que

21

∑=

n

iif = 17

234 =

A menor freqüência absoluta acumulada que supera esse valor é 18, que corresponde ao valor 2 da variável. Portanto, Md = 2.

A moda

No caso de dados agrupados sem intervalos de classe, a moda é o valor da variável ou classe de maior freqüência.

Cálculo da moda para o Exemplo 1:A classe com maior freqüência absoluta (12) é a classe 3

4=x .

Logo, oM = 3.

Amplitude Total

No caso de dados agrupados sem intervalos de classe, a amplitude total é a diferença entre a classe de maior valor e a de menor.

Cálculo da amplitude para o Exemplo 1:

A amplitude é 4-0 = 4

111

Page 112: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Desvio padrão

O desvio padrão para dados agrupados sem intervalos de classe é dado pela seguinte fórmula:

−=

∑∑==

2

1

2

1.1 nnn

nS

n

iiii

n

ii xfxf

Onde xi e f i denotam o valor da variável e a freqüência da i-ésima classe, respectivamente. n é o número de observações da amostra.

Cálculo do desvio padrão para o Exemplo 1:

−=

∑∑==

2

1

2

1.1 nnn

nS

n

iiii

n

ii xfxf

=

2

3063

3065.

13030

= ( ) ( )41,45,5.034,1 − = 1,06

9.3. Medidas de síntese Numérica para dados agrupados com intervalo de classe

Conjunto de dados (Exemplo 2):A tabela apresenta a distribuição de 40 alunos segundo a estatura

Tabela 9.2: Frequências por intervalo de classes

112

Page 113: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Problema inicial:

Como calcular a renda média, a mediana, a moda, a amplitude e o desvio padrão desse conjunto de dados agrupados com intervalos de classe?

A média

A média pode ser calculada utilizando a seguinte fórmula:

x = ∑

=

=n

ii

n

iii

f

fx

1

1

Onde xi e f i denotam o ponto médio e a freqüência absoluta da i-ésima classe, respectivamente.

Cálculo da média para o Exemplo 2:Sabemos que:

440.61

=∑=

n

iii fx 40

1

=∑=

n

iif

Logo,

x = 16140440.6

5

1

5

1 ==∑

=

=

ii

iii

f

fx

A Mediana

Para o cálculo da mediana com dados agrupados com intervalos de classe, seguimos o seguinte procedimento:

1. Determinamos as freqüências absolutas acumuladas;

2. Calculamos 2

1∑

=

n

iif ;

3. Marcamos a classe correspondente à freqüência acumulada superior a 2

1∑

=

n

iif

(classe mediana);

113

Page 114: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

4. A mediana é hantF

fi

lMdf med

n

i

.)(

21

−+=

∑=

Onde:

l é o limite inferior da classe mediana;F(ant) é a freqüência acumulada da classe anterior à classe mediana;f med é a freqüência absoluta da classe mediana;

h é a amplitude do intervalo da classe mediana.

Cálculo da mediana para o Exemplo 2:

20240

2

6

1 ==∑

=iif

A classe mediana é a com i = 3.

hantF

fi

lMdf med

n

i

.)(

21

−+=

∑=

54,1601128158

114).1320(158 =+=−+=

A moda

No caso de dados agrupados com intervalos de classe, a moda é:

2LlM O

+=

Onde l e L são limites inferior e superior da classe de maior freqüência.Cálculo da moda para o Exemplo 2:

A classe modal é i = 3 (f 3 = 11), onde l = 158 e L = 162.

1602

3202

1621582

==+=+= LlM O

114

Page 115: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Amplitude Total

No caso de dados agrupados com intervalos de classe, a amplitude total é a diferença entre o limite inferior da menor e o limite superior da maior classe.

Cálculo da amplitude total para o Exemplo 2:A amplitude total é

AT = 174 -150 = 24.

Desvio padrão

O desvio padrão para dados agrupados com intervalos de classe é dado pela seguinte fórmula:

−=

∑∑==

2

1

2

1.1 nnn

nS

n

iiii

n

ii xfxf

Onde xi e f i denotam o ponto médio da classe e a freqüência da i-ésima classe, respectivamente. n é o número de observações da amostra.

Cálculo do desvio padrão para o Exemplo 2:

Tabela 9.3: Dados sumarizados

−=

∑∑==

26

1

26

1.1 nnn

nS iiii

ii xfxf

−=

2

40440.6

40080.038.1.

14040

( ) ( ) 64,5)31.(026,1621.25952.25.026,1 ==−=

115

Page 116: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Como fazer

Obtendo medidas de sínteses numéricas no MINITAB.

Para o nosso Banco de Dados dos Alunos de Estatística I, vamos obter medidas de síntese numérica para a variável Idade.

1° Na barra de menu clicamos em Stat, depois a opção Basic Statistics e selecionamos a sub-opção Display Descriptive Statistics.

2° Na janela que se abrir selecionamos a variável Idade e clicamos no botão Statistics, onde se abrirá outra janela com as medidas de síntese numéricas desejadas.

116

Page 117: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

3° Na janela Descriptive Statistics, temos várias medidas de síntese numérica. Para o nosso exemplo vamos selecionar as seguintes: Mean (média), Standard deviation (desvio padrão), Variance (variância), Minimum (mínimo), Maximum (máximo), First quartile (primeiro quartil), Median (Mediana ou segundo quartil), Third quartile (terceiro quartil) e Mode (moda). Clicamos em ok nesta e na outra janela.

4° Abrirá uma nova sessão com as medidas de síntese numérica. No caso da variável Idade a média foi 22,471, desvio padrão 3,042, moda 21 e assim como se segue na figura abaixo.

117

Page 118: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Para as outras variáveis quantitativas discretas ou continuas o processo de construção das medidas de síntese numérica é semelhante ao exemplo apresentado acima.

118

Page 119: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Capítulo 10

Conclusão e Considerações Finais

Neste texto, foi apresentado as etapas ou fases do processo estatístico de pesquisa desde a definição do problema até a análise dos resultados e conclusões. Além disso, foi discorrido um pouco sobre a história da Estatística, surgimento e desenvolvimento, bem como sua definição e áreas de aplicações. As análises dos dados foi ilustrada usando gráficos e tabelas produzidos nos softwares Excel e Minitab.

Espera-se que este material sirva de auxílio para os alunos da disciplina de Estatística I do bacharelado em Estatística da UFOP e para outros estudantes de outros cursos que necessitam de conhecimentos básicos de estatística. Basicamente, espera-se que, ao final do curso, o aluno seja capaz de produzir um projeto de pesquisa, incluindo planejamento, coleta, descrição, apresentação e análise de dados.

119

Page 120: D E A DE DADOS MA NTRODUÇÃO - UFOP · 2012. 3. 28. · No Capítulo 6, são mostrados os tipos possíveis de levantamento de dados. No Capítulo 7, são exibidas algumas maneiras

Bibliografia

1 – FARIAS, A.A., SOARES, J.F. e CÉSAR, C.C. (2003). Introdução à Estatística. 2ed. Belo Horizonte: Guanabara.

2 – Introdução à Estatística. TRIOLA, M.F. Editora LTC.

3 – BUSSAB, W. e MORETTIN, P. (2002). Estatística Básica. Editora Saraiva.

4 – Análise Combinatória e Probabilidade. MORGADO, Augusto César de O., CARVALHO, João Bosco P. de, CARVALHO, Paulo Cezar P., FERNANDEZ, Pedro.

5 – Metodologia Científica. MARCONI, M. A. E e LAKATOS, E.M., 5ª ED., Editora Atlas.

6 – Técnicas de Pesquisa. MARCONI, M. A. E e LAKATOS, E.M., 1ª ED., Editora Atlas.

7 - Estatística Usando o Excel. TOSCANO, E.M.M. e LOSCHI, R.H.

8 – Uma Senhora Toma Chá...: Como a estatística revolucionou a ciência no século XX / David Salsburg; tradução José Maurício Gradel; revisão técnica Suzana Herculano-Houzel. - Rio de Janeiro: Jorge Zahar Ed., 2009.

9 – Estatística fácil. CRESPO, A . A . Ed. Saraiva.

120