estatistica descritiva-livro professora

117
LLLLL erna

Upload: joao-gil

Post on 20-Dec-2015

96 views

Category:

Documents


0 download

DESCRIPTION

Estatistica

TRANSCRIPT

Page 1: Estatistica Descritiva-livro Professora

LLLLL

erna

Page 2: Estatistica Descritiva-livro Professora

Amaro, Ana; Silvestre, Cláudia e Fernandes, Leonor Estatística Descritiva - O segredo dos dados, 1a edição 114 p. 2009 ISBN 978-1-4452-6376-2 www.lulu.com/content/paperback-book/estat%c3%adstica-descritiva-o-segredo-dos-dados/7679943

Page 3: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados

índice

Sobre o livro e as autoras 3

Capítulo I

Enquadramento, descrição do problema, apresentação dos dados 5

1. Introdução 7 2. Os Casos de estudo 8

Capítulo II

Análise gráfica 11

1. Objectivo 15 2. Introdução 15 3. A natureza dos dados 16 4. Representação gráfica da distribuição de dados 18

4.1 Os Dados Qualitativos 18 4.1.1 Nominais 18 4.1.2 Ordinais 20

4.2 Os Dados Quantitativos 21 4.2.1 Discretos 23 4.2.2 Contínuos 25

5. A evolução dos valores de uma variável 27 5.1 Quantitativa 27 5.2 Qualitativa 28

6. Síntese 29 6.1 Estatística 29 6.2 Técnica 30

Capítulo III

Análise numérica 31

1. Objectivo 35 2. Introdução 35 3. A organização dos dados 36 4. Tabelas de frequências 39

4.1 Dados quantitativos 39 4.2 Dados qualitativos 43

5. Medidas de tendência central 47 5.1 O valor médio 47 5.2 Mediana 50 5.3 A Moda 54 5.4 Relação entre os três indicadores de tendência central 58

6. Medidas de localização (quantis) 59 6.1 Quartis 59 6.2 Decis 61 6.3 Percentis 61

Ana Amaro, Cláudia Silvestre, Leonor Fernandes |

Page 4: Estatistica Descritiva-livro Professora

7. Medidas de dispersão 62 7.1 Amplitude 62 7.2 Distância inter-quartis 64 7.3 Desvio médio 64 7.4 Variância e desvio padrão 66 7.5 Coeficiente de variação 68

8. Medidas de forma 68 8.1 Simetria 68 8.2 Achatamento 73

9. Síntese 74 9.1 Estatística 74 9.2 Técnica 75

Capítulo IV

A distribuição Normal 77

1. Objectivo 80 2. Introdução 80 3. Características da função densidade de uma variável aleatória com distribuição Normal 82 4. O Teorema do Limite Central (TLC) 86 5. Exemplificação da importância do Teorema do Limite Central 88 6. Testes de Normalidade 91

6.1 O teste Quiquadrado 94 6.2 O teste de Wilk-Shapiro 96

Capítulo V

Conclusões e definição de necessidades analíticas adicionais 99

1. Síntese 101 2. Necessidade adicionais 101

Referências bibliográficas 105

ANEXO 107

Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 5: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados

Sobre o livro e as autoras

Estatística Descritiva - o segredo dos dados nasce de um desafio: ensinamos Estatística e Análise de Dados há uns anos e é diferente, é sempre diferente. Da experiência partilhada de ensino decidimos escrever um ensaio / livro sobre como fazer Estatística e a Análise de Dados.

Ana Amaro

(...) Ensino Estatística, actualmente, no Instituto Superior de Gestão em Lisboa (à Licenciatura em Gestão), tendo ensinado na Faculdade de Ciências e Tecnologia (Engenharia do Ambiente) e como Consultora no IDeiGest. Actualmente colaboro com a Universidade Lusófona (Economia e Gestão) e o ISLA (Mestrados) em disciplinas de Estatística Multivariada, Econometria e Métodos Matemáticos de Previsão. A Estatística que ensino foi a que aprendi durante 4 anos como responsável pelo sector de Estatística e Investigação Operacional do Centro de Investigação Florestal da Soporcel (CIF). No CIF trabalhei com grande motivação num projecto pluridisciplinar que me empurrou para um projecto de doutoramento subsequente e financiado pela FCT que conclui em 1997. 0 exemplo de professores de escolas americanas como o David Reed (Forest Resources and Environmental Sciences, Michigan Tech University) e o Peter Bryant (Management Science and Information Systems, University of Colorado at Denver and Health Sciences Center), com quem tive o privilégio de trabalhar, determinaram a minha postura no ensino e aprendizagem da Estatística. Desde então o meu desafio tem sido, todos os anos, aprender a ensinar Estatística. Tenho ensinado alunos com poucas bases, alunos com cabeças brilhantes, alunos medianos, alunos de Mestrado provenientes de diferentes áreas da ciência, colegas professores... sozinha e em colaboração com outros colegas, sempre em ar de desafio (...)

Cláudia Silvestre

(...) Ensino Análise de Dados e investigo na área de Análise de Agrupamento na Escola Superior de Comunicação Social em Lisboa.

Licenciei-me em Probabilidades e Estatística na Faculdade de Ciências da Universidade de Lisboa em 1997 e obtive o grau de mestre em Probabilidades e Estatística na mesma instituição em 2001, defendendo a dissertação intitulada "Uma Aproximação Bayesiana para Projecções da Epidemia da SIDA pelo Método de Back-Calculation". Estagiei na Cateringpor desempenhando funções de Controlo Estatístico de Qualidade. Desde então tenho ensinado matemática aplicada na Universidade da Beira Interior; actualmente na Escola Superior de Comunicação Social do Instituto Politécnico de Lisboa, contexto em que me propus doutorar na área de Métodos Quantitativos no Instituto Superior de Ciências do Trabalho e da Empresa.

O objectivo do projecto de investigação em Análise de Agrupamento é o desenvolvimento de métodos de selecção de grupos e de selecção de variáveis base para agrupamento. As suas áreas de interesse são Segmentação e Análise de Conteúdos onde têm sido aplicados os novos métodos desenvolvidos. (...)

Ana Amaro, Cláudia Silvestre, Leonor Fernandes |

Page 6: Estatistica Descritiva-livro Professora

Leonor Fernandes

(...) Ensino Matemática e Estatistica no Instituto Superior de Gestão e no IADE. Sou também analista de negócios na Euroatlantic Airways ,SA.

Licenciei me em economia no ISEG, em 1990, e paralelamente à actividade de economista fui desenvolvendo a minha carreira de docente na área de Estatistica e Álgebra Linear. Surge em 2000 o mestrado em Estatistica e Gestão de Informação no ISEGI da Universidade Nova de Lisboa na área de sondagens com uma tese intitulada: Avaliação do custo da energia não fornecida: um plano de sondagens complexo.

A análise de dados e o processamento de informação faz parte da minha vida profissional de várias formas na vertente empresarial, na docência e enquanto estudante.

Sou doutoranda no Instituto Superior Técnico, doutoramento de Estatistica e Processos Estocásticos e penso desenvolver um trabalho na área de modelos de gestão de processos de manutenção.

Descobrir o que os números pretendem transmitir e utilizar essa informação no processo de decisão é uma novidade todos os dias. (...)

Em 2006, a Ana e a Cláudia trabalharam, em conjunto, num projecto muito interessante: dados provenientes de um Observatório de Publicidade foram dissecados utilizando análise estatística multivariada. Um dos resultados deste projecto conjunto foi a necessidade de começar a traduzir por escrito a nossa postura perante o ensino e a aprendizagem de Análise de Dados. A Leonor que assistiu ao processo de perto, naturalmente, aderiu ao projecto. Os dados que suportam este livro estão disponíveis em https://sites.google.com/site/anaairesamaro/Home/analise-descritiva-de-dados e serão descritos mais à frente.

Em Junho de 2009 decidimos divulgar este "nosso" livro e fazê-lo chegar a quem achar interessante partilhar a nossa experiência de ensino e de aprendizagem da Estatística.

Ana, Cláudia e Leonor Julho 2009

Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 7: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Capítulo I

Enquadramento, descrição do problema, apresentação dos dados

Make it as simple as possibie but not simpler

Albert Einstein (1879-1955)

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 8: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

6 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 9: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

1. Introdução

Transformar a informação contida num inquérito em informação útil ou legível é um processo complexo que exige experiência e habilidade. Ronald Coase (1910-), Prémio Nobel da Economia 1991, usou a expressão torturar os dados -if you torture the data enough, it will confess -, mostrando assim que é uma tarefa árdua e que a sua activação promoverá resultados que ilustrarão a realidade escondida por trás dos dados. Não devemos ficar por uma análise superficial, antes cruzar informação, procurar incongruências, e caso as identifiquemos, perceber a sua origem e eliminá-las da análise, de modo sustentado.

Antes de iniciar a análise dos dados resultantes de um inquérito ou de um conjunto de dados que, de algum modo caracterizam uma realidade, existem algumas questões que devem ser acauteladas.

Ter algum conhecimento sobre o contexto é fundamental para o tratamento eficiente da informação. No entanto, devemos ser cuidadosos para que esse conhecimento prévio, ou que vamos adquirir ou adquirindo, não limite a nossa análise. Se por um lado, esse conhecimento nos ajuda a compreender melhor a informação que se pode retirar da análise dos dados, definindo assim directrizes de investigação, por outro lado não nos deve impossibilitar a identificação de novas linhas de investigação. O princípio de deixar os dados falar deve ser seguido.

Depois de recolher informação sobre o assunto em análise e enunciar, de forma muito clara, o objectivo que norteou o seu delineamento e implementação ou aquisição, é fundamental conhecer o contexto em que foi recolhida a informação: como foi coligida a informação? em que circunstâncias? A primeira questão é pertinente pois condiciona as conclusões resultantes da análise dos dados: se a recolha dos dados é inadequada, não representará a realidade, sendo a generalização das conclusões abusiva. Saber qual o objectivo da realização de um inquérito, ou porque foram recolhidos aqueles dados, é essencial para a definição dos objectivos da análise a efectuar. Estes objectivos devem ser claramente definidos, pois constituem a espinha dorsal do relatório final.

Resumindo, podemos identificar três passos preliminares à análise dos dados:

• obter o máximo de informação sobre o assunto envolvente / contexto

• saber como e quando foi a informação recolhida

• delinear os objectivos da análise

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 10: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

2. Os Casos de estudo

A publicidade tem um papel preponderante no mercado, que cada vez é mais competitivo. Ela contribui para que as empresas conquistem o seu espaço no mercado, marcando a diferença e aumentado o nível de notoriedade. Para os consumidores, a publicidade aumenta o conhecimento sobre os produtos e ajuda a distingui-los.

(...) Com o objectivo de lançar projectos de investigação de carácter permanente, foi criado, em 2001, o Observatório da Publicidade, resultando de um protocolo entre o Instituto do Consumidor e a Escola Superior de Comunicação Social. O Observatório funciona como um Centro de Investigação e tem como principais objectivos: estudar a publicidade nacional de modo a identificar as tendências discursivas; acompanhar a adaptação das comunicações comerciais aos novos meios tecnológicos e identificar se as regras do sector estão a ser aplicadas, de forma a assegurar o conhecimento, em especial das empresas, das alterações e correcções de procedimento que garantam a sua competitividade. Deste trabalho de investigação resultaram já vários estudos, cujos resultados são apresentados regularmente em conferências e seminários. (...)

(http://www.escs.ipl.pt/index.php?conteudo=investiqa&id=220 [2007-05-21]).

No âmbito do Observatório da Publicidade foi lançado um projecto com o objectivo de analisar a publicidade realizada para veículos automóveis (excluindo a que é relativa a stands e a concessionários), especificamente para descodificar a mensagem publicitária dos anúncios a analisar. Foi dada especial atenção à informação sobre os consumos e à emissão de CO2.

O sector automóvel tem vindo aumentar a informação que disponibiliza aos consumidores, o que altera os comportamentos de compra. Consumidores mais esclarecidos tornam-se mais exigentes e menos dependentes dos concessionários. Existe também uma tendência para os consumidores serem fiéis à marca. Para manter e aumentar esta tendência, a transparência da informação e a confiança devem estar patentes na informação disponibilizada, em particular na publicidade.

Os comportamentos de compra também diferem função do escalão etário do consumidor. Segundo a sexta edição do estudo anual da Capgemini, Cars Online 05/06 (2005), existem diferenças significativas entre os consumidores mais jovens e os idosos:

• Os jovens procuram informação na Internet, são exigentes e instáveis.

• Os consumidores mais idosos, raramente usam a Internet como fonte de informação, são mais leais à marca e ao concessionário.

8 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 11: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Ao fazer esta breve consideração sobre o assunto a analisar, surgem algumas questões que gostaríamos de ver respondidas no relatório final.

• Haverá diferenças entre os anúncios das várias marcas?

• Quais as marcas que têm anúncios mais semelhantes entre si?

• Que informação é transmitida na mensagem publicitária?

• É possível diferenciar anúncios destinados a jovens e a idosos? Em caso afirmativo, o que os diferencia?

Os dados a analisar foram recolhidos pelo Observatório de Publicidade, de um inquérito efectuado durante o primeiro trimestre de 2006 através dos seguintes suportes publicitários: televisão, rádio, internet, outdoor e imprensa.

Todas as perguntas são de resposta fechada, ou seja, a resposta é escolhida de entre um conjunto de respostas pré-definidas. Os dados são de natureza qualitativa nominal.

O inquérito (ver Anexo), da responsabilidade do Observatório da Publicidade, pode ser dividido em seis partes:

1. Identificação da publicidade: quando foi recolhida a informação, qual o meio de suporte e qual o produto;

2. Informação sobre a poluição, ou seja, se é feita ou não referência ao consumo e à emissão de CO2;

3. Caracterização do anúncio, onde se dá especial atenção à caracterização das personagens (caso existam), ao cenário e às cores dominantes;

4. Identificação do tipo de discurso usado e a existência de informação sobre o produto;

5. Estilos de vida e valores veiculados pelos anúncios;

6. Se o suporte publicitário usado foi a internet existem mais duas questões específicas deste suporte.

Os dados referem-se a 248 anúncios (projecto AOP) e estão armazenados no ficheiro AOP.xis disponível em https://sites. gooqle.com/site/anaairesamaro/Home/analise-descrit iva-de-dados.

Para complementar a informação recolhida sobre automóveis e atendendo à preocupação do Observatório da Publicidade sobre os consumos e emissões de C02 utilizou-se, ainda, a informação coligida pela Vehicle Certification Agency (projecto VCA), on New Car Fuel Consumption and Exhaust Emissions Figures (http://www.vcacarfueldata.org.uk/index.asp) reportada a 1 de Maio de 2007, guardada no ficheiro VCA.xls, igualmente disponível em https://sites.gooqle.com/site/anaairesamaro/Home/analise-descritiva-de-dados.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 12: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

10 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 13: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Capítulo II

Análise gráfica

Observe Everything. Communicate Well. Draw, Draw, Draw.

Frank Thomas (1912-2004)

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 14: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

12 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 15: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

As mais antigas representações gráficas foram identificadas no Paleolítico Superior, entre 40000 e 10000 anos A.C. (Fig. II-l) . Acredita-se que estas representações reproduzem pormenores relativos ao quotidiano, aos astros, ao tempo. Primeiro foram gravadas na pedra e mais tarde em cerâmica. Além do processo natural de compor riscos ou traços com as mãos, o objectivo era o de reproduzir fenómenos para os registar ou para poder transmitir a informação.

O papiro foi utilizado pelos egípcios como suporte do desenho do plano das pirâmides, a par da madeira e da argila. O Teorema de Pitágoras foi desenhado para ser explicado (Fig. II-2). Como meio de transmissão de informação ou, de forma mais elaborada, de suporte à decisão, as representações gráficas são desenvolvidas como meios fáceis e simples de explicar.

FIG. I I - l

(a) Representação de um cavalo (Penascosa, V. N. de Foz Côa) (b) Estilo II (Gravetense/Solutrense)

segundo A. Leroi-Gourhan (http://www.uc.pt/fozcoa/qravuras.html [2007-06-13])

FIG. I I - 2

Representação gráfica do teorema de Pitágoras (http://pitaqoras-upt.tripod.com/ [2007-06-13])

Os gráficos, tal como os designamos hoje, surgem no final do séc. XVIII, tornando-se de uso corrente no princípio do séc. XIX. Há indícios de que apareceram em três pontos diferentes, porventura de modo independente:

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 16: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

• As invenções gráficas de William Playfair (1759-1823), um engenheiro e economista escocês que, com o intuito de melhor descrever a economia britânica (Fig. II-3a), investiu em técnicas gráficas inovadoras para melhor explicar os conceitos que pretendia transmitir;

• James Watt (1736 - 1818), engenheiro, também escocês e responsável pelo melhoramento da máquina a vapor, utilizou diagramas (Fig. II-3b) para esquematizar o funcionamento da máquina a vapor e as alterações que, do seu ponto de vista, deveriam ser efectuadas para aumentar a sua eficiência;

• Johann Heinrich Lambert (1728 - 1777), matemático de origem francesa que se radicou na Alemanha e que, entre muitos outros feitos, demonstrou que é um número irracional, também promoveu o desenvolvimento do grafismo (Fig. II-3c e d).

Representações esquemáticas propostas por William Playfair (a) -http: //dekstop. de/weblog/2006/01/visualization_of_numeric_clata/playfair_wheat. jpg, James Watt (b) - http: //en. wikipedia.org/wiki/Image : Schematic .indicator diagram.png

e Joahann Heirich lambert (c) -http://www.journals•uchicaqo.edu/Isis/iournal/demo/v000n000/000000/fq7.qif e (d) http://www.uni-mannheim.de/fakul/psycho/irtel/colsys/Lambert.jpg [27-06-2007]

FIG. I I - 3

Pressure

Assim, no final do séc. XVIII, havia descritos diferentes tipos de gráficos que poderiam ser utilizados por quem deles tivesse necessidade. Contudo, somente a partir de 1830, quando a

14 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 17: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Estatística se tornou mais mediática, é que a utilização de gráficos para sistematização - fácil percepção de quem tem de conhecer o conteúdo da informação - se começou a generalizar. A motivação do gráfico foi e é, sem dúvida, tornar mais fácil o processo de percepção. Foi este o argumento que gerou os primeiros gráficos e que promoveu (e ainda promove) a sua evolução. Há, portanto, algumas regras simples - decorrentes de uma lei natural - que devem ser seguidas quando se pretende transmitir a alguém o conteúdo de uma base de conhecimento/dados: a organização, a simplicidade, a parcimónia, a clareza e a autonomia.

1. Objectivo

Através de métodos gráficos pretende-se caracterizar um conjunto de variáveis cujos dados foram recolhidos no decurso de dois projectos.

Relativamente ao projecto AOP caracterizam-se as seguintes variáveis: semana do ano em que o anúncio foi observado, marca do automóvel, meio de publicidade utilizado, número de vezes que o anúncio foi visualizado, grupo etário da personagem principal do anúncio (se existente), forma de transmissão de cada um dos 18 valores instrumentais transmitidos durante o anúncio.

Sobre o projecto VCA caracterizam-se as variáveis concentração das emissões de monóxido de carbono e de óxidos de azoto.

2. Introdução

Os 248 anúncios foram caracterizados relativamente à marca anunciada e ao meio utilizado para anunciar (Fig. II-4).

Para caracterizar a distribuição das marcas utilizou-se um gráfico de barras. No primeiro caso (Fig. Il-4a) não se organizou a informação: torna-se difícil e morosa a leitura das marcas mais representadas (ou menos representadas); por outro lado assegurou-se a inclusão da informação respeitante às frequências absolutas (número de observações) e relativas (percentagens) que, de algum modo é redundante se conhecermos o número total de anúncios; incluiu-se ainda informação relativa a indicadores não pertinentes (gerados automaticamente pelo software).

Para caracterizar a distribuição dos meios utilizou-se um gráfico circular ou de sectores. No primeiro caso (Fig. Il-4c) utilizou-se um conjunto de possibilidades disponibilizadas pelo software (as três dimensões e a separação de uma fatia) fundamentado na motivação de um gráfico bonito e diferente do habitual mas que corre o risco de transmitir uma informação errada: é a área tridimensional que se visualiza que é bidimensionalmente processada

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 18: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

pelo cérebro/olho humano e que transmite, afinal erradamente, o valor da proporção relativamente ao total.

Neste capítulo, depois de catalogar os diferentes tipos de dados que podemos ter à nossa disposição para processar, faremos uma incursão aos diferentes métodos de representação gráfica da informação e dos seus objectivos.

A natureza dos dados

Os 248 anúncios foram monitorizados entre a 2a e a 15a semana de 2006 (Fig. 11-5), as marcas de automóveis mais observadas foram a Volkswagen e a Citroen (Fig. Il-4b), tendo a grande maioria da fonte dos anúncios sido a imprensa (Fig. Il-4d) e a maioria dos anúncios (o mesmo) foi visto poucas vezes (número de registos) (Fig. 11-6).

Número e percentagem da anúncios das diferente» marcas Percentagem de anúncios com as diferentes marcas

i l iniHJf5iissffiifitf.itifmi| o mmmimmmmmnmmmmmmm

5 I 5 I * i 5 I | MARCA: N = 248; Mean = 12.97SS; StdDv = 8,4527; Max = 32; M i n ^ T ]

Distribuição dos Meios utilizados para anunciar

(a) (b)

T M . u k 21%

Distribuição dos Meios utilizados para anunciar

RMc H» m (C) (d)

FIG. 11-4

Distribuição das marcas e meio através de gráficos barras - (a) e (b) - e diagramas circulares - (c) e (d).

16 Medidas de l o c a l i z a ç ã o (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 19: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capitulo II

Deverá a escolha do gráfico ser efectuada no decurso de uma análise do tipo de dados que se pretendem representar? Será interessante representar a distribuição das marcas de automóveis mais observadas através de um gráfico circular ?

Identificam-se diferentes tipos de variáveis. Pela sua capacidade intrínseca de processamento estatístico (por ex. não é possível calcular um valor médio da marca dos automóveis, sendo-o para o número de registos) e pela forma como, naturalmente, se representa graficamente a distribuição dos valores que as variáveis assumem, criam-se duas categorias:

- as variáveis qualitativas, que assumem "valores" que representam categorias (neste caso o número da semana, a marca e a fonte do anúncio) e

- as variáveis quantitativas, que assumem "valores" numéricos (neste caso o número de registos e adicionalmente as concentrações das emissões de dióxido de carbono e óxidos de azoto dos automóveis).

Distribuição do número da semana

FIG. 11-5

Distribuição do número da semana em que o anúncio foi caracterizado.

Distr&.jç&o do número de registos

-5 0 5 10 15 20 25 30 35 40 45 50 55

Numero de registos

FIG. 11-6

Distribuição do número de vezes que o anúncio foi visto

A diferença formal entre o número da semana e marca do automóvel é a sequência natural, a ordem que existe nos valores da primeira e que não é arbritária: a 3a semana é depois da 2a. Para a marca do automóvel os diferentes valores ordenam-se, apenas, por critérios alfabéticos: não há como ordenar, naturalmente, as diferentes categorias.

Variáveis qualitativas cujos valores se ordenam naturalmente denominam-se ordinais (por ex. o número da semana). As restantes são nominais (por ex. a marca do automóvel e a fonte do anúncio).

As variáveis quantitativas além de poderem ser contínuas ou discretas podem ser classificadas em função da escala de medida: de razão ou de intervalo.

Se puderem assumir, em teoria, um número de valores não finito e entre cada dois valores se verificar esse princípio (por ex. a concentração de dióxido de carbono e óxidos de azoto) classificam-se como contínuas. Serão variáveis discretas se se identificarem dois valores sequenciais entre os quais nada se pode observar (por ex. o número de registos).

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | A natureza dos dados

Page 20: Estatistica Descritiva-livro Professora

Capítulo II ESTATÍSTICA DESCRITIVA - O segredo dos dados

As variáveis podem ser classificadas de acordo com a proximidade do fenómeno que medem: pode ser necessário criar uma escala para medir um fenómeno ou, em alternativa, medir naturalmente. Por exemplo para medir o conceito temperatura foi necessário criar uma grandeza que, em determinadas condições, assume o valor 0 (por ex. 0°C ou 0 F); mas este valor, 0, não significa ausência. Em contrapartida 0 metros, 0 quilogramas e 0 registos significam ausência de comprimento, peso e registos. É comum classificar as variáveis quantitativas deste último grupo (independentemente de serem contínuas ou discretas) como medidas de razão e as primeiras como medidas de intervalo: não é razoável calcular o quociente entre duas temperaturas; a diferença entre duas temperaturas já é interessante.

Estas classificações são, é claro, arbitrárias. Outras poderiam existir. Neste contexto queremos perceber que as variáveis têm poderes explicativos diferentes, visam diferentes objectivos, pelo que têm naturezas diferentes. Foi isso que gerou estas (ou outras) classificações e não o inverso. A sua constatação apenas nos facilita a percepção de que, neste capítulo em que nos propomos representar graficamente a informação de que dispomos, se as variáveis têm poderes de síntese diferentes, as representações gráficas tenderão a adaptar-se à sua natureza. Consideraremos os diferentes tipos de variáveis sempre que isso possa ajudar a diferenciar técnicas e procedimentos: são classificações utilitárias.

A representação gráfica de dados/variáveis pode e deve ser sistematizada, sempre recorrendo ao objectivo que a precede. Assim em face de um conjunto de dados de uma variável podemos pretender representar a sua distribuição ou a evolução dos dados ao longo do tempo ou relativamente a outra variável.

4. Representação gráfica da distribuição de dados

4.1 Os Dados Qualitativos

Os dados de natureza qualitativa são observações de variáveis que assumem categorias como "valores". Estas categorias poderão ser nominais, isto é características sem ordenação natural ou, em alternativa, ordinais pressupondo uma ordem natural.

4.1.1 Nominais

As marcas dos automóveis e dos meios utilizados para anunciar (Fig. II-4) são variáveis qualitativas nominais. Para representar a distribuição das suas possíveis categorias ou "valores" utilizou-se um gráfico circular (ou de sectores) e um gráfico de barras. Sendo variáveis do mesmo tipo diferem, em tipologia, pelo número de categorias que podem assumir.

18 Representação gráfica da distribuição de dados | Ana Amaro, Cláudia Silvestre,

Page 21: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo II

No caso do meio utilizado para efectuar o anúncio, o número de categorias é reduzido (cinco), tornando possível e interessante a descrição da distribuição das categorias através da utilização de um gráfico circular.

No caso das marcas de automóveis (que são muitas) a representação através de um gráfico circular não é eficiente: muitas "fatias" e leitura difícil. Por outro lado a representação, alternativa, através de um gráfico de barras não é, também muito interessante (Fig. Il-4a): a leitura é difícil e não se "retira" com imediatez a informação que uma representação gráfica propõe quando se efectua. Por outro lado ao ordenar as frequências absolutas e/ou relativas obtém-se um gráfico de barras interessante (Fig. Il-4b). Outra hipótese também útil para, graficamente, mostrar a distribuição das marcas, seria agrupar o conjunto de marcas menos relevantes numa classe geral (reclassificar). Difícil seria depois a tarefa de definir a frequência de quebra1, uma vez que há uma certa cadência na ordem pela qual deixam de ser tão importantes. 0 critério é sempre subjectivo e sempre dependente do objectivo.

As sub-categorias mais comuns dos automóveis caracterizados nos anúncios são a do pequeno utilitário, pequeno familiar e o familiar (Fig. II-7).

O número elevado de categorias é um argumento que impede que a utilização de um gráfico circular (Fig. Il-7a) seja uma eficiente representação gráfica da distribuição: a sobreposição das categorias é um primeiro indício de que a representação mais adequada não é esta. Ao tentar a utilização de um gráfico de barras, deparamo-nos com o mesmo fenómeno observado quando da análise da distribuição da marca, motivado pelo número elevado de categorias: a difícil leitura do conteúdo (Fig. Il-7b). A ordenação das frequências resolve a dificuldade da leitura (Fig. Il-7c). Por outro lado, se o importante for realçar as sub-categorias mais frequentes poderá ser, então, opção - e pela estrutura da distribuição ordenada que apresenta duas quebras (as três primeiras sub-categorias isolam-se, seguidas das três seguintes) -considerar as seis primeiras categorias sendo as restantes incluídas num grupo não específico designado por outros. A representação gráfica da distribuição das categorias mais importantes pode ser efectuada através de um gráfico de barras (Fig. Il-7d) ou de um gráfico circular (Fig. Il-7e), talvez com preferência para este último que é mais eficiente na transmissão da informação relativa à distribuição.

Representação gráfica da distribuição de variáveis qualitativas nominais

Nominais com poucas categorias - gráfieo circular

Nominais com muitas eategorias - gráfico de barras ordenando as categorias por frequências

1 Considera-se frequência de quebra a primeira frequência que permite identificar, visualmente, uma descontinuidade na cadência das frequências (absolutas ou relativas) quando consideradas por ordem decrescente.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Representação gráfica da

Page 22: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo II

Distribuição da subcategoria da automóveis Distribuição da subcategoria da auto mó vais

fartrt»]

MonoVoJum» I H

Fu^in 3*

Comerciai*. 2K Lu«o. 1%

Gr«no» Famlar 3*

Ptqucno Utiktil» 21*

Fimkar 19H f Hjueno Fimikir 19%

Distribuição da subcategoria da automóveis

(a)

II I II I II i I II i V/

City

Car

Paq

uano

Utili

tário

Peq

ueno

Fam

iliar

P H 1 | i J | - i &

Kstriburçlo da subcategoria da automóveis

(b)

(c) Paquano Utjhtirio Familiar MonoVolume Outros

Paquano Familiar City Car TT (d) Distribuição da subcategoria da automóveis

9 MonoVolume; 6%

Paquano Utilitário. 21 %

Pequeno Familiar. 19%

(e)

FIG. II-7

Distribuição da sub-categoria de automóveis através de diagramas circulares - (a) e (e) e gráficos barras - (b) a (d).

4.1.2 Ordinais

Em 53% dos anúncios identificou-se uma personagem principal (Fig. Il-8a). Nestes anúncios a personagem é caracterizada relativamente ao grupo etário (Fig. Il-8b). Na lista de categorias identificam-se sete níveis ordinais e duas categorias ("indeterminado" e "adulto(s) e criança(s)") que, para efeitos de caracterização, de facto não são grupos etários. Caracterizar a variável, tal como ela se apresenta, significa que teremos de considerar a variável como nominal e que, pelo facto de ter muitas categorias, se poderia optar por representar a sua distribuição através de um gráfico de barras (Fig. Il-8c).

20 Representação gráfica da distribuição de dados | Ana Amaro, Cláudia Silvestre,

Page 23: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo II

Por outro lado será porventura mais interessante, eliminar a categoria "indeterminado" registando-se de seguida, a proporção de anúncios com personagem principal em que não é possível determinar o grupo etário (Fig. II-8d).

Em alternativa, e se considerarmos que é importante caracterizar o grupo etário, as categorias "indeterminado" e "adulto(s) e criança(s)" são eliminadas sendo muito claro que a grande maioria dos anúncios privilegiam -por ordem - o adulto como personagem principal (Fig. Il-8e). Pode ser, ainda, interessante mostrar que a proporção de anúncios com personagem principal identificada como indivíduo ou não (neste caso "adulto(s) e criança(s)") é preponderante (Fig. Il-8f). Pode ser também desejável realçar que o grupo etário mais comum é o adulto (Fig. Il-8g).

Foram considerados 18 valores instrumentais2 diferentes cuja relevância foi identificada no anúncio segundo uma ordem: sem relevância, o segundo mais importante e o mais importante. Dos 18 valores há sete considerados não relevantes (Fig. Il-9a). A representação gráfica da distribuição da relevância associada a cada um dos 18 valores através de um gráfico de barras de acumulação (Fig. Il-9b) permite identificar os valores "independência" e "ambição" como os que são mais frequentes nos anúncios, a par do "espírito aberto", "controlo" e "o ser capaz".

» -

Representação gráfica da distribuição de variáveis qualitativas ordinais

j gráfico de barras « • ' 1 •.

gráfico de barras de acumulação

4.2 Os Dados Quantitativos

Os dados de natureza quantitativa são observações de variáveis que assumem valores numéricos discretos ou contínuos. Os dados discretos representam quantidades finitas ou, sendo infinitas, pelo menos enumeráveis (isto é conseguindo designar sequencialmente valores). Os dados contínuos são aqueles que, pelo menos teoricamente, são infinitos e não enumeráveis (entre cada dois valores há sempre uma infinidade de possibilidades).

A forma mais interessante de representar a distribuição de dados quantitativos é, naturalmente, diferente da dos dados qualitativos.

2 Os 18 valores considerados no inquérito designam-se por valores instrumentais por representarem conceitos e formatos que geram atitudes (neste caso perante a vida) que se consideram valiosas.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Representação gráfica da

Page 24: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo II

Anúncio» com ou sem personagem principal

Distnbuiçáo do grupo etário da personagem principal

Adulto Jovem Adulto Cnança Indeterminado Adulto(s) ecriança(s) Bebé

Distnbuiçlo do grupo etário da personagem pnrapai

O)

(c)

Grupo etário

Bebé

Criança

Adolescente

Jovem adulto

Adulto

Meia-idade

Idoso

Indeterminado

Adulto (s) e criança (s) (b)

Anúncios com personagem principal cujo grupo etário é ou n i o determinável

Indeterminad

" 1 Grupo etáno identificado 8?%

Anúncios com personagem principal determinada individual ou n i o

Aduttoí») e criança(s); 7%

(d)

Um individuo; 0 3 *

Bebé Criança Adolescente Jovem Adulto Adulto

Anúncios com personagem principal determinada

(f)

(g)

FIG. 11-8

Distribuição do grupo etário da personagem principal do anúncio.

22 Representação gráfica da distribuição de dados | Ana Amaro, Cláudia Silvestre,

Page 25: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo II

Vaiores veiculados

Instiumentafc

(Escofria dois valores Instrumentais de modo hierartjafeado,)

Afectuoso

Alegre

Ambicioso

Capaz

Controlado

Corajoso

Espirito Aberto

Irrvaginstw

Independente

(a)

Distnbuiçáo de relevância dos vai ores considerados O« rrportíite

> S 0 2* • mportwle um rdevtnei*

5 i I I ' (b)

FIG. 11-9

Distribuição da relevância dos valores (a) transmitidos pelo anúncio (b).

4.2.1 Discretos

0 número de registos (número de vezes que o anúncio foi visualizado) segue uma distribuição com o formato semelhante ao de uma função exponencial negativa (Fig. 11-1 Oa). Com o objectivo de desenhar a distribuição destes valores, o muito elevado número de valores diferentes possíveis que a variável pode assumir gera, naturalmente, a necessidade de agrupar valores diferentes em classes (neste caso de amplitude igual a 5); contabilizam-se, de seguida, as frequências absolutas de cada classe (em vez de cada valor). A representação da distribuição é mais coesa, eliminando o ruído provocado pelo número elevado de valores da variável e a irrelevância de conhecermos a frequência exacta de um valor ou do valor imediatamente a seguir (ou anterior). O objectivo é conseguir ver a distribuição da variável (Fig. 11-1 Ob) e não conhecer as frequências absolutas de todas as observações possíveis.

A diferença entre aquelas duas formas de representar graficamente a distribuição da variável é que a primeira é um gráfico de barras (Fig. II-9a) e a segunda um histograma (Fig. 11-1 Ob). Neste último caso pressupõe-se uma "continuidade" dentro da classe (por ex. é irrelevante a quem correspondem as cerca de 60 observações referidas à classe [5; 10[) e entre as classes.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Representação gráfica da

Page 26: Estatistica Descritiva-livro Professora

Capítulo II ESTATÍSTICA DESCRITIVA - O segredo dos dados

Distribuiçfto do numero de regato*

BBaaGcn

Distribuição do numero de registos

i

I 1

1 5 9 13 17 21 25 29 33 37 41 45 49 (a)

Distribuição do número de registos (< 6)

-5 0 5 10 15 20 25 30 35 40 45 50 55 (b)

(c)

FIG. 11-10

Distribuição do número de registos através de um gráfico de barras (a) (c) e de um histograma (b).

Considerando agora o número de registos inferiores a seis visualiza-se de uma forma mais "limpa" que há, de facto, um decréscimo da frequência (Fig. II-10c) com o aumento do número de registos: o gráfico de barras é adequado para representar a sua distribuição. 0 facto de não haver continuidade (os dados são discretos) e termos poucas observações possíveis elimina a opção do histograma: a separação das barras é natural.

Não é interessante representar a distribuição de dados discretos através de um gráfico circular. Este tipo de representação gráfica não pressupõe uma ordem que, aqui neste caso, existe.

Representação gráfica da distribuição de variáveis quantitativas discretas I

Com poucos* valores possíveis - gráfico de barras j

Com muitos* valores possíveis - histograma I * é a percepção visual - a capacidade de ler bem o gráfico - que define o limiar de pouco e /ou muito

i i

24 Representação gráfica da distribuição de dados | Ana Amaro, Cláudia Silvestre,

Page 27: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo II

4.2.2 Contínuos

A distribuição das emissões de monóxido de carbono e de óxidos de azoto pelos automóveis tem, no primeiro caso, a característica de apresentar maioritariamente concentrações reduzidas (Fig. 11-11a) e no segundo concentrações mais frequentes reduzidas mas um conjunto de observações, relevantes, superiores (Fig. 11-11c).

Distribuição da concentração de emisaóes de CO Distribuição da concentração das emssfies de CO

• Median = 0.26 • 25%-75%

= (0.145, 0,434) X Non-Outiier Range

= (0.005.0.864) o Outliers * Extremes

-0.2 0,0 0,2 0.4 0.6 0.8 1.0 1.2 1.4 1,6 1.8 2,0 2.2

Distribuição das emissões de óxidos da azoto

(b)

Distribuição da concentração das emissões de óxidos de azoto

n Median = 0 04 • 2 5%-7 5%

= (0,02,0,197) X Non-Ouflier Range

= (0. 0,386) o Outli era * Extremes

-0.05 0,00 0.05 0 10 0,15 0,20 0.25 0.30 0,35 0,40 0,45 (d)

Distribuição das emissões de monóxido de carbono (a) e (b) e de óxidos de azoto (c) e (d) através de histogramas (a) e (c) e de diagramas box-plot (b) e (d)

Cerca de 75% dos valores de emissões de monóxido de carbono são inferiores a aproximadamente 0.4 registando-se alguns valores de emissões muito elevados e pouco esperados (Fig. 11-11b). No caso das emissões de óxidos de azoto é interessante verificar que a dispersão dos valores assumidos pela variável é superior à anterior (em termos relativos, claro) (Fig. 11-11d).

Surge, de imediato, a vontade de perceber porquê! A razão poderá residir na variação dos valores de outra variável para a qual temos informação disponível3. 0 conhecimento que temos relativamente ao sistema que estamos a analisar é fundamental para efectuar uma análise inteligente e sustentada:

3 O processo, que aqui se inicia, é do âmbito da análise bivariada (se nos cingirmos a uma única variável explicativa), ou multivariada (se utilizarmos mais do que uma).

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Representação gráfica da

Page 28: Estatistica Descritiva-livro Professora

Capitulo II ESTATÍSTICA DESCRITIVA - 0 segredo dos dados

o tipo de fuel utilizado pode ajudar a explicar a variabilidade e distribuição que se observa rios dois tipos de emissões.

A responsabilidade das emissões de monóxido de carbono é repartida pelos diferentes tipos de fuel utilizados na combustão (Fig. Il-12a). A responsabilidade maioritária das emissões de óxidos de azoto parece ser do gasóleo (Fig. 11-12b).

Muitas vezes, a utilização de um histograma e de um diagrama box-plot complementam-se não sendo substituíveis, dependendo fortemente da própria distribuição da variável. Um histograma é interessante para representar a forma da distribuição e o diagrama box-plot os casos particulares e a arrumação dos quartos da distribuição (1o, 2o e 3o quartis4) dois aspectos muito interessantes na aprendizagem do comportamento de variáveis.

2.2

2 , 0

1.8

1.8

1.4 1.2

1.0 0,8

0,6

0,4 0.2

0.0

-0.2

0.45

0.40

0,35

z •8 0.30 s 3 0.25 e

g 0,20 | 0.15 I 0,10 g ° 0,05

0,00

-0,05

(a)

Distribuição das emissões de monóxido de carbono (a) e de óxidos de azoto (b) relacionada com o tipo de fuel através da utilização de diagramas box-plot

7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

| Representação gráfica da distribuição de variáveis quantitativas contínuas

| Histograma

! Diagrama box-plot

Distnbuiçáo das emissões de monóxido de carbono

0 • Median • 25%-75%

_ „ I Non-Outiier Range Petrol Petrol Electric CNG £

D<esel Petrol Hybrid . Extremes

Tipo de fuel

Distribuiçfto das emssóes de óxidos de azoto

]

r

r, cin ° 1=53 Petrol Electric CNG

Diesel Petrol Hybnd Tipo de fuel

• Median • 25%-75% X Non-Outlier Range o Outliers * Extremes

(b)

FIG. 11-12

4 Ver Capítulo III

Representação gráfica da distribuição de dados | Ana Amaro, Cláudia Silvestre, 26

Page 29: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capitulo II

5. A evolução dos valores de uma variável

5.1 Quantitativa

A evolução no tempo do número de registos foi armazenada ao longo das semanas de monitorização: observa-se alguma dispersão no número de registos nas mesmas semanas (Fig. 11-13a) que, em termos médios (Fig. II-13b), não é perceptível. Ao comparar a dispersão de valores no primeiro caso com os valores médios do segundo, ao utilizar também o número de registos ao longo do tempo mas com recurso a um gráfico de dispersão que forneça indicação relativa à frequência da observações (Fig. 11-13c), compreende-se melhor o desvio ligeiro que se observa entre os valores médios registados (Fig. 11-13b) e os valores realmente observados (Fig. 11-13a). Para adicionar informação gráfica relativa à representatividade dos valores médios (mais interessantes no que respeita a leitura da tendência) pode acrescentar-se a informação sobre a amplitude dos intervalos de confiança para aos valores médios (Fig. 11-13d): é interessante verificar, desde logo, que é na segunda semana - em que o número de observações é reduzido - que o valor médio tem menos significado.

Evoiuçio do numero de registo* pof semana EvoJuçio do numero médio de registos por semana

Evolução do número e número médio de registos ao longo das semanas

Evoiuçio do número de ragtstoa por semana

FIG. 11-13

» 9 10 11 12 13 14 15 x S S ^ s s c c f W * ™ , Semana

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | A evolução dos valores de uma

Page 30: Estatistica Descritiva-livro Professora

Capítulo II ESTATÍSTICA DESCRITIVA - 0 segredo dos dados

A variável em causa é uma variável discreta com muitas observações em cada semana, com excepção da segunda semana.

Nestas circunstâncias é necessário ter algum cuidado na medida em que a representação gráfica do intervalo de confiança pode ser desprovida de sentido (o que, na prática, sucede se o número de observações associado a cada momento no tempo for inferior a 305). 0 mesmo é válido quando nos referimos a intervalos de confiança para valores médios de variáveis contínuas que não se distribuam segundo uma lei Normal (ver Capítulo IV).

Representação gráfica da evolução de variáveis quantitativas

Gráficos de dispersão

Gráficos de linhas (com valores médios)

Gráficos de linhas com indicação de erro

5.2 Qualitativa

A evolução dos meios utilizados para anunciar (Fig. 11-14) ao longo das semanas permite detectar, de imediato, três semanas em que se analisaram anúncios exclusivamente publicados na imprensa. Somente em quatro das semanas em observação se analisaram anúncios na rádio.

Neste casos, em que a síntese recorre a um indicador percentual é importante assegurar a "qualidade" da percentagem: garantir que o número de observações em cada caso é equivalente aos demais.

| Representação gráfica da evolução de variáveis qualitativas

Gráficos circulares para cada momento do tempo

5 A determinação dos limites de um intervalo de confiança para um valor médio pode efectuar-se se a distribuição da variável aleatória média for Normal. No Capítulo III far-se-á referência a esta questão.

A evolução dos valores de uma variável | Ana Amaro, Cláudia Silvestre, Leonor 28

Page 31: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Evolução da distribuição dos meios utilizados pelos anúncios ao longo das semanas

26% l n t . m . t 2 2 * ^ T f i > r v ' s , ° : Outdoon 1 3 % ^ ^ T <

OuMoor.26%J yimprens.: 391 Televisio. 25%

Imprensa 100%

SEMANA: 2

Televisão 13%

O Imprensa; 88%

SEMANA: 5

Rádio; 12%

12%A I X ™

Imprensa; 54%

SEMANA: 10

fl \ T e l e v

Imprensa; 35%

SEMANA 14

Imprensa, 46%

SEMANA: 3

Televisão, 4%

Imprensa, 56%

SEMANA 5

Internet; 8%' Outdoor;

^ X Rádio;

f f \ y ^ S ^ K Televisão / V \ L -J Internet; 8% 1 Dutdoor; 50% — • í

Imprensa; 100%

SEMANA. 11

Imprensa; 100%

SEMANA 15

Imprensa, 25%

Imprensa. 20%

SEMANA 8

8rT5elev V yim. ( 5 '

B0%^-

Televisão. 20%

FIG. 11-14

Evolução do meio utilizado para anunciar ao longo das semanas

6. Síntese

6.1 Estatística

O tipo de gráfico que deveremos seleccionar para sistematizar o conteúdo dos dados deve ter em conta o objectivo de representação (distribuição ou evolução dos dados) e o tipo de dados. O gráfico deve ser o mais simples e claro que for possível.

Como linha de orientação inicial pode considerar-se o resumo efectuado por tipos diferentes no Quadro ll-l.

QUADRO ll-l Linha de orientação para o tipo de representação gráfica a adoptar

Tipo de dados Objectivo da representação gráfica

Tipo Sub-tipo Número Distribuição Evolução

Qualitativo

Nominal Poucas categorias Gráfico circular Gráfico circular

Qualitativo

Nominal Muitas categorias Gráfico de barras (ordenado)

Gráfico de barras (ordenado)

Qualitativo

Ordinal Gráfico de barras (e de

acumulação)

Gráfico de barras (ordenado)

Quantitativo Discreto

Poucos valores Gráfico de barras Gráficos de dispersão

Gráficos de linhas (c/ valores médios e/ou indicação de erro)

Quantitativo Discreto

Muitos valores Histograma

Gráficos de dispersão

Gráficos de linhas (c/ valores médios e/ou indicação de erro)

Quantitativo

Contínuo Histograma ou Box Plot

Gráficos de dispersão

Gráficos de linhas (c/ valores médios e/ou indicação de erro)

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 32: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

6.2 Técnica

As conclusões relevantes que decorrem da análise das variáveis efectuadas, até ao momento, são:

. São poucos os anúncios que são visualizados muitas vezes.

. As sub-categorias de automóveis mais anunciadas são o pequeno utilitário, o pequeno familiar e o familiar.

. Cerca de metade dos anúncios têm uma personagem principal que em 80% dos casos é um adulto.

. Dos 18 valores instrumentais potencialmente veiculados pelos anúncios há

o Sete que nunca o são: Educação, Honestidade, Intelectualidade, Limpeza, Obediência, Prestabilidade e Tolerância

o Cinco que o são:

• realçando-se a Independência e Ambição

• seguidos do Abertura de Espírito, Controlo e Ser Capaz

. O gasóleo tem maior responsabilidade nas emissões de óxidos de azoto que os restantes fuéis.

30 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 33: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Capítulo III Análise numérica

Maris mind, once expanded to encompass a new idea, never regains its original dimensions

Oliver W. Holmes (1841 - 1935)

Statistics: The only science that enables different experts using the same figures to draw different conclusions.

Evan Esar (1899 - 1995)

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 34: Estatistica Descritiva-livro Professora

„ . ESTATÍSTICA DESCRITIVA - O segredo dos Capitulo III

32 Objectivo | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 35: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Desde muito cedo, e com o desenvolvimento das sociedades primitivas, o homem começou a ter necessidade de sistematizar. Era importante saber que recursos havia disponíveis para tomar decisões: ficar aproveitando os recursos ou partir à sua procura.

Mais tarde, já com as sociedades organizadas, e com objectivos sobretudo militares e tributários, os governos sentiram necessidade de sistematizar a informação sobre as suas populações e riquezas.

Parece ter acontecido no Egipto, 3050 A.C., o primeiro levantamento estatístico: com o objectivo de sistematizar as riquezas e recursos humanos para a construção das pirâmides (Fig. III-l) .

FIG. I I I - l

Pirâmides de Gizé http://www. geocities . com/Athens/Marbie/4 341/pÍL'amicies . htm [2007-08-22])

Também os romanos fizeram o recenseamento dos cidadãos e dos bens. Eram os censores, magistrados romanos, que asseguravam o registo dos cidadãos. É muito interessante uma convenção da História que nos faz utilizar a designação Antes de Cristo (A.C.) e Depois de Cristo (D.C) e que parece referir-se ao ano em que o imperador César Augusto ordenou que se fizesse o recenseamento populacional no seu império. Cristo terá nascido por volta dessa altura.

Guilherme, "O Conquistador", que reinou em Inglaterra entre 1066 e 1087, ordenou que se fizesse um levantamento estatístico em Inglaterra que incluísse informação sobre terras, proprietários, a utilização da terra e os animais. Esta informação foi utilizada como base ao cálculo de impostos.

Quase sempre com objectivos tributários...

Até ao início do séc. XVII, a Estatística limitou-se ao estudo dos "assuntos de Estado". Usada pelas autoridades políticas na inventariação ou arrolamento dos recursos disponíveis, a Estatística limitava-se a uma simples técnica de contagem,

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 36: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

traduzindo numericamente factos ou fenómenos observados. É esta a primeira fase da Estatística que servia, simplesmente, para descrever.

0 termo, pelo qual conhecemos a ciência ou arte de sistematizar, Estatística, parece ter surgido, pela primeira vez, no séc. XVIII, inventado pelo alemão Gottfried Achemmel (1719-1772): statistik de "statizein" do grego... Há quem defenda que o termo tem a sua génese em "statu", que quer dizer "estado" em latim. É o que nos contam mas teremos sempre dúvidas!

Em Portugal, só em 1935 se fundou o Instituto Nacional de Estatística (INE, http://www.ine.pt) que centraliza, até à actualidade, toda a actividade estatística oficial. Actualmente a informação do INE é obtida a partir de recenseamentos à população, à habitação e à agricultura, de amostragens, para além da que é proveniente de fontes administrativas. 0 Banco de Portugal (http://www.bportugal.pt/) foi criado por decreto régio em 19 de Novembro de 1846 com a função de banco comercial e de banco emissor. É actualmente o organismo responsável pela estabilidade dos preços, supervisão das instituições de crédito e das sociedades financeiras, elaboração, análise e divulgação das estatísticas monetárias, financeiras, cambiais e da balança de pagamentos. A nível internacional podemos considerar os seguintes organismos oficiais com responsabilidade na recolha, processamento e divulgação de informação da sociedade do mundo:

o EUROSTAT (http://epp.eurostat.ec.europa.eu), o organismo responsável pela disponibilização da informação estatística na União Europeia. A informação fornecida deverá ser/é imparcial, fiável e comparável entre os diferentes Estados-membros (15/25)

o OCDE (http://www.oecd.org) - Organização para a Cooperação e Desenvolvimento Económico, o organismo responsável pelo reforço da economia dos países membros (30) , melhoria da sua eficácia, promoção da economia de mercado, desenvolvimento de um sistema de trocas livres e contribuição para o desenvolvimento e industrialização dos países.

o Banco Mundial (http://www.worldbank.org/), o organismo fonte vital de financiamento e assistência técnica aos países em vias de desenvolvimento (não é um verdadeiro banco). Gera mais de 900 indicadores/estatísticas (208 países)

o FMI (http://www.imf.org/) - Fundo Monetário Internacional, uma organização internacional que pretende assegurar o bom funcionamento do sistema financeiro mundial monitorizando as taxas de câmbio e a balança de pagamentos, através de assistência técnica e financeira.

É de indicadores, do seu significado e produção matemática que falaremos neste capítulo.

34 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 37: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

1. Objectivo

Através de métodos numéricos pretende-se caracterizar um conjunto de variáveis cujos dados foram recolhidos no decurso dos mesmos dois projectos utilizados anteriormente.

Relativamente ao projecto AOP caracterizam-se as mesmas variáveis que no capítulo anterior: semana do ano em que o anúncio foi observado, marca do automóvel, meio de publicidade utilizado, número de vezes que o anúncio foi visualizado, grupo etário da personagem principal do anúncio (se existente), forma de transmissão de cada um dos 18 valores instrumentais transmitidos durante o anúncio.

Sobre o projecto VCA caracterizam-se, também, as variáveis concentração das emissões de monóxido de carbono e de óxidos de azoto.

2. Introdução

Os 248 anúncios foram caracterizados relativamente à marca anunciada, ao meio utilizado para anunciar e ao número de registos (Fig. III-2). A caracterização gráfica foi efectuada anteriormente (Figs. Ill-2a e lll-2b)

Para caracterizar as marcas e o meio utilizado para anunciar utilizaram-se duas abordagens. No primeiro caso utilizou-se o software de uma forma cega, sem procurar identificar que tipo de indicadores poderiam fazer sentido, mas somente utilizando as opções sugeridas pelo próprio software: gera-se o número de observações na amostra, 248, o valor médio, o mínimo , máximo e o desvio padrão (Fig. Ill-2c). No segundo caso seleccionou-se o único indicador que parece ter alguma utilidade para o utilizador: o valor mais frequente (ou moda) (Fig. Ill-2d). Adicionalmente é calculado o número de observações que lhe corresponde.

Para caracterizar numericamente o número de registos - cuja representação gráfica se conhece (Fig. Ill-2e) - de que indicadores dispomos para melhor compreender o comportamento da variável ? A interpretação/significado de cada indicador e do seu valor é fundamental para decidir sobre a sua pertinência e interesse.

Neste capítulo, depois de identificar os dois formatos principais sob os quais a informação nos pode ser fornecida, faremos uma incursão aos diferentes métodos de representação numérica da informação e dos seus objectivos.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 38: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Percentagem de «núncio* com a» Aferente* mercas Di*ribuç*o doe fcfaioa utilzedos para a

tlliuj" i5|!!!|]i!M?!l| ! j 0 s i : (a)

Variável » Valor médio Mínimo Máximo Desvio padrSo

MARCA 248 12,98 1 32 8,45

MEIO 248 2,33 1 5 1,13 (c)

Variável n Modd Frequência da moda

MARCA 248 Múltipla 18

MEIO 248 2 119 (d)

Dii*ributç4o do número de regulo*

S S eo «

i -5 O 5 10 15 20 25 30 35 40 45 50 55

Número de registos

(b)

FIG. III-2

Caracter ização gráf ica - (a), (b) e (e) - e numér ica das marcas, me io e número de registos - (c) e (d).

3. A organização dos dados

A informação sobre o número de registos que temos à nossa disposição diz respeito, como já vimos, a 248 observações/anúncios analisados. A cada um destes anúncios, observações, para a variável "número de registos" corresponde um valor (Quadro IIMa).

A informação relativa ao número de registos poderia, contudo, ter sido fornecida de modo classificado (Quadro IIMb). Este tipo de representação dos dados é o resultado de um pré-processamento da responsabilidade de quem, por ex., recolhe a informação e que, por diversas razões - entre elas a necessidade de sistematizar -, a arruma numa tabela de frequências.

A organização dos dados | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 39: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

QUADRO 111-1

Dados relativos ao número de registos: informação em bruto (a) e classificada (b).

N_R£GIST 1 18 2 8 3 12 4 1 5 2 6 21

248 1 (a)

N. de registos N. de anúncios

[0; 10[ 210

[10; 20[ 32

[20; 30[ 5

[30; 40[ 0

[40; 50 [ 1 (b)

Tipicamente, os dados que nos são disponibilizados por instituições nacionais ou internacionais responsáveis pela recolha e sistematização de dados sobre o país ou o mundo (por ex. INE, Banco de Portugal, OCDE, EUROSTAT, Banco Mundial e FMI) são-no de modo classificado.

É importante compreender que a natureza dos dados (bruto ou classificado) a que temos acesso para gerar indicadores tem implicações ao nível da sua qualidade:

o tendo acesso a dados em bruto (Quadro lll-1a) o número total de anúncios considerados é 248 produzindo um número médio de registos igual a aproximadamente 5,8 registos/anúncio (resultando da soma dos registos para cada um dos 248 anúncios e a sua divisão por 248).

o Se a nossa fonte de informação for uma tabela, os dados estão já classificados (Quadro lll-1b), não havendo uma discriminação do número de registos para cada um dos 248 anúncios. Para conseguir ter uma ideia do valor médio para os 248 anúncios teremos de encontrar uma forma de, por ex., atribuir a cada um dos 210 anúncios da classe [0; 10[ um valor para o número de registos; talvez considerando que, em média, os 210 anúncios tiveram cinco registos cada um (o valor médio de zero e 10, os extremos da classe):

o claro que há anúncios com mais e menos de cinco registos! O princípio é que os que aos quais correspondem menos de cinco registos compensaram (na soma) os que têm mais.

o Estamos também a admitir que a distribuição no número de registos na classe é Uniforme, ou seja que há o mesmo número de anúncios com 0, 1, 2,...,9 registos.

o Será, porventura, a melhor aproximação (mais razoável, que corresponde à utilização de algum bom senso) que conseguimos efectuar.

o O número médio de registos é, nestas circunstâncias, aproximadamente igual a 1,5 (Quadro III-2).

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | A organização dos dados

Page 40: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

QUADRO 111-2

Cálculo do valor médio partindo de dados classificados com classes de amplitude 10 registos (pm - ponto médio da classe).

N. de registos N, de anúncios pm Soma parcial [0; 10[ 210 5 210x5 [10; 20[ 32 15 32x15 [20; 30[ 5 25 5x25 [30; 40[ 0 35 0x35 [40; 50[ 1 45 1x45

Soma 373

Valor médio 373/248= 1,5

Naturalmente que os valores médios resultantes da aplicação dos dois métodos são diferentes! Neste caso muito diferentes: o valor médio calculado com os dados reais é, aproximadamente, igual a 5,8 registos e que resulta do processamento dos dados classificados é, aproximadamente, igual a 1,5 registos. O primeiro, naturalmente, mais preciso que o segundo...

É importante referir que quando aplicamos o segundo método, fazêmo-lo por não dispormos de informação em bruto que nos permita chegar a um resultado mais preciso. É também importante referir que se dispusermos de informação classificada mais detalhada (isto é com mais classes) será sempre essa a nossa escolha. Se as classes tivessem uma amplitude mais reduzida o erro cometido na aproximação referida anteriormente seria inferior: considerando classes de amplitude 5 registos (Quadro 111-3> o valor médio calculado é, aproximadamente, igual a 5,8 registos, tal como o valor médio preciso (neste caso a aproximação resulta num valor igual o que não é garantidol).

QUADRO 111-3

Cálculo do valor médio partindo de dados classificados com classes de amplitude 5 registos (pm - ponto médio da classe).

N. de registos N. de anúncios pm Soma parcial [0; 5[ 151 2,5 151x2,5

[5; 10[ 59 7,5 59x7,5 [10; 15[ 23 12,5 23x12,5 [15; 20[ 9 17,5 9x17,5 [20; 25[ 4 22,5 4x22,5 [25; 30[ 1 27,5 1x27,5 [30; 35[ 0 32,5 0x32,5 [35; 40[ 0 37,5 0x37,5 [40; 45[ 0 42,5 0x42,5 [45; 50[ 1 47,5 1x47,5

Soma 1430 Valor médio 1430/248- 5,8

38 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 41: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Dados em bruto

Indicadores precisos

Dados classificados

Indicadores aproximados.

Quanto menor a amplitude das classes melhor a aproximação.

4. Tabelas de frequências

Quando dispomos de dados que nos são fornecidos de modo exaustivo é muitas vezes interessante arrumar a informação de forma "apresentável".

No âmbito de um relatório os dados poderão ser sempre remetidos em anexo e/ou em formato electrónico. Contudo pode ser desejável ter uma caracterização visual dos dados, por exemplo através de uma tabela de frequências que nos dá uma primeira aproximação da distribuição da variável em causa: corresponde à quantificação de um histograma, de um gráfico de barras ou de um gráfico circular.

4.1 Dados quantitativos

Consideremos a variável número de registos. No total sabemos haver 248 observações associadas a esta variável discreta.

Considerando classes de amplitude 10 registos, geramos cinco classes com a mesma amplitude. De seguida contabilizamos o número de observações que se encontram dentro de cada classe. A estes valores designamo-los por frequência absoluta (por ex. a frequência absoluta da classes [0; 10[ é 210. Podemos, também, calcular a frequência relativa que corresponde à percentagem ou proporção de observações dentro de cada classe (Quadro III-4).

A questão mais relevante, neste contexto, é saber em quantas classes se devem classificar os nossos dados. O software resolve, por omissão, esta questão. Contudo é importante compreender a razão da análise desta questão. O objectivo é "ver" os dados, percepcionar a distribuição dos dados. Com muitas classes tende a perder-se o efeito da "continuidade da distribuição". Com poucas classes corre-se o risco de esconder a verdade sobre a distribuição dos dados. E afinal uma questão de equilíbrio entre o número de observações e a percepção da distribuição.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 42: Estatistica Descritiva-livro Professora

Capítulo III E S T A T Í S T I C A D E S C R I T I V A - O seg redo dos dado s

QUADRO III—4

Tabela de frequências corrente (a) e segundo a nomenclatura estatística (b)

N. d s registos N. de anúncios

[0; 10[ 2 1 0

[10; 20 [ 32

[20; 30[ 5

[30; 40 [ 0

[40; 50[ 1

N, de registos Frequência absoluta Frequênc ia relativa ( % )

[0; 10[ 210 5

[10; 20 [ 32 15

[20; 30[ 5 25

[30; 40 [ 0 35

[40; 50[ 1 45

n 248 100

Sturges (1926) propôs uma regra empírica para determinar o número óptimo de classes a considerar, em função do número de observações. A relação é logarítmica (Quadro III-5). Há algumas discussões interessantes sobre a qualidade da regra de Sturges. Segundo Hyndman (1995) a regra de Sturges conduz a propostas relativas ao número de classes razoáveis quando a distribuição dos dados é Normal e quando o número de observações é inferior a 200. Propõe, em alternativa, as regras de Scott (1979) ou de Freedman e Diaconis (1981) para cálculo da amplitude das classes (H) que considera serem mais apropriadas, sobretudo se a dimensão da amostra for elevada.

QUADRO III-5

Regras para o estabelecimento das classes de uma tabela de frequências (K - número de classes, H amplitude das classes, n - número de observações, s - desvio padrão da amostra e IQ distância interquartis).

A u t o r Reg ra

Sturges (1926) K= = 1 + log 2 n

Scot t (1979) H = 3,5 s n"1/3

F r e e d m a n e D iacon i s (1981) H = 2 I Q n ' 1 / 3

A grande maioria dos softwares utiliza a regra de Sturges. Contudo há mecanismos que permitem alterar o número de classes e/ou a amplitude das classes, de acordo com a decisão do utilizador.

À variável emissões de CO, uma variável contínua com 2866 observações, corresponde-lhe um valor mínimo igual a 0,005 e máximo 1,972, um desvio

40 Medidas de localização ( q u a n t i s ) | A n a Ama ro , C láud ia S i lvestre, Leonor Fe rnandes

Page 43: Estatistica Descritiva-livro Professora

E S T A T Í S T I C A D E S C R I T I V A - O seg redo dos dado s Capítulo III

padrão1 (s) igual a 0,2029 e uma distância interquartis2 (IQ) igual a 0,289. As três regras propostas (Quadro III-5) sugerem a geração de uma tabela de frequências com 13, 39 ou 48 classes, dependendo do autor (Quadro III-6).

A sugestão de cada um dos três autores é diferente (sobretudo comparando a de Sturges com as duas outras sugestões). O facto de existir um valor máximo extremo pode explicar esta tão grande diferença (Figura III-3). Eliminando o valor máximo (1,972, correspondente ao valor de emissões de CO para um Cadillac Escalade 6.2 - V8 AUT com 6162 cm3) a sugestão de Sturges não se altera (o que mostra a robustez da sua sugestão, a valores extremos) e as outras duas reduzem-se de modo relevante (Quadro III-7): 28 e 34 classes.

QUADRO III-6

Regras para o estabelecimento das classes de uma tabela de frequências (K - número de classes, H amplitude das classes, n - número de observações, s - desvio padrão da amostra e IQ - distância interquartis, Mini valor mínimo da

amostra, Max - valor máximo da amostra e A - amplitude).

A u t o r Reg ra H K

Sturges (1926) K= 1 + log2 n 0 ,158 12 , 5

Scott (1979) H = 3,5 s n"1/3 0 , 0 5 0 39,3

F r e e d m a n e D iacon i s (1981) H = 2 IQ n ' 1 / 3 0 , 0 4 1 48 ,3

n= 2 8 6 6 Min= 0 ,005

s= 0 , 202964 M á x = 1,972

IQ= 0 ,289 A = 1,967

QUADRO III-7

Regras para o estabelecimento das classes de uma tabela de frequências (K - número de classes, H classes, n - número de observações, s desvio padrão da amostra e IQ - distância interquartis, Mini -

amostra, Max valor máximo da amostra e A • amplitude).

- amplitude das valor mínimo da

A u t o r Reg ra H K

Sturges (1926) K= 1 + log 2 n 0 ,109 12,5

Scott (1979) H = 3,5 s n"1/3 0 , 0 4 9 27,5

F r e e d m a n e D iacon i s (1981) H = 2 IQ n"1/3 0 , 0 4 1 33,5

n= 2865 Min= 0 ,005

s= 0 , 200604 M á x = 1,362

IQ= 0 ,288 A = 1,357

1 Ve r § 7.4 2 Ver § 7 .2

Ana Amaro , C láud ia S i lvestre, Leono r Fe rnandes | Tabe la s de f requênc ia s

Page 44: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Classe freq. abs. Freq. abs. ac. Freq. rei. Freq. rei. ac. 0 < x < = , 0 8 6 9 5 8 3 4 0 5 4 0 5 14 ,13 1 4 , 1 3

, 0 8 6 9 5 8 3 < x < - , 2 5 0 8 7 5 0 860 1 2 6 5 3 0 , 0 1 4 4 , 1 4

, 2 5 0 8 7 5 0 < x < - , 4 1 4 7 9 1 7 826 2 0 9 1 2 8 , 8 2 7 2 , 9 6

, 4 1 4 7 9 1 7 < x < - , 5 7 8 7 0 8 3 4 6 2 2 5 5 3 1 6 , 1 2 8 9 , 0 8

, 5 7 8 7 0 8 3 < x < - , 7 4 2 6 2 5 0 2 2 8 2 7 8 1 7 , 9 6 9 7 , 0 3

, 7 4 2 6 2 5 0 < x < - , 9 0 6 5 4 1 7 7 0 2 8 5 1 2 , 4 4 9 9 , 4 8

, 9 0 6 5 4 1 7 < X < - 1 , 0 7 0 4 5 8 10 2 8 6 1 0 , 3 5 9 9 , 8 3

1 , 0 7 0 4 5 8 < x < - 1 , 2 3 4 3 7 5 2 2 8 6 3 0 , 0 7 9 9 , 9 0

1 , 2 3 4 3 7 5 < x < - 1 , 3 9 8 2 9 2 2 2 8 6 5 0 , 0 7 9 9 , 9 7

1 , 3 9 8 2 9 2 < x < - 1 , 5 6 2 2 0 8 0 2 8 6 5 0 , 0 0 9 9 , 9 7

1 , 5 6 2 2 0 8 < x < = 1 , 7 2 6 1 2 5 0 2 8 6 5 0 , 0 0 9 9 , 9 7

1 , 7 2 6 1 2 5 < x < - 1 , 8 9 0 0 4 2 0 2 8 6 5 0 , 0 0 9 9 , 9 7

1 , 8 9 0 0 4 2 < x < » 2 , 0 5 3 9 5 8 1 2 8 6 6 0 , 0 3 1 0 0 , 0 0

V*

Classe Freq. abs. Freq. abs. ac. Freq. re i Freq. rei. ac. 0 < x < - , 0 3 0 8 8 1 6 7 5 7 5 2 , 6 2 2 , 6 2

, 0 3 0 8 8 1 6 < x < = , 0 8 2 6 4 4 7 3 1 4 3 8 9 1 0 , 9 6 1 3 , 5 7

, 0 8 2 6 4 4 7 < x < - , 1 3 4 4 0 7 9 2 6 1 6 5 0 9 , 1 1 2 2 , 6 8

, 1 3 4 4 0 7 9 < x c = , 1 8 6 1 7 1 1 2 6 0 9 1 0 9 , 0 7 3 1 , 7 5

, 1 8 6 1 7 1 1 < X < - , 2 3 7 9 3 4 2 2 9 6 1 2 0 6 1 0 , 3 3 4 2 , 0 8

, 2 3 7 9 3 4 2 < x < " , 2 8 9 6 9 7 4 2 6 4 1 4 7 0 9 , 2 1 5 1 , 2 9

, 2 8 9 6 9 7 4 < x < - , 3 4 1 4 6 0 5 2 6 4 1 7 3 4 9 , 2 1 6 0 , 5 0

, 3 4 1 4 6 0 5 < x < - , 3 9 3 2 2 3 7 2 8 4 2 0 1 8 9 , 9 1 7 0 , 4 1

, 3 9 3 2 2 3 7 < x < » , 4 4 4 9 8 6 8 1 5 8 2 1 7 6 5 , 5 1 7 5 , 9 2

, 4 4 4 9 8 6 8 < x < - , 4 9 6 7 5 0 0 2 1 1 2 3 8 7 7 , 3 6 8 3 , 2 9

< 4 9 6 7 5 0 0 < X < - , 5 4 8 5 1 3 2 1 0 6 2 4 9 3 3 , 7 0 8 6 , 9 9

, 5 4 8 5 1 3 2 < x < » , 6 0 0 2 7 6 3 97 2 5 9 0 3 , 3 8 9 0 , 3 7

, 6 0 0 2 7 6 3 < x < - , 6 5 2 0 3 9 5 8 8 2 6 7 8 3 , 0 7 9 3 , 4 4

, 6 5 2 0 3 9 5 < x < - , 7 0 3 8 0 2 6 7 0 2 7 4 8 2 , 4 4 9 5 , 8 8

, 7 0 3 8 0 2 6 < x < - , 7 5 5 5 6 5 8 37 2 7 8 5 1 , 2 9 9 7 , 1 7

, 7 5 5 5 6 5 8 < x < - , 8 0 7 3 2 8 9 35 2 8 2 0 1 , 2 2 9 8 , 3 9

, 8 0 7 3 2 8 9 < x < > , 8 5 9 0 9 2 1 2 7 2 8 4 7 0 , 9 4 9 9 , 3 4

, 8 5 9 0 9 2 1 < x < - , 9 1 0 8 5 5 3 6 2 8 5 3 0 , 2 1 9 9 , 5 5

, 9 1 0 8 5 5 3 < x < = , 9 6 2 6 1 8 4 7 2 8 6 0 0 , 2 4 9 9 , 7 9

, 9 6 2 6 1 8 4 < x < = 1 , 0 1 4 3 8 2 1 2 8 6 1 0 , 0 3 9 9 , 8 3

1 , 0 1 4 3 8 2 < X < - 1 , 0 6 6 1 4 5 0 2 8 6 1 0 , 0 0 9 9 , 8 3

1 , 0 6 6 1 4 5 < x < « 1 , 1 1 7 9 0 8 0 2 8 6 1 0 , 0 0 9 9 , 8 3

1 , 1 1 7 9 0 8 < x < - 1 , 1 6 9 6 7 1 2 2 8 6 3 0 , 0 7 9 9 , 9 0

1 , 1 6 9 6 7 1 < x < » 1 , 2 2 1 4 3 4 0 2 8 6 3 0 , 0 0 9 9 , 9 0

1 , 2 2 1 4 3 4 < x < « 1 , 2 7 3 1 9 7 1 2 8 6 4 0 , 0 3 9 9 , 9 3

1 , 2 7 3 1 9 7 < x < = 1 , 3 2 4 9 6 1 0 2 8 6 4 0 , 0 0 9 9 , 9 3

1 , 3 2 4 9 6 1 < x < - 1 , 3 7 6 7 2 4 1 2 8 6 5 0 , 0 3 9 9 , 9 7

1 , 3 7 6 7 2 4 < x < - 1 , 4 2 8 4 8 7 0 2 8 6 5 0 , 0 0 9 9 , 9 7

1 , 4 2 8 4 8 7 < x < = 1 , 4 8 0 2 5 0 0 2 8 6 5 0 , 0 0 9 9 , 9 7

1 , 4 8 0 2 5 0 < x < c 1 , 5 3 2 0 1 3 0 2 8 6 5 0 , 0 0 9 9 , 9 7

1 , 5 3 2 0 1 3 < x < = 1 , 5 8 3 7 7 6 0 2 8 6 5 0 , 0 0 9 9 , 9 7

1 , 5 8 3 7 7 6 < x < = 1 , 6 3 5 5 3 9 0 2 8 6 5 0 , 0 0 9 9 , 9 7

1 , 6 3 5 5 3 9 < x < " 1 , 6 8 7 3 0 3 0 2 8 6 5 0 , 0 0 9 9 , 9 7

1 , 6 8 7 3 0 3 < x < = 1 , 7 3 9 0 6 6 0 2 8 6 5 0 , 0 0 9 9 , 9 7

1 , 7 3 9 0 6 6 < x < = 1 , 7 9 0 8 2 9 0 2 8 6 5 0 , 0 0 9 9 , 9 7

1 , 7 9 0 8 2 9 < x < » 1 , 8 4 2 5 9 2 0 2 8 6 5 0 , 0 0 9 9 , 9 7

1 , 8 4 2 5 9 2 < x < = 1 , 8 9 4 3 5 5 0 2 8 6 5 0 , 0 0 9 9 , 9 7

1 , 8 9 4 3 5 5 < X < - 1 , 9 4 6 1 1 8 0 2 8 6 5 0 , 0 0 9 9 , 9 7

1 , 9 4 6 1 1 8 < x < = 1 , 9 9 7 8 8 2 1 2 8 6 6 0 , 0 3 1 0 0 , 0 0

(a) CUiu [EmitóM di COl (b)

(c)

C t M M Fwq . abs. Frèq. abs. a c F r . * . r i F f *q . rffL ac.

0<x<- ,02 592 55 65 65 2,27 2,27

,0259255<x<-,0677766 246 311 8,58 10,85

,0677766<x<-, 109 4277 210 521 7,33 18,18

,1096277<x<-, 1514787 224 745 7,82 25,99

,1514787<x<-, 1933298 216 961 7,54 33,53

,1933298<x<-,2351809 238 1199 8,30 41,84

,2351809<x<-,2770319 214 1413 7,47 49,30

,2770319<x<-,3188830 207 1620 7,22 56,52

,3188830<x<-, 3607340 203 1823 7,08 63,61

,3607 340<x<-,4025851 224 2047 7,62 71,42

,4025851 W . 4 4 4 4 3 6 2 129 2176 4,50 75,92

,4444362<x<-,4862872 188 2364 6,56 82,48

,4862872<x<-, 5281383 88 2452 3,07 85,55

,5281383<x<-,5699894 94 2546 3,28 88,83

,5699894<x<-,6118404 56 2602 1,95 90.79

,6118404<x<-,6536915 76 2678 2,65 93,44

,6536915<x<-,6955426 55 2733 1,92 95,36

,6955426<x<-,7373936 37 2770 1,29 96,65

,7373936<x<-, 7792447 35 2805 1,22 97,87

,7792447<x<-,8210957 30 2835 1,05 98,92

,8210957<x<-,8629468 12 2847 0,42 99,34

,8629468<x<-, 9047979 4 2851 0,14 99,48

,9047979<x<-,94 664 8 9 7 2858 0,24 99,72

,9466489<x<-, 9885000 3 2861 0,10 99,83

9885000<x<-1,030351 0 2861 0,00 99,83

1,030351 <x<-1,072202 0 2861 0,00 99,83

1,072202<x<-1,114053 0 2861 0,00 99,83

1,114053<x<-1,155904 2 2863 0,07 99,90

1,155904<x<-1,1977 55 0 2863 0,00 99,90

1,197755<x<-1,239606 2864 0,03 99,93

1,239606<x<-1,281457 0 2864 0,00 99,93

1,281457<x<-1,323309 0 2864 0,00 99,93

1,323309<x<-1,365160 1 2865 0,03 99,97

: 1,365160<x<«1,407011 0 2865 0,00 99,97

1,407011<x<-1,448862 0 2865 0,00 99,97

;1,448862<x<-1,49071J 0 2865 O.CO 99,97

1,4907I3<X<-1,532564 0 2865 0,00 99,97

1,532564<x<-1,574415 0 2865 0,00 99.97

1,574415<x<"1,616266 c 2865 0,00 99,97

1,616266<x<-1,658117 0 2865 0,00 99,97

1,658117<x<-1,699968 0 2865 0,00 99,97

1,699968<x<-1,741819 0 2865 0.00 99,97

1,741819<x<-1,7 83670 0 2865 0,00 99,97

1,783670<X<-1,825521 0 2865 0,00 99,97

1,825521<x<-1,867372 0 2865 0,00 99,97

1,867372<x<-1,909223 0 2865 0,00 99,97

1,909223<x<-1,951074 0 2865 0,00 99,97

1,951074<x<-1,992926 1 2866 0,03 100,00

OOOOOOOOOOOCÍ o o o o o o o o «-Cbt tc i (EmMõei d« CO)

OOOOOOOOOOOOOOOOOOOOOOOO'-'-'-^— CIIIMI (Emittóe» d* CO)

(d)

(f) (e)

FIG. 111—3

Tabela de frequências para k=13 (a), k=39 (c) e k=48 (d) - Quadro III-2 e respectivos histogramas (b) (e) e (f)

42 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 45: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Poderá sempre interessante tentar diferentes soluções, adoptando sempre uma atitude crítica relativa ao resultado (Fig. 111-4). A regra de Sturges parece ser robusta à existência de valores extremos e as duas outras regras promovem o número de classes quando o número de observações é muito elevado, contrariamente à de Sturges que sob o efeito logarítmico "trava" o aumento do número de classes. A solução poderá ser sempre de compromisso.

Atendendo ao número de observações e às indicações das regras de Scott e Freedman e Diaconis poderíamos gerar uma tabela de frequências com um número aproximado de 15 classes cujos extremos das classes sejam arredondados de modo razoável (Fig. III-5). O resultado é semelhante se o objectivo for perceber como se distribuem os dados. Ao pretender gerar algum indicador numérico a partir da classificação efectuada, é sempre mais interessante ter como base de trabalho um maior número de classes.

4.2 Dados qualitativos

A tabela de frequências para as sub-categorias mais comuns dos automóveis caracterizados nos anúncios (Quadro lll-8a), por se tratar de uma variável qualitativa, não está sujeita à aplicação deste tipo de regras.

Neste caso, sendo uma variável qualitativa nominal, pode ser interessante arrumar a tabela de frequências por forma a torná-la mais legível: por ex. ordenando as classes (neste caso as categorias que a variável pode assumir) por ordem decrescente de frequência com que ocorrem (Quadro lll-8b).

As frequências absoluta (número total de observações) e relativa (proporção relativamente ao total) - cujo cálculo é relativo à classe - não são afectadas pela reordenação das classes. Já as frequências absolutas ou relativas acumuladas calculadas em função dos respectivos valores para a classe anterior e da frequência da classe em causa são afectadas.

Aquele facto alerta-nos para o facto de estarmos a trabalhar com variáveis qualitativas nominais. A ordenação foi efectuada pelo facto de termos muitas categorias e a variável ser nominal (com outro tipo dificilmente seria aceitável a reordenação!). Não é, por isso, interessante calcular frequências acumuladas. Qual o seu significado?

Neste tipo de tabelas de frequências, mesmo que o cálculo das frequências acumuladas seja efectuado pelo software, não parece ser relevante, nem ter significado, a sua demonstração (Quadro lll-8c). Assim, no caso particular de variáveis qualitativas nominais as tabelas de frequências deverão apenas conter informação relativa às frequências absolutas e relativas simples. A reordenação das categorias pode ser vantajosa.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Tabelas de frequências

Page 46: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Classe Freq abs. Freq abs. ac. Freq. ml. Freq. rei. ac. K C

0<x<-,0615417 274 274 9,56 9,56

,06!5417<x<-,1746250 578 852 20.17 29,74

, 1746250<J<<",2877083 614 1466 21,43 51,17 « N

,2877083<x<-,4007917 578 2044 20,17 71,34 vx ,4007917<x<>,5138750 385 2429 13,44 84,78 S

vx

,5138750<x<-, 6269583 203 2632 7,09 91,87 ! «0

,6269583<x<-,7400417 148 2780 5,17 97,03 MCI

,7400417<x<», 8531250 65 2845 2,27 9 9 , »

,8531250<x<-,9662083 16 2861 0,56 99,86 M.

,9662083<x<-1,079292 0 2861 0,00 99,86 100

1,079292<x<-1,192375 2 2863 0,07 99,93

1,192375<x<°1,305458 1 2864 0,03 99,97

1,305458<x<=1,418542 1 2865 0,03 100,00 í<\) CLLL» EMTTMI CT« CÇS) (b) Classe Fraq, abs, Freq, abs. ac. Freq, ral Freq. rei. ac. C i » M Fnq. abs. Fmq, abs. ac. Fnq. ral. Frtq. rei. ac.

0<X<-,0301296 75 75 2,62 2,62 0<«-,0255606 65 65 2,27 2,27

0<X<-,0301296 75 75 2,62 2,62 ,0255606<x<-,0666818 236 301 8.21 10,51

,0301296<x<-,0803889 309 384 10,79 13,40 ,0255606<x<-,0666818 236 301 8.21 10,51

,0301296<x<-,0803889 309 384 10,79 13,40 ,0666818<X<-, 1078030 218 519 7,61 18,12 ,0803889<X<-,1306481 255 639 8,90 22,30 ,1078030<«-,1489242 209 728 7,29 25,41

,1306481 <X<», 1809074 246 885 8,59 30,89 ,1489242<x<-,1900455 207 935 7,23 32,64

, 1809074<x<=,2311667 285 1170 9,95 40,84 , 1900<55<X<-, 2311667 235 1170 8,20 40,84

,2311667<X<-,2814259 267 1437 9,32 50,16 .2722879<<<-, 3134091 ,3134091<<<-,3545303

235 160

1613 1773

8,20 5,58

56,30 61,88 ,2814259<x<«,3316852 244 1681 8,52 58,67

.2722879<<<-, 3134091 ,3134091<<<-,3545303

235 160

1613 1773

8,20 5,58

56,30 61,88

,3316852<X<=,3819444 266 1947 9,28 67,96 .3545303<<<-,3956515 256 2029 8,94 70,82

,3819444<x<-,4322037 201 2148 7,02 74,97 ,3956515<<<.,4367727 126 2155 4,40 75,22

,4322037<X<-, 4824630 209 2357 7,29 82,27 .4367727<<<-,4778939 164 2319 5,72 80,94

,4824630<x<-, 5327222 103 2460 3,60 85,86 ,4778939<<<-,5190152 ,5190152<<<-,5601364 ,5601364<<<",6012576 ,6012576<x<-,6423788

116 95 60

2435 2530 2590

4,05 3,32 2,09 2,30

84,99 88,31 90,40 92,71

,5327222<X<-,5829815 101 2561 3,53 89,39

,4778939<<<-,5190152 ,5190152<<<-,5601364 ,5601364<<<",6012576 ,6012576<x<-,6423788

116 95 60

2435 2530 2590

4,05 3,32 2,09 2,30

84,99 88,31 90,40 92,71 , 5829815<x< a, 6332407 78 2639 2,72 92,11

,4778939<<<-,5190152 ,5190152<<<-,5601364 ,5601364<<<",6012576 ,6012576<x<-,6423788 66 2656

4,05 3,32 2,09 2,30

84,99 88,31 90,40 92,71

,6332407<x<-, 6835000 79 2718 2,76 94,87 .6423788<<<-,6835000 62 2718 2,16 94,87

,6835000<x<=,7337593 51 2769 1,78 96,65 .6835000<<<-,7246212 40 2758 1,40 96,27

,7337593<x<-,7840185 36 2805 1,26 97,91 .7246212<<<-, 7657424 30 2788 1,05 97,31

,7337593<x<-,7840185 36 2805 1,26 97,91 , 7657424<<<-, 8068636 32 2820 1,12 98,43

,7840185<x<-,8342778 32 2837 1,12 99,02 ,8068636<<<-,8479848 25 2845 0,87 99,30 ,8342778<x<=,8845370 12 2849 0,42 99,44 ,8479848<x<-,8891061 6 2851 0,21 99,51

,8845370<x<-, 9347963 6 2855 0,21 99,65 ,8891061<<<-,9302273 4 2855 0,14 99,65

,9347963<X<»,9850556 6 2861 0,21 99,86 .9302273<<<-,97134 85 ,9713485<<<-1,012470

6 2861 2861

0,21 0,00

99,86 99,86

,9850556<x<=1,035315 2861 0,00 99,86

.9302273<<<-,97134 85 ,9713485<<<-1,012470

2861 2861

0,21 0,00

99,86 99,86

,9850556<x<=1,035315 2861 0,00 99,86 1,012470<<<-!,053591 I 2861 0,00 99,86

1,035315<X<-1,085574 2861 0,00 99,86 1,012470<<<-!,053591 I 2861 0,00 99,86

1,035315<X<-1,085574 2861 0,00 99,86 1,053591«<-1,094712 0 2861 0,00 99,86 1,085574<x<«1,135833 1 2862 0,03 99,90 1,094712<«-1,135833 1 2862 0,03 99,90

1,135833<x<-1,186093 1 2863 0,03 99,93 1,13S833<X<<1,176955 1 2863 0,03 99,93

1,186093<X<<1,236352 0 2863 0,00 99,93 1,176955<<<-!,218076 1,218076<<<-!,259197 1,259197<<<-!, 300318 1,3003I8<<<-!, 341439

0 2863 2864 2864 2864

0,00 0,03 0,00 0,00

99,93 99,97 99,97 99,97

1,236352<x<-1,286611 1 2864 0,03 99,97

1,176955<<<-!,218076 1,218076<<<-!,259197 1,259197<<<-!, 300318 1,3003I8<<<-!, 341439

2863 2864 2864 2864

0,00 0,03 0,00 0,00

99,93 99,97 99,97 99,97 1,286611<x<-1,336870 0 2864 0,00 99,97

1,176955<<<-!,218076 1,218076<<<-!,259197 1,259197<<<-!, 300318 1,3003I8<<<-!, 341439 0

2863 2864 2864 2864

0,00 0,03 0,00 0,00

99,93 99,97 99,97 99,97

1,336870<x<«1,387130 1 2865 0,03 100,00 l r ) !,341439<«-1,382561 1 2865 0,03 100,00 (d)

§ i | S; 5j ? s 3 o o o o o o O c llgili.iBillllii.Miiii

j u w o o o ' o" o- o" o" o" o" o' o ^ ^ ClatM (Emiufes de CO) (0

Tabela de frequências (tendo eliminado o valor máximo,1.972) para k=13 (a), k=28 (c) e k=34 (d) - Quadro III-3 e respectivos histogramas (b) (e) e (f)

44 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 47: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

| Classe Freq.abs. Freq, abs. ac. Freq, r e i Freq. rei. ac. 0<x<=,20 1010 1010 35,25 35,25

,20<x<=,40 1034 2044 36,09 71,34 ,40<X<=,60 546 2590 19,06 90,40 ,60<X<=,80 230 2820 8,03 98,43

,80<X<=1,00 41 2861 1,43 99,86 1,00<X<=1,20 2 2863 0,07 99,93 1,20<x<=1,40 2 2865 0,07 100,00 (a)

C U s » Freq. »b:. Freq. ai». « . Freq. rei. Freq. rei. ac

0<x<",10 494 494 17,24 17,24

,10<x<-,20 516 1010 18,01 35,25

,20<x<-,30 503 1513 17,56 52,81

,30<x<-,40 531 2044 18,53 71,34

,40<x<«,50 357 2401 12,46 83,80

,50<x<-,60 189 2590 6,60 90,40

158 2748 5,51 95,92

,70<x<=,80 72 2820 2,51 98,43

,80<x<-,90 31 2851 1,08 99,51

,90<x<«1,00 10 2861 0,35 99,86

1,00<x<-1,10 0 2861 0,00 99,86

1,10<x<-1,20 2 2863 0,07 99,93

1,20<xe-1,30 1 2864 0,03 99,97

1,30<x<*l ,40 1 2865 0,03 100,00 (b)

Cteiae (Emíuâes de CO) (C)

FIG. 111-5

0.0 0.1 02 0.3 0.4 0.5 0.6 0.7 0,8 0.8

Ckilie (Emtsòe* de CO) (d)

Tabela de frequências (tendo eliminado o valor máximo, 1.972) considerando indicações aproximadas das três regras e arredondando de modo razoável os limites das classes.

A distribuição da personagem principal, quando existe, e considerando apenas as categorias que se ordenam etariamente (eliminando a categoria indeterminado e adulto e criança - para garantir uma variável ordinal), pode ser resumida através de uma tabela de frequências que nos revela de imediato haver uma preponderância de Adultos (Quadro III-9). Poderá ser interessante reagrupar algumas classes, nomeadamente quando as suas frequências são irrelevantes relativamente às outras. Deve ter-se em atenção que esse procedimento implica perda de informação e que deverá ser efectuado atendendo ao seguinte:

- se quisermos manter a ordinalidade da variável, o agrupamento deverá ser efectuado em classes contíguas; as frequências acumuladas poderão ser recalculadas e existir na tabela de frequências

- se não for importante manter a ordinalidade, o agrupamento pode seguir qualquer critério; as frequências acumuladas não devem ser calculadas.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Tabelas de frequências

Page 48: Estatistica Descritiva-livro Professora

Capítulo III E S T A T Í S T I C A D E S C R I T I V A - O s e g r e d o d o s d a d o s

QUADRO III-8

Tabela de frequências - para as sub-categorias mais comuns dos automóveis caracterizados nos anúncios - corrente sem a preocupação de ordenação (a) e ordenada por ordem decrescente de frequências(b) mas com erro de

formalismo (frequências acumuladas) e sem erro de formalismo (c)

C ia s se F/eq abs req. a b s . « IC. Freq, rei. Freq » r e i aç .

C i t y C a r 17 17 1 6 , 0 4 1 6 , 0 4

P e q u e n o Ut i l i tár io 2 2 39 2 0 , 7 5 3 6 , 7 9

P e q u e n o F a m i l i a r 2 5 64 2 3 , 5 8 6 0 , 3 8

F a m i l i a r 14 7 8 1 3 , 2 1 7 3 , 5 8

G r a n d e Fam i l i a r 1 7 9 0 , 9 4 7 4 , 5 3

L u x o 1 80 0 , 9 4 7 5 , 4 7

C o m e r c i a i s 2 8 2 1 , 8 9 7 7 , 3 6

F u r g o n 1 83 0 , 9 4 7 8 , 3 0

M o n o V o l u m e 11 94 1 0 , 3 8 8 8 , 6 8

T T 7 101 6 , 60 9 5 , 2 8

B ic i l indro 1 1 02 0 , 9 4 9 6 , 2 3

I n s t i t | 4 1 0 6 3 , 77 1 0 0 , 0 0 (a)

Classe Frsq. abs, Freq, abs. ao, Fraq. ra l Freq. rsl» ac. W Ê È í W i s s Freq, a&s. F^q^sJ j Pequeno Familiar 25 2S 23,58 23,58 Pequeno Familiar 25 23,58

Pequeno Utilitário 22 22 20,75 4 4 , " Pequeno Utilitário 22 20,75 City Car 17 17 16,04 » > ® City Car 17 16,04 Familiar 14 14 13,21 73,58 Familiar 14 13,21

MonoVolume 11 11 10,38 83,96 MonoVolume 11 10,38 TT 7 7 6,60 90,57 TT 7 6,60

Instit 4 3,77 *4,34 Instit 4 3,77 Comerciais 2 2 1,89 96.23 Comerciais 2 1,89

Grande Familiar 1 i 0,94 97,17 Grande Familiar 1 0,94 Luxo 1 1 0,94 98,11 Luxo 1 0,94

Furgon 1 0,94 95,06 Furgon 1 0,94 Bicilindro 1 f f 0,94 100,00 (b) Bicilindro 1 0,94 (C) (b) (C)

QUADRO 111-9

Tabela de frequências para a personagem principal (retirando as categorias nominais)

C la s se Freq, abs . F^req. ab s . ac, Freq. rei, Freq. rei. ac.

Bebé 1 1 0 , 9 4 0 , 9 4

C r i a n ça 2 3 1 , 8 9 2 , 8 3

J o v e m Adu l t o 12 15 1 1 , 3 2 1 4 , 1 5

Adu l to 91 1 0 6 8 5 , 8 5 1 0 0 , 0 0

Tab

Dados quantitativos e qualitativos ordinais

ela de frequências absolutas é relativas simples e acumula !

das j

M l i M H

Dados qualitativos nominais

Tabela de frequências absolutas e relativas simples |

4 6 Medidas d e localização ( q u a n t i s ) | A n a A m a r o , C l á u d i a S i l v e s t r e , L e o n o r F e r n a n d e s

Page 49: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

muitas categorias (em termos relativos) pode reclassifícar-se a variável. í | i I

5. Medidas de tendência central

As emissões de CO e os níveis de ruído dos automóveis têm diferentes tipos de distribuições: no primeiro caso a grande maioria dos 2866 automóveis com registo desta variável produz baixos níveis de CO (Fig. 111-1 la); no segundo a maioria dos automóveis produz elevados níveis de ruído (Fig. III-l 11»> ou, de um outro modo, são poucos os automóveis que produzem baixos níveis de ruído.

Naturalmente há a necessidade de quantificar.

5.1 O valor médio

Podemos calcular o valor médio das emissões de CO e o nível médio de ruído dos automóveis, somando todos os valores (2866 e 2865 respectivamente) e dividindo pelo seu cardinal (Quadro 111-10): 0,308 g km"1 e 72,33 dB respectivamente. Podemos, por curiosidade, calcular este mesmo indicador para os carros a gasolina (Quadro 111-10) e os carros a gasóleo (Quadro 111-10) que para os níveis de ruído não parece ter comportamento diferente. Contudo, relativamente às emissões de CO, os automóveis a gasóleo (valor médio igual a 0,147 g km'1) parecem ser menos agressivos que os a gasolina (valor médio igual a 0,407 g km"1).

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de localização (quantis)

Page 50: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

Nk»l4*>uUodB<A)

0.0 02 0.4 0.6 00 I A U 1.4 1.6 1,6 3.0

ErrtMÒMCO

Classe Freq. abs, Freq. abs. ac. Freq. rei. Freq. ret, ac. 0<x<=,20 1010 1010 35,24 35,24

,20<x<=,40 1034 2044 36,08 71,32 ,40<x<= ,60 546 2590 19,05 90,37 ,60<x<=,80 230 2820 8,03 98,39

, 8 0 < x < = 1 , 0 0 41 2861 1,43 99,83 1,00<x<=1.20 2 2863 0,07 99,90 1,20<x<=1,40 2 2865 0,07 99,97 1,40<x<=1,60 0 2865 0,00 99,97 1,60<x<=1,80 0 2865 0,00 99,97 1,80<x<=2,00 1 2866 0,03 100,00 (C)

60 67 61 00 70 71 T7 73 74 75 7 . 77 ( b

Classe Freq. abs. Freq, abs. ac. Freq. rei. Freq. rei. ac.

65<x<-66 1 1 0,03 0,03

66<xc-67 6 7 0,21 0,24

67<x<-68 29 36 1,01 1,26

68<x<-69 72 108 2,51 3,77

69<x<-70 231 339 8,06 11,83

70<x<-71 519 858 18,12 29,95

71<x<-72 576 1434 20,10 50,05

72<x<-73 617 2051 21,54 71,59

73<x<"74 601 2652 20,98 92,57

74<x<-75 196 2848 6,84 99,41

75<x<-76 15 2863 0,52 99,93

76<x<-77 2 2865 0,07 100,00

77<x<»78 0 2865 0,00 100,00

78<x<"79 0 2865 0,00 100,00 (d) FIG. 111-11

Histogramas e tabelas de frequências das emissões de CO (a) e (c), e do nivel de ruído (b) e (d)

QUADRO 111-10

Valor médio do nivel de ruído e das emissões de CO (para todos os tipos de automóveis) e considerando apenas os automóveis a gasolina e os a gasóleo (diesel)

Variável Conjunto n Valor médio

Ruído (dB) Total 2865 72,32887

Gasolina 1771 72,37589

Diesel 1086 72,25378

Emissões de CO Total 2866 0,30802

Gasolina 1772 0,40674

Diesel 1086 0,14688

0 número médio de registos para os 248 anúncios é igual a 5,8 registos ou, talvez, aproximadamente 6 registos. A melhor forma de transmitir este tipo de informação não é clara: trata-se de uma variável discreta (o que quer dizer que, por ex. não há 6,3 registos) mas um valor médio é uma medida contínua...

Se a informação nos fosse disponibilizada sob forma de uma tabela de frequências (sem conhecimento da informação detalhada) (Quadro 111-4) conseguiríamos apenas ter uma ideia do valor médio para os 248 anúncios. Atribuiríamos a cada um dos 210 anúncios da classe [0; 10[ o valor médio da mesma, isto é, cinco registos: sabemos que há anúncios com mais e menos de cinco registos, sendo utilizado o princípio da compensação e o pressuposto (na

48 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 51: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

falta de informação adicional) de que a distribuição no número de registos na classe é Uniforme. 0 número médio de registos é, deste modo, aproximadamente igual a 1,5 (Quadro III-2).

No âmbito de inquérito são colocadas duas questões relativas à poluição (Fig. 111-13). As duas variáveis que daí resultam, sendo qualitativas, são particulares, na medida em que são binárias: a resposta só pode ser uma de duas e encarada como "sucesso" e "insucesso" ou ainda reportando-nos à informática a "1" e "0". A vantagem em considerar este tipo de variáveis (binárias) codificadas em binário (0/1) é muito grande (em detrimento de uma outra qualquer codificação - por ex. 1 e 2 ou 101 e 102). No primeiro caso o valor médio não tem qualquer significado (Quadro 111-11); no segundo (Quadro 111-11) conseguimos deduzir, de imediato, que 31% dos anúncios visualizados contêm informação sobre os consumos e sobre as emissões de CO.

INFORMAÇAO SOBRE A POLUIÇÃO

A mensagem contém informação sobre os consumas?

Sim

Não

A mensagem contém informação sobre e emissão de 003?

Sim

Não

FIG. 111-13

Questões colocadas no inquérito sobre a poluição

QUADRO 111-11

Valor médio sobre o consumo e emissão de CO considerando codificação Sim-1; Não-2 e Sim-1 e Não -0

Variável Codificação Valor médio Consumos

Sim - 1; Não-2 1,37903

C02 Sim - 1; Não-2

1,37903 Consumos

Sim - 1 ; Não-0 0,30816

C02 Sim - 1 ; Não-0

0,30816

A personagem principal (Fig. 111-1 -4a), quando existe, foi caracterizada. Sem considerarmos as categorias "nominais" (isto é "Indeterminado" e "Adulto e criança") a variável, tal como se encontra codificada (Fig. 111-14a), é uma variável ordinal. Sabemos que os códigos numéricos não têm valor, apenas ordenam, de forma arbitrária, as categorias (Fig. Ill-14b). Quando procedemos a uma soma destes códigos a divimos pelo número de códigos, obtemos um valor médio de "códigos". Neste caso 4,8 não tem significado. Para que serve? Talvez como elemento a comparar com outra situação (por ex. o resultado para um inquérito efectuado no Natal com o objectivo de avaliar a possibilidade de uma "translação" no que respeita a personagem principal do anúncio: redução do valor médio?). Tem, sem dúvida, uma utilidade discutível e muito limitada.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de localização (quantis)

Page 52: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

Text Label Numeric Bebé 1 Criança 2 Adolescente 3 Jovem Adulto 4 Adulto 5 Meia-ldade 6 Idoso 7 Indeterminado 8 Adulto(s) e criança(s) 9

CHitnbiiçío do grvpo etirto d* p«t»om}«m principal

I =0

1 1 p p Wí-w p m % VAtm^

^ g j Matormlrado Adu«o{») • cri«nç»(») Bebé ^ J

FIG. 111-14 Codificação das categorias (a) que caracterizam a personagem principal.

Caracterização (sem as categorias nominais - 8 e 9, ver Cap. II - 4.1.2) gráfica (b). Valor médio igual a 4,792453; e n=106.

j O valor médio

| calcula-se somando todos os valores e dividindo a soma peio seu cardinal.

i _ 1 " _ 1Í, 1 X = n £ X ' 6 x = - S n < P m « I n n w

| (n - número de observações; k - número de classes, pm( - ponto médio da classe i) v •.•.„•.•. . , . — ,..,„ ...... . . . . . . . . i , . . . . . . . .—.. . . . . „ , , ,» .1.-....-..1....-•»..-...-. n . . ^ . , . _--_! ..—x

j Dados quantitativos e qualitativos nominais binários (1/0)

[ O valor médio pode ser calculado e tem significado. s

l Dados qualitativos ordinais

j O valor médio pode ser calculado, usando uma codificação ordinal.

| O resultado deve ser utilizado de forma qualificada. | Dados qualitativos nominais >

| O valor médio não tem qualquer significado.

5.2 Mediana

50% dos automóveis produzem menos de 72 dB e emitem mais de 0,28 g km"1

de CO (Quadro 111-12). Considerando as emissões de CO volta a constatar-se uma diferença de concentrações nos automóveis a gasolina e a gasóleo: 50% dos automóveis a gasolina têm emissões inferiores a 0,38 g km"1 e para os carros a gasóleo os mesmos 50% emitem menos de 0,12 g km"1. A este indicador chama-se mediana. É muito interessante compreender a sua utilidade e constatar que, sendo menos comum que a média e também uma medida de tendência central da distribuição, é mais fácil de interpretar.

50 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 53: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Neste caso particular é interessante notar que os valores da mediana são inferiores ao valor médio.

Para o seu cálculo ordenaram-se os valores, por ex. por ordem crescente, e localizou-se o "valor do meio" (no caso de número ímpar de observações) - ou "os dois valores do meio" (no caso de número par de observações) com os quais se calcula um valor médio a que se chama mediana.

No caso de a informação estar apenas disponível de modo classificado é possível calcular a mediana aproximada. Assumindo que as emissões de CO estivessem apenas caracterizadas através de uma tabela de frequências (Quadro 111-13) facilmente se identificaria a classe da mediana como ]0,20; 0,40]: de facto 35,24% dos automóveis emitem menos de 0,20 g km"1 de CO e por outro lado 71,32% dos automóveis emitem menos de 0,40 g km"1, pelo que a mediana está compreendida entre 0,20 e 0,40 g km"1.

QUADRO 111-12

Valor médio e mediana do nível de ruído e das emissões de CO (para todos os tipos de automóveis) e considerando apenas os automóveis a gasolina e os a gasóleo (diesel)

Variável eortjunto n Valor médio Mediana

Ruído (dB) Total 2865 72,32887 72,00000

Gasolina 1771 72,37589 73,00000

Diesel 1086 72,25378 72,00000

Emissões de CO Total 2866 0,30802 0,28000

Gasolina 1772 0,40674 0,38000

Diesel 1086 0,14688 0,12400

QUADRO 111-13

Tabela de frequências para as emissões de CO (para todos os tipos de automóveis)

Classe Freq. abs, Freq. abs, ac. Freq. rei. Freq. rei. ac. 0<x<=,20 1010 1010 35,24 35,24

,20<x<=,40 1034 2044 36,08 71,32 ,40<x<=,60 546 2590 19,05 90,37 ,60<x<=,80 230 2820 8,03 98,39

I ,80<x<=1,00 41 2861 1,43 99,83 1,00<x<=1,20 2 2863 0,07 99,90 1,20<x<=1,40 2 2865 0,07 99,97

! 1,40<x<=1,60 0 2865 0,00 99,97 11,60<x<=1,80 0 2865 0,00 99,97 t,80<x<=2,00 1 2866 0,03 100,00

Apesar da informação estar classificada e sabermos que qualquer cálculo efectuado em cima da tabela conduzirá apenas a indicares aproximados pode ser interessante identificar o meio da distribuição (mesmo que de modo aproximado).

Até 0,20 g Km"1 temos 35,24% dos automóveis. Para atingir os 50% faltam 14,76% que deverão ser referidos ao tamanho da classe seguinte ]0,20; 0,40]

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de localização (quantis)

Page 54: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - 0 segredo dos dados

(que contém 36,08% das observações totais e cuja amplitude é 0,20 § Km'1). Como desconhecemos a distribuição das observações dentro das classes podemos assumir - utilizando o bom senso - que se distribuem uniformemente.

A descrição do cálculo da mediana poderá ser efectuada da seguinte forma

ou, de modo mais justificado, estabelecendo como 0,20 o limite inferior para o valor que poderá ser acrescido de um máximo de 0,20 (a amplitude da classe da mediana) que será afectado de uma proporção calculada como a razão entre a distância dos 50% aos 35,24% (da classe anterior à classe da mediana) e a dimensão em número de observações da classe da mediana e que é 36,08%.

A mediana é, assim, 0,2818 g Km'1.

Para caracterizar as sub-categorias mais comuns dos automóveis caracterizados nos anúncios (Quadro III-8) não faz qualquer sentido calcular uma mediana. De facto este indicador pressupõe uma ordem natural e contabilização, por ex. através de uma tabela de frequências e das frequências relativas acumuladas, para identificar o valor da variável a que correspondem 50% das observações acumuladas.

O número médio de registos para os 248 anúncios é igual a 5,8 registos ou, talvez, aproximadamente 6 registos. A mediana é igual a 4 registos ou seja pelo menos 50% dos anúncios tiveram menos de 5 registos! Importa realçar o significado ligeiramente diferente da mediana para este tipo de dados. De facto por ser uma variável discreta, a determinação da mediana, com base nos dados exaustivos, localiza o valor 4 como o que divide o conjunto de observações em dois grupos de dimensão igual (os "inferiores a 4" e "os superiores a 4") quando na verdade se nos reportarmos à tabela de frequências que poderíamos desenhar considerando todas as observações possíveis (Quadro 111-14) verificamos que se registou 24 vezes o número de registos igual a 4. Por esta razão, para este tipo de dados (discretos) pode não ser muito interessante identificar a mediana. O mesmo se aplica a variáveis qualitativas ordinais (Quadro III-9).

Medidas de tendência central | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Med = 0,20 + 0,20 0,50 - 0,3524

0,3608 = 0,2818

Page 55: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

QUADRO 111-14

Tabela de frequências para o número de registos associados a um anúncio (considerando todas as observações possíveis)

Classe Freq, abs, Ftjiq. ac. jiosg. rei. Freq. rei. ac. 1 46 46 18,55 18,55 2 33 79 13,31 31,85 3 30 109 12,10 43,95

" 4 24 133 9,68 53,63 5 18 151 7,26 60,89 6 19 170 7,66 68,55 7 9 179 3,63 72,18 8 14 193 5,65 77,82 9 10 203 4,03 81,85 10 7 210 2,82 84,68 11 11 221 4,44 89,11 12 5 226 2,02 91,13 13 5 231 2,02 93,15 14 1 232 0,40 93,55 15 1 233 0,40 93,95 17 4 237 1,61 95,56 18 3 240 1,21 96,77 19 1 241 0,40 97,18 20 1 242 0,40 97,58 21 2 244 0,81 98,39 22 1 245 0,40 98,79 23 1 246 0,40 99,19 29 1 247 0,40 99,60 49 1 248 0,40 100,00

A mediana Mm

calcula-se colocando as observações ou as classes por ordem crescente.

Daçlos exaustivos

n par: med =

A, n + x

v i+ l) im.

n impar: X

2 \

sggl

Dados classificados (tabela de frequências) n c c

+ ^ f " " med

i - valor mínimo; x(n) - valor máximo; n - número de observações; Xn>ed, fnf - p i f e inferior da classe da mediana; hmed -amplitude da classe da mediana;

Fmed-i - Frequência relativa aeumulada da classe anterior à da mediana; ffned - frequência relativa da classe da mediana)

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de localização (quantis)

Page 56: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

] Dados quantitativos contínuos

A mediana pode ser calculada e tem significado directo 1 (50% das observações são inferiores - ou superiores à mediana).

| Dados quantitativos discretos e qualitativos ordinais i

A mediana pode ser calculada, sendo o seu significado adaptado (pelo menos 50% das observações são inferiores à mediana).

Dados qualitativos nominais

A mediana não pode ser calculada.

5.3 A Moda

A personagem mais frequente nos anúncios é o Adulto (Quadro 111-9) - 84,85% dos anúncios com personagem principal utilizam o Adulto -, a sub-categoria de automóveis mais comum é o Pequeno Familiar (Quadro 111-8) - 23,58% das sub-categorias de automóveis utilizados nos anúncios são pequenos familiares - e um anúncio é maioritariamente visto apenas uma vez (Quadro 111-14) -18,55% dos anúncios foram vistos apenas uma vez.

Para determinar a concentração de CO mais comum recorremos à utilização de software que conduziu a um resultado correspondente ao valor que se repete mais vezes (o algoritmo utilizado para determinar a moda para cada uma das três variáveis consideradas no parágrafo anterior). De facto e para esta variável a moda é igual a 0,04 g Km"1 (Quadro 111-15) valor que se repete 30 vezes (e que, neste caso, é da responsabilidade de automóveis a gasóleo). Observando o histograma desenhado para esta variável (Fig. Ill-5d) é muito curioso constatar que a classe com maior frequência é a classe de concentração entre os 0,3 e 0,4 g Km"1 o que entra em conflito com a constatação anterior!

As emissões de CO são uma variável - em teoria pelo menos - de carácter quantitativo contínuo. A repetição de valores é, portanto, pouco provável. Contudo, neste caso específico, afinal esta variável não parece resultar de medições mas sim de especificações (na medida em que se verificam muitas repetições). Temos uma situação em que, por um lado a variável assume valores discretos mas muitas possibilidades que, também pela sua natureza, nos levam a considerá-la contínua. Não é fácil.

Em resumo: a moda para a emissões de CO é 0,04 g Km"1 e a classe modal ]0,3; 0,4] g Km"1. O conflito pode conduzir ao seguinte raciocínio: na identificação da moda - do valor mais frequente - é interessante localizar "o" valor. Esta é a situação que ocorre quando lidamos com variáveis qualitativas e até quantitativas discretas (por ex. o número de registos). Para variáveis contínuas ou com comportamentos de natureza contínua (por ex. emissões de CO e nível de ruído) porventura é mais interessante localizar a zona da distribuição dos valores mais frequente em detrimento de "o" valor.

54 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 57: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

QUADRO 111-15

Valor médio, mediana e moda do nível de ruído e das emissões de CO (para todos os tipos de automóveis) e considerando apenas os automóveis a gasolina e os a gasóleo (diesel) considerando a abordagem tradicional para o

cálculo da moda (a) e a abordagem classificada e arredondamentos (b)

Variável Conjunto n Valor médio Mediana Moda Freq. da moda

Ruído (dB) Total 2865 72,32887 72,00000 73,00000 563

Gasolina 1771 72,37589 73,00000 74,00000 383

Diesel 1086 72,25378 72,00000 72,00000 201

Emissões de CO Total 2866 0,30802 0,28000 0,04000 30

Gasolina 1772 0,40674 0,38000 0,26800 24

Diesel 1086 0,14688 0,12400 0,04000 30

Variável Conjunto n Valor médio Mediana Moda

Ruído (dB) Total 2865 72,33 72,00 72,51

Gasolina 1771 72,38 73,00 72,55

Diesel 1086 72,25 72,00 71,50

Emissões de CO Total 2866 0,31 0,28 0,3415

Gasolina 1772 0,41 0,38 0,3510

Diesel 1086 0,15 0,12 0,0749 1

Para localizar a zona mais frequente - portanto a classe modal - temos como obrigação classificar a variável (de acordo com as orientações já analisadas anteriormente no ponto 4.) - a menos que tenhamos a informação já classificada de origem. Apesar de identificarmos uma classe modal, com base numa classificação, pode ser interessante indicar uma moda (valor) que, sendo um mero indicador de localização, deverá - para garantir coerência -ser calculada a partir da classe.

Consideremos duas abordagens para o cálculo da moda a partir de uma tabela de frequências3 (Fig. Ill-15e e f), depois de identificar a classe modal (neste caso ]0,3; 0,4] g Km"1:

1) a moda é igual à semi-soma dos extremos da classe modal ou seja 0,35 g Km"1.

2) a moda está mais próxima da classe adjacente com maior frequência ou seja

mod = 0,3 + 0,1 ^ ^ = 0,3415 g Km"1

0,1246 + 0,1756 S

em que 0,1246 e 0,1756 são as frequências relativas simples das classes a seguir e antes da classe modal, respectivamente.

De um modo geral pode considerar-se mais apropriado a adopção deste último algoritmo uma vez que distingue duas distribuições com a mesma classe modal mas frequência relativas contíguas diferentes.

3 Neste caso eliminámos a observação da emissão de CO igual a 1,972, permitindo maior detalhe na distribuição das observações por classes.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de localização (quantis)

Page 58: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

Se considerarmos apenas os automóveis a gasolina (Fig. Ill-15a e b) a moda é calculada da seguinte forma:

01941 1 mod = 0,3 + 0,1 ^ ^ = 0,3510 g Km1

0,1941 + 0,1868 5

Para os automóveis a gasóleo (Fig. Ill-15c e d) o valor é igual a

n 1RRR mod = 0,05 + 0,05 ^ ^ = 0,0749 g Km1

0,1888 + 0,1906

Para o ruído promovido pelos automóveis é interessante verificar que 73 dB é o valor mais frequente (situação que se altera quando se consideram somente os automóveis a gasolina - 74 dB ou os a gasóleo - 72 dB) (Quadro 111-15). Muito curioso sobretudo porque os valores médios não levariam a supor uma diferença de comportamento para esta variável no caso de automóveis a gasolina ou a diesel.

Calculando o indicador moda para cada uma das três situações, usando o princípio descrito e os dados (Fig. II1-16),teríamos então para os automóveis:

- a gasolina: mod = 72 +1 Q>2286 = 72,5458 dB, 0,2286 + 0,1902

01934 - a diesel: mod = 71 +1 ^ ^ = 71,5036 dB e

0,1934 + 0,1906

- em geral: mod = 72 + 1 ^ ^ = 72,5107 dB. 0,2098 + 0,2010

A moda É o valor da variável que se repete mais vezes, com maior frequência.

Dados qualitativos e quantitativos discretos

A leitura é feita na tabela de frequências

Dados quantitativos contínuos ou dados classificados

Requer a classificação da variável e subsequente identificação da classe modal

mod - v + h mod+i muu - x ^ i p f + nmod - —-' mod+l •mod-1

(Xmod, mf - limite inferior da classe modal; hmod -amplitude da classe modal; fmod+i - frequência relativa simples da classe imediatamente a seguir à da moda; fmod-i - frequência relativa simples da classe imediatamente antes da da moda)

A moda é o único indicador universal, isto é pode - para qualquer tipo de dados -l sempre ser calculado. i fcÉÍ è M

56 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 59: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Classe Freq, abs. Freq, abs. ac. Freq, rei. Freq, rei. ac. 0 < X < = , 1 0 4 9 4 9 2 , 7 7 2 , 7 7

, 1 0 < x < = , 2 0 1 5 0 1 9 9 8 , 4 9 1 1 , 2 6

, 2 0 < x < = , 3 0 3 3 0 5 2 9 1 8 , 6 8 2 9 , 9 4

, 3 0 < x < = , 4 0 4 3 3 9 6 2 2 4 , 5 0 5 4 , 4 4

, 4 0 < x < = , 5 0 3 4 3 1 3 0 5 1 9 , 4 1 7 3 , 8 5

, 5 0 < x < = , 6 0 1 8 7 1 4 9 2 1 0 , 5 8 8 4 , 4 4

, 6 0 < x < = , 7 0 1 5 8 1 6 5 0 8 , 9 4 9 3 , 3 8

, 7 0 < X < = , 8 0 7 2 1 7 2 2 4 , 0 7 9 7 , 4 5

, 8 0 < x < = , 9 0 31 1 7 5 3 1 , 7 5 9 9 , 2 1

, 9 0 < x < = 1 , 0 0 1 0 1 7 6 3 0 , 5 7 9 9 , 7 7

1 , 0 0 < x < = 1 , 1 0 0 1 7 6 3 0 , 0 0 9 9 , 7 7

1 , 1 0 < x < = 1 , 2 0 2 1 7 6 5 0 , 1 1 9 9 , 8 9

1 , 2 0 < x < = 1 , 3 0 1 1 7 6 6 0 , 0 6 9 9 , 9 4

i 1 , 3 0 < x < = 1 , 4 0 1 1 7 6 7 0 , 0 6 1 0 0 , 0 0

Classe Freq, abs, Freq. abs. ac. Freq. rei. Freq. rei, ac. 0 < X < = , 0 5 2 0 7 2 0 7 1 9 , 0 6 1 9 , 0 6

, 0 5 < X < = , 1 0 2 3 5 4 4 2 2 1 , 6 4 4 0 , 7 0

, 1 0 < x < = , 1 5 2 0 5 6 4 7 1 8 , 8 8 5 9 , 5 8

, 1 5 < x < = , 2 0 1 5 8 8 0 5 1 4 , 5 5 7 4 , 1 3

, 2 0 < X < = , 2 5 9 6 9 0 1 8 , 8 4 8 2 , 9 7

, 2 5 < X < = , 3 0 7 5 9 7 6 6 , 9 1 8 9 , 8 7

, 3 0 < x < = , 3 5 5 8 1 0 3 4 5 , 3 4 9 5 , 2 1

, 3 5 < x < = , 4 0 4 0 1 0 7 4 3 , 6 8 9 8 , 9 0

, 4 0 < x < = , 4 5 5 1 0 7 9 0 , 4 6 9 9 , 3 6

, 4 5 < x < = , 5 0 7 1 0 8 6 0 , 6 4 1 0 0 , 0 0

Distribuição da concentração de CO (emissões) nos automóveis a gasolina (a) e (b), a gasóleo (c) e (d) e na generalidade (e) e (f)

2 5 9 0

2 7 4 8

2820 2 8 5 1

2861

2861

2 8 6 3

2 8 6 4

2 8 6 5

, 5 0 < x < = , 6 0

, 6 0 < x < = , 7 0

, 7 0 < x < = , 8 0

, 8 0 < x < = , 9 0

, 9 0 < x < = 1 , 0 0

1 , 0 0 < x < - 1 , 1 0

1 , 1 0 < x < = 1 , 2 0

i , 2 Õ < x < = 1 , 3 0

1 , 3 0 < x < = 1 , 4 0 (e)

FIG. 111-15

71 ,34

83 , 80

90 , 40

95 .92

98 , 43

99 ,51

9 9 , 86

9 9 , 86

9 9 . 9 3

99 ,97

100,00

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de localização (quantis)

Page 60: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

AUomúwlt a a» «oli na

1 I rjíá

II tf 1 I rjíá

II tf 1 I L 87 M 6S 70 71 72 73 74 75 76 77

Ntold* ruWoMB)

Automòv*í« a dt*«el

(a)

(c)

Classe Freq. abs. Freq. abs. ac. Freq. rei. Freq. rei. ac. 6 6 < x o 6 7 3 3 0 , 1 7 0 , 1 7

6 7 < x < = 6 8 1 2 1 5 0 , 6 8 0 , 8 5

6 8 < x < = 6 9 37 5 2 2 , 0 9 2 , 9 4

6 9 < x < " 7 0 1 5 2 2 0 4 8 , 6 0 1 1 , 5 4

7 0 < x < - 7 1 3 0 8 5 1 2 1 7 , 4 3 2 8 , 9 8

7 1 < x < = 7 2 3 3 6 8 4 8 1 9 , 0 2 4 7 , 9 9

7 2 < x < - 7 3 4 1 0 1 2 5 8 2 3 , 2 0 7 1 , 1 9

7 3 < x < = 7 4 4 0 4 1 6 6 2 2 2 , 8 6 9 4 , 0 6

7 4 < x < = 7 5 9 2 1 7 5 4 5 , 2 1 9 9 , 2 6

7 5 < x < * 7 6 1 2 1 7 6 6 0 , 6 8 9 9 , 9 4

7 6 < x < = 7 7 1 1 7 6 7 0 , 0 6 1 0 0 , 0 0

Class8 Freq. abs. Freq. abs. ac. Freq. rei, Freq. rei. ac, 6 5 < x < - 6 6 1 1 0 , 0 9 0 , 0 9

6 6 < x < = 6 7 3 4 0 , 2 8 0 , 3 7

6 7 < x < = 6 8 16 2 0 1 , 4 7 1 , 84

6 8 < x < = 6 9 34 54 3 , 1 3 4 , 9 7

6 9 < x < = 7 0 7 9 1 3 3 7 , 2 7 1 2 , 2 5

7 0 < x < - 7 1 2 1 0 3 4 3 1 9 , 3 4 3 1 , 5 8

7 1 < x < = 7 2 2 4 0 5 8 3 2 2 , 1 0 5 3 , 6 8

7 2 < x < - 7 3 2 0 7 7 9 0 1 9 , 0 6 7 2 , 7 4

7 3 < x < = 7 4 189 9 7 9 1 7 , 4 0 9 0 , 1 5

7 4 < x < - 7 5 1 0 3 1 0 8 2 9 , 4 8 9 9 , 6 3

7 5 < x o 7 6 3 1 0 8 5 0 , 2 8 9 9 , 9 1

7 6 < x < = 7 7 1 1 0 8 6 0 , 0 9 1 0 0 , 0 0

Classe Freq. abs, Freq. abs. ac. Freq. rei. Freq. rei. ac. 65<x<=66 1 1 0 , 0 3 0 , 0 3

66<x<»67 7 0 ,21 0 ,24

6 7 < x < - 6 8 2 9 36 1,01 1,26

6 8 < x < = 6 9 7 2 108 2 ,51 3,77

6 9 < x < - 7 0 231 339 8 ,06 11 ,83

7 0<x<=71 519 858 18 ,12 2 9 , 9 5

7 1 < x < = 7 2 576 1434 20 , 10 50 ,05

7 2 < x < - 7 3 617 2051 21 , 54 71 ,59

7 3 < x < = 7 4 601 2 652 2 0 , 98 92,57

7 4 < x < " 7 5 196 2848 6,84 99,41

7 5 < x < - 7 6 15 2 8 6 3 0 , 5 2 99 , 93

7 6 < x < » 7 7 2 2 8 6 5 0 ,07 100,00

7 7 < x < - 7 8 0 2 865 0 , 00 100,00

7 8 < x < - 7 9 0 2 865 0 , 00 100 ,00

(b)

-(d)

(f)

FIG. 111-16

Distribuição do nível de ruído nos automóveis a gasolina (a) e (b), a gasóleo (c) e (d) e na generalidade (e) e (f)

5.1 Relação entre os três indicadores de tendência central

É muito interessante analisar as diferenças entre os três indicadores de localização.

A distribuição das emissões de CO para os automóveis a gasóleo (Fig. Ill-17a) concentra-se muito do lado das emissões reduzidas, isto é, é elevada a proporção de automóveis a gasóleo com níveis de emissões de CO reduzidas, havendo poucos automóveis com elevadas concentrações nas emissões de CO. A distribuição não é simétrica, podendo considerá-la assimétrica à direita (a cauda da distribuição fica do lado direito, ver 8.1). O mesmo se passa no caso

58 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 61: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

dos automóveis a gasolina se bem que a proporção de automóveis com reduzidas emissões não é tão elevada (em termos relativos) no que respeita os automóveis com elevados níveis nas emissões (Fig. Ill-17b): esta distribuição parece mais simétrica.

Quando as distribuições são simétricas, os três indicadores sobrepõem-se. De um modo geral e para casos típicos e bem comportados com distribuições assimétricas à direita a ordem pela qual surgem os três indicadores é Mod < Med < x. É fácil deduzir que se a distribuição for assimétrica à esquerda (a cauda da distribuição para a esquerda, maiores frequências para elevados valores da variável) a ordem será a contrária: x < Med < Mod.

É muito importante referir que a verificação desta regra de ordenação dos indicadores depende, como vimos, da forma da distribuição e igualmente da sua contiguidade, isto é uma sequência de frequências de livro sem oscilações relevantes.

Automóveis a gasóleo AUomóveit a gasolina

0,00 0.05 0.10 0,15 0.20 0,25 0.30

Emitaóes da CO

0.35 0.40 0.45 0.50

(a) 0.5 0,6 0.7 0.8 0,9

EmissóesdeCO (b)

FIG. 111-17

Relação entre o valor médio, a mediana e a moda

6. Medidas de localização (quantis)

"50% dos automóveis produzem menos de 72 dB e emitem mais de 0,28 g km"1

de CO (Quadro 111-12)". Assim iniciámos a abordagem à mediana.

6.1 Quartis

Poderíamos ter substituído o valor 50% por 25% ou 75%: estaríamos a referir-nos ao 1o e 3o quartis (a mediana é igualmente conhecida por 2o quartil).

A base de trabalho poderá ser uma tabela de frequências (Quadro 111-16).

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de localização (quantis)

Page 62: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

QUADRO 111-16

Tabela de frequências para emissões de CO (a) e nível de ruído (dB) (b)

m/m •Fred, rei íc. Freq. »bs. *c. Fr»q. ml, ao. 0 < x o , 1 0 494 494 17,24 17,24 6 5 < x < - 6 6 1 1 0 , 03 0 , 03

, 10<x< - , 20 516 1010 18,01 35,25 6 6 < x < - 6 7 6 7 0 ,21 0,24

,20<x<=,30 503 1513 17,56 52,81 67CXC-68 29 36 1,01 1,26

,30<x<=,40 531 2044 18,53 71,34 68<x<=69 7 2 108 2 ,51 3,77

,40<x<=,50 357 2401 12,46 83,80 6 9 < x < - 7 0 231 339 8,06 11,83

,50<x<=,60 189 2590 6,60 90,40 7 0 < x < - 7 1 519 858 18,12 29 ,95

,60<x<=,70 158 2748 5,51 95,92 7 1 < x < - 7 2 576 1434 20 ,10 50 ,05

,70<x<=,80 7 2 2820 2 ,51 98,43 7 2 < x < - 7 3 617 2051 21 ,54 71 ,59

,80<x<=,90 31 2851 1,08 99,51 73<x<=74 601 2 6 5 2 20 ,98 92,57

,90<x<=1 ,00 10 2861 0 ,35 99,86 7 4 < x < = 7 5 196 2848 6,84 99,41

1 ,00<x<=1,10 0 2861 0 ,00 99,86 7 5<x<=76 15 2 8 6 3 0 , 5 2 99,93

1 ,10<x<=1,20 2 2863 0 ,07 99,93 76<x<«77 2 2 865 0,07 100,00

1 ,20<x<=1,30 1 2864 0 ,03 99,97 7 7 < x < » 7 8 0 2 865 0 ,00 100,00

1 ,30<x<=1,40 1 2 865 0 ,03 100,00 (a) 7 8 < x < - 7 9 0 2 865 0 ,00 100,00 (b) (a) (b)

Detectam-se as classes dos 1o e 3o quartis:

- ]0,10; 0,20] e ]0,40; 0,50] g Km"1 para as emissões de CO:

Q. - 0,10 + 0,100,25 0 , 1 7 2 4 - 0,1431 g Km"1 1 0,1801 5

Q3 = 0,40 + 0,10 0 , 7 5 ~ 0 / 7 1 3 4 = 0,4294 g Km'1 3 0,1246 5

- ]70; 71] e ]73; 74] dB para o nível de ruído:

0,25-0,1183 = d B

1 0,1812 Q - 73 + 1 0,75 - 0,7159 = ? 3 d g

3 0,2098 Relativamente ao 1o quartil poderemos afirmar que "25% dos automóveis produzem menos de 70,7 dB e emitem menos de 0,14 g km'1 de CO" ou "75% dos automóveis produzem mais de 70,7 dB e emitem mais de 0,14 g Km'1".

No que respeita o 3o quartil poderemos garantir que "75% dos automóveis produzem menos de 73,2 dB e emitem menos de 0,423 g Km'1" ou ainda "25% dos automóveis produzem mais de 73,2 dB e emitem mais de 0,423 g Km"1".

O sentido da referência (maior que ou menor que) a utilizar na interpretação dos indicadores deverá ser efectuada de acordo com o interesse do estudo em causa.

O algoritmo aqui utilizado não é o mesmo que utilizam os softwares disponíveis no mercado (estes funcionam por contagem sobre os dados exaustivos)! O resultado para os dois quartis calculado através, por ex. do STATISTICA, é o que resumimos no Quadro 111-17. Não é muito importante a diferença que se observa entre os valores obtidos com os diferentes algoritmos. É sim importante garantir que:

1 - conhecemos o algoritmo utilizado

2- se utiliza o mesmo algoritmo de modo transversal

60 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 63: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

6.2 Decis

Poderíamos ter substituído o valor 50% por 10% ou 70% ou mesmo 90%: estaríamos a referir-nos ao 1o, ao 7° e ao 9o decil (a mediana é igualmente conhecida por 5o decil) (Quadro 111-17).

6.3 Percentis

Poderíamos ter substituído o valor 50% por 10% ou 35 ou mesmo 95%: estaríamos a referir-nos aos percentis 10, 35 e 95 (a mediana é igualmente conhecida pelo percentil 50) (Quadro 111-17).

QUADRO 111-17 Quartis, Percentis e Decis para as emissões de CO e nivel de ruido

variável n P 1 0 D 1 PIS CU-P25 P35 P70=D7 Q3-P75 P9g?D9

Ruído (dB) 2865 70,00 71,00 71,00 72,00 73,00 74,00 74,00 75,00

Emissões de CO 2866 0,0640 0,0910 0,1450 0,2000 0,3920 0,4340 0,5950 0,6880

Os percentis (P), quartis (Q) ou decis (D)

(Q.=P«; Qa-Pzs; D,.p10; .,.; d^p*) calculam-se a partir de tabelas de frequências ou directamente por contagens

(software) Dados exaustivos

devem ser classificados

Dados classificados (tabela de frequências) A - F ^ í

P A ^ + h P

(P - percentil; A - valor entre 0 e 100 que especifica o percentil; % in/ - limite j inferior da classe do percentil; hp -amplitude da classe do percentil; Fp - Frequência relativa acumulada da classe anterior à do percentil;

fp - frequência relativa da classe do percentil)

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de localização (quantis)

Page 64: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

Dados quantitativos contínuos

Os percentis, quartis e decis podem ser calculados e tem significado directo (x% das observações são inferiores - ou superiores, ao respectivo valor)»

Dados quantitativos discretos e qualitativos ordinais

Os percentis, quartis e decis podem ser calculados, sendo o seu significado adaptado.

Dados qualitativos nominais

0s percentis, quartis e decis não podem ser calculados.

7. Medidas de dispersão

As emissões de CO e o nível médio de ruído dos automóveis variam dependendo dos automóveis. De facto, os valores médios das 2866 e 2865 observações são iguais a 0,308 g km"1 e 72,33 dB respectivamente (Quadro III-10) não querendo isso significar que todos os automóveis emitem as mesmas concentrações de CO e fazem o mesmo ruído. Há uma variação associada às duas variáveis.

Os valores mínimo e máximo para as emissões de CO e nível de ruído foram já referidos implicitamente. Os seus valores e os dos percentis, juntamente com a análise de um histograma ou gráfico de barras, permite percepcionar a existência de variabilidade nos valores.

7.1 Amplitude

A amplitude de variação das emissões de CO é igual a 1,967 g km"1 e dos níveis de ruído dos automóveis é igual a 11 dB. Corresponde à diferença entre os valores máximo e mínimo observados.

Quando a informação se apresenta sobre a forma classificada, mais uma vez podemos calcular este indicador de modo aproximado considerando o mínimo e o máximo da primeira e da última classe.

Para caracterizar as sub-categorias mais comuns dos automóveis caracterizados nos anúncios (Quadro lll-8c) não faz qualquer sentido calcular uma amplitude. De facto este indicador, tal como nos quantis, pressupõe uma ordem natural.

Relativamente à personagem principal dos anúncios (Fig. Ill-14a), quando existe, foi caracterizada. Como vimos anteriormente, não considerando as categorias "nominais" (isto é "Indeterminado" e "Adulto e criança") a variável, tal como se encontra codificada (Fig. Ill-14a) é uma variável ordinal. Sabemos que os códigos numéricos não têm o próprio valor, apenas ordenam as categorias (Fig. Ill-14b). Podemos considerar a categoria mais "baixa" (bebé) e a mais "alta" (idosos), identificando-se 7 categorias. A "diferença"

62 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 65: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

entre dois "valores" não tem valor numérico. Em vez de uma amplitude, nestes casos e porque queremos caracterizar a dispersão dos valores, poderemos utilizar o número de categorias da variável como um indicador da amplitude. Consideremo-la "um significado adaptado" do conceito de amplitude para variáveis ordinais.

A amplitude, sendo um indicador de dispersão, fácil de calcular, como ilustrador da dispersão dos dados é, contudo, pobre e vulnerável: independentemente da dimensão do conjunto de dados ele utiliza, apenas, dois valores (os extremos) para aferir da variabilidade dos dados; por outro lado é muito importante garantir que os extremos (máximo e mínimo) não são valores inesperados (outliers) que inflacionem o verdadeiro valor da amplitude.

A amplitude pode, com alguma vantagem, ser utilizada numa primeira fase de limpeza dos dados como uma sonda ajudando na identificação de valores inesperados, que poderão ocorrer devido a erros de registo (por ex. um valor negativo sem sentido ou um valor 234% quando na verdade se refere a 23,4%) ou existência de observações anormais mas reais que, por alguma razão, não faça sentido incluir na análise.

n A amplitude (A)

É a diferença entre o máximo (Max) e o mínimo (Min) da variável.

Pados exaustivos 1 Determinam-se os valores mínimo e máximo e calcula-se a amplitude por diferença

A=Max-Min

Dados classificados (tabela de frequências) i | Considera-se o mínimo e o máximo como os limites inferior e superior da primeira e | última classe, respectivamente; calcula-se a amplitude por diferença A=Max-Min i i ' M í I I I í é É H 1 I

Dados quantitativos

A amplitude pode ser calculada e tem significado directo.

Dados qualitativos ordinais

A amplitude não pode ser calculada mas pode ser substituída pelo número de

Categorias ordinais.

Dadas qualitativos nominais

A amplitude não pode ser calculada.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | T a b e l a s de frequências

Page 66: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

7.2 Distância inter-quartis

50% das emissões de CO variam 0,289 g km"1 (P75=0,434- P25=0,145) e dos níveis de ruído dos automóveis variam 3dB (P75=74- P25=71), correspondendo esta amplitude a metade dos valores observados no centro na sua distribuição (Quadro 111-17).

A distância inter-quartis (diQ) corresponde a uma amplitude robusta à existência de valores inesperados e erros nos extremos da distribuição. O seu cálculo indicará a dispersão nos dados considerando apenas o seu miolo -neste caso os 50% de observações do meio.

Se, em alternativa, a informação estivesse classificada (Quadro 111-16) o cálculo da distância inter-quartis teria de ser efectuado depois do cálculo dos 1o e 3o quartis como vimos anteriormente (§ 6.1). Para as emissões de CO o valor seria igual a 0, 286 g Km"1 (P75=0,143- P25=0,429) e 2 dB (P75=73- P25=71) para o nível de ruído.

Poderá ser interessante, em casos muito pontuais, utilizar a distância inter-quartis para caracterizar a dispersão em dados qualitativos ordinais, sempre com carácter indicativo e adaptado.

A distância inter-quartis (dio) É a diferença entre o percentil 75 (P75) e o percentil 25 (P25).

Dados exaustivos e classificados (tabela de frequências)

Determinam-se os P75e P25e calcula-se a distância inter-quartis por diferença diQ= P75 • P25

Dados quantitativos

A distância inter-quartis pode ser calculada e tem significado directo.

Dados qualitativos ordinais

A distância inter-quartis, adaptada, não deve ser calculada.

Dados qualitativos nominais

A distância inter-quartis não pode ser calculada.

7.3 Desvio médio

Para medir a dispersão das observações, até agora, utilizámos a amplitude e a distância inter-quartis, o segundo indicador, mais robusto se existirem erros ou valores pouco esperados, mas ambos pobres no cumprimento do objectivo avaliação da dispersão.

Para dotar um indicador de dispersão de poder teríamos de lhe proporcionar a possibilidade de utilizar toda a informação no seu cálculo.

64 Medidas de loca l i zação (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 67: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

O objectivo é diferenciar conjuntos de dados mais concentrados de conjuntos de dados menos concentrados. Podemos admitir que uma boa referência para medir a concentração relativa é o próprio valor médio. Assim o valor médio da distância de cada uma das observações ao valor médio parece ser uma indicador rico na medida em que utiliza todas as observações, mas talvez pouco robusto à existência de erros ou valores inesperados nos dados. É por outro lado um bom indicador para detecção destes mesmos valores (talvez em parceria com a amplitude). A este indicador chamaremos desvio médio.

Consideremos os desvios médios das emissões de CO (1,357 g Km"1) e do nível de ruído (0,163 dB) para os automóveis a Diesel e a gasolina (Quadro 111-18). É muito interessante constatar o seguinte:

1- per si o desvio médio tem as mesmas unidades que a variável (neste caso g Km"1 e dB);

2- não tem uma interpretação fácil, se quisermos incluir o seu significado numa frase corrente;

3- quando utilizado para comparar duas situações, como neste caso os automóveis a diesel e a gasolina, parece intuitiva a conclusão de que: a gama de variação das emissões de CO é inferior nos automóveis a diesel quando comparados com os a gasolina (sendo que os valores médios das emissões também são mais reduzidas) e que em termos de ruído são os automóveis a diesel os mais heterogéneos no que respeita os níveis de ruído (com níveis médios mais reduzidos).

Quando afirmamos que os níveis médios de ruído nos automóveis a gasolina são mais elevados, perguntamos logo de seguida se a nossa afirmação faz sentido, isto é se a diferença constatada é relevante. O mesmo é válido relativo à conclusão intuitiva anterior. Será a diferença que constatamos relevante?

QUADRO 111-18

Desvio médio do nível de ruído e das emissões de CO (para todos os tipos de automóveis) e considerando apenas os automóveis a gasolina e os a gasóleo.

Variável Conjunto n Desvio médio Valor médio

Ruído (dB) Total 2865 1,357 72,33

Gasolina 1771 1,335 72,38

Diesel 1086 1,377 72,25

Emissões de CO Total 2866 0,163 0,31

Gasolina 1772 0,145 0,41

Diesel 1086 0,082 0,15

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | T a b e l a s de frequências

Page 68: Estatistica Descritiva-livro Professora

E S T A T Í S T I C A D E S C R I T I V A - O seg redo dos dado s Capítulo III

MíiHliThtriTlTitl 0 desvio médio (dffl)

é o valor médio dà$ distâncias entre as observações eo seu valor médio (x),

(n - número de observações; k - número de ciasses)

Dados quantitativos e qualitativos nominais binários (1/0) O desvio médio pode ser calculado e tem significado.

Dados qualitativos ordinais

i desvio médio pode ser calculado, usando uma codificação ordinal

0 resultado deve ser utilizado de forma qualificada.

Dados qualitativos nominais

S k I s S WÊfârWÊ

0 desvio médio não i r n qualquer significado, WÊM 'WÊlÉêÊÊfc

7.4 Variância e desvio padrão

A variância da concentração das emissões de CO e nível de ruído dos automóveis é igual a 0,041 g2 Km"2 e 2,653 dB2 (Quadro 111-19). Os desvios padrão correspondentes são respectivamente 0,203 g Km"1 e 1,629 dB.

A dispersão parece ser superior no nível de ruído dos automóveis a gasóleo que nos a gasolina. Para as emissões de CO a situação é inversa. Seria muito interessante verificar se esta pretensão tem fundamento: através de um teste de hipóteses, por exemplo...

QUADRO 111-19

Valor médio, variância e desvio padrão do nível de ruído e das emissões de CO (para todos os tipos de automóveis) e considerando apenas os automóveis a gasolina e os a gasóleo (diesel)

Ruído (dB) Tota l 2 8 6 5 72 , 33 2 , 6 53 1,629

Gasol ina 1771 72 ,38 2 , 523 1 ,588

Diesel 1086 72 , 25 2 ,837 1,684

Em i s s õe s de CO Tota l 2 866 0,31 0 ,041 0 , 203

Gasol ina 1772 0 ,41 0 , 0 33 0 , 182

Diesel 1086 0 , 15 0 , 010 0 , 102

Med i da s de d i spe r são | A n a Ama ro , C láud ia S i lvestre, Leonor Fe rnande s

Page 69: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

variância (s ) É o valor médio do quadrado das distâncias entre as observações e o seu valor

médio (x).

, 1 JSi , - 1 JL ,

(n - número de observações: k - número de classes) m

0 desvio padrão (s) É a raiz quadrada do valor da variância

S í = J - z f {X , -Xfl e s = . - > n,(Xi-x V n t f v 1 ' V n t i

H H w I R p (n - número de observações; k - número de classes)

.

Dados quantitativos e qualitativos nominais binários (1/0) A I P A • A- A , , . . . A vanancia e o desvio padrao podem ser calculadas e tem significado.

Dados qualitativos

A variância e o desvio padrão ,não tem qualquer significado. 1 1

O cálculo da variância é muito semelhante ao do desvio médio, com a diferença de considerarmos os quadrados das distâncias entre os valores e a sua média. É esta a razão das unidades da variância corresponderem ao quadrado das unidades da variável.

O desvio padrão é apenas a raiz quadrada do valor da variância, com o objectivo de devolver a unidade ao indicador e torná-lo mais facilmente interpretável.

A variância, quando comparada com o desvio médio, indicador muito natural da dispersão, penaliza as grandes distâncias ao valor médio ao considerar o seu quadrado, reduzindo por outro lado a importância das distâncias inferiores à unidade que, ao quadrado, como parcelas do numerador da variância são inferiores ao valor real da distância. As suas propriedades estatísticas associadas à mais intuitiva interpretação do desvio padrão tornaram este par de indicadores os usuais indicadores de dispersão.

O desvio padrão, se a distribuição dos valores seguir uma lei Normal4, tem um significado muito interessante e de fácil interpretação e processamento: nestas condições a grande maioria das observações da variável, além de se distribuírem segundo uma curva de Gauss, estão na sua maioria aproximadamente compreendidas entre o valor médio menos três vezes o desvio padrão e o valor médio mais três vezes o desvio padrão (Fig. 111-18).

4 O capítulo IV dedicar-se-á ao estudo da distribuição Normal, o seu significado assim como a razão da sua importância.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | T a b e l a s de frequências

Page 70: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

4,0 r - r

3.5 •

3.0

2,5

0.0 ' • ' ' ' 0,0 0,2 0,4 0.6 0.8

Emissóes de C O (g Km"')

FIG. 111-18

Sendo Normais, o formato das distribuições das emissões de CO para os automóveis a Diesel (a tracejado) e a gasolina (a cheio) e nesse caso o significado do desvio padrão

7.5 Coeficiente de variação

O coeficiente de variação dos níveis de ruído provocados pelos automóveis é aproximadamente 60% (Quadro III-20). De um modo geral o coeficiente de variação das emissões de CO é cerca de 500%.

A maior ou menos heterogeneidade nos valores das variáveis que analisamos e quantificamos é expressa normalmente através do desvio padrão. Contudo, é importante compreender que o valor relativo dessa maior ou menos heterogeneidade depende da referência inicial que é a ordem de grandeza da variável. O coeficiente de variação é um indicador que relativiza o valor da dispersão (avaliada através do desvio padrão) referindo-o ao valor médio.

É importante compreender o significado do coeficiente de variação como medida de dispersão relativa de um conjunto de dados (Fig. 111-19). 0 valor do desvio padrão é transformado não linearmente de acordo com o princípio de que

. valores médios inferiores a um (1) produzem coeficientes de variação muito sensíveis a variações no desvio padrão;

. valores médios superiores a dois (2) produzem coeficientes de variação pouco sensíveis a variações no desvio padrão;

. valores médios entre um e dois constituem uma zona de transição.

É, assim, muito importante interpretar o resultado de um coeficiente de variação de acordo com a ordem de grandeza (<1 ou >1/>2) do valor médio que, na função de transformação surge no denominador. Devido à forma

68 Medidas de loca l i zação (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 71: Estatistica Descritiva-livro Professora

E S T A T Í S T I C A D E S C R I T I V A - O seg redo dos dado s Capítulo III

funcional do coeficiente de variação e sob o pressuposto de que o calculamos para caracterizar a dispersão relativa de um conjunto de dados, não é muito interessante utilizar este indicador quando o valor médio é inferior à unidade.

QUADRO 111-20

Valor médio, variância e desvio padrão e coeficiente de variação do nivel de ruído e das emissões de CO (para todos os tipos de automóveis) e considerando apenas os automóveis a gasolina e os a gasóleo (diesel)

variável Conjunto n Valor médio Variância Desvio padrão Coeficiente de variação (%)

Ruído (dB) Total 2865 72,33 2,653 1,629 61

Gasolina 1771 72,38 2,523 1,588 63

Diesel 1086 72,25 2,837 1,684 59

Emissões de CO Total 2866 0,31 0,041 0,203 493

Gasolina 1772 0,41 0,033 0,182 549

Diesel 1086 0,15 0,010 0,102 982

Desvio padrão ° 1

FIG. 111-19

Relação entre o valor do coeficiente de variação e o valor médio

0 coeficiente de variação (cv)

É a razão entre o desvio padrão e o valor médio, em percentagem.

c v = 4 . 1 0 0 x

(x - valor médio; s - desvio padrão)

Dados quantitativos

O coeficiente de variação pode ser calculado e têm significado.

Dados qualitativos

O coeficiente de variação não tem qualquer significado.

Ana Amaro , C láud ia S i lvestre, Leono r Fe rnandes | T a b e l a s de frequências

Page 72: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

8. Medidas de forma

8.1 Simetria

A distribuição das emissões de CO para os automóveis a gasóleo (Fig. Ill-17a) concentra-se muito do lado das emissões reduzidas, isto é, é elevada a proporção de automóveis a gasóleo com níveis de emissões de CO reduzidas, havendo poucos automóveis com elevadas concentrações nas emissões de CO. A distribuição não é simétrica, podendo considerá-la assimétrica à direita (a cauda da distribuição fica do lado direito). 0 mesmo se passa no caso dos automóveis a gasolina se bem que a proporção de automóveis com reduzidas emissões não é tão elevada (em termos relativos) no que respeita os automóveis com elevados níveis nas emissões (Fig. Ill-17b): esta distribuição parece mais simétrica, (em 5.4 - Relação entre os três indicadores de tendência central, pás. 54).

0 conceito de simetria da distribuição (ou assimetria, skewness) é interessante para caracterizar os "locais" de concentração dos dados numa variável.

Como foi referido anteriormente, se as distribuições são simétricas, de livro (isto é quase perfeitas), e com uma única moda (unimodais), o valor médio é igual ao valor da mediana e ao da moda. Do mesmo modo, para distribuições assimétricas os três indicadores tornam-se diferentes ordenado-se de acordo com a natureza da assimetria: à direita a ordem pela qual surgem os três indicadores é Mod < Med < x, se for à esquerda a ordem será a contrária: x < Med < Mod. Mas é importante estar alerta para a situação em que a distribuição não é unimodal mas, apesar de tudo é simétrica: a moda já não poderá ser utilizada como indicador para construir um outro indicador, neste caso, de simetria.

A distribuição das emissões de CO é assimétrica positiva ou à direita (a cauda está do lado direito, do lado positivo), correspondendo-lhe uma maior concentração de dados do lado esquerdo da distribuição (Fig.lll-20a). Esta constatação gráfica pode ser complementada através de um indicador de assimetria que, neste caso, assume o valor gF=0,887 (positivo).

Este indicador - o coeficiente de assimetria de Fisher (StatSoft, 2007 e Microsoft, 2003) assume o valor zero (0) se a distribuição dos dados é perfeitamente simétrica, sendo negativo se a assimetria for negativa, isto é com a maior concentração dos dados do lado direito ou a cauda do lado esquerdo (negativo).

No caso dos níveis de ruído a distribuição é assimétrica negativa ou esquerda sendo o valor gF =-0,342. São, certamente, valores interessantes se se pretender estabelecer uma comparação entre distribuições. Os valores do indicador são adimensionais, com elevado poder de comparação.

70 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 73: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

0.0 0.1 0.2 0.3 0,4 0.5 0,6 0.7 0.8 0,9 1.0 1,1 12 1.3 1,4

Em**de* d«CO (a) (b)

FIG. III-20

Assimetria da distribuição das emissões de CO (a) e de ruído (b)

Há inúmeros indicadores de assimetria de mais intuitiva interpretação mas de menor abrangência e aplicabilidade:

. o grau de assimetria de Pearson foi proposto em 1895, em que se comparam o valor médio e a moda, com referência ao desvio padrão, também para tornar o indicador adimensional

0 cálculo da moda nem sempre é simples, quando se trata de dados quantitativos contínuos: considera-se a moda ou o indicador decorrente do estabelecimento de uma classe modal? Por outro lado em face de distribuições com mais de uma moda o indicador perde o seu sentido... segundo Stuart e Ord (1994) a distância entre o valor médio e a moda pode ser aproximada a três vezes a distância entre o valor médio e a mediana.

. os coeficientes de assimetria de Pearson que comparam o valor médio com a mediana (pela razão apontada anteriormente) e que leva à consideração de um outro (menos referido na literatura) que compara com a menos forma funcional o valor médio com a moda.

Muitos estatísticos usam estes indicadores ignorando o valor três: mais importante que o valor absoluto gerado pelo indicador é a sua utilização comparativa conhecendo o princípio de cálculo (a lógica que levou à sua implementação e utilização).

. o coeficiente de assimetria de Bowley que compara distâncias entre quantis.

0 apuramento dos quatro indicadores de assimetria conduz a conclusões, aparentemente, contraditórias (Quadro 111-21). Analisando a distribuição dos valores associados às emissões de CO produzidas pelos automóveis (Fig. III-20a) verifica-se a ocorrência de maiores frequências de emissões de CO reduzidas que elevadas. Os coeficientes de Fisher, Bowley e Pearson - med acompanham esta constatação produzindo valores positivos, uma vez que se assiste a uma assimetria positiva na distribuição dos valores. Já o grau de Pearson e o coeficiente de Pearson - mod produz um valor incompatível com a constatação: os indicadores comparam o valor médio com a moda que nesta distribuição específica inverte ligeiramente a sua posição relativa ao valor médio e mediana (ou seja é superior ao dois indicadores).

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 74: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

Estas situações ocorrem com muita frequência mostrando ou que a assimetria verificada é de grau ligeiro, na medida em que há inconsistência em alguns valores dos parâmetros, ou que a definição de assimetria é complexa e que é muito importante que a utilização dos indicadores seja, adequada ao movimento que se observa nos dados. Neste caso, porque se verifica, de facto uma assimetria positiva na distribuição dos dados, não se deveria utilizar o grau de assimetria de Pearson ou o coeficiente de Pearson - mod como indicador.

QUADRO 111-21

Valores de diferentes indicadores de assimetria para os níveis de ruído e emissões de CO.

Lndjç£dprjd&a simeti jt feRufdò

grau pearson -0,165 -0,111

coeficiente pearson - med 0,414 0,608

coeficiente pearson - mod -0,495 -0,333

coeficiente Bowley 0,044 -0,045

coeficiente Fisher I 0,887 -0,342

A distribuição dos níveis de ruído (Fig. Ill-20b) apresenta uma assimetria negativa (a cauda apresenta-se do lado esquerdo) consonante com os valores dos coeficientes de Bowley, Fisher, Pearson - mod e o grau de Pearson (todos negativos) (Quadro 111-21). 0 coeficiente de assimetria de Pearson - med, igual a 0,068 sugere uma assimetria positiva que, de facto, não se verifica: neste caso particular, a mediana surge do lado esquerdo do valor médio (situação menos habitual em presença de uma assimetria positiva).

O coeficiente de assimetria de Fisher é o mais disseminado e vulgarizado na implementação de algoritmos de cálculo em software.

Uma das aplicações importantes da análise dos indicadores de assimetria, para além da tarefa própria de caracterizar, é o de auxiliar na detecção de valores pouco esperados nos dados (usualmente designados de outliers)

72 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 75: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Os coeficientes de assimetria de Pearson <gP)

distância entre o valor médio e a mediana ou moda

n _ 3(x~Med) 3(x-Mod)

desvio padrão)

... „ „ • isimetria de Bowley (gB)

e os percentis 25 e 75 e a mediana HWWHW ' ' '" 'Hl 'T • I ' I ' f l i ' | i(i i l 1 III1, i1 U f 1 i 11 i l l j K g

0 coeficie

itil 25 e P75 - percentil 75)

Dados quantitativos

I Os indicadores de assimetria não tem qualquer significado.

8.2 Achatamento

0 coeficiente de achatamento, kurtosis, (k) da distribuição do ruído e das emissões é igual a -0,248 e 1,736, respectivamente. O conceito de achatamento, introduzido por Pearson em 1905, é muitas vezes enquadrado no conceito de distribuição medindo-se a distância a que estamos da Normalidade5 considerando o achatamento relativo da distribuição dos nossos dados. Pearson designou as distribuições semelhantes à distribuição Normal como distribuições mesocúrticas (k aproximadamente igual a 0), distribuições mais achatadas designou-as por platicúrticas (k<0) e as leptocúrticas (k>0). O conceito de achatamento é mais abrangente do que se enquadrado na referência da lei Normal. Considerando o comportamento da função gerada pelo indicador podemos concluir que: mais observações nos extremos do que no caso de uma lei Normal e estaremos em presença de uma distribuição platicúrtica (por ex. uma distribuição bimodal sendo as modas os extremos da variável); pelo contrário se a distribuição se caracterizar por uma raridade de observações nos extremos estaremos em presença de uma distribuição leptocúrtica.

5 O capítulo IV dedicar-se-á ao estudo da distribuição Normal, o seu significado assim como a razão da sua importância. Talvez voltar a este tópico depois de ler e analisar o capítulo IV.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 76: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

Ô coeficiente de achatamento de Pearson(k)

Mede o achatamento da distribuição relativamente à de uma distribuição Normal

1 n(n +1) f f x , - 5 c V 3(n-l)2

( n - l ) ( r i - 2 X 0 - 3 ) ^ 1 s J (n - 2)(n - 3)

(x - valor médio; s - desvio padrão, n - dimensão da amostra)

Dados quantitativos

0 coeficiente de achatamento pode ser calculado e têm significado.

Dados qualitativos

0 coeficiente de achatamento não tem qualquer significado.

9. Síntese

9.1 Estatística

Os dados relativos a um determinado contexto podem-nos ser fornecidos em dois formatos diferentes:

. exaustivamente ou em bruto, tal como são obtidos ou

. de modo classificado, isto é resultado de um pré-processamento.

0 processamento matemático, com vista à sua caracterização, de modo complementar à sua representação gráfica, tem o valor equivalente ao tipo de dados a processar. Garbage in, garbage out (GIGO) é uma expressão que surge associada à informática, muita vezes atribuída a George Fuechsel um formador IBM 305 RAMAC novaiorquino, que pretende ilustrar com muita veemência o facto de por melhores que sejam os instrumentos de análise -computadores, software ou métodos analíticos - se a infomação de base não for fidedigna e correcta nada de interessante será produzido resultado do seu processamento.

Admitindo qualidade nos dados, há uma diferença entre dados exaustivos e classificados no seu potencial de processamento: os primeiros produzem indicadores, os segundos indicadores aproximados.

No Quadro 111-21 resume-se a pertinência do cálculo de cada um dos indicadores numéricos referidos.

74 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 77: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

QUADRO 111-21 Linha de orientação para o tipo de indicador a adoptar (NA - não aplicável, OK pode ser calculado e tem

interpretação)

Tipo de dados Indicadores

Tipo Sub-tipo Valor médio Mediana e Quantis Moda Amplitude diQ

Desvio médio, variância, desvio

padrão, coeficiente de variação, indicadores

de assimetria e achatamento

Qualitativo

Nominal NA NA OK NA NA NA

Qualitativo Ordinal

com codificação

ordinal -adaptada

com codificação

ordinal -adaptada

OK

(adaptado)

Número de categorias

NA NA

Quantitativo

Discreto OK adaptada OK OK adaptada OK

Quantitativo Continuo OK OK

OK de dados classificados OK OK OK

9.2 Técnica

As conclusões relevantes que decorrem da análise efectuada são:

. Há poucos automóveis a gasóleo com elevadas emissões de CO. A grande maioria emite concentrações reduzidas.

. Nos automóveis a gasolina as emissões parecem ser, de um modo geral, mais elevadas, sendo a sua distribuição mais equilibrada que no respeitante aos automóveis a gasóleo.

. As emissões de CO são mais elevadas e heterógeneas nos automóveis a gasolina.

. Os níveis médios de ruído provocados pelos automóveis a gasóleo e a gasolina são semelhantes.

. Nos automóveis a gasóleo os níveis de ruído variam mais do que nos automóveis a gasolina onde parece existir maior homogeneidade nos níveis de ruído.

As questões geradas por alguns dos comentários, nomeadamente quando comparámos valores (neste caso valores médios ou dispersões) sugerem a necessidade de testar a veracidade das nossas pretensões.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 78: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

76 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 79: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Capítulo IV

A distribuição Normal

God does arithmetic, Carl Friedrich Gauss (1777-1895)

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 80: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

78 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 81: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

A distribuição Normal é uma das mais importantes distribuições de variáveis aleatórias continuas. Foi descrita matematicamente, pela primeira vez, por De Moivre (1667-1754), em 1733, usada por Laplace (1749-1827), em 1783, para descrever o comportamento do erro e, mais tarde em 1809, por Gauss (1777-1895) para descrever dados astronómicos. O trabalho de Gauss associado à distribuição Normal obteve tanta notoriedade que a curva é usualmente designada por curva de Gauss (Fig. Iv-1).

O primeiro a aplicar a distribuição Normal a dados de natureza sociológica foi Adolph Quetelet (1796-1874): recolheu informação sobre a dimensão dos queixos de soldados escoceses tendo constatado aparentarem uma distribuição Normal. Concluiu que o valor médio correspondia à dimensão ideal e que o desvio para qualquer um dos lados do valor médio correspondia a um desvio, natural, do ideal.

F I G . I V - l

Cópia de uma nota de 10 marcos em homenagem a Gauss e à distribuição Normal http://www.pballew.net/tenmark.jpq [2008-03-19])

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 82: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

1. Objectivo

Não é possível falar de estatística ou de análise de dados, sem falar da distribuição Normal.

Neste capítulo abriremos um parênteses no processamento dos nossos dados para analisar um pouco o fundamento da distribuição Normal e a sua importância como instrumento analítico.

2. Introdução

A distribuição Normal é uma constatação e não uma invenção. Ao analisar o formato da distribuição de diferentes conjuntos de dados associados a diversas variáveis aleatórias - e se o fizermos utilizando software com funcionalidades gráficas apropriadas - constatamos que, em muitos casos e por omissão, é desenhada uma curva complementar ao histograma desenhado (Fig. IV-2): uma curva resultado gráfico da função densidade Normal considerando o valor médio dos dados e o seu desvio padrão.

ftoiM Levei dB<A) • 2e65Tnofm«S(x; 72.3289, 1.629) Emiwiof* CO » 2966*0,2* nofrmKx 0.306; 0,203)

64 65 66 67 70 71 72 73 74 75 76 77 78 79

Nhald* ruído dB(A)

•0.2 0.0 0.2 0,4 0,6 0.8 1.0 12 1.4 1.6 1,8 2.0 2,2

( a ) E n i » * . d . C O ( t y

Errisaior» HC - 1794*0.02* normas 0,0522. 0.0194)

T \

1 I -0,02 0.00 0,02 0.04 0,06 0.06 0,10 0.12 0.14 0,16 0.18 0.20

EmraaAet d» HC ^ ç j

FIG. IV-2

A distribuição do nível de ruído (a), das emissões de CO (b) e de HC (c)

80 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 83: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Em alguns casos o ajustamento do histograma à curva parecerá mais evidente que em outros casos menos próximos de, na verdade, aparentarem a distribuição Normal:

o o nível de ruído emitido pelos diferentes automóveis (Fig. IV-2a), com comportamento próximo do Normal tende, em média, a ser igual a 72,33 dB - o valor ideal do ponto de vista de Quetelet, neste caso o valor mais característico dos automóveis em geral; para valores mais reduzidos ou superiores há menos automóveis:

• com níveis de ruído reduzido uma vez que o esforço de redução aumenta e importa custos que vão rareando à medida que aumenta e

• com níveis de ruído elevado uma vez que colidem com preocupações ambientais, transversais à sociedade actual de modo universal - ficam alguns extremos mas são poucos.

o as emissões de CO não parecem adoptar o mesmo tipo de comportamento; há muitos automóveis que conseguiram reduzir quase a zero as emissões de CO - a grande maioria, tendo remanescido um conjunto com emissões de CO elevadas que rareiam com o aumento da concentração.

o as emissões de HC têm uma distribuição mais próxima do Normal, talvez por ser mais difícil, técnica e financeiramente, reduzir completamente as suas emissões: assim, e tal como o nível de ruído, identifica-se a concentração média de 0,0522 g/km típica com valores superiores e inferiores a tenderem para o residual.

A distribuição Normal, visível em muitos conjuntos de dados que ilustram o comportamento de determinada variável, parece ser o resultado da aplicação de uma lei: a influência de um conjunto de efeitos aleatórios e independentes uns dos outros na sua construção.

O exemplo mais simples e claro sobre a génese de uma variável aleatória com um comportamento Normal deve-se a Sir Galton (1822-1911). Consta que a matemática não era o seu "forte" mas Sir Galton demonstrou que um conjunto de bolas, todas com a mesma dimensão e peso, deixadas cair do topo de um conjunto de "pins" geometricamente arrumados, batendo em cada nível num deles assumindo de seguida um trajecto, se arrumam segundo um formato familiar: o da curva Normal (Fig. IV-3). De facto a posição final de cada uma das bolas é determinada por acontecimentos - neste caso oito -independentes e aleatórios relativos à opção da bola em cada um dos níveis (esquerda ou direita).

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 84: Estatistica Descritiva-livro Professora

Capítulo IV ESTATÍSTICA DESCRITIVA - 0 segredo dos dados

B a e a & u a a a a a a a a a a B B B t t

UUUUUUUUUUUBUUUUUUUSI

B « B V S S B U U B » a a i l B aBiíaiinittiiagiigiinii BiiniagiiagiiBiiBaa B B B U u a a s u s a a a a s u c i n B »

BBBBiíaaiiuBBa w» st a xi v u « BiagaiiigagaiBBiiiaa a u u u a a a u a B a a u u u u B s a a

u u u a a u a a « u a t t a a » M u & i u u

a a B B B B a a u H f l B U H a a a a a a

a « « a » a a a w s í » a a u u u » a a u

a « a » H a a » a a a a w M t f w t í a a »

B B f l f l s a a B g a B a u u u u B B a a

B B Q 9 8 B B » B H a B J B B U V H B 9 a

u a a a a u a a a a a a u a a u u a a a

» » a a « a » » a a » a 1 í a « a U f » a B

u a a a a w w a a a » ' » S > H B » B S B S B B a a a a a a i B i a a a a w u a u a

FIG. IV-3

A ilustração simples, de autoria de Sir Galton (1822-1911), da génese da distribuição Normal http://www.ms.uky.edu/-mai/java/stat/GaltonMachine.html [2008-03-19]

Forma funcional da função densidade de uma variável aleatória com distribuição Normal

3. Características da função densidade de uma variável aleatória com distribuição Normal

A função densidade de uma variável aleatória (aqui designada por X) com distribuição Normal é uma função cujo domínio é R, isto é todos os valores reais (percorrendo-os de -oo a +oo). 0 formato da função densidade é o de um sino: a sua localização no eixo das abcissas é função do valor médio n e a maior ou menor concentração da curva é função do desvio padrão a (Fig. IV-4). A moda e a mediana de uma variável aleatória com distribuição Normal são iguais a y. e os coeficientes de assimetria e achatamento (ver Cap. 111-8) são todos nulos. A função densidade apresenta, portanto, o seu máximo quando x=jj. e dois pontos de inflexão x=|a-a e x = n + a .

A uma variável aleatória com distribuição Normal, valor médio 0 e desvio padrão igual à unidade, chama-se Normal padrão ou Normal standard (Fig. IV-4a) e designa-se, tipicamente, por Z.

(ja - valor médio, a - desvio padrão)

82 Características da função densidade de uma variável aleatória com distribuição

Page 85: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capitulo IV

/ \ / \ / \ / \ / /

/ / \

/ \ / \ / \ / \ / /

/ / \ \ V / \

/ -3 -2 (a)

0,20

0.(6

0,18

0,14

0,1? 0,10

0,08 0.06

0.04

0.02

000

. / - - " X L • ' /

/ \ \

/ \ / \

\ V \ /

\ \

V \ /

/ \ i \:

6 7 8 9 10 11 12 13 14 (b)

FIG. IV-4

A função densidade de uma variável aleatória com distribuição Normal padrão (a) e Normal com valor médio 10 e desvio padrão 2 (b)

Em R, a área que está representada sob a curva é igual a 1. As áreas que a função densidade delimita pretendem representar probabilidades de ocorrência dos valores compreendidos no respectivo intervalo. Por ex. o valor da área entre dois valores (10 e 11) sob a função densidade de uma variável aleatória Normal com valor médio 10 e desvio padrão 2, é uma probabilidade P[10<X<11] que, certamente, terá um valor inferior a um (Fig. IV-5). 0 cálculo do integral da função entre aqueles dois limites (10 e 11) proporcionaria o resultado pretendido se a função fosse integrável analiticamente: não o é!

FIG. IV-5

Representação da probabilidade da variável aleatória (com distribuição Normal com valor médio 10 e desvio padrão 2) assumir um valor entre 10 e 11.

Para ultrapassar esta questão e porque a necessidade de calcular probabilidades associadas a variáveis aleatórias com distribuição Normal é vulgar, integrou-se numericamente a função densidade de uma variável aleatória com distribuição Normal padrão. 0 resultado foi organizado numa tabela que é consultada para o efeito sob a designação de Função distribuição por representar a área acumulada até um valor positivo da variável aleatória (Fig. IV-6). Para calcular áreas (ou probabilidades) associadas a valores

Ana Amaro, Cláudia Silvestre, Leonor Fernandes Características da função

Page 86: Estatistica Descritiva-livro Professora

Capítulo IV ESTATÍSTICA DESCRITIVA - 0 segredo dos dados

negativos usa-se o facto da variável aleatória ser simétrica em torno do seu valor médio, 0.

Há inúmeros formatos para este tipo de tabelas mas todas elas são autosuficientes e permitem dar resposta às questões relacionadas.

:onversão de uma variável aleatória Normal com distribuição Normal com valor médio g f | e desvio padrão (X) numa Normal padrão (Z)

11 _ m ] = P[Z< 0,5] = 0,6915

mminação de probabilidades associadas a uma variável aleatória com distribuição Normal com valor médio y-10 e desvio padrão cr«2

: X * 11] = P[X < 11]-P[X < 10] - P[Z < 0/5] - P[Z < 0] = 0,6915-0,5 = 0,1915

- . . . . - i

Determinação de probabilidades associadas a uma variável aleatória com distribuição Normal padrão (consulta directa à tabela da Fig. IV-6)

P[Z < 1,04] = P[Z<a,04] = 0,8508 3[Z > 1,04] = P[Z * 1,04] = 1 - m * 1/04] = 1-0,8508 = 0,1492

PfZ < -1,04] ~ P[Z < -1,04"] ^ P[Z £ 1,04] = 1 - P|Z < 1,04] = 1 - 0 , 8 5 0 8 1 0,1492

Em suma, para calcular probabilidades associadas a uma variável aleatória com distribuição Normal só precisamos de conhecer o seu valor médio, e desvio padrão, a. Com a ajuda dos resultados da integração numérica de uma variável com distribuição Normal padrão, organizados numa tabela (designada correntemente por "tabela da Normal padrão"), calculam-se todos os valores de probabilidade necessários.

84 Características da função densidade de uma variável aleatória com distribuição

Page 87: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo IV

Função DISTRIBUIÇÃO

NORMAL padrão

P[Z < z]=xxxx

Função d cnàdade Função d i â r i b u i ç ã o

3 Í 0 -1 ,75 O.DD 1.75

Z 0

0.1

0.2

0.3 0.4 0.5

0 0.5000

0.5398

0.5793

0.6179

0.6 0.7 0.0 0.9

1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8

1.9 2

2.1 22 2.3 2.4 2.5 2.6

2.7 2.8

2.9 3

3.1 3.2 3.3 3.4 3.5

0.6554

0.6915

0.01

0.5040

0.5438

0.5832

0.6217

0.02

0.5080

0.5478

0.5871

0.6255

0.7257

0.7580

0.6591 0.6950 0.7291

0.7881

0.8159

0.8413

0.7611

0.7910

0.8186

0.8438

0.6628

0.6985

0.7324

0.7642

0.8643

0.8849

0.9032 0.9192 0.9332 0.9452

. 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987

0.8665

0.8869

0.9049

0.9207

0.9345

0.9463

0.7939

0.8212

0.8461

0.8686

0.9990

0.9993

0.9995

0.9997

0.9998

0.9564

0.9649 0.9719

0l9778_ 0.9826

0.9864

0.9896

0.9920

0.9940

0.9955

0.9966

0.9975

0.9982 0.9987

0.9991

0.9993

0.9995

0.9997

0.9998

O . i

0.9066

0.9222

0.9357

0.9474

0.03

0.5120

0.5517

0.5910

0.6293

0.04

0.6664 0.7019

0.7357

0.7673

0.5160

0.5557

0.5948

0.6331 0.6700

0.7054

0.7389

0,7704

0.05

0.5199

0.5596

0.5987

0.6368

0.7967 0.7995

0.8264 0.8238

0.8485

0.8708 0.8729 ft.8508

0.9573

0.9656

0.9726

0.9783 0.9830

0.9868

0.9898

0.9922

0.9941

0.9956

0.9967

0.8907

0.9082

0.9236

0.9370

0.9484

0.8925

0.9099

0.9251

0.9382

0.9495

0.6736

0.7088

0.7422

0.7734

0.8023

0.8289

0.8531

0.8749

0.8944

0.9115

0.9265

0.9394

0.9505

0.9582 0.9591

0.9664

0.9732

0.9671

0.9738

0.9788 0.9834 0.9871 0.9901 0.9925

0.9976 0.9982

; 0.9987 i 0.9991 ! 0.9994

0.9995 I 0.9997

0.9998

0.9943

0.9957

0.9968

0.9977 0.9983

j 0.9988 ; 0.9991 • 0.9994 ' 0.9996

0.9997 0.9998

0,9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.9998

0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0,9992 0.9994 0.9996 0.9997 0.9998

0.06

0.5239

0.5636

0.6026 0.6406

0.07

0.5279

0.5675

0.6064

0.6443

0.08

0.5319

0.6772

0.7123

0.7454

i 0.7764

0.8051

0.8315

0.8554

0.8770

0.8962

0.9131

0.9279

0,9406

0.9515

0.9608

| 0.9686

0.9750

0.9803

0.9846

0.9881

0.9909

0.9931

0.9948

0.9961

0.9971

0.9979

0.9985

| 0.9989

0.9992

0.9994

0.9996

0.9997

0.9998

0.6808

0,7157 0,7486 0.7794

0.5714

0.6103

0.6480

0.6844

0,7190

0,7517

0.7823 0.8078

0.8340

0.8577

0.8790

0,8980

0.9147

0.9292

0.9418

0.9525

0.9616

0.9693

0.9756

0,9808

0,9850

0.9884

0.9911

0.9932

0.9949

0.9962

0.9972

0.9979

0.9985

0.9989

0.9992

0.9995

0,9996

0,9997

0.9998

0.8106

0.8365

0.8599

0.8810

0.8997

0.9162

0.9306

0.9429

0.9535

0.9625

0.9699

0.9761

0.9812

0.9854

0.9887

0.9913

0.9934

0.9951

0.9963

0.9973

0.9980 i

0.9986

0.9990

0.9993

0.9995

0,9996

0,9997

0.9998

0.09

0.5359

0.5753

0.6141

0.6517

0.6879

0.7224

0.7549 |

0,7852

0.8133

0,8389

0.8621

0.8830

0.9015

0.9177

0.9319

0.9441

0.9545

0.9633

0.9706

0.9767

0.9817

0.9857

0.9890

0.9916

0.9936

0.9952

0.9964

0.9974

0.9981

0.9986

0.9990

0.9993

0.9995

0,9997

0,9998

0.9998

FIG. IV-6 Resultado da integração numérica da função densidade de uma variável aleatória Normal padrão

(porex. P[Z<1,04]=0,8508 ou z0,,4,2=1,04)

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Características da função

Page 88: Estatistica Descritiva-livro Professora

Capítulo IV ESTATÍSTICA DESCRITIVA - 0 segredo dos dados

4. O Teorema do Limite Central (TLC)

Ao recolher uma amostra de uma população estatística (conjunto de valores que a variável aleatória pode assumir) associada a uma variável aleatória, com o objectivo de inferir sobre os seus parâmetros - por ex. valor médio ou desvio padrão, associando uma indicação de confiança aos resultados, é fundamental conhecer o comportamento - no que diz respeito à sua distribuição - das variáveis aleatórias envolvidas.

Com o objectivo de estimar os parâmetros (por ex. o valor médio, p ou o desvio padrão, a) de uma variável aleatória recolhemos uma amostra representativa da população estatística. De seguida calculamos o seu valor médio (*) e o seu desvio padrão (s). Podemos simular a repetição deste procedimento e obter tantos valores médios e desvios padrão quantas as amostras que recolhermos.

Consideremos a variável aleatória nível de ruído e o procedimento descrito. Podemos definir dois níveis de conhecimento:

o o da variável aleatória X - nível de ruído, cujos valores correspondem ao nível de ruído de cada automóvel; para esta variável aleatória recolhem-se diferentes amostras de dimensão n e com as quais se calculam diferentes valores médios (designados por x) e desvios padrão (designados por s).

o o da variável aleatória X - nível médio de ruído para n automóveis seleccionados ao acaso do conjunto total de automóveis. Os valores desta variável são os diferentes x referidos anteriormente.

Há uma ligação entre estas duas variáveis aleatórias:

o Os parâmetros da variável aleatória X - nível de ruído, são p e CT, nestas circunstâncias de amostragem, desconhecidos. Resultam do processamento da população estatística, a que neste contexto, não temos acesso.

o A distribuição da variável aleatória X é, também, desconhecida. A este respeito interessam-nos duas situações: ou a distribuição é Normal ou não o é.

o 0 valor médio da variável aleatória X - nível médio de ruído para n automóveis é, também, igual a p. Quanto ao seu desvio padrão não é difícil compreender que as observações desta variável - os níveis médios de ruído de n automóveis (designados por x) - são mais semelhantes entre si que os níveis de ruído de cada automóvel. O

86 O Teorema do Limite Central (TLC) | Ana Amaro, Cláudia Silvestre, Leonor

Page 89: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo IV

desvio padrão desta variável aleatória é inferior a a e igual a —/=, valor Vn

também conhecido como erro padrão,

o Quanto à distribuição da variável aleatória X constata-se que . se a variável aleatória - mãe (X) se distribuir segundo uma lei

Normal, X assume o mesmo comportamento. . Se X não se distribuir segundo uma lei Normal, a variável aleatória

X assume um comportamento aproximadamente Normal para elevados valores de n; quando a dimensão da amostra é reduzida a distribuição de X não é Normal nem igual à distribuição de X. Na prática é comum assumir-se o número 30 a 50 como o número de observações a considerar na amostra para que a variável aleatória X já possa considerar-se com comportamento aproximadamente Normal. A aproximação à distribuição Normal atinge-se tanto mais rapidamente quanto mais "bem comportada" for a distribuição da variável aleatória - mãe (X) (Fig. IV-7).

Distribuição de X

Btetap.— t i

Distribuição de X n=2

i i

A ™ * " * 5 " (a) u W-J (b)

FIG. IV-7

Exemplo de uma distribuição assimétrica positiva (não Normal) de uma variável aleatória X e da média

( X ) calculada com duas observações de X (a) e 25 observações de X (b) http://www.ruf.rice.edu/-lane/stat sim/samplinç dist/ T19-03-20081

A este conjunto de resultados é comum designar-se como o resultado prático do Teorema do Limite Central cujo enunciado e demonstração pode ser consultado por ex. em Murteira (1990).

As implicações deste resultado são de extrema importância na medida em que conduzem à possibilidade de efectuar um conjunto de testes (estatísticos) partindo de um conjunto de suposições que parecem ser legítimas.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | O Teorema do Limite Central (TLC)

Page 90: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo IV

5. Exemplificação da importância do Teorema do Limite Central

Consideremos a variável aleatória nível de ruído dos automóveis relativamente à qual se recolheu uma amostra aleatória relativa a 30 automóveis. Calculou-se x = 72,497 (Quadro IV-1).

Neste contexto - a impossiblidade de acesso à população estatística -pretende-se conhecer p e não x.

Ao abrigo do TLC, como a amostra tem uma dimensão (30) que nos permite — • çy

afirmar que X~N(p,-^==r), podemos concluir -de forma aproximada - que 95%

dos x (observações desta variável aleatória) estarão compreendidos entre

p±l,96-^== (ver tabela da Normal padrão, Fig. IV-6, em que zo,o25=1>96).

Como a única peça de informação que temos é x podemos inverter o ponto

de vista e afirmar que a probabilidade de o intervalo x ± 1,96-^== conter o p

é 0,95. Chamamos-lhe um intervalo de confiança para p.

Intervalo de confiança para p

(conhecendo a)

"h/2 ^J^

(x - valor médio da amostra, a - desvio padrão da população estatística de X, n - dimensão da amostra, a - nível de significância e za/2 • o valor de uma

variável aleatória com distribuição Normal padrão cuja área à sua direita e sob a função densidade é igual a a/2)

Na prática ao desconhecermos p, também desconhecemos a, tornando-se assim impossível calcular os limites de um intervalo de confiança para p, tal como descrito. O que temos para subsituir o o é o desvio padrão da amostra,

Quando, no Cap. Ill - 7.4, analisámos o conceito de desvio padrão considerámo-lo uma raiz quadrada de um valor médio de quadrados da distância entre os diferentes valores que a variável assume e o seu valor médio. É essa a sua definição.

Neste contexto de inferência, porém, o valor médio em causa é o da população estatística, p, o que limita o cálculo do desvio padrão na medida

88 Exemplificação da importância do Teorema do Limite Central | Ana Amaro, Cláudia

Page 91: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo IV

em que é desconhecido. De imediato se considera o valor médio da amostra, x, como o indicador relativamente ao qual se calculam as distâncias para cada uma das observações da amostra.

0 resultado deste procedimento é muito interessante na medida em que o desvio padrão da amostra, calculado como a raiz quadrada do valor médio do quadrado das distâncias dos valores da amostra ao seu valor médio, é, em média, inferior ao desvio padrão, a, da população estatística (estimativa enviesada - não centrada, Murteira (1990), Guimarães e Cabral (2007)). Para corrigir este ligeiro problema em vez de dividir a soma de quadrados pela dimensão da amostra, n fazêmo-lo pelo número de graus de liberdade1 (n-1).

Em suma no contexto da inferência é importante calcular estimativas com propriedades adequadas aos objectivos. Neste caso específico deveremos, sempre, calcular a variância ou o desvio padrão corrigidos (dividindo pelo número de graus de liberdade) para garantir que são estimativas centradas.

A variância (corrigida) para efeitos de inferência

(x - valor médio da amostra, n - dimensão da amostra)

O desvio padrão (corrigido) para efeitos de inferência

(x - valor médio da amostra^ n - dimensão da amostra)

Finalmente estaremos em condições de calcular um intervalo de confiança para usando s'=1,842 (Quadro IV-1).

É importante relembrar que o TLC, pelo facto da amostra ter uma dimensão — • <j

(30) compatível, nos permitiu afirmar que X~H{\i,-j=). A "conta" efectuada V 30 para calcular os limites do intervalo de confiança terá de ser alterada por força da utilização do s' em vez de CT.

A imprecisão do valor de s' como estimativa de a, obriga, muito naturalmente, a alargar o intervalo de confiança para lhe podermos afectar o mesmo grau de confiança: para um grau de confiança de 95% em vez de utilizar 1,96 como factor para a determinação da amplitude do intervalo de confiança, utilizaremos um valor superior a 1,96 (devido à imprecisão) dependente no número de graus de liberdade da soma de quadrados associada

1 O número de graus de liberdade é um indicador associado a uma soma de quadrados e que representa o número de parcelas independentes da mesma.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Exemplificação da importância do

Page 92: Estatistica Descritiva-livro Professora

Capítulo IV E S T A T Í S T I C A D E S C R I T I V A - O s eg redo dos dado s

ao cálculo de s' (nota: quanto menor a dimensão da amostra maior a imprecisão associada à estimativa de a).

Em causa está a utilização de um resultado com as seguintes correspondências:

o Ao abrigo do TLC, X~N(p,-^=)o que implica -—-V3Õ~N(0,1) V30 o

X * o Ao substituir a por s' em ->/3Õ~N(0,1), e com a restrição de a

X~N(p,a), X ,^T3Õ~t29 isto é em vez de uma variável aleatória com

distribuição Normal padrão passamos a estar na presença de uma variável aleatória com distribuição t-Student, neste caso, com 29 graus de liberdade (Fig. IV-8).

Nestas novas circunstâncias podemos concluir que aproximadamente 95% dos s '

valores x estarão compreendidos entre p±2 ,045 -y= (ver tabela da t-

Student, Fig. IV-8, em que t29;o,025=2,045). De novo, como a única peça de informação que temos é x podemos afirmar que a probabilidade de o

s' intervalo x ± 2,045 - 7 = conter o p e 0,95. Chamamos-lhe um intervalo de

V30

confiança para p e pode ser calculado: 72,50 ± 2 , 045^^ (Quad ro IV-1)

QUADRO IV-1

Estimativas dp valor médio, n, do desvio padrão, o, e limites de um intervalo de confiança a 95%, calculados com base numa amostra aleatória de 30 valores de ruído

(dB) associados a automóveis

Indicador s ímbolo Est imat ivas

valor médio X 72 ,50

desv io padrão s' 1 ,842

I C95% 71 ,809 ; 7 3 , 185

90 Exemp l i f i cação da impo r tânc i a do T e o r e m a do L im i te Cent ra l | A n a A m a r o , C láud ia

Page 93: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

variável aleatória com distribuição t-Student, com n-1 graus de liberdade, cuja área à sua direita e sob a função densidade é igual a a/2)

" . ' * J ' - . v / . ...........

Na prática pode considerar-se que quando a dimensão da amostra é suficientemente grande - superior a 30 - que o desvio padrão corrigido, s', já é uma "boa" aproximação de a. Nestas circunstâncias deixa de ser necessário garantir que X se distribui segundo uma lei Normal e pode utilizar-se a distribuição Normal padrão como aproximação da t-Student.

Intervalo de confiança para y ..... — m j — — g r — B ^ m - f f ^

(desconhecendo o, com uma amostra de dimensão superior a 30)

x±z — fflBSSi a

i

i (x - valor médio da amostra, s' - desvio padrão (corrigido) da amostra de X, n - dimensão da amostra, a - mvel de sigmficancia e z .» - o valor de uma

• ' l i * ' - j. u • ~ n i J - • ' - & J-variavel aleatória com distribuição Normal padrao cuja area a sua direita e sob a função densidade é igual a a/2)

mjBSM

6. Testes de Normalidade

A importância da distribuição Normal é inegável: além de caracterizar o comportamento natural de um conjunto de variáveis é base de trabalho para um conjunto de procedimentos típicos na análise de dados.

0 Teorema do Limite Central ajuda-nos a resolver um conjunto de problemas se as nossas preocupações se situarem depois da variável X, isto é já em X, desde que a dimensão da amostra com que lidamos seja elevada (na prática superior a 30).

Pode, contudo, ser muito importante verificar se determinada variável tem um comportamento Normal: quando a amostra é reduzida e se pretende inferir, em alguns procedimentos que envolvem a avaliação do erro (por ex. em regressão linear), ou quando se pretende inferir relativamente a outros parâmetros que não (a, como por exemplo a. Neste caso para calcular

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Tabelas de frequências

Page 94: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

intervalos de confiança ou testar hipóteses relativas ao seu valor teremos de ter uma garantia de que X se distribui segundo uma lei Normal.

Para verificar se uma variável aleatória segue uma lei Normal podemos utilizar métodos gráficos:

o Desenhar um histograma para visualmente apreciarmos a sua proximidade ao comportamento de uma variável aleatória com distribuição Normal com os mesmos valores médio e desvio padrão (Fig. IV-9a). Neste caso a distribuição amostrai não parece ajustar-se ao modelo Normal (curva). Não é fácil apreciar o ajustamento de uma distribuição amostrai ao comportamento Normal, sobretudo quando a amostra é reduzida.

o A alternativa - que funciona também como complemento - é comparar o valor observado com o correspondente ao de uma variável aleatória Normal padrão, considerando para tal a ordenação dos valores observados e a correspondência através dos seus quantis. Este tipo de gráficos tem a designação de Normal probability-plot. No caso de se verificar a Normalidade dos dados os dois conjuntos de pontos desenham uma recta num gráfico de dispersão: a posição relativa dos valores segue a lei Normal (Fig. IV-9b). Mais uma vez, não é clara a decisão: por um lado a recta não coincide com os pontos do gráfico, por outro o número de observações é reduzido.

Pela dificuldade inerente à apreciação visual e consequente decisão, esta análise gráfica é, usualmente, complementada com um ou mais testes: há inúmeros, estudados e analisados, que permitem verificar a possibilidade de uma determinada variável seguir uma distribuição Normal: Quiquadrado, Wilk-Shapiro, Kolmogorov-Smirnov, Jarque Bera, entre outros. Todos eles pressupõem, como hipótese de partida, que a amostra é proveniente de uma distribuição Normal. Consideraremos, em detalhe, o teste Quiquadrado (adequado para amostras de grandes dimensões) e o de Wilk-Shapiro (muito interessante para amostras de dimensão reduzida).

92 Medidas de local ização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 95: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo IV

Função DISTRIBUIÇÃO

t-Student Função densidade Função distribuição

1.0

/

/ 0 . 8

/ P[ti«<1.753)=F(1.753)

VA

1.0

/

/ 0 . 8

/ P[ti«<1.753)=F(1.753)

VA

1.0

/

/ 0 . 8

/

0.95

/ /

/

/

/ 0.375

P[ti«<1.753)=F(1.753)

VA

1.0

/

/ 0 . 8

/

0.95

/ /

/

/

/ P[tg, < t ] = x x x

0.375

P[ti«<1.753)=F(1.753)

VA 0.6

0.95

/ /

/

0.375

P[ti«<1.753)=F(1.753)

VA 0.6

0.95

/ /

/ 0,250 h V i \ A

0.95

/ /

/

0.4 I

0,125 1 \ i \ /

/ 0.2

í

; /

0,125 1 \ i \ /

/ 0.2

í

; /

1 \ i \ /

/ \

í

; /

l -

1 \ i \ /

/ \

í

; /

0.000 u.u -3,50 -1,75 0,00 1,75 3,50 -3.50 -1.75 0,00 1,75 3,50

0.000 u.u -3,50 -1,75 0,00 1,75 3,50 -3.50 -1.75 0,00 1,75 3,50

5 0 0 g l \ X X X 0 , 9 9 9 0 , 9 9 5 0 , 9 9 0 0 , 9 7 5 0,950 0 , 9 0 0 0 , 3 5 0 0 , 8 0 0 0 , 7 0 0 0 , b 0 0 0 , 5 0 0

1 3 1 8 , 3 6 3 , 6 5 6 3 1 , 8 2 1 1 2 , 7 0 6 6 , 3 1 4 3 , 0 7 8 1 , 9 6 3 1 , 3 7 6 0 , 7 2 7 0 , 3 2 5 0 , 0 0 0

2 2 2 , 3 2 8 9 , 9 2 5 6 , 9 6 5 4 , 3 0 3 2 , 9 2 0 1 , 8 8 6 1 , 3 8 6 1 , 0 6 1 0 , 6 1 7 0 , 2 8 9 0 , 0 0 0

3 1 0 , 2 1 4 5 , 8 4 1 4 , 5 4 1 3 , 1 8 2 2 , 3 5 3 1 , 6 3 8 1 , 2 5 0 0 , 9 7 8 0 , 5 8 4 0 , 2 7 7 0 , 0 0 0

4 7 , 1 7 3 4 , 6 0 4 3 , 7 4 7 2 , 7 7 6 2 , 1 3 2 1 , 5 3 3 1 , 1 9 0 0 , 9 4 1 0 , 5 6 9 0 , 2 7 1 0 , 0 0 0

5 5 , 8 9 4 4 , 0 3 2 3 , 3 6 5 2 , 5 7 1 2 , 0 1 5 1 , 4 7 6 1 , 1 5 6 0 , 9 2 0 0 , 5 5 9 0 , 2 6 7 0 , 0 0 0

6 5 , 2 0 8 3 , 7 0 7 3 , 1 4 3 2 , 4 4 7 1 , 9 4 3 1 , 4 4 0 1 , 1 3 4 0 , 9 0 6 0 , 5 5 3 0 , 2 6 5 0 , 0 0 0

7 4 , 7 8 5 3 , 4 9 9 2 , 9 9 8 2 , 3 6 5 1 , 8 9 5 1 , 4 1 5 1 , 1 1 9 0 , 8 9 6 0 , 5 4 9 0 , 2 6 3 0 , 0 0 0

8 4 , 5 0 1 3 , 3 5 5 2 , 8 9 6 2 , 3 0 6 1 , 8 6 0 1 , 3 9 7 1 , 1 0 8 0 , 8 8 9 0 , 5 4 6 0 , 2 6 2 0 , 0 0 0

9 4 , 2 9 7 3 , 2 5 0 2 , 8 2 1 2 , 2 6 2 1 , 8 3 3 1 , 3 8 3 1 , 1 0 0 0 , 8 8 3 0 , 5 4 3 0 , 2 6 1 0 , 0 0 0

10 4 , 1 4 4 3 , 1 6 9 2 , 7 6 4 2 , 2 2 8 1 , 8 1 2 1 , 3 7 2 1 , 0 9 3 0 , 8 7 9 0 , 5 4 2 0 , 2 6 0 0 , 0 0 0

11 4 , 0 2 5 3 , 1 0 6 2 , 7 1 8 2 , 2 0 1 1 , 7 9 6 1 , 3 6 3 1 , 0 8 8

8 3

0 , 8 7 6 0 , 5 4 0 0 , 2 6 0 0, DOO

5 0 0 12 3 , 9 3 0 3 , 0 5 5 2 , 6 8 1 2 , 1 7 9 1 , 7 8 2 1 , 3 5 6 1 , 0

8 8

8 3 0 , 8 7 3 0 , 5 3 9 0 , 2 5 9 0,

DOO

5 0 0

13 3 , 8 5 2 3 , 0 1 2 2 , 6 5 0 2 , 1 6 0 1 , 7 7 1 1 , 3 5 0 1 , 0 7 9 0 , 8 7 0 0 , 5 3 8 0 , 2 5 9 0, DOO

DOO 14 3 , 7 8 7 2 , 9 7 7 2 , 6 2 4 2 , 1 4 5 1 , 7 6 1 1 , 3 4 5 1 , 0 7 6 0 , 8 6 8 0 , 5 3 7 0 , 2 5 8 o,

DOO

DOO

| 15 3 , 7 3 3 2 , 9 4 7 2 , 6 0 2 2 , 1 3 1 1,753 1 , 3 4 1 1 , 0 7 4 0 , 8 6 6 0 , 5 3 6 0 , 2 5 8 0 , 0 0 0

16 3 , 6 8 6 2 , 9 2 1 2 , 5 8 3 2 , 1 2 0 1 , 7 4 6 1 , 3 3 7 1 , 0 7 1 0 , 8 6 5 0 , 5 3 5 0 , 2 5 8 0 , 0 0 0

17 3 , 6 4 6 2 , 8 9 8 2 , 5 6 7 2 , 1 1 0 1 , 7 4 0 1 , 3 3 3 1 , 0 6 9 0 , 8 6 3 0 , 5 3 4 0 , 2 5 7 0 , 0 0 0

18 3 , 6 1 0 2 , 8 7 8 2 , 5 5 2 2 , 1 0 1 1 , 7 3 4 1 , 3 3 0 1 , 0 6 7 0 , 8 6 2 0 , 5 3 4 0 , 2 5 7 0 , 0 0 0

19 3 , 5 7 9 2 , 8 6 1 2 , 5 3 9 2 , 0 9 3 1 , 7 2 9 1 , 3 2 8 1 , 0 6 6 0 , 8 6 1 0 , 5 3 3 0 , 2 5 7 0 , 0 0 0

20 3 , 5 5 2 2 , 8 4 5 2 , 5 2 8 2 , 0 8 6 1 , 7 2 5 1 , 3 2 5 1 , 0 6 4 0 , 8 6 0 0 , 5 3 3 0 , 2 5 7 0 , 0 0 0

21 3 , 5 2 7 2 , 8 3 1 2 , 5 1 8 2 , 0 8 0 1 , 7 2 1 1 , 3 2 3 1 , 0 6 3 0 , 8 5 9 0 , 5 3 2

0 , 5 3 2

0, 0,

2 5 7 0 , 0 0 0

22 3 , 5 0 5 2 , 8 1 9 2 , 5 0 8 2 , 0 7 4 1 , 7 1 7 1 , 3 2 1 1 , 0 6 1 0 , 8 5 8

0 , 5 3 2

0 , 5 3 2

0, 0, 2 5 6 0 , 0 0 0

23 3 , 4 8 5 2 , 8 0 7 2 , 5 0 0 2 , 0 6 9 1 , 7 1 4 1 , 3 1 9 1 , 0 6 0 0 , 8 5 8 0 , 5 3 2 0 , 2 5 6 0 , 0 0 0

24 3 , 4 6 7 2 , 7 9 7 2 , 4 9 2 2 , 0 6 4 1 , 7 1 1 1 , 3 1 8 1 , 0 5 9 0 , 8 5 7 0 , 5 3 1 0 , 2 5 6 0 , 0 0 0

2 5 3 , 4 5 0 2 , 7 8 7 2 , 4 8 5 2 , 0 6 0 1 , 7 0 8 1 , 3 1 6 1 , 0 5 8 0 , 8 5 6 0 , 5 3 1 0 , 2 5 6 0 , 0 0 0

26 3 , 4 3 5 2 , 7 7 9 2 , 4 7 9 2 , 0 5 6 1 , 7 0 6 1 , 3 1 5 1 , 0 5 8 0 , 8 5 6 0 , 5 3 1 0 , 2 5 6 0 , 0 0 0

27 3 , 4 2 1 2 , 7 7 1 2 , 4 7 3 2 , 0 5 2 1 , 7 0 3 1 , 3 1 4 1 , 0 5 7 0 , 8 5 5 0 , 5 3 1 0 , 2 5 6 0 , 0 0 0

28 3 , 4 0 8 2 , 7 6 3 2 , 4 6 7 2 , 0 4 8 1 , 7 0 1 1 , 3 1 3 1 , 0 5 6 0 , 8 5 5 0 , 5 3 0 0 , 2 5 6 0 , 0 0 0

29 3 , 3 9 6 2 , 7 5 6 2 , 4 6 2 2 , 0 4 5 1 , 6 9 9 1 , 3 1 1 1 , 0 5 5 0 , 8 5 4 0 , 5 3 0 0 , 2 5 6

0 , 2 5 6

0 , 0 0 0

30 3 , 3 8 5 2 , 7 5 0 2 , 4 5 7 2 , 0 4 2 1 , 6 9 7 1 , 3 1 0 1 , 0 5 5 0 , 8 5 4 0 , 5 3 0

0 , 2 5 6

0 , 2 5 6 0 , 0 0 0

4 0 3 , 3 0 7 2 , 7 0 4 2 , 4 2 3 2 , 0 2 1 1 , 6 8 4 1 , 3 0 3 1 , 0 5 0 0 , 8 5 1 0 , 5 2 9 0 , 2 5 5 0 , 0 0 0

60 3 , 2 3 2 2 , 6 6 0 2 , 3 9 0 2 , 0 0 0 1 , 6 7 1 1 , 2 9 6 1 , 0 4 5 0 , 8 4 8 0 , 5 2 7 0 , 2 5 4 0 , 0 0 0

120 3 , 1 6 0 2 , 6 1 7 2 , 3 5 8 1 , 9 8 0 1 , 6 5 8 1 , 2 8 9 1 , 0 4 1 0 , 8 4 5 0 , 5 2 6 0 , 2 5 4 0 , 0 0 0

o o 3 , 0 9 0 2 , 5 7 6 2 , 3 2 6 1 , 9 6 0 1 , 6 4 5 1 , 2 8 2 ! 1 , 0 3 6 0 , 8 4 2 0 , 5 2 4 0 , 2 5 3 0 , 0 0 0

FIG. IV-8 Resultado da integração numérica da função densidade de uma variável aleatória t-Student com gl graus

de liberdade (porex. P[tl5<1,753]=0,95 ou t1 5 ; 0.05=1.75 3)

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Testes de Normalidade

Page 96: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

FIG. IV-9 Métodos gráficos para apreciar a possibilidade de uma amostra de uma variável aleatória ter distribuição Normal:

histograma (a) e Normal probability plot (b)

o 67 66 89 70 71 72 73 74 75 76

Nvt l dt ruido dB(A)

Normal Probtbilify Plot para o Mivel d» Ruido dB(A) Nom Lavai dB(A) « 30'1'normal(x. 72.4967. 1.6423)

6.1 O teste Quiquadrado

0 teste Quiquadrado pressupõe a classificação das observações da amostra com o objectivo de gerar uma tabela de frequências (Quadro IV-2a). 0 objectivo é o de comparar a distribuição da amostra com a que teríamos se a distribuição fosse Normal com o mesmo valor médio e desvio padrão da amostra (neste caso o número de parâmetros a estimar com base na amostra é igual a 2: p=2); poderia considerar-se um valor médio e desvio padrão independentes da amostra o que aumenta a qualidade do teste (p=0). Este teste exige um número de observações elevado devido à estrutura da sua estatística, tendo restrições de validade que são função do número de classes/observações.

No caso das 30 observações de nível de ruído dos automóveis e das 17 classes iniciais - de uma primeira análise dos dados - constituiram-se, afinal, cinco classes (k=5) - para evitar frequências esperadas inferiores a 5 (Quadro IV-2). O valor p=0,00888 transmite a informação de que o valor da estatística Q=9,44747 ultrapassa o valor q2,o,o5=5,991 (Fig. IV-10), não podendo validar a possibilidade da distribuição ser Normal (com um grau de confiança de 95%).

Ao querer tomar decisões com um grau de confiança 1-a (o mesmo que um nível de significância a) se p<a (ou Q>qgi,a) rejeitamos a hipótese da amostra em análise ser proveniente de uma população estatística com distribuição Normal. Se o contrário se verificar não poderemos rejeitar a hipótese da normalidade correspondendo, na prática, a aceitar a hipótese da distribuição ser Normal.

94 Medidas de local ização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 97: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo IV

QUADRO IV-2

Teste Quiquadrado Tabela de frequências (a) gerada com o objectivo de efectuar o teste Quiquadrado para averiguar a possibilidade

da amostra ser proveniente de uma população estatística com distribuição Normal com valor médio e desvio padrão iguais aos da amostra (dois parâmetros, p=2). Valor da estatística Qdepois de reclassificar a amostra

garantindo para todas as células (k=5) frequências esperadas superiores a 5. gl=k-p-1=5-2-1=2

Classas Freq.„et>s, Freq, esp. <68 0 0,219840

[68; 68,5[ 1 0,230977 [68,5; 69[ 2 0,414675 [69; 69,5[ 0 0,691914 [69,5; 70[ 1 1,073003 [70; 70,5[ 1 1,546519 [70,5; 71 [ 3 2,071646 [71; 71,5[ 1 2,579185 [71,5; 72[ 3 2,984395 [72; 72,5[ 0 3,209499 [72,5; 73[ 5 3,207933 [73; 73,5[ 1 2,980029 [73,5; 74[ 10 2,572899 [74; 74,5[ 0 2,064581 [74,5; 75[ 2 1,539741 [75; 75,5[ 0 1,067258

>=75,5 0 1,545905

Teste Quiquadrado

para averiguar a Normalidade de uma variável aleatória 1. Classificar a amostra

2. Contabilizar o número de observações em cada classe

3. Calcular o número de observações que esperaríamos encontrar se a distrbuição fosse Normal com os parâmetros indicados ou calculados conr» base na amostra

k |f , - f ^ . f 4. Calcular o valor da estatística de teste Q = £ <

w W . 5. Se a distrihuição for Normal a estatística Q segue uma lei Quiquadrado com k-p-1

graus de liberdade (Fig. IV-10) (em que p é o número de parâmetros estimados com base na amsotra para efectuar o teste),

6. Para um determinado grau de confiança (por ex. 95%) averiguar se o valor da estatística Q é superior ao valor tabelado; se o for (p<0.05) rejeita-se a hipótese da Variável se distribuir segundo uma Normal com os parâmetros considerados.

(k - número de classes, fesP,r frequência absoluta esperada se a distribuição for Normal com os parâmetros n e CT e f^,- frequência absoluta observada)

NOTA: a estatística Q segue uma lei Quiquadrado, se a variável aleatória se comportar segundo a lei Normal; se o$ valores dos denominadores da estatística (f«p,i) forem suficientemente reduzidos (tendendo para zero) fazendo tender Q para um valor muito elevado (devido à estrutura matemática da estatística e não pelo facto de não ser não Normal), para evitar erros de avaliação é corrente, na prática, se as células da tabela de frequências apresentarem valores para fesp.i inferiores a 5, proceder à reclassificação da amostra, para garantir a não ocorrência de valores reduzidos nos denominadores da estatística de teste.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Testes de Normalidade

Page 98: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

6.2 O teste de Wilk-Shapiro

0 teste de Wilk-Shapiro tem grande utilidade quando as amostras são de dimensões reduzidas.

No caso das 30 observações relativas ao nível de ruído, W=0,8875 (Fig. IV-11). O valor crítico para uma dimensão de amostra igual a 30 e um nível de significância de 0.05 é igual a Wc=0,985 (Fig. IV-12) e p=0,0042 (p<0,05) significando assim que se rejeita a hipótese da amostra ser proveniente de uma população estatística Normal.

W e W

f j p p i p ira averiguar a Non

96 Medidas de local ização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 99: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Função DISTRIBUIÇÃO

QUIQUADRADO

P[qgl < q]=xxx

Função densidade Função diâribuição

0.044

0.975

l

( )

/

/ 0,00 6.25 12,50 18,75 25,00 0,00 6.25 12,50 18,75 25,00

g l \ XXX 0 , 0 0 5 0 , 0 1 0 0 , 0 2 5 0 , 0 5 0 0 , 1 0 0 0 , 2 5 0 0 , 5 0 0 0 , 7 5 0 0 , 9 0 0 0 , 9 5 0 0,975 0 , 9 9 0 0 , 9 9 5

1 0 , 0 0 0 0 , 0 0 0 0 , 0 0 1 0 , 0 0 4 0 , 0 1 6 0 , 1 0 2 0 , 4 5 5 1 , 3 2 3 2 , 7 0 6 3 , 8 4 1 5 , 0 2 4 6 , 6 3 5 7 , 8 7 9

2 0 , 0 1 0 0 , 0 2 0 0 , 0 5 1 0 , 1 0 3 0 , 2 1 1 0 , 5 7 5 1 , 3 8 6 2 , 7 7 3 4 , 6 0 5 5 , 9 9 1 7 , 3 7 8 9 , 2 1 0 1 0 , 5 9 7

3 0 , 0 7 2 0 , 1 1 5 0 , 2 1 6 0 , 3 5 2 0 , 5 8 4 1 , 2 1 3 2 , 3 6 6 4 , 1 0 8 6 , 2 5 1 7 , 8 1 5 9 , 3 4 8 1 1 , 3 4 5 1 2 , 8 3 8

4 0 , 2 0 7 0 , 2 9 7 0 , 4 8 4 0 , 7 1 1 1 , 0 6 4 1 , 9 23 3 , 3 5 7 5 , 385 7 , 7 7 9 9 , 4 8 8 1 1 , 1 4 3 1 3 , 2 7 7 1 4 , 8 6 0

5 0 , 4 1 2 0 , 5 5 4 0 , 8 3 1 1 , 145 1 , 610 2 , 6 7 5 4 , 3 5 1 6 , 6 2 6 9 , 2 3 6 1 1 , 0 7 0 1 2 , 8 3 2 1 5 , 0 8 6 1 6 , 7 5 0

6 0 , 6 7 6 0 , 8 7 2 1 , 2 3 7 1 , 635 2 , 2 0 4 3 , 4 5 5 5 , 3 4 8 7 , 8 4 1 1 0 , 6 4 5 1 2 , 5 9 2 1 4 , 4 4 9 1 6 , 8 1 2 1 8 , 5 4 8

7 0 , 9 8 9 1 , 239 1 , 6 9 0 2 , 1 6 7 2 , 8 3 3 4 , 2 5 5 6 , 3 4 6 9 , 0 3 7 1 2 , 0 1 7 1 4 , 0 6 7 1 6 , 0 1 3 1 8 , 4 7 5 2 0 , 2 7 8

8 1 , 3 4 4 1 , 6 4 7 2 , 1 8 0 2 , 7 3 3 3 , 4 9 0 5 , 0 7 1 7 , 3 4 4 1 0 , 2 1 9 1 3 , 3 6 2 1 5 , 5 0 7 1 7 , 5 3 5 2 0 , 0 9 0 2 1 , 9 5 5

9 1 , 735 2 , 0 8 8 2 , 7 0 0 3 , 3 2 5 4 , 1 6 8 5 , 8 9 9 8 , 3 4 3 1 1 , 3 8 9 1 4 , 6 8 4 1 6 , 9 1 9 1 9 , 0 2 3 2 1 , 6 6 6 2 3 , 5 8 9

10 2 , 1 5 6 2 , 5 5 8 3 , 2 4 7 3 , 9 4 0 4 , 8 6 5 6 , 7 3 7 9 , 3 4 2 1 2 , 5 4 9 1 5 , 9 8 7 1 8 , 3 0 7 2 0 , 4 8 3 2 3 , 2 0 9 2 5 , 1 8 8

11 2 , 6 0 3 3 , 0 5 3 3 , 8 1 6 4 , 5 7 5 5 , 5 7 8 7 , 5 8 4 1 0 , 3 4 1 1 3 , 7 0 1 1 7 , 2 7 5 1 9 , 6 7 5 2 1 , 9 2 0 2 4 , 7 2 5 2 6 , 7 5 7

É 1 2 3 , 0 7 4 3 , 5 7 1 4 , 4 0 4 5 , 226 6 , 3 0 4 8 , 4 3 8 1 1 , 3 4 0 14 , 845 1 8 , 5 4 9 2 1 , 0 2 6 •23J337 2 6 , 2 1 7 2 8 , 3 0 0

13 3 , 5 6 5 4 , 1 0 7 5 , 009 5 , 892 7 , 0 4 1 9 , 2 9 9 1 2 , 3 4 0 1 5 , 9 8 4 1 9 , 8 1 2 2 2 , 3 6 2 2 4 , 7 3 6 2 7 , 6 8 8 2 9 , 8 1 9

14 4 , 0 7 5 4 , 6 6 0 5 , 6 2 9 6 , 5 7 1 7 , 7 9 0 1 0 , 1 6 5 1 3 , 3 3 9 1 7 , 1 1 7 2 1 , 0 6 4 2 3 , 6 8 5 2 6 , 1 1 9 2 9 , 1 4 1 3 1 , 3 1 9

15 4 , 6 0 1 5 , 229 6 , 2 6 2 7 , 2 6 1 8 , 5 4 7 1 1 , 0 3 7 1 4 , 3 3 9 1 8 , 2 4 5 2 2 , 3 0 7 2 4 , 9 9 6 2 7 , 4 8 8 3 0 , 5 7 8 3 2 , 8 0 1

16 5 , 1 4 2 5 , 812 6 , 9 0 8 7 , 9 6 2 9 , 3 1 2 1 1 , 9 1 2 1 5 , 3 3 8 1 9 , 3 6 9 2 3 , 5 4 2 2 6 , 2 9 6 2 8 , 8 4 5 3 2 , 0 0 0 3 4 , 2 6 7

17 5 , 6 9 7 6 , 4 0 8 7 , 5 6 4 8 , 6 7 2 1 0 , 0 8 5 1 2 , 7 9 2 1 6 , 3 3 8 2 0 , 4 8 9 2 4 , 7 6 9 2 7 , 5 8 7 3 0 , 1 9 1 3 3 , 4 0 9 3 5 , 7 1 8

10 6 , 2 6 5 7 , 0 1 5 8 , 2 3 1 9 , 3 9 0 1 0 , 8 6 5 1 3 , 6 7 5 1 7 , 3 3 8 2 1 , 6 0 5 2 5 , 9 8 9 2 8 , 8 6 9 3 1 , 5 2 6 3 4 , 8 0 5 3 7 , 1 5 6

19 6 , 8 4 4 7 , 6 3 3 8 , 9 0 7 1 0 , 1 1 7 1 1 , 6 5 1 1 4 , 5 6 2 1 8 , 3 3 8 2 2 , 7 1 8 2 7 , 2 0 4 3 0 , 1 4 4 3 2 , 8 5 2 3 6 , 1 9 1 3 8 , 5 8 2

20 7 , 4 3 4 8 , 2 6 0 9 , 5 9 1 1 0 , 8 5 1 1 2 , 4 4 3 1 5 , 4 5 2 1 9 , 3 3 7 2 3 , 8 2 8 2 8 , 4 1 2 3 1 , 4 1 0 3 4 , 1 7 0 3 7 , 5 6 6 3 9 , 9 9 7

21 8 , 0 3 4 8 , 8 9 7 1 0 , 2 8 3 1 1 , 5 9 1 1 3 , 2 4 0 1 6 , 3 4 4 2 0 , 3 3 7 2 4 , 9 3 5 2 9 , 6 1 5 3 2 , 6 7 1 3 5 , 4 7 9 3 8 , 9 3 2 4 1 , 4 0 1

22 8 , 6 4 3 9 , 5 4 2 1 0 , 9 8 2 1 2 , 3 3 8 1 4 , 0 4 1 1 7 , 2 4 0 2 1 , 3 3 7 2 6 , 0 3 9 3 0 , 8 1 3 3 3 , 9 2 4 3 6 , 7 8 1 4 0 , 2 8 9 4 2 , 7 9 6

23 9 , 2 6 0 1 0 , 1 9 6 1 1 , 6 8 9 1 3 , 0 9 1 1 4 , 8 4 8 1 8 , 1 3 7 2 2 , 3 3 7 2 7 , 1 4 1 3 2 , 0 0 7 3 5 , 1 7 2 3 8 , 0 7 6 4 1 , 6 3 8 4 4 , 1 8 1

24 9 , 8 8 6 1 0 , 8 5 6 1 2 , 4 0 1 1 3 , 8 4 8 1 5 , 6 5 9 1 9 , 0 3 7 2 3 , 3 3 7 2 8 , 2 4 1 3 3 , 1 9 6 3 6 , 4 1 5 3 9 , 3 6 4 4 2 , 9 8 0 4 5 , 5 5 8

25 1 0 , 5 2 0 1 1 , 5 2 4 1 3 , 1 2 0 1 4 , 6 1 1 1 6 , 4 7 3 1 9 , 9 3 9 2 4 , 3 3 7 2 9 , 3 3 9 3 4 , 3 8 2 3 7 , 6 5 2 4 0 , 6 4 6 4 4 , 3 1 4 4 6 , 9 2 8

26 1 1 , 1 6 0 1 2 , 1 9 8 1 3 , 8 4 4 1 5 , 3 7 9 1 7 , 2 9 2 2 0 , 8 4 3 2 5 , 3 3 6 3 0 , 4 3 5 3 5 , 5 6 3 3 8 , 8 8 5 4 1 , 9 2 3 4 5 , 6 4 2 4 8 , 2 9 0

27 1 1 , 8 0 8 1 2 , 8 7 8 1 4 , 5 7 3 1 6 , 1 5 1 1 8 , 1 1 4 2 1 , 7 4 9 2 6 , 3 3 6 3 1 , 5 2 8 3 6 , 7 4 1 4 0 , 1 1 3 4 3 , 1 9 5 4 6 , 9 6 3 4 9 , 6 4 5

28 1 2 , 4 6 1 1 3 , 5 6 5 1 5 , 3 0 8 1 6 , 9 2 8 1 8 , 9 3 9 2 2 , 6 5 7 2 7 , 3 3 6 3 2 , 6 2 0 3 7 , 9 1 6 4 1 , 3 3 7 4 4 , 4 6 1 4 8 , 2 7 8 5 0 , 9 9 4

29 1 3 , 1 2 1 1 4 , 2 5 6 1 6 , 0 4 7 1 7 , 7 0 8 1 9 , 7 6 8 2 3 , 5 6 7 2 8 , 3 3 6 3 3 , 7 1 1 3 9 , 0 8 7 4 2 , 5 5 7 4 5 , 7 2 2 4 9 , 5 8 8 5 2 , 3 3 5

30 1 3 , 7 8 7 1 4 , 9 5 3 1 6 , 7 9 1 1 8 , 4 9 3 2 0 , 5 9 9 2 4 , 4 7 8 2 9 , 3 3 6 3 4 , 8 0 0 4 0 , 2 5 6 4 3 , 7 7 3 4 6 , 9 7 9 5 0 , 8 9 2 5 3 , 6 7 2

40 2 0 , 7 0 7 2 2 , 1 6 4 2 4 , 4 3 3 2 6 , 5 0 9 2 9 , 0 5 1 3 3 , 6 6 0 3 9 , 3 3 5 4 5 , 6 1 6 5 1 , 8 0 5 5 5 , 7 5 8 5 9 , 3 4 2 6 3 , 6 9 1 6 6 , 7 6 6

60 3 5 , 5 3 4 3 7 , 4 8 5 4 0 , 4 8 2 4 3 , 1 8 8 4 6 , 4 5 9 5 2 , 2 9 4 5 9 , 3 3 5 6 6 , 9 8 1 7 4 , 3 9 7 7 9 , 0 8 2 8 3 , 2 9 8 8 8 , 3 7 9 9 1 , 9 5 2

FIG. IV-10 Resultado da integração numérica da função densidade de uma variável aleatória Quiquadrado com gl

graus de liberdade (porex. P[q12<23,337]=0,975 ou q 1 2 ; 0 , 0 2 5 = 23 , 3 3 7)

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Tabelas de frequências

Page 100: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

2.5

2.0

1.5

1,0

É | 0,5

S S 0,0

I 5 -0,5

-1.0

-1.S

-2.0

•2,5

67 66 69 70 71 72 73 74 75 76

Valof obaarvado

FIG. IV-11 Resultado do teste Wilk-Shapiro associado ao Normal probability plot

r Nível de significância, a. N 0,01 0,02 0,05 0,1 0,5 0,9 0,95 0,98 0,99 3 0,753 0,756 0,767 0,789 0,959 0,998 0,999 1,000 1,000 4 0,687 0,707 0,748 0,792 0,935 0,987 0,992 0,996 0,997 5 0,686 0,715 0,762 0,806 0,927 0,979 0,986 0,991 0,993 6 0,713 0,743 0,788 0,826 0,927 0,974 0,981 0,986 0,989 7 0,730 0,760 0,803 0,838 0,928 0,972 0,979 0,985 0,988 8 0,749 0,778 0,818 0,851 0,932 0,972 0,978 0,984 0,987 9 0,764 0,791 0,829 0,859 0,935 0,972 0,978 0,984 0,986 10 0,781 0,806 0,842 0,869 0,938 0,972 0,978 0,983 0,986 11 0,792 0,817 0,850 0,876 0,940 0,973 0,979 0,984 0,986 12 0,805 0,828 0,859 0,883 0,943 0,973 0,979 0,984 0,986 13 0,814 0,837 0,866 0,889 0,945 0,974 0,979 0,984 0,986 14 0,825 0,846 0,874 0,895 0,947 0,975 0,980 0,984 0,986 15 0,835 0,855 0,881 0,901 0,950 0,975 0,980 0,984 0,987 16 0,844 0,863 0,887 0,906 0,952 0,976 0,981 0,985 0,987 17 0,851 0,869 0,892 0,910 0,954 0,977 0,981 0,985 0,987 18 0,858 0,874 0,897 0,914 0,956 0,978 0,982 0,986 0,988 19 0,863 0,879 0,901 0,917 0,957 0,978 0,982 0,986 0,988 20 0,868 0,884 0,905 0,920 0,959 0,979 0,983 0,986 0,988 21 0,873 0,888 0,908 0,923 0,960 0,980 0,983 0,987 0,989 22 0,878 0,892 0,911 0,926 0,961 0,980 0,984 0,987 0,989 23 0,881 0,895 0,914 0,928 0,961 0,981 0,984 0,987 0,989 24 0,884 0,898 0,916 0,930 0,963 0,981 0,984 0,987 0,989 25 0,888 0,901 0,918 0,931 0,964 0,981 0,985 0,988 0,989 26 0,891 0,904 0,920 0,965 0,965 0,982 0,985 0,988 0,989 27 0,894 0,906 0,923 0,965 0,965 0,982 0,985 0,988 0,990 28 0,896 0,908 0,924 0,966 0,966 0,982 0,985 0,988 0,990 29 0,898 0,910 0,926 0,966 0,966 0,982 0,985 0,988 0,990 30 0,900 0,912 0,927 0,967 0,967 0,983 0,985 0,988 0,900

FIG. IV-12 Estatística W (teste Wilk-Shapiro) para dimensões de amostra entre 3 e 30.

Normal Probability Pfot para o Nivel d« Riido dB(A)

98 Medidas de local ização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 101: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

Capítulo V

Conclusões e definição de necessidades analíticas adicionais

A conclusion is the place where you got tired of thinking

Arthur Bloch (1948-)

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 102: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

100 Medidas de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 103: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

1. Síntese

0 segredo dos dados nasce de uma conversa entre as autoras, decorrente de uma "acção de formação" que se baseou na necessidade de "espremer" um conjunto de dados recolhidos na sequência de um inquérito relativo às percepções da população portuguesa relativas ao mundo automóvel. Nessa altura o objectivo era transcrever todos os episódios de formação - ao nível da estatística multivariada -, todas as discussões geradas à volta de um objectivo específico e que se poderiam apelidar, de um modo geral, de brainstorming.

0 repto foi aceite e logo nas primeiras tentativas de redacção ficou claro que antes de chegar ao nível a que se referia o objectivo - a estatística multivariada - era necessário definir a base.

As características de cada variável, a sua contextualização, a sua importância face ao cenário que pretende ser caracterizado, o tipo de variável, já do ponto de vista operacional (qualitativo ou quantitativo), são peças fundamentais para o "arranque" de um projecto de análise de dados.

A caracterização das variáveis, utilizando métodos gráficos, é essencial para conseguir transmitir rapidamente o que a informação da variável encerra na sua lista de números ou categorias; ou a caracterização numérica, para uma comparação rápida e eficiente com outras realidades sistematizadas e trabalhadas anteriormente ou meramente de conceito e encerradas no nosso raciocínio enquanto agentes de decisão, é mais uma peça essencial para alavancar o processo de decisão.

A necessidade natural de generalizar, de avaliar a qualidade da informação que foi processada e dos indicadores gerados levará, naturalmente, à necessidade de utilizar instrumentos mais elaborados e do conceito de distribuição. 0 natural conceito de distribuição Normal, em particular, permite gerar um conjunto de procedimentos de análise inferencial, para aferir da qualidade da informação: os intervalos de confiança e os testes de hipóteses surgem assim, também, naturalmente.

2. Necessidades adicionais

Toda a análise discutida e analisada pertence a uma fase quase inicial da análise de um conjunto de dados: caracterizar a informação disponível e validar a sua qualidade e fiabilidade.

No decorrer desta fase de análise muitas questões ocorreram naturalmente no sentido de procurar resposta sobre a relação entre as variáveis. Por exemplo:

• A distribuição das emissões de monóxido de carbono e de óxidos de azoto está relacionada com o tipo de fuel (Fig. 11-12) ? Se sim, como ?

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Medidas de forma

Page 104: Estatistica Descritiva-livro Professora

Capítulo III ESTATÍSTICA DESCRITIVA - O segredo dos dados

• O nível médio das emissões de CO (Quadro 111-2) depende do tipo de combustível ? Se sim, como ?

• O nível de ruído emitido pelos automóveis (Quadro 111-2 e Fig. IV-2a) depende do tipo de combustível ? Se sim, como ?

Estas questões e inúmeras do mesmo tipo foram e são, naturalmente, exploradas através de métodos gráficos: abordagens simples e que decorrem da necessidade natural de encontrar a solução de equações que resultam de uma análise qualitativa dos processos em análise.

Nascem então as técnicas mais sofisticadas para validar determinadas pretensões que decorrem ou de meras conjecturas a propósito de um conjunto de variáveis ou de constatações gráficas com algum suporte contextual ou ainda só porque seria interessante verificar se há uma relação entre aquelas variáveis.

A Análise de Regressão, a Análise de Variância, a Análise de Contingência são três técnicas de análise de dados que nos permitirão ir de encontro àquelas necessidades e investigar a relação entre variáveis, variáveis com diferentes características.

A Análise de Regressão Linear ou não Linear pretende dar uma ajuda na identificação de relações entre variáveis quantitativas. 0 cenário mais comum será aquele em que se pretende averiguar se os valores de uma variável, por ex. as emissões de CO podem ser explicadas pelo nível de octanas ou chumbo do combustível. Havendo uma relação entre as variáveis (que são quantitativas) é importante identificar o tipo de relação. A mais simples é linear e codifica-se através da equação de um recta, acrescentando termos afectados de um coeficiente linear para cada variável entendida como potencialmente explicativa do comportamento da variável que se pretende explicar. Mais complexa será uma relação entre variáveis não passível de ser codificada ou defendida tecnicamente pelo código correspondente à equação de uma recta: a relação poderá ser exponencial, logarítmica, sigmóide, entre inúmeras possibilidades, todas elas devendo ter algum suporte contextual defensável.

A Análise de Variância permitirá averiguar a possibilidade de uma variável quantitativa ter comportamentos diferentes em função dos valores de variáveis qualitativas. Se pretendermos averiguar se as emissões de CO são diferentes para os carros a gasolina e a gasóleo, poderemos reduzir esta pesquisa à existência de uma igualdade nos valores médios das emissões de CO para os carros a gasolina e a gasóleo: a diferença entre os valores médios da emissões de CO e a variabilidade das emissões de CO em causa para cada um dos tipos de carros permitirá, através da Análise de Variância, validar a existência de uma relação entre as emissões de CO e o tipo de combustível.

A Análise de Contingência pode ser interessante no caso de pretendermos avaliar a existência de uma relação entre a classe de automóvel e o tipo de personagem principal do anúncio. Haverá maior tendência para que a personagem principal seja um adulto quando o tipo de carro é um monovolume ou um pequeno familiar e, por ex. um pequeno utilitário quando a personagem principal é um jovem adulto? Através da análise da distribuição

102 M e d i d a s de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 105: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo V

de frequências nas categorias cruzadas das duas variáveis avaliam-se casos destes.

Estas técnicas, e outras que naturalmente decorram de necessidades de apuramento de relações entre variáveis, serão alvo de análise e estudo no 2o

livro sobre o segredo dos dados.

Muito mais, e sempre, haverá a dizer sobre como se processa a informação que temos para conseguir perceber como se articulam as diferentes variáveis cujos valores nos são disponibilizados e, afinal, ao adquirir um conhecimento sustentado sobre o funcionamento dos sistemas em análise, tomar decisões.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Necessidades adicionais

Page 106: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Capítulo III

104 M e d i d a s de localização (quantis) | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 107: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Referências bibl iográficas

Referências bibliográficas

A great value of antiquity lies in the fact that its writings are the only ones that modem men still read with exactriess

Friedrich Wilhelm Nietzsche (1844-1900)

Freedman, David e Diaconis, P. (1981). On the histogram as a density estimator: Li theory. Zeitschrift fur Wahrscheinlichkeitstheorie und verwandte Gebiete 57 (4): 453-476.

Guimarães, Rui e Cabral, J. S. (2007) - Estatística. McGraw-Hill. 2a ed.

Hyndman, Rob J. (1995) - The problem with Sturges's rule for constructing histograms. Working paper at http://robjhyndman.com/papers/sturges.pdf [2009-09-18]

Microsoft (2003) - 2003 Excel 2003 (version 11) included in Office 2003.

Murteira, Bento F. J. (1990) - Probabilidade e Estatística. 2a ed. McGraw-Hill.

Scott, David W. (1979). On optimal and data-based histograms. Biometrika 66 (3): 605-610.

StatSoft, Inc. (2007). Electronic Statistics Textbook. Tulsa, OK: StatSoft. WEB: http://www.statsoft.com/textbook/stathome.html [2009-09-18]

Stuart, Alan e Ord, J.K. (1994) KendaWs Advanced Theory of Statistics, Volume I: Distribution Theory, 6th edn, Edward Arnold.

Sturges, Herbert (1926) - The choice of a class-interval. J. Amer. Statist. Assoe., 21, 65-66.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes |

Page 108: Estatistica Descritiva-livro Professora

| Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 109: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Anexo

ANEXO

Inquérito (Observatório da Publicidade)

Ana Amaro, Cláudia Silvestre, Leonor Fernandes |

Page 110: Estatistica Descritiva-livro Professora

Anexo ESTATÍSTICA DESCRITIVA - O segredo dos dados

CARACTERIZAÇÃO DA PUBLICIDADE EFECTUADA AUTOMÓVEIS Ano Semana Trimestre Marca Sub-marca Sub-categoria de Produto Tipo de produto/serviço Anunciante Campanha Meio publicitário Nome do suporte publicitário Número de registos

INFORMAÇÃO SOBRE A POLUIÇÃO A mensagem contém informação sobre os consumos?

Sim Não

A mensagem contém informação sobre e emissão de C02? Sim Não

CARACTERIZAÇÃO DO ANÚNCIO Caracterização das personagens

O anúncio apresenta alguma personagem? Sim Não

Se sim, que tipo de personagens? Só uma personagem Homem e mulher Casal (casados) Família nuclear Família alargada Grupo de mulheres Grupo de homens Grupo de crianças Grupo de jovens

Conjunto de pessoas não constituídas em grupo Adulto(s) e criança(s) Grupo de pessoas heterogéneas Conjunto de animais Pessoa(s) e animal(is) Personagem(s) animada(s) Grupo de pessoas homogéneas Animal

Do conjunto anterior, qual o género dominante? Masculino Feminino Ambos Indeterminado

É possível identificar uma personagem principal? Sim

108 CARACTERIZAÇÃO DO ANÚNCIO | Ana Amaro, Cláudia Silvestre, Leonor Fernandes

Page 111: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Anexo

Caracterização da personagem principal Tipo de personagem principal? (Escolha apenas uma opção)

Pessoa comum Pessoa ideal Pessoa famosa Outra

Actividades desenvolvidas (Escolha apenas uma opção)

Trabalho Acção associada a luxo e fantasia Lazer Convívio Alimentação Sedução Actividades educativas Actividades desportivas Viagens Compras Cuidados pessoais Puericultura Repouso Actividades domésticas Sem actividade / não identificada Múltiplas actividades Condução

Papel da personagem Testemunho Perito Apresentador/entrevista Influenciador Utilizador Comprador Significante do produto

Caracterização sociodemográfica da personagem Sexo

Masculino Feminino Ambos Indeterminado

Grupo etário Bebé Criança Adolescente Jovem adulto Adulto Meia-idade Idoso Indeterminado Adulto(s) e criança(s)

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Caracterização da personagem principal

Page 112: Estatistica Descritiva-livro Professora

Anexo ESTATÍSTICA DESCRITIVA - O segredo dos dados

Classe social A/B C1 C2 D Indeterminada

Origem da personagem Rural Urbano Indeterminada

Descrição espacial Local onde decorre a acção

Rural Campo / floresta Urbano Rua / Exterior Jardim Estrada Carro Emprego Recinto desportivo (excepto estádio de futebol) Estádio de futebol Espaço comercial Praia

Paisagem marítima Paisagem paradisíaca Paisagem de montanha/neve Aeroportos/gares Deserto Boxes Hotel Discoteca Pista de tartã Sala de aula Garagem Stand Igreja Museu Restaurante Indeterminado

Encenação Entrevista Situação do quotidiano Sedução/sensualidade Bizarro/excêntrico Misterioso Musicais (canção e dança)

Animação Brincadeira Pedagógico Alusão a personagem ideal/famosa/figura ilustre

110 Caracterização da personagem principal | Ana Amaro, Cláudia Silvestre, Leonor

Page 113: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Anexo

Composição cromática Primeira Cor

Metálicos, cinzas Brancos, transparentes Azuis Verdes Vermelhos Amarelos Castanhos Cores fluorescentes Preto Rosa Laranja Preto e branco Dourados Bordeaux Lilás

Segunda Cor

Metálicos, cinzas Brancos, transparentes Azuis Verdes Vermelhos Amarelos Castanhos Cores fluorescentes Preto Rosa Laranja Preto e branco Dourados Bordeaux Lilás

CARACTERIZAÇÃO DO DISCURSO Tipo de discurso

Informacional Transformacional

Se informacional (escolha apenas uma opção) Resolução de um problema Evitar um problema Satisfação incompleta Desejo/receio

Se transformacional (escolha apenas uma opção) Estimulação intelectual Gratificação sensorial Reconhecimento social

Informação sobre o produto O discurso do anúncio mostra o benefício operativo do produto. Expõe o produto sem comentários. Compara com outros produtos. O discurso apresenta provas de performance. 0 discurso apresenta o produto como objecto de moda. O discurso mostra o produtocomo líder de mercado/o mais completo do mercado.

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Caracterização da personagem principal

Page 114: Estatistica Descritiva-livro Professora

Anexo ESTATÍSTICA DESCRITIVA - O segredo dos dados

Argumentos centrais/principais apelos/elementos facilitadores da compra Produto

Test drive Referência ao Consumo de combustível da viatura como apelo Presença de outros modelos Referência a resultados obtidos em testes de segurança Equipamento extra

Preço Preço base - a partir de ... Presença de sistemas de financiamento/crédito

Distribuição Presença do site da marca/empresa/distribuidor Presença de um n° de telefone (linha azul/cliente, etc) Morada de um representante

Promoção Base no preço

redução de preço/baixas prestações 1as prestações sem juros sem entrada inicial desconto em numerário

Base no benefício oferta de extras como equipamento oferta de viagens telemóvel manutenção grátis durante x tempo

Valores do produto Responsabilidade Saudável Utilitário, prático e simples Popular Económico Eficácia Simbólico Inovação Sociabilidade Ecológico Natural Distintividade Confiança Segurança Conforto Acessibilidade Afiliação Rapidez Qualidade de fabrico/origem Bem-estar Liberdade Prazer Versatilidade

112 Caracterização da personagem principal | Ana Amaro, Cláudia Silvestre, Leonor

Page 115: Estatistica Descritiva-livro Professora

ESTATÍSTICA DESCRITIVA - O segredo dos dados Anexo

ESTILOS DE VIDA E VALORES VEICULADOS Estilos de vida veiculados pelo anúncio (Escolha uma e só uma opção.)

Resignados Inconformados Integrados Ambiciosos Vencedores Inquietos Reformadores

Valores veiculados Instrumentais (Escolha dois valores instrumentais de modo hierarquizado.)

Afectuoso Alegre Ambicioso Capaz Controlado Corajoso Educado Espirito Aberto Honesto Imaginativo Independente Intelectual Limpo Lógico Obediente Prestável Responsável Tolerante

Finais (Escolha dois valores finais de modo hierarquizado.)

Amor adulto Respeito por si próprio Felicidade Harmonia interior Igualdade Liberdade Prazer Reconhecimento social Sabedoria Salvação Segurança familiar Segurança nacional Sentido de realização Um mundo de beleza Um mundo de paz Uma vida apaixonante Uma vida confortável Verdadeira amizade

Ana Amaro, Cláudia Silvestre, Leonor Fernandes | Caracterização da personagem principal

Page 116: Estatistica Descritiva-livro Professora

Anexo ESTATÍSTICA DESCRITIVA - O segredo dos dados

ANÚNCIOS CUJO SUPORTE PUBLICITÁRIO É A INTERNET Indicar o tipo de anúncio (quando aplicável)

Banner Botão Floating Ads Silhuetas Pop- up Cursores Wallpaper ads Skyscrapper Ad Words

Indicar se remete para acção O sítio do anunciante Teste drive Simulação de crédito Descrever as que encontrar

114 Caracterização da personagem principal | Ana Amaro, Cláudia Silvestre, Leonor

Page 117: Estatistica Descritiva-livro Professora

-t r

l - .m 2 H I I 6 , a A n a c a C l a u d i a t r a b a l h a r a m . c m c o n j u n t o , n u m

p r o j e c t o m u i t o i n t e r e s s a n t e : d a d o s p r o v e n i e n t e s elo ( ) b s c r v a t o r i o

d e P u b l i c i d a d e ( r e s u l t a d o d e u m p r o t o c o l o e n t r e o I n s t i t u t o d o

C o n s u m i d o r e a K s e o l a S u p e r i o r d c O m i u n i c a e à o S o c i a l , c m

L i s b o a ) f o r a m d i s s e c a d o s u t i l i z a n d o a n a l i s e e s t a t í s t i c a

m u l t i v a r i a d a .

I m d o s r e s u l t a i - l o s d e s s e p r o j e c t o c o i i | u n t o f o i a n e c e s s i d a d e d c

c o n i c c a v a t r a d u z i r p o r e s c r i t o a n o s s a p o s t u r a p e r a n t e o e n s i n o c

a a p r e n d i z a g e m d c \ n a l i s e d c D a d o s . A I . c o i i o r a s s i s t i n d o a o

p r o c e s s o d c p e r t o , n a t u r a l m e n t e , a d e r i u a o p v o | e c t o .

I '. u m l i v r o o n d e se e n s i n a a t r a b a l h a r i n f o r m a ç ã o , a p r o c e s s a r

d a d o s u t i l i z a n d o t é c n i c a s g r á f i c a s e n u m é r i c a s n o â m b i t o d a d e s c r i ç ã o u n i v a r i a d a d a i n f o r m a ç ã o ; u t i l i z a n d o a e s t a t í s t i c a t i o

p o n t o d c v i s t a d c c ] u c m \ a i l e r e i n t e r p r e t a r o r e s u l t a d o d e s s e

pr< i c e s s a m e i i t i >.

I i n l i v r o e s s e n c i a l a a l u n o s d e l i c e n c i a t u r a s e m e s t r a d o s ,

i n v e s t i g a d o r e s e a i n d a a c | u a k ] i i c r a n a l i s t a d c d a d o s e m i | u a k | t i c r

a r c a ela c i ê n c i a .

M m l u r o e s s e n c i a l m e n t e p r a t i c o c o n d u z i d o a t r a v é s d c d o i s c a s o s

ele e s t u d i > l ea is .

I s e m n o , L i a s i c m - n o c u s u f r u a m . . .

\ n a . ( Cláudia c I ,c< >n< >r, 2( HIV

]mp://www.lulu.c« >ni ei inlenl / papcrback-lx >< >k/cMat" nc3" ";uUliea-

dc^cnli\".i-o-seLJ,re(.l« i-c.li cladi >s/ (> W 4 >