curso de especializa˘c~ao em an alise de dados · 2008. 10. 8. · cartas de amor 9 folhas de...

88
Curso de Especializa¸c˜ ao em An´ alise de Dados Unidade I - Recolha e An´ alise Descritiva de Dados Madalena Malva Departamento de Matem´ atica Escola Superior de Tecnologia 8 de Outubro de 2008 Madalena Malva Curso de Especializa¸c˜ ao em An´ alise de Dados

Upload: others

Post on 10-Mar-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Curso de Especializacao em Analise de DadosUnidade I - Recolha e Analise Descritiva de Dados

Madalena Malva

Departamento de MatematicaEscola Superior de Tecnologia

8 de Outubro de 2008

Madalena Malva Curso de Especializacao em Analise de Dados

Page 2: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

[...] Agradeceu ao seu salvador e perguntou-lhe como e que ele se encontrava ali tao a jeito, e Valenzuelarespondeu-lhe que ultimamente decidira especializar-se em apanhar os objectos que caıam do ceu, e que ao contaristo ao senhor Irureta, que era, como se sabe, muito seu amigo, este tinha colocado a sua disposicao um carro delixo antiquado que enferrujava nos armazens do Departamento de Limpeza Publica e Similares, com o qual saıa anoite como um cacador com a sua espingarda, sem tirar nem por, embora a forma do instrumento de que se valialevasse mais a compara-lo com um pescador daqueles que pescam com redes concavas. ”E caem muitascoisas?”perguntou-lhe Bastida. ”E conforme. Com isto acontece como com a pesca e com a caca. As vezesregresso com o recipiente cheio ate cima. Outras, levo-o meio vazio, a ate houve noites em que nem um relespardal caiu.” ”E o que e que ja apanhou?”O senhor Benito Valenzuela tirou um papel do bolso: ”Olhe, tenho aquiuma estatıstica”. E comecou a le-la em voz alta:

Chaves-inglesas 107Parafusos 16Chapeus de senhora 13Guarda-chuvas de homem 9Papagaios de papel 99Suspiros (que sao ar e vao para o ar) 568Restos minerais 45Criancas recem-nascidas 1Chinelos de bruxa desemparelhados 75Aerolitos 3Projectos de reforma agraria 12Cartas de amor 9Folhas de arvore caıdas 7

Madalena Malva Curso de Especializacao em Analise de Dados

Page 3: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

A lista era mais comprida, mas Benito interrompeu-o para lhe perguntar a que atribuıa ele tantas chaves-inglesas e

tao pouca folhas de arvores e criancas, e o senhor Benito respondeu-lhe que as chaves-inglesas eram atiradas, nao

havia duvidas, pelos tripulantes dos avioes sovieticas, com a pior das intencoes, claro. Quanto a escassez de folhas,

considerava-a ocasional, dado que era Primavera, mas no Outono haveria muito mais. ”O menino, a minha mulher

diz que o deu a luz as escondidas a minha filha Lola, mas voce sabe como e que as mulheres sao, e a minha, que

odeia a filha, dedica-se a levantar-lhe calunias como esta.” ”E ha alguma coisa que o senhor espere de uma forma

especial, algo que o faria feliz?” ”Sim, sempre ouvi dizer que a Justica de Deus vem do ceu, e eu gostaria de a

apanhar alguma vez, mas desconheco a forma que ela tem.” ”Triangular, sem duvida. Deus mesmo teria forma

triangular se ao mesmo tempo nao a tivesse esferica. Mas nao lhe sera difıcil reconhece-la.” ”Eu gostaria que

assim fosse, sim.” ”E que faria com ela?” ”Guarda-la a sete chaves. A justica divina e perigosa para a sociedade,

e eu, sabe?, defendo o que esta estabelecido.”[...]

Gonzalo Torrente Ballester, A Saga/ Fuga de J.B.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 4: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Salientamos a palavra ”Estatıstica”. Entre outros significados”Estatıstica”serve para designar um rol com o recitado pelosenhor Valenzuela. E, como no dialogo que se segue entre o senhorVelenzuela e Bastida esse rol e a base de interpretacoes; a par deinterpretacoes fantasiosas, ha a observacao do senso comum

”Quanto a escassez de folhas, considerava-a ocasional, dado queera Primavera, mas no Outono haveria muito mais”

que traduz o reconhecimento de um padrao, de uma repeticaocıclica da caducidade das folhas de arvores.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 5: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

[...] - Bom dia - disse O’Toole, sentando-se a meu lado. - Dormiu bem?- Dormi. E voce?Ele abanou a cabeca:Tirou o livro de apontamentos e pos-se de novo a escrever as suas misteriosas colunas de numeros.- Investigacao? - perguntei eu.- Oh – disse ele, – isto nao e oficial- A fazer apostas sobre a velocidade do barco?- Nao, nao. Eu nao sou um homem de apostas.Lancou-me um dos seus habituais olhares carregados de melancolia e de ansiedade.- Nunca falei nisto a ninguem, Henry – disse ele.– Muita gente havia de achar disparatado. A verdade e que tomonota do tempo enquanto mijo e depois aponto o tempo e as horas que sao. Ja pensou que gastamos mais do queum dia inteiro por ano a mijar?- Valha-me Deus! – exclamei eu.- Posso provar-lhe, Henry. Olhe para aqui.Abriu o livro de apontamentos e mostrou-me uma pagina onde estava escrito mais ou menos o seguinte:

28 de Julho07:15 17s10:45 37s12:30 50s13:15 32s13:40 50s14:05 20s15:45 37s18:40 28s10:30 ? (esqueci-me de cronometar)

Total 4m 31 s

Madalena Malva Curso de Especializacao em Analise de Dados

Page 6: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

[...] E acrescentou:

- E so multiplicar por sete. Da meia hora por semana. Vinte e seis horas por ano. Claro que a vida a bordo naoserve de bitola. Bebe-se muito entre as refeicoes. E esta-se sempre a beber cerveja... Veja este tempo aqui: 1minuto e 55 segundos. E mais do que a media, mas eu ao lado tinha anotado dois gins. Ha tambem uma data devariacoes com que eu nao tinha contado e, daqui em diante, vou passar a tomar tambem nota da temperatura.Veja aqui, 25 de Julho: 6 minutos e 9 segundos inc., quer dizer, incompleto... Fui jantar fora em Buenos Aires edeixei o livro de apontamentos em casa. E aqui, no dia 27 de Julho: so 3 m e 12 s ao todo, mas se se lembrasoprava um vento forte e frio no dia 25 e eu saı para jantar sem sobretudo.- E vai tirar conclusoes? - perguntei eu.- Nao e essa a minha funcao - disse ele. Eu nao sou perito. Limito-me a apurar factos e quaisquer dados, como osgins e o tempo, que possam ter qualquer influencia. Outros que tirem as conclusoes.- Que outros?- Bom, ja pensei por-me em contacto com um especialista em urologia, quando tiver completado seis meses deinvestigacao. Nem imagina o partido que ele pode tirar destes numeros. Sao tipos que andam sempre a lidar comdoentes. Para eles e muito importante saber o que acontece com um indivıduo normal.- E voce e um individuo normal?- Pois claro, Henry. Eu sou cem por cento saudavel. Tenho que ser, no meu trabalho.- Para a CIA? - perguntei eu.

- Nao faca pouco de mim, Henry. Nao me diga que acredita no que lhe impingiu essa tontinha? [...]

Graham Greene, Viagens com a Minha Tia

Madalena Malva Curso de Especializacao em Analise de Dados

Page 7: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Enquanto o texto de Ballester aponta a Estatıstica como umadescricao, o texto de Graham Greene refere tambem ascaracterısticas indutivas da Estatıstica - a capacidade de apartir de uma pequena parte (amostra) inferir para toda apopulacao.Mas um e outro texto referem que o conhecimento estatısticocomeca com a recolha de dados.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 8: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

O proposito ultimo da analise estatıstica e inferir, a partir de umaamostra, as caracterısticas de uma populacao, ou compararpopulacoes; e se possıvel, predizer acontecimentos futuros (nosentido especıfico de avaliar as suas probabilidades).

Mas nao ha trabalho estatıstico efectivo sem dados, que tem queser recolhidos com metodologias estatısticas apropriadas. Asamostras em que se fundamenta a inducao tem que serrepresentativas da populacao.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 9: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Obtencao dos Dados

Os objectos de estudo da Estatıstica sao os dados estatısticos, eo objectivo da Estatıstica e obter dados, por observacoes ouproduzindo-os intencionalmente, descreve-los, sumariza-los,agrupa-los, orzaniza-los e interpretar os resultados da analise.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 10: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Obtencao dos Dados

Unidades amostrais sao os elementos sobre os quais temos acessoa dados.

Variavel Estatıstica caracterıstica que pode ser diferente nasdiversas observacoes feitas, e pode ser de natureza qualitativa ouquantitativa.

Sobre qualquer unidade amostral, podemos observar qualidades oumedir quantidades.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 11: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Obtencao dos Dados

Estatıstica qualitativa ocupa-se de variaveis qualitativas, emgeral contagens ou frequencias absolutas, ou percentagens oufrequencias relativas das classes ou categorias, sendo as variaveisnominais ou ordinais.

Estatıstica quantitativa ocupa-se de variaveis quantitativas, queem geral resultam de contagens (por exemplo, de efectivospopulacionais) ou de medicoes.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 12: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Obtencao dos Dados

Populacao conjunto de todos os valores que descrevem umfenomeno que interessa investigar.

Exemplos

1. Populacao Portuguesa.

2. Populacao das temperaturas maximas diarias observadas emJaneiro em Viseu.

3. Populacao das notas de ingresso obtidas pelos alunos quepretendem entrar no ensino superior em 2007.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 13: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Obtencao dos Dados

Censo ou recenseamento, e a coleccao dos dados de todos oselementos da populacao.

Amostra e um subconjunto de elementos (unidades amostrais)extraıda – com uma metodologia estatıstica apropriada – dapopulacao.

Assim, um censo seria idealmente uma amostra com dimensaoigual a da populacao.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 14: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Planeamento de Experiencias

O cerne do planeamento de experiencias e delinear uma forma deproduzir dados mais informativos (e a mais baixo preco, sepossıvel), e a metodologia estatıstica apropriada para analisar osdados assim produzidos.

Subgrupos da mesma populacao sao sujeitos a tratamentosdiferentes, e observa-se as modificacoes decorrentes detratamentos diferentes.

E fundamental decidir o que se vai medir (variavel resposta), quaisas condicoes (tratamentos) a considerar, e quais as unidadesexperimentais que vao ser usadas, e identificar bem as fontes devariabilidade.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 15: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Amostragem

Disciplina que aborda as metodologias de obtencao de dados, emgeral de populacoes finitas, ainda de dimensao porventura elevada.

Usa-se em estudos observacionais, em que se pretende que ascondicoes em que a amostra e recolhida nao modifiquem a essenciado que estamos a observar.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 16: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Tipos de Amostragem

Existem tecnicas de amostragem Probabilısticas e NaoProbabilısticasCaracterısticas das amostragens nao probabilısticas:

Baseiam-se no julgamento pessoal do investigador.

O investigador escolhe (de modo consciencioso ou nao) oselementos a incluir na amostra

Podem levar a boas estimativas das caracterısticas dapopulacao.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 17: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Tipos de Amostragem Nao Probabilıstica

1. Conveniencia

Tem como objectivo obter uma amostra de elementosconvenientes. A seleccao das unidades amostrais e deixada acargo do entrevistados.

Exemplos

? Uso de estudantes de uma determinada escola, elementos deorganizacoes sociais;

? Uso de taloes de compra (venda) por parte das lojas;? Questionarios incluıdos em revistas;? Intercepcao de pessoas na rua.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 18: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Tipos de Amostragem Nao Probabilıstica

2. Julgamento

Caso particular da amostragem por conveniencia em que oselementos da amostra sao seleccionados com base numjulgamento do investigador.

Exemplos

? Testar o potencial de um novo produto;? Escolha de uma determinada pessoa de uma organizacao na

conviccao que esta representa a organizacao.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 19: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Tipos de Amostragem Nao Probabilıstica

3. QuotasPode ser vista como uma amostragem por julgamento feitaem duas fases.

1a fase Desenvolver/criar categorias de controle ou quotas doselementos da populacao. O investigador deve listar ascaracterısticas de controle relevantes e determinar a suadistribuicao na populacao alvo.

Exemplo de caracterısticas de controle relevantes: sexo, idade,raca, etc..

Na maioria das vezes as quotas sao atribuıdas de modo a quea proporcao de elementos na amostra, com determinadacaracterıstica, seja igual a proporcao de elementos napopulacao com a mesma caracterıstica.

2a fase Os elementos da amostra sao seleccionados com base numjulgamento ou de modo conveniente. Uma vez atribuıdas asquotas existe uma liberdade consideravel na seleccao doselementos a incluir na amostra.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 20: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Tipos de Amostragem Nao Probabilıstica

4. SnowballI Um grupo inicial de inquiridos e escolhido aleatoriamente.I Depois do inquerito feito e pedido a cada elemento da amostra

que identifique outros que pertencam a mesma populacao alvode interesse.

I Os inquirido seguintes sao escolhidos com base nas referenciasdadas!

I Este processo pode ser repetido as vezes que foremnecessarias, levando ao efeito bola de neve.

I Apesar da aleatoriedade da escolha dos elementos da primeiraamostra a amostra final nao e probabilıstica!

I O maior objectivo deste tipo de amostragem e”estimar”caracterısticas raras na populacao.

Exemplo: Taxa de infectados com HIV na populacao dostoxicodependentes!

Madalena Malva Curso de Especializacao em Analise de Dados

Page 21: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Tipos de Amostragem Nao Probabilıstica

Por muito sofisticada que seja a escolha da amostra qualqueramostragem nao aleatoria nao permite a quantificacao da precisaodos resultados, fornecendo por isso informacao cuja precisao eimpossıvel avaliar.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 22: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Tipos de Amostragem Probabilıstica

Caracterısticas das amostragens probabilısticas

I Cada elemento da populacao tem uma probabilidadeconhecida de pertencer a amostra (de ser seleccionado)

I Varia em termos de eficiencia amostral.

I Eficiencia amostral reflecte a relacao entre o custo daamostragem e a precisao da amostra.

I Precisao – nıvel de incerteza na caracterıstica mensurada.Esta inversamente relacionada com os erros de amostragemmas relacionada positivamente com o custo.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 23: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Tipos de Amostragem Probabilıstica

1. Amostragem Aleatoria SimplesI Cada elemento da populacao tem igual probabilidade de ser

seleccionado, e e seleccionado independentemente dos outros.I A amostra e seleccionada usando um processo aleatorio, por

exemplo, uma tabela de numeros aleatorios.I De facil compreensao.I Os resultados amostrais podem ser projectados na populacao.I E difıcil construir um processo amostral que conduza a uma

amostra aleatoria facil de recolher.I Pode conduzir a custos elevados.I Pode ou nao resultar numa amostra representativa da

populacao.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 24: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Tipos de Amostragem Probabilıstica

2. Amostragem sistematicaI E escolhido um ponto aleatorio de partida e depois sao

escolhidos os casos num intervalo i tal que i = Nn a partir do

numero aleatorio inicial.Exemplo: A populacao tem 1000 (N) indivıduos amostrapretendida e de 100 (n). Entao, o intervalo e de 10 em 10.

I Como no caso das amostras aleatorias cada elemento dapopulacao tem igual e conhecida probabilidade de pertencer aamostra.No entanto, apenas as amostras de tamanho n permitidas temprobabilidade igual e conhecida de seleccao, as outras temprobabilidade zero.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 25: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Tipos de Amostragem Probabilıstica

3. Amostragem estratificada

Processo em duas fases na qual a populacao e particionadaem varias subpopulacoes ou estratos.

1a fase Construcao dos estratosOs estratos devem ser mutuamente exclusivos e exaustivos demodo a que todo o elemento da populacao pertenca a um e umso estrato e nenhum elemento da populacao deve ser omitido.

2a fase Construcao da amostraOs elemento seleccionados para a amostra sao seleccionadosde cada um dos estratos por um processo aleatorio(normalmente por amostragem aleatoria simples)

Madalena Malva Curso de Especializacao em Analise de Dados

Page 26: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Tipos de Amostragem Probabilıstica

Amostragem estratificada

As variaveis utilizadas para dividir a populacao em estratos saochamadas variaveis de estratificacao. E devem ser escolhidas deacordo com:

1. Homogeneidade/heterogeneidade da populacao;

2. Custo;

3. Grau de relacionamento entre as variaveis.

4. Os elementos dentro de cada estrato devem ser o maishomogeneos possıveis, mas os estratos devem ser o maisheterogeneos possıveis.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 27: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Tipos de Amostragem Probabilıstica

Amostragem estratificada

As variaveis de estratificacao devem estar intimamenterelacionadas com as caracterısticas de interesse.

Exemplo de variaveis de estratificacao:

I caracterısticas demograficas;

I tipo de cliente;

I tamanho da empresa;

I tipo de industria.

Decisao importante: numero de estratos a utilizar nao deveultrapassar os seis!

Madalena Malva Curso de Especializacao em Analise de Dados

Page 28: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Tipos de Amostragem Probabilıstica

3. Amostragem por clusters (grupos)

I A populacao alvo e em primeiro lugar dividida emsubpopulacoes ou clusters mutuamente exclusivos ecolectivamente exaustivos.

I De seguida uma amostra aleatoria de clusters e seleccionadacom base numa tecnica de amostragem aleatoria comoamostragem aleatoria simples.

I Os elementos de cada cluster devem ser o mais heterogeneospossıveis, mas entre si os clusters devem ser o maishomogeneos possıveis.

I Idealmente, cada cluster deve ser uma representacao dapopulacao a escala.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 29: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Construcao de um inquerito por questionario

Questionario tecnica estruturada para recolha de dados queconsiste numa serie de questoes escritas ou orais a que osinquiridos devem responder.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 30: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Construcao de um inquerito por questionario

Objectivos de um questionario

I Deve traduzir a informacao necessaria atraves de um conjuntode questoes especıficas, de modo que os inquiridos possam edevam responder;

Difıcil, e a objectividade e um desafio!

I Deve motivar e encorajar o inquirido a cooperar e a responderao questionario ate ao final.

I Deve minimizar o numero de respostas com erro.

Questionario e a maior fonte de respostas erro, minimizar estetipo de erro e um dos objectivos mais importantes no desenhodo questionario.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 31: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Construcao de um inquerito por questionario

Fases no desenho de um questionario

I Especificar a informacao necessariaI Que informacao e necessaria para responder a todas as

questoes levantadas pelo problema em estudo?I A medida que o projecto de pesquisa avanca torna-se mais

claro que tipo de informacao e necessaria.

I Especificar o tipo de entrevista a utilizarO metodo escolhido para administrar o questionario tembastante influencia no proprio questionario.

I Entrevista PessoalPerguntas longas e complexas podem ser feitas.

I Entrevista TelefonicaPerguntas pequenas e simples

I · · ·

Madalena Malva Curso de Especializacao em Analise de Dados

Page 32: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Construcao de um inquerito por questionario

Fases no desenho de um questionario

I Determinar o conteudo individual das questoes

Toda a pergunta incluıda num questionario deve contribuirpara a informacao pretendida ou servir algum proposito.

I Questoes construıdas de forma claraExemplo: Acha que a Coca-Cola e uma bebida saborosa erefrescante?

Resposta ”Sim”e clara!

Resposta ”Nao”nao e clara! Nao a que?

Nao e saborosa?

Nao e refrescante?

Nao e saborosa nem refrescante?

Madalena Malva Curso de Especializacao em Analise de Dados

Page 33: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Construcao de um inquerito por questionario

Fases no desenho de um questionario

I Decidir a estrutura das questoes

I Perguntas nao estruturadas sao perguntas abertas a que oinquirido responde pelas suas proprias palavras, tambemreferidas como perguntas de resposta livre.

Exemplos

Qual e a sua profissao?

Qual e a sua figura publica favorita?

I Perguntas estruturadas especificam um conjunto de respostasalternativas e o formato da resposta. Uma perguntaestruturada pode ser de escolha multipla, dicotomica ou deescala.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 34: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Construcao de um inquerito por questionario

Fases no desenho de um questionario

I Escolher a melhor forma de escrever a questao

Tarefa mais crıtica e difıcil no desenvolvimento de umquestionario!

Linhas mestras a seguir na escrita de uma questaoI Definir o assuntoI Usar palavras ordinariasI Evitar palavras ambıguasI Evitar perguntas guiaI Evitar perguntas implıcitasI Evitar hipoteses implıcitasI Evitar generalizacoes e estimativasI Usar afirmacoes negativas e positivas.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 35: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Construcao de um inquerito por questionario

Fases no desenho de um questionario

I Determinar a ordenacao das perguntas

I Perguntas de aberturaCruciais para ganhar a confianca e cooperacao do inquirido.Devem ser: interessantes, simples e nao assustadoras!O que e que pensa sobre o novo centro comercial?

I Perguntas de informacaoI Basica

Esta directamente relacionada com o problema em estudo. Ea mais importante e deve ser obtida antes que o inquirido sechateei.

I ClassificacaoCaracterısticas socioeconomicas e demograficas, usada paraclassificar os inquiridos e compreender os resultados.

I IdentificacaoNome, morada, e-mail, numero de telefone, etc.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 36: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Construcao de um inquerito por questionario

Fases no desenho de um questionario

I Questoes difıceisQuestoes sensıveis, embaracantes e complexas devem sercolocadas o mais tarde possıvel na sequencia das questoes.Por exemplo o no de telefone deve ser a ultima questao naseccao de classificacao!

I Efeito nas perguntas seguintesPerguntas gerais devem anteceder as perguntas especıficas.Aproximacao em funil — ir do geral para o especıfico!

Madalena Malva Curso de Especializacao em Analise de Dados

Page 37: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Construcao de um inquerito por questionario

Fases no desenho de um questionario

I Ordem logicaPerguntas que tratem de um topico devem ser feitas antes deentrar num novo topico.Perguntas branching (ramificacao) direccionam os inquiridospara diferentes partes do questionario.A pergunta para a qual o inquirido e enviado deve estar omais proximo possıvel da pergunta que causou o desvio.As perguntas branching devem estar ordenadas de modo aque o inquirido nao possa antecipar a informacao pedida.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 38: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Construcao de um inquerito por questionario

Fases no desenho de um questionario

I Identificar a forma e o layout do questionarioI Dividir o questionario em varias partes.I As questoes devem ser numeradas principalmente se se usar

perguntas de ramificacao.I Pre codificar as perguntas.I Cada questionario deve ser tambem numerado (no de serie).

Madalena Malva Curso de Especializacao em Analise de Dados

Page 39: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Construcao de um inquerito por questionario

Fases no desenho de um questionario

I Reproduzir o questionarioI Deve ser impresso em papel de boa qualidade e ter boa

aparencia.I Deve evitar-se partir as questoes e/ou categorias de resposta.I Deve usar-se colunas verticais.I As perguntas nao devem estar em cima umas das outras.I Instrucoes sobre como responder a determinada pergunta

devem ser colocadas antes da respectiva pergunta.I E pratica comum usar diferentes tipos de letras para perguntas

e instrucoes.I Cores podem ser usadas.I Tipo de letra deve ser grande e claro.I Pequenos questionarios sao preferıveis a longos.I O questionario deve ser feito de modo a que seja de facil

leitura e resposta.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 40: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Construcao de um inquerito por questionario

Fases no desenho de um questionario

I Testar o questionarioTestar o questionario numa pequena amostra de inquiridospara eliminar potenciais problemas. Todos os aspectos doquestionario devem ser testados:

I Conteudo dos questoesI EscritaI SequenciaI FormaI LayoutI Dificuldade das perguntasI Instrucoes.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 41: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Calculo da dimensao da amostra usando intervalos de confianca

I Especificar o nıvel de precisao

D = max(X − µ) ou D = max(p − π) .

I Especificar o nıvel de confianca

I Determinar o valor de z associado ao nıvel de confianca

I Determinar o desvio padrao (σ) da populacao (ou usarestimativas)

I Formula de n para

Media : n =σ2z2

D2, Proporcao : n =

π(1− π)z2

D2

ondeπ – e a proporcao de sucesso na populacao.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 42: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

No caso de proporcoes o tamanho da amostra pode ser obtido demodo a reflectir a variacao maxima possıvel, o que acontecequando π(1− π) = 0.25.O tamanho da amostra aumenta com a variabilidade da populacao,grau de confianca e o nıvel de precisao .

Madalena Malva Curso de Especializacao em Analise de Dados

Page 43: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Tipos de Escalas

1. Escala Nominal

Categorias cuja sequencia e arbitraria, pois os numeroscodificam apenas ”nomes”, sao apenas rotulos.Exemplo: Sexo:

I Masculino→ 0I Feminino→ 1

2. Escala Ordinal

Ha uma ordenacao natural das categorias (por exemplo classesetarias) e consequentemente as comparacoes ordinais saolegıtimas.Exemplo: Escolaridade

I 9oano→ 0I 12oano→ 1I Licenciatura→ 2I Mestrado→ 3

Madalena Malva Curso de Especializacao em Analise de Dados

Page 44: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Tipos de Escalas

3. Escala Intervalar

Medicoes numa escala em que o zero e arbitrario, pelo que ascomparacoes ordinais e as operacoes aritmeticas de soma esubtraccao fazem sentido, mas os quocientes nao saolegıtimos.

Exemplo: Temperatura.

4. Escala Absoluta ou de Razoes

O zero da escala corresponde a anulacao da caracterıstica emestudo, pelo que quer ordenacoes quer operacoes aritmeticas,sejam elas de soma e subtraccao, sejam elas de comparacaoatraves de quocientes, sao legıtimas.

Exemplo: Altura, peso, rendimento.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 45: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Vamos admitir que a recolha dos dados foi devidamente planeada eexecutada, e que os dados foram bem registados, o tratamentoinicial mais frequente consiste em:

I ordenar os dados;

I calcular caracterısticas amostrais de localizacao e escala;

I investigar assimetrias;

I agrupar os dados;

I representar os dados.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 46: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Uma primeira recomendacao e comecar por uma exploracao visualdos dados.Consideremos:

I Populacao ou amostra de n indivıduos.

I O atributo A com p modalidades: A1,A2, · · · ,Ap.

Define-se

I Frequencia absoluta ou efectivo da modalidade Ai → ni , e onumero de indivıduos que apresentam a modalidade Ai .

I Frequencia relativa da modalidade Ai → fi , e a proporcao deindivıduos que apresentam a modalidade Ai , fi = ni

n .

Tem-se quep∑

i=1

ni = n e

p∑i=1

fi = 1 .

Madalena Malva Curso de Especializacao em Analise de Dados

Page 47: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Representacao Tabular - Quadros de Frequencias

Modalidades Frequencias Frequencias Frequencias FrequenciasAbsolutas Relativas Absolutas Relativas

Acumuladas Acumuladas

A1 n1 f1 =n1n

n1 f1A2 n2 f2 =

n2n

n1 + n2 f1 + f1

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

Ap np fp =npn

n1 + n+ · · · + np = n f1 + f1 + · · · + fp = 1

Total n 1 − −

Madalena Malva Curso de Especializacao em Analise de Dados

Page 48: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Exemplo: Os dados que se seguem sao relativos as vendas (emcentenas de Euros) de 30 vendedores de uma empresa no mes deOutubro passado.

120 130 80 100 110 100 90 70 140 120

140 110 100 100 110 70 90 90 130 150

160 80 70 120 100 110 110 80 100 120

Madalena Malva Curso de Especializacao em Analise de Dados

Page 49: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica DescritivaTabela de frequencias - dados nao agrupados

xi Freq. Freq. Freq. Freq.absolutas relativas absolutas relativas

ni fi acumuladas acumuladas

70 3 330 3 3

30

80 3 330 6 6

30

90 3 330 9 9

30

100 6 630 15 15

30

110 5 530 20 20

30

120 4 430 24 24

30

130 2 230 26 26

30

140 2 230 28 28

30

150 1 130 29 29

30

160 1 130 30 1

Total 30 1 − −

Madalena Malva Curso de Especializacao em Analise de Dados

Page 50: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Tabela de frequencias - dados agrupados

xi Freq. Freq. Freq. Freq.absolutas relativas absolutas relativas

ni fi acumuladas acumuladas

[60, 80[ 3 330 3 3

30

[80, 100[ 6 630 9 9

30

[100, 120[ 11 1130 20 20

30

[120, 140[ 6 630 26 6

30

[140, 160[ 3 330 29 29

30

[160, 180[ 1 130 30 1

Total 30 1 − −

Madalena Malva Curso de Especializacao em Analise de Dados

Page 51: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Dados agrupados vs. Dados nao agrupados

I Os intervalos de classe podem ter a mesma amplitude ouamplitudes diferentes dependendo dos fenomenos em estudo.

I Agrupar dados implica perda de informacao.I Regras praticas para a determinacao do no de classe:

I Regra de Sturges - no de classes ∼= 1 + log10(n)log10(2)

I Outra - no de classes ∼=√

n (usualmente empregue quandon > 25).

Madalena Malva Curso de Especializacao em Analise de Dados

Page 52: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Representacao grafica de dados nao agrupados

I Caixa de bigodes

I Grafico de barras

I Polıgono de frequencias

I Histograma

Madalena Malva Curso de Especializacao em Analise de Dados

Page 53: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Representacao grafica de dados agrupados

I Polıgono de frequencias

I HistogramaNo histograma toma-se rectangulos justapostos, cada um combase proporcional a amplitude da classe respectiva e altura hi

dada por:

hi =

{ni

ai+1−ai(frequencias absolutas)

fiai+1−ai

(frequencias relativas)

Madalena Malva Curso de Especializacao em Analise de Dados

Page 54: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

A area de cada rectangulo e entao proporcional a frequencia daclasse respectiva:

area do i-esimo rectangulo =

{ni (frequencias absolutas)fi (frequencias relativas)

I A area total dos histograma e igual a n se forem usadasfrequencias absolutas e igual a 1 se forem usadas frequenciasrelativas.

I Note-se porem que, quando as classes tem todas a mesmaamplitude e costume, para facilitar a representacao, tomarpara altura de cada rectangulo a frequencia absoluta ourelativa da classe a que respeita.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 55: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica DescritivaMedidas de Localizacao ou de Tendencia Central

Dao-nos uma ideia do ”centro”ou ”localizacao”da distribuicao dosdados.

I Media AritmeticaSejam X1, x2, · · · , xp os valores distintos de um conjunto de ndados, cada um deles com frequencia absoluta ni e frequenciarelativa fi . Entao a media aritmetica representa-se por x e edada por:

x =1

n

n∑i=1

nixi =n∑

i=1

fixi .

Para dados agrupados em classes toma-se para xi o pontomedia da i-esima classe; ni e fi serao, naturalmente, afrequencia absoluta e relativa da i-esima classe,respectivamente.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 56: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Medidas de Localizacao ou de Tendencia Central

I MedianaTrata-se do valor que divide o conjunto de dados, ordenadospor ordem crescente, em duas partes iguais. Isto e, a mediana,como o proprio nome indica, e o ponto mediano de umconjunto de dados ordenados por ordem crescente.

Sejam x1, x2, · · · , xn, n observacoes ordenadas por ordemcrescente dos seus valores, e que constituem o conjunto dedados em analise.

Me =

{x(n+1)/2 se n e impar

xn/2+x(n/2+1)

2 se n e par

Madalena Malva Curso de Especializacao em Analise de Dados

Page 57: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Medidas de Localizacao ou de Tendencia Central

Para dados agrupados em classes, procuramos a classe mediana,sendo esta tal que a sua frequencia absoluta (resp. relativa)acumulada e ≥ n/2 (resp. 1/2) e a frequencia absoluta (resp.relativa) acumulada da classe anterior e < n/2 (resp. 1/2).

Depois de encontrada a classe mediana, [aj , aj+1[, encontra-se amediana por interpolacao linear:

Me = aj +

n2 −

j−1∑i=1

ni

nj(aj+1 − aj) .

Madalena Malva Curso de Especializacao em Analise de Dados

Page 58: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Medidas de Localizacao ou de Tendencia Central

I ModaI E o valor mais frequente num conjunto de dados.I Havendo mais do que dois valores modais, a distribuicao diz-se

multimodal.I Quando os dados estao agrupadas em classes, a classe modal e

aquela que tem maior frequencia por unidade de amplitude.

Nestes casos nao podemos determinar o valor exacto da modapois nao sabemos como estao distribuıdas as observacoesdentro de cada classe.

Podemos, no entanto, obter uma aproximacao da Modausando uma das seguintes formulas:

Madalena Malva Curso de Especializacao em Analise de Dados

Page 59: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Medidas de Localizacao ou de Tendencia Central

I Formula de King

Mo = aj +nj+1

nj−1 + nj+1(aj+1 − aj)

I Formula de Czuber:

Mo = aj +nj − nj−1

(nj − nj−1) + (nj − nj+1(aj+1 − aj)

onde

I [aj , aj+1[ e a classe modal;

I nj e a frequencia absoluta desta classe;

I nj+1 e nj sao, respectivamente a frequencia absoluta da classeanterior e posterior a modal.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 60: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Medidas de Localizacao nao Central – Quantis: Qp

Quando o conjunto da dados ordenados, por ordem crescente, edividido em 4 partes iguais, os pontos de divisao sao chamados osquartis:

I Q1/4, 1o quartil – valor que tem cerca de 25% dos dadosabaixo dele;

I Q2/4, 2o quartil – valor que tem cerca de 50% dos dadosabaixo dele - trata-se da Mediana;

I Q3/4, 3o quartil – valor que tem cerca de 75% dos dadosabaixo dele.

Podemos ainda calcular os quintis, decis, percentis, · · ·

Madalena Malva Curso de Especializacao em Analise de Dados

Page 61: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Medidas de Localizacao nao Central - Quantis: Qp

Calculo do quantil de ordem p,Qp,

I Dados Nao AgrupadosSejam x1, x2, · · · , xn, n observacoes ordenadas por ordemcrescente dos seus valores.

I Se np nao e um inteiro, entao

Qp = xk , onde k

e o maior inteiro imediatamente a seguir a np.I np um inteiro entao

Qp =xnp + xnp+1

2

.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 62: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Medidas de Localizacao nao Central - Quantis: Qp

I Dados Agrupados em ClassesSeja [aj , aj+1[ a classe que contem Qp, isto e, que contem ovalor ao qual corresponde a frequencia absoluta (resp.relativa) acumulada de np (resp. p).Por interpolacao linear obtem-se Qp:

Qp = aj +

np −j−1∑i=1

ni

nj(aj+1 − aj) .

Madalena Malva Curso de Especializacao em Analise de Dados

Page 63: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica DescritivaPosicao relativa da media, mediana e moda

As distribuicoes de frequencias podem ser simetricas ou nao.Consideremos apenas distribuicoes unimiodais, tem-se:

I Distribuicoes simetricas

x = Me = M0 .

I Distribuicoes assimetricas positivas

M0 < Me < x

A cauda direita e mais longa e menos abrupta do que aesquerda.

I Distribuicoes assimetricas negativas

x < Me < M0

A cauda esquerda e mais longa e menos abrupta do que adireita.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 64: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Nas distribuicoes assimetricas os valores extremos da cauda maislonga ”puxam”a media para o lado direito/esquerdo. A mediana,como divide a area em duas partes iguais, para compensar areducao de area no lado abrupto, afasta-se tambem da moda, masmenos do que a media.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 65: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica DescritivaMedidas de Dispersao

Sejam x1, x2, · · · , xp os valores distintos de um conjunto de ndados, cada um deles com frequencia absoluta ni e frequenciarelativa fi .

I VarianciaSe estes dados constituem observacoes feitas sobre toda apopulacao denota-se por σ2 e e calculada da seguinte maneira:

σ2 =1

n

p∑i=1

ni (xi − x2) =

p∑i=1

fi (xi − x2)

ou equivalentemente,

σ2 =1

n

p∑i=1

nix2i − x2 =

p∑i=1

fix2i − x2 .

Madalena Malva Curso de Especializacao em Analise de Dados

Page 66: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Medidas de Dispersao

Se, pelo contrario, o conjunto de dados constitui uma amostra dapopulacao, entao a variancia denota-se por S2 e e dada por:

S2 =1

n − 1

p∑i=1

ni (xi −−→x 2)⇔ S2 =1

n − 1

(p∑

i=1

nix2i − nx2

).

I Desvio-padraoE a raiz quadrada da variancia e denota-se por σ ou por S ,com forme seja o desvio-padrao populacional ou amostral.

I Amplitude InterquartisO intervalo interquartis [Q1/4,Q3/4[ contem 50% dasobservacoes. A amplitude deste intervalo, amplitudeinterquartis, e uma medida de dispersao.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 67: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Medidas de Dispersao

I Medidas de Dispersao AbsolutaExpressas na mesma unidade dos dados a que se referem —Variancia e Desvio-Padrao.

I Medidas de Dispersao RelativasIndependentes da unidade de medida dos dados a que sereferem.

I Coeficiente de dispersao: cd = Sx ou cd = σ

xI Coeficiente de variacao: cv = cd × 100% .

Estes coeficientes so se empregam quando a variavel tomavalores de um so sinal.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 68: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Medidas de Dispersao

I Erro padrao

Uma vez que a media aritmetica varia em amostras extraıdas domesmo universo, a quantificacao da sua variabilidade designa-sepor estimativa do erro amostral ou erro padrao.Caso se tomem diferentes amostras sobre o universo estasamostras irao diferir entre si.

Exemplo: No de filhos por casal

I Amostra 1: 1, 2, 3, 4, 4 donde x = 2.8

I Amostra 2: 1, 2, 2, 3, 4 donde x = 2.4

I Amostra 3: 1, 1, 3, 4, 4 donde x = 2.6

I Amostra 4: 1, 2, 3, 4, 4, 3 donde x = 2.6

Madalena Malva Curso de Especializacao em Analise de Dados

Page 69: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Medidas de Dispersao

I Erro padrao

Calculando a media das medias obtem-se:

x =2.8 + 2.4 + 2.6 + 2.6

4= 2.6

Se em vez de quatro se recolhessem centenas de amostras e paracada uma se calculasse a sua media entao a media de todas asamostras tenderia a ser muito semelhante a media da populacao.A maioria das amostras teria uma media igual ou semelhante a dapopulacao, mas haveria ocasionalmente amostras cuja media seriamuito diferente da media da populacao.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 70: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica DescritivaMedidas de Dispersao

I Erro padrao

Como se pretende inferir com base numa dada amostra, interessaentao conhecer a precisao com que essa amostra representa o seuuniverso. Para tal recorre-se ao desvio padrao entre as diferentesmedias amostrais, designado por erro amostral, o qual informasobre a variabilidade que existe entre essas medias de diferentesamostras.Tem-se que:

Sx =1

k

k∑i=1

(x i − x)2

donde o erro padrao e dado por

S2−→x =s2x√k.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 71: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Medidas de Dispersao

I Erro padrao

O erro padrao e portanto o desvio-padrao das medias amostrais.Como tal e uma medida de quao representativa a amostra eda populacao.

Um erro padrao grande significa que existe muita variabilidadeentre as medias de diferentes amostras e por isso a media globalpode nao ser representativa da populacao.

Um erro padrao pequeno significa que as medias de diferentesamostras sao semelhantes entre si e portanto semelhantes apopulacao de onde provem, e neste caso a media amostral erepresentativa da populacao.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 72: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica DescritivaMomentos

I Momento Simples de ordem r ou momento ordinario deordem r

m′k =

p∑i=1

fixki =

1

n

p∑i=1

nixki .

I Momento centrado de ordem r

mk =

p∑i=1

fi (xi − x)k =1

n

p∑i=1

ni (xi − x)k

Se a distribuicao for simetrica os momentos positivos de ordemımpar sao nulos, pois para cada desvio negativo ha um desviopositivo com o mesmo valor absoluto.Alguns Momentos

m′0 = 1, m′1 = x , m′2 = σ2 − x2

m0 = 1, m1 = 0, m2 = σ2 .

Madalena Malva Curso de Especializacao em Analise de Dados

Page 73: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Coeficientes de assimetria e achatamento

I Coeficiente de assimetria: g1 = m3√m3

2

I Distribuicao simetrica→ g1 = 0I Distribuicao assimetrica positiva→ g1 > 0I Distribuicao assimetrica negativa→ g1 < 0

Embora as proposicoes recıprocas nao sejam sempreverdadeiras e costume tomar g1 como medida da assimetria.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 74: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Coeficientes de assimetria e achatamento

I Coeficiente de achatamento ou curtose: g2 = m4

m22− 3

Este coeficiente mede o grau de achatamento de umadistribuicao, considerado em relacao ao da distribuicaonormal, para a qual se tem g2 = 0 .

I Distribuicao mesocurtica→ g2 = 0 (achatamento igual ao danormal)

I Distribuicao leptocurtica→ g2 > 0 (achatamento inferior ao dada normal)

I Distribuicao platicurtica→ g2 < 0 (achatamento superior da danormal)

Madalena Malva Curso de Especializacao em Analise de Dados

Page 75: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Descricao Simultanea de Dois Atributos

I Suponha que numa amostra aleatoria de tamanho n de umadada populacao sao observados dois atributos oucaracterısticas A e B (qualitativas ou quantitativas), uma comr e outra com s modalidades ou categorias, respectivamenteA1,A2, · · · ,Ar e B1,B2, ...,Bs .

I Cada indivıduo da amostra e classificado numa e numa socategoria (ou classe) de A e numa e numa so categoria (ouclasse) de B.

I A classificacao dos elementos da amostra da origem a umatabela de dupla entrada, designada por tabela de contingenciar × s, com o seguinte aspecto:

Madalena Malva Curso de Especializacao em Analise de Dados

Page 76: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Descricao Simultanea de Dois Atributos

A ↓ B → B1 B2 · · · Bk · · · Bn Totais

A1 O11 O12 · · · O1k · · · O1n O1·A2 O21 O22 · · · O2k · · · O2n O2·· · · · · · · · · · · · · · · · · · · · · · · ·Aj Oj1 Oj2 · · · Ojk · · · Ojn Oj ·· · · · · · · · · · · · · · · · · · · · · · · ·Am Om1 Om2 · · · Omk · · · Omn Om·

Totais O·1 O·2 · · · O·k · · · O·n nNesta tabela cada Oij(i = 1, · · · , r e j = 1, · · · , s) representa naamostra o numero de elementos classificados simultaneamente nascategorias Ai de A e Bj de B.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 77: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Descricao Simultanea de Dois Atributos

Alem disso,

Oi · =s∑

j=1

Oij (i = 1, ..., r) que representa o numero de elementos

na amostra com modalidade Ai ;

O·j =r∑

i=1

Oij (j = 1, ..., r) que representa o numero de elementos

na amostra com modalidade Bj .Tem-se,

n =r∑

i=1

s∑j=1

Oij = Oi ·

s∑j=1

Oij = O·j

r∑i=1

Oij ,

onde n e a dimensao da amostra que se supoe fixa.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 78: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Descricao Simultanea de Dois Atributos

O objectivo e o de tentar inferir sobre a existencia ou nao dequalquer relacao ou associacao entre os atributos (variaveis) A e Be qual o grau de associacao se esta existir.wwww�

Independencia/Dependencia Funcional dos Atributos

Diagramas de Dispersao

Analise de correlacao

Madalena Malva Curso de Especializacao em Analise de Dados

Page 79: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Independencia/Dependencia dos Atributos

Os atributos A e B sao independentes se Oij =Oi·O·j

n .O atributo A depende funcionalmente do atributo B se cadamodalidade Bj de B corresponde a uma e uma so modalidadepossıvel de A .

IndependenciaDependencia funcionalw�

Casos Extremosw�Raramente Acontecem!

Madalena Malva Curso de Especializacao em Analise de Dados

Page 80: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Descricao Simultanea de Dois Atributos

I Simple ScatterQuando se pretende verificar a existencia ou nao de umarelacao linear entre duas variaveis.

I Overlay ScatterRepresenta no mesmo grafico varios pares de variaveis, emque se repete uma delas.

I Matrix ScatterUsa-se quando existem varios pares de variaveis. Este graficopermite ver todas as combinacoes possıveis entre pares devariaveis.

No entanto, a sua interpretacao torna-se difıcil com mais de 3pares de variaveis.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 81: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Descricao Simultanea de Dois Atributos

Coeficiente de Correlacao e dado por

r =

n∑i=1

(Xi − X )(Yi − Y )√√√√ n∑i=1

(Xi − X )2n∑

i=1

(Yi − Y )2

=cov(X ,Y )

SX sY

onde X ,Y e SY ,SY sao, respectivamente, as medias amostrais eos desvios padrao de X e Y . E cov(X ,Y ) representa a covarianciaentre X e Y , isto e, a relacao sistematica entre as duas variaveisem que uma modificacao numa delas acarreta uma modificacao naoutra.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 82: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Este ındice indica a existencia ou nao de uma relacao linear entreX e Y , e o grau em que a variacao da variavel X esta relacionadacom a variacao da variavel Y . r nao e expresso em qualquerunidade de medida.Tem-se que −1 ≤ r ≤ 1 onde,r = −1 indica a existencia de uma relacao linear perfeita negativaentre X e Y .r = 0 indica que nao existe uma relacao linear entre X e Y . Nadaimpede que haja uma relacao nao linear entre X e Y .r = 1 indica a existencia de uma relacao linear perfeita positivaentre X e Y .

Madalena Malva Curso de Especializacao em Analise de Dados

Page 83: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

O Coeficiente de Determinacao – r2 – mede a proporcao navariavel Y que e explicada pela variavel X .

Tem-se que 0 ≤ r2 ≤ 1, onde

I r2 = 1 indica que X explica totalmente Y .

I r2 = 0 indica que X nao explica Y .

Tanto r com r2 sao medidas simetricas, ou seja, a correlacao entreX e Y e igual a correlacao entre Y e X .

Madalena Malva Curso de Especializacao em Analise de Dados

Page 84: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

No caso multivariado deve-se calcular o coeficiente de correlacaosimples entre cada par de variaveis. Os resultados sao apresentadosna forma de matriz de correlacao.Por exemplo:

1 0.3 · · · 0.670.3 1 · · · 0.75· · · · · · · · · · · ·

0.67 0.75 · · · 1

Os elementos da diagonal principal sao iguais a um, pois toda avariavel se correlaciona perfeitamente consigo propria.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 85: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Por vezes pretende-se examinar a associacao entre duas variaveisapos controlar ou ajustar o efeito de uma ou mais variaveisadicionais.

Neste caso, deve-se recorrer ao coeficiente de correlacao parcial. Ocoeficiente de correlacao parcial e calculado a custa doscoeficientes de correlacao.

Suponha que pretende calcular a associacao entre X e Y apos tercontrolado uma terceira variavel Z . O coeficiente de correlacaoparcial e dado por:

rXY ·Z =rXY − rXZ rYZ√

1− r2XZ

√1− r2

YZ

Madalena Malva Curso de Especializacao em Analise de Dados

Page 86: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

r – coeficiente de correlacao simples e um coeficiente de correlacaoparcial de ordem zero (nao e controlada nenhuma variaveladicional)

rXY ·Z – coeficiente de correlacao parcial de primeira ordem, pois econtrolado o efeito de uma variavel adicional.

Pode-se calcular o coeficiente de correlacao parcial de ordem(n + 1) onde sao controladas (n + 1) variaveis adicionais.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 87: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Kappa de Coken

E uma medida de concordancia ou de semelhanca entre categoriashomologas de duas variaveis, e portanto so se aplica a tabelasquadradas.

O nıvel de concordancia observado e dado pelo valor Kappa deCohen, cuja interpretacao e a seguinte:

I Para valores maiores ou iguais a 0.75, existe uma excelenteconcordancia entre as duas variaveis.

I Para valores entre 0.4 e 0.75 existe uma concordancia desuficiente a boa entre as duas variaveis.

I Para valores menores que 0.4 existe uma fraca concordanciaentre as duas variaveis.

Madalena Malva Curso de Especializacao em Analise de Dados

Page 88: Curso de Especializa˘c~ao em An alise de Dados · 2008. 10. 8. · Cartas de amor 9 Folhas de arvore ca das 7 ... mas voc^e sabe como e que as mulheres s~ao, e a minha, que odeia

Analise Inicial de Dados. Estatıstica Descritiva

Medidas de correlacao para duas variaveis nao metricas que sebaseiam em classificacoes para calcular a correlacao.

Se as variaveis nao metricas forem ordinais ou numericas pode-seutilizar os coeficientes:

I Ro de Spearman – ρS

I Tau de Kendall – τ .

Estas duas medidas utilizam classificacoes em vez dos valoresabsolutos das variaveis. Ambas variam entre −1 e 1.

Regra pratica: Deve-se preferir o τ de Kendall quando um grandenumero de casos se enquadra num numero relativamente pequenode categorias. Reciprocamente, o ρ de Spearman e preferıvelquando ha uma grande numero de categorias.

Madalena Malva Curso de Especializacao em Analise de Dados