341sica aula1 [modo de compatibilidade]) · mediana 1700 1900 moda 1500 1900 qual das duas empresas...

26
Estatística Básica Profa. AndrezaPalma

Upload: lekiet

Post on 16-Dec-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

Estatística Básica

Profa. Andreza Palma

Page 2: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

DEFINIÇÕES PRELIMINARES

• Estatística (ciência): A ciência de coletar, organizar,apresentar, analisar e interpretar dados numéricos como objetivo de tomar melhores decisões.

• Estatística Descritiva: organização, resumo eapresentação de dados numéricos.

• Estatística Indutiva ou inferencial: coleção de métodose técnicas utilizados para se estudar uma populaçãobaseados em amostras probabilísticas desta mesmapopulação.

Page 3: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

DEFINIÇÕES PRELIMINARES• População: conjunto de todos os possíveis

elementos, objetos ou medidas de interesse.Exemplos: conjunto das rendas de todos os habitantes de AraraquaraConjunto das alturas de todos os alunosConjunto de todos os eleitoresConjunto de todos os possíveis compradores

• Censo (ou levantamento censitário): levantamentoefetuado sobre toda uma população.Extremamente difícil (custo+tempo)

Page 4: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

DEFINIÇÕES PRELIMINARES

• Amostra: porção ou parte de uma população de interesse.

Exemplos: Pesquisa eleitoral, controle da qualidade (verifica-se defeitos em partes de peças em intervalos aleatórios), variáveis macroeconômicas (desemprego, inflação), medicina, biologia, etc.

• Amostragem: processo de escolha de umaamostra da população. Envolve riscos.

Page 5: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão
Page 6: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão
Page 7: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

• Parâmetro – relacionado à população. Descriçãonumérica de uma característica da população.

• Estatística – relacionado à amostra. Um número ouvalor. Descrição numérica de uma característica daamostra.

• Estimador - Fórmula ou expressão utilizada paraavaliar o valor de um parâmetro. Um estimador éuma variável aleatória.

Page 8: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

TIPOS DE DADOS

• Quantitativos: números, contagens ou medidas.Subdividem-se em discretos e contínuos.

• Qualitativos (categóricos): podem ser separadosem diferentes categorias que se distinguempor alguma característica não numérica.Subdividem-se em nominal e ordinal.

Page 9: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão
Page 10: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

ESTATÍSTICA DESCRITIVA

• Distribuição de Frequência: resumo tabular de dadosque mostra a frequência (número de observações) emcada uma das diversas classes não sobrepostas.

• Histograma: O histograma é uma forma gráfica de apresentar a distribuição de freqüências de uma variável. O histograma é um gráfico de barras verticais construído com os resultados da tabela de freqüências.

• Polígono de freqüências

Page 11: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

• Amplitude (H): É a diferença entre o maior e o menor dosvalores observados.

• Classes: As classes são um artifício para condensar o número deelementos diferentes de uma amostra. Imagine construir umatabela para 200 valores diferentes.

Regra prática: classes = raiz quadrada de N (tamanho da amostra)

Intervalo da classe: amplitude/número de classes.

• Freqüência Relativa: proporção das observações que pertence à determinada classe.

FR = Frequência da Classe/n

• Freqüência Percentual: FR x 100

Page 12: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

PROCEDIMENTO PARA CONSTRUIR UMA DISTRIBUIÇÃO DE FREQÜÊNCIAS

• Determinar a amplitude dos dados: h = xmax - xmin.

• Decidir sobre o número de classes “k“ a ser utilizado. Recomenda-se um número de classes entre 5 e 15. Para que a decisão não seja totalmente arbitrária pode-se usar a raiz quadrada do número de valores como o número de classes, ou seja, k ≅ n .

• Determinar a amplitude de cada classe. Sempre que possível manter todas as amplitudes iguais. Para tanto deve-se dividir a amplitude dos dados “h” pelo número de classes “k”, arredondando para mais, ou seja, hi≅ h / k.

• Contar o número de valores pertencentes a cada classe. Em geral, utiliza-se a simbologia (|--- ), para indicar um intervalo fechado à esquerda e aberto à direita. Também poderia ser utilizado o intervalo aberto à esquerda e fechado à direita (---|), aberto de ambos os lados ( --- ) ou ainda fechado de ambos os lados (|---|).

Page 13: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

• Exemplos - Excel

Page 14: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

MEDIDAS DE TENDÊNCIA CENTRAL

• Média aritmética

• Média ponderada

• Mediana

• Moda

• Assimetria

Page 15: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

Positivamente assimétrica: cauda alongada à direita

Page 16: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

Exercício

Você está procurando emprego para o próximo ano. As empresas Ae B são totalmente equivalentes a menos no que diz respeito àssuas políticas de remuneração. As características de remuneraçãode cada uma das empresas são resumidas na tabela a seguir:

Empresa A BMédia 2500 2000Mediana 1700 1900

Moda 1500 1900

Qual das duas empresas você escolheria ? Justifique

Page 17: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

MEDIDAS DE VARIAÇÃO

• Amplitude

• Desvio-padrão e variância

• Coeficiente de Variação de Pearson

Page 18: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

Medidas de Posição• Percentis: p-ésimo percentil é um valor tal que pelo menos

p% das observações assumem esse valor ou menos e pelo menos (100-p)% assumem esse valor ou mais. Dividem os dados em 100 partes iguais.

• Quartis: dividem as observações ordenadas em 4 partes iguais (Q1, Q2, Q3).

Mediana: divide os dados em duas partes iguais. (55º. Percentil).

Q1: 25% inferiores - primeiro quartil ou 25º. Percentil.Q2: MedianaQ3: 25% superiores (75% inferiores) – terceiro quartil ou 75º.

Percentil.

Page 19: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

DIAGRAMAS EM CAIXA (BOXPLOTS)5 números

Page 20: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

Procedimento (Excel não faz automaticamente)

• O primeiro passo é gerar as estatísticas para o conjunto dedados conforme descrito abaixo:

1º. Quartil

Mínimo

Mediana

Máximo

3º. Quartil

• Selecione toda a informação, incluindo os rótulos de dados edepois selecione Inserir > Gráfico e escolha Linha. Selecione osub-tipo ‘linha com marcadores exibidos a cada valor dedado’. Clique em avançar, e selecione ‘séries em: linhas’ edepois clique em ‘concluir’.

Page 21: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

• Clique com o botão direito do mouse sobre uma das linhas dográfico. Selecione ‘formatar série de dados’, vá para ‘opções’ eselecione ‘linhas de máximo/mínimo’ e ‘barrassuperiores/inferiores’. A ‘largura do espaçamento’ poderávariar entre diversos valores, pois isso não importa para oBoxplot.

• As linhas serão removidas uma a uma, inicialmente clicandocom o botão direito do mouse sobre a linha. Selecionar‘formatar série de dados’ em ‘padrões’ observar o campo‘linha’ e marcar sobre ‘nenhuma’. Isso deve ser feito paratodas as linhas.

Page 22: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

Medidas de associação

• Covariância

• Correlação

Page 23: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

Estudo de caso 1Uma associação está preocupada com a escassez de enfermeiras que estáprojetando para o futuro. Para entender o atual grau de satisfação no trabalhoentre as profissionais, a associação patrocinou um estudo sobre enfermagem emhospitais de todo o país. Uma amostra de 50 enfermeiras foram argüidas paraindicar o grau de satisfação, a remuneração e as oportunidades de promoção noseu trabalho. Cada um dos três aspectos foi mensurado numa escala de 0 a 100,com os maiores valores indicando um maior grau de satisfação. Os dados coletadosestão no arquivo exercicio1.xls.

• Use os métodos de estatística descritiva para sintetizar os dados. Apresente ossumários que serão apropriados à comunicação dos resultados para terceiros.Discuta suas descobertas. Comente, especificamente, as seguintes questões:

a) Que aspecto do trabalho é mais agradável para as enfermeiras?b) Que medida de satisfação parece gerar a maior diferença de opinião entre as

enfermeiras?c) O que pode ser deduzido a respeito dos tipos de hospitais?d) Se você fosse responsável em promover políticas para aumentar o número de

pessoas interessadas na profissão de enfermagem, qual seria a prioridade?

Page 24: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

Estudo de Caso 2

Um medicamento novo começa a ser produzido pelos laboratórios:A e B. Amostras dos dois laboratórios foram coletadas emensuradas em relação a variável: quantidade de Vitamina E emmg encontrada nas cápsulas. Suponha que a Vitamina E seja oprincipal componente do novo medicamento e que a qualidade e aeficiência depende, em grande parte, de uma regularidade docomponente encontrado no produto. Utilize o arquivoexercicio2.xls.

• Use os métodos de estatística descritiva para sintetizar osdados. Apresente os sumários que serão apropriados àcomunicação dos resultados para terceiros. Discuta suasdescobertas. Com base na regularidade do componentemencionado acima, qual das duas amostras apresenta uma melhorqualidade? Explique?

Page 25: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

Estudo de Caso 3Uma cadeia de supermercados está interessada em saber sevale a pena investir em uma nova opção de pagamentoatravés de cartão de crédito. Para isso, coletou informações arespeito das práticas de pagamento de 100 clientes. Os dadosestão no arquivo exercicio3.xls.

• Use os métodos de estatística descritiva para sintetizar osdados. Apresente os sumários que serão apropriados àcomunicação dos resultados para terceiros. Discuta suasdescobertas.

Page 26: 341sica aula1 [Modo de Compatibilidade]) · Mediana 1700 1900 Moda 1500 1900 Qual das duas empresas você escolheria ? Justifique. MEDIDASDE VARIAÇÃO • Amplitude • Desvio-padrão

Estudo de Caso 4

• Considere os dados do arquivo exercicio4.xls,que apresenta as pulsações de fumantes e nãofumantes. Construa um diagrama em caixaspara cada conjunto. Com base nos resultados,há diferença de pulsação entre os doisgrupos?