aulas de estatística

230

Upload: wilkerson-castro

Post on 10-Oct-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

  • 5/20/2018 Aulas de Estat stica

    1/230

  • 5/20/2018 Aulas de Estat stica

    2/230

    EMENTA DO CURSO

    1.0 PORQUE ESTATSTICA?

    2.0 PROBABILIDADE: BINOMIAL E POISSON

    3.0 A DISTRIBUIO NORMAL

    4.0 INTERVALO DE CONFIANA PARA A MDIA

    5.0 ANLISE DE REGRESSO SIMPLES

    6.0 ANLISE DE REGRESSO MLTIPLA

    7.0 DATA MINING (MINERAO DE DADOS)

    8.0 RVORES DE DECISO

  • 5/20/2018 Aulas de Estat stica

    3/230

    1 0 PORQUE ESTATSTICA?

    A estatstica utiliza teorias e distribuies de

    probabilidades para entender e descrever a

    ocorrncia de eventos, atravs da observao direta

    de fenmenos ou atravs da realizao de

    experimentos, buscando descrever modelos

    matemticos que considerem a aleatoriedade e a

    incerteza dos resultados, estimando ou prevendo

    fenmenos futuros, conforme o caso.

  • 5/20/2018 Aulas de Estat stica

    4/230

    Estatstica a cincia que se ocupa de coletar,

    organizar, analisar e interpretar dados para que se

    tomem decises.

    A estatstica a arte de torturar os nmeros at que

    eles confessem. E eles sempre confessam.

  • 5/20/2018 Aulas de Estat stica

    5/230

  • 5/20/2018 Aulas de Estat stica

    6/230

    Um dos pontos principais da estatstica a coleta,

    anlise e interpretao de dados, bem como tirar

    concluses sobre as caractersticas das fontes de

    onde estes dados foram retirados, para melhor

    compreender as situaes.

  • 5/20/2018 Aulas de Estat stica

    7/230

  • 5/20/2018 Aulas de Estat stica

    8/230

    O escritor H. G. Wells (1866-1945) disse que "no futuro,

    o pensamento estatstico ser to necessrio para a

    cidadania eficiente como saber ler e escrever."

    Pois bem, estamos hoje no futuro de H. G. Wells e de

    fato para compreendermos o mundo temos que saber

    estatstica

  • 5/20/2018 Aulas de Estat stica

    9/230

    Leonard Milodnow publicou seu mais recente livro O

    Andar do

    Bbado

    um tratado sobre estatstica e

    aleatoriedade, mostrando, atravs de exemplos

    divertidos do cotidiano, o poder do acaso em reas da

    nossa vida que vo de jogar futebol, conseguir

    emprego e receber um diagnstico mdico.

    O caso do acertador

    aleatrio

    da loteria que sonhou 7

    dias com o nmero 7 e a 7 X 7 = 48 que estava no

    final do nmero vencedor

  • 5/20/2018 Aulas de Estat stica

    10/230

    1.1 A REGRESSO MDIA

    Muitas

    vezes elogiei entusiasticamente meus alunos por manobras

    areas muito bem executadas, e na vez seguinte sempre se

    saram

    pior,

    disse o instrutor de voo.

    E

    j gritei com eles por

    manobras mal executadas, e geralmente melhoraram na vez

    seguinte. No venha me dizer que a recompensa funciona e a

    punio no. Minha experincia contradiz essa ideia.

    Os outros

    instrutores concordaram. Para Kahneman, a experincia deles

    parecia genuna. Por outro lado, ele acreditava nos experimentos

    com animais que demonstravam que a recompensa funcionava

    melhor que a punio. Ele meditou sobre esse aparente

    paradoxo. E ento se deu conta: os gritos precediam a melhora,

    porm, ao contrrio do que parecia, no a causavam.

  • 5/20/2018 Aulas de Estat stica

    11/230

    A resposta se encontra num fenmeno chamado

    regresso mdia. Isto , em qualquer srie de

    eventos aleatrios, h uma grande probabilidade de

    que um acontecimento extraordinrio seja seguido,

    em virtude puramente do acaso, por um

    acontecimento mais corriqueiro.

  • 5/20/2018 Aulas de Estat stica

    12/230

  • 5/20/2018 Aulas de Estat stica

    13/230

  • 5/20/2018 Aulas de Estat stica

    14/230

  • 5/20/2018 Aulas de Estat stica

    15/230

    1.2 TIPOS DE VARIVEIS E SEUS DADOS GERADOS

    Varivel a caracterstica de interesse que medida em cada

    elemento da amostra ou populao. Como o nome diz, seus

    valores variam de elemento para elemento. As variveis podem

    ter valores numricos ou no numricos.

    Populao um conjunto de elementos que possuem ao menos

    uma caracterstica comum entre si.

  • 5/20/2018 Aulas de Estat stica

    16/230

    Variveis Quantitativas: so as caractersticas que podem ser medidas em

    uma escala quantitativa, ou seja, apresentam valores numricos que

    fazem sentido. Podem ser contnuas ou discretas.

    Variveis contnuas: caractersticas mensurveis que assumem valores em

    uma escala contnua (na reta real), para as quais valores fracionais

    fazem sentido. Usualmente devem ser medidas atravs de algum

    instrumento. Exemplos: peso (balana), altura (rgua), tempo (relgio),

    presso arterial, idade.

    Variveis discretas: caractersticas mensurveis que podem assumir

    apenas um nmero finito ou infinito contvel de valores e, assim,

    somente fazem sentido valores inteiros. Geralmente so o resultado de

    contagens. Exemplos: nmero de filhos, nmero de bactrias por litro de

    leite, nmero de cigarros fumados por dia.

  • 5/20/2018 Aulas de Estat stica

    17/230

    Variveis Qualitativas (ou categricas): so as caractersticas que

    no possuem valores quantitativos, mas, ao contrrio, so

    definidas por vrias categorias, ou seja, representam uma

    classificao dos indivduos. Podem ser nominais ou ordinais.

    Variveis nominais: no existe ordenao dentre as categorias.

    Exemplos: sexo, cor dos olhos, fumante/no fumante,

    doente/sadio.

    Variveis ordinais: existe uma ordenao entre as categorias.

    Exemplos: escolaridade (1o, 2o, 3o graus), estgio da doena

    (inicial, intermedirio, terminal), ms de observao (janeiro,

    fevereiro,..., dezembro).

  • 5/20/2018 Aulas de Estat stica

    18/230

  • 5/20/2018 Aulas de Estat stica

    19/230

    Entretanto, ao se aplicar tcnicas estatsticas de anlise de dados,

    variveis contnuas podem ser representadas por distribuies

    contnuas, sendo a distribuio mais comumente utilizada a distribuio

    normal (em funo do teorema do limite central).

    E no caso das variveis discretas, nominais e ordinais,utilizam-se com mais

    frequncia as distribuies de dados discretos, como a distribuio

    Binomial e a distribuio de Poisson.

  • 5/20/2018 Aulas de Estat stica

    20/230

    1.3 QUANTIFICANDO DADOS CONTNUOS

    As mtricas mais comuns de quantificao de dados contnuos so

    a mdiae o desvio padro.

    A mdia d uma medida da posio central dos dados, enquanto

    que o desvio padro d uma medida de disperso, isto , o

    quanto esses dados esto agrupados ou espalhados em torno

    da mdia.

  • 5/20/2018 Aulas de Estat stica

    21/230

  • 5/20/2018 Aulas de Estat stica

    22/230

    Observe a figura a seguir. Considere que os quadrados azuis representam

    pesos iguais, distribudos em uma fina rgua de metal.

    Agora tente encontrar o ponto de equilbrio dessas rguas. Em que posio

    da rgua est o ponto de equilbrio de cada rgua?

  • 5/20/2018 Aulas de Estat stica

    23/230

    Entretanto, observando esses grupos de dados, podemos facilmente concluir

    que eles so diferentes, apesar de todos terem o mesmo valor de mdia. E

    essa diferena est relacionada com o espalhamento (ou disperso) dos

    dados. Tomando-se como referncia o seu

    ponto

    de equilbrio

    foi

    elaborada uma forma de medir essa disperso, atravs do clculo MDIO da

    disperso em torno da mdia.

    A somatria desses desvios em torno da mdia (elevados ao quadrado) e

    posteriormente divididos pelo nmero de dados chamada de varincia.

    Ao extrair a raiz quadrada desse resultado, tm-se o desvio padro. O

    resumo desses clculos:

  • 5/20/2018 Aulas de Estat stica

    24/230

    Atravs desses clculos pode-se verificar que o desvio padro pode ser visualizado

    como uma mdia dos desvios dos dados em torno do ponto mdio dos dados.

  • 5/20/2018 Aulas de Estat stica

    25/230

    Tm-se ento a definio dessas 2 medidas de dados contnuos, concebidas de

    forma bastante intuitiva, para representar essas caractersticas bsicas de um

    determinado grupo de dados contnuos.

  • 5/20/2018 Aulas de Estat stica

    26/230

    1.4 AMOSTRANDO DADOS CONTNUOS

    Uma das principais finalidades de representar dados de forma resumida

    poder condensar a informao de uma populao inteira em poucos

    valores.

    Esse raciocnio deu origem a amostragem, e para tal uma notao

    matemtica especfica foi desenvolvida, como mostrada a seguir.

    Basicamente utilizam-se caracteres gregos para representar todos os dados

    (ou populao) e algarismos romanos para representar a poro de

    dados que foi observada desse todo (amostra).

  • 5/20/2018 Aulas de Estat stica

    27/230

  • 5/20/2018 Aulas de Estat stica

    28/230

    1.5 ESTATSTICA DESCRITIVA DE DADOS CONTNUOS

    A estatstica descritiva um ramo da estatstica dedicada a aplicao de

    vrias tcnicas que objetivam descrever e resumir um conjunto de

    dados.

    Sua diferena da estatstica inferencial, ou indutiva que a estatstica

    descritiva busca organizar e resumir os dados, o que pode ser encarado

    como o passo inicial para o entendimento das caractersticas da

    populao.

  • 5/20/2018 Aulas de Estat stica

    29/230

  • 5/20/2018 Aulas de Estat stica

    30/230

    Considerando os dados das medidas de espessura de uma pea

    apresentados nessa figura, pode-se obter uma estatstica descritiva

    completa dos dados.

    Como os dados apresentados so contnuos, alm de informaes

    referentes a sua posio e disperso, alguns indicadores relacionados

    com o formato da distribuio so considerados, como a Curtose e a

    Assimetria.

  • 5/20/2018 Aulas de Estat stica

    31/230

    1.6 EXERCCIOS

    Classifique as variveis em qualitativa (nominal ou ordinal) ou quantitativa

    (contnua ou discreta):

    i. Populao: alunos de uma Universidade.

    Varivel: cor dos cabelos (louro, castanho, ruivo, preto)

    ii. Populao: funcionrios de uma empresa.

    Varivel: escolaridade (E.Fund., E.Mdio, E.Sup., Ps-Grad.)

    iii. Populao: peas produzidas por certa mquina.

    Varivel: dimetro externo 2mm x 4mm

    )

    iv. Populao: estao meteorolgica de uma cidade.

    Varivel: precipitao pluviomtrica, durante um ano. 250mm x

    300mm )

    v. Populao: Bolsa de Valores de So Paulo.

    Varivel: nmero de aes negociadas. (0,1,2,3,..)

    vi. Populao: pregos produzidos por uma mquina.

    Varivel: comprimento. 1,5cm x 2,8cm )

    vii. Populao: aparelhos produzidos em uma linha de montagem.

    Varivel: nmero de defeitos por unidade. (0,1,2,3,..)

  • 5/20/2018 Aulas de Estat stica

    32/230

    Observe as variveis constantes na planilha abaixo. Em seguida, assinale a alternativa que

    identifica as variveis de acordo com sua classificao.

    a) grau de instruo, funo, salrio, estado civil, gnero, idade, nmero de filhos, moradia.

    b) naturalidade, grau de instruo, funo, salrio, idade, nmero de filhos, moradia.

    c) naturalidade, grau de instruo, funo, salrio, estado civil, gnero, idade, moradia.

    d) salrio, estado civil, gnero, idade, nmero de filhos, moradia.

    e) naturalidade, grau de instruo, funo, estado civil, gnero, moradia.

  • 5/20/2018 Aulas de Estat stica

    33/230

    Estatstica descritiva:

    Em uma Tabela anote a altura de todos os alunos da sala de aula.

    Em seguida faa uma Estatstica Descritiva desses dados.

  • 5/20/2018 Aulas de Estat stica

    34/230

  • 5/20/2018 Aulas de Estat stica

    35/230

  • 5/20/2018 Aulas de Estat stica

    36/230

  • 5/20/2018 Aulas de Estat stica

    37/230

  • 5/20/2018 Aulas de Estat stica

    38/230

    2.0 PROBABILIDADE

    A histria da teoria das probabilidades se deu juntamente com o inicio dos

    jogos de cartas, dados e de roleta. Por essa razo, muitos exemplos de

    probabilidade so relacionados e esses tipos de jogos. Os estudos de

    probabilidade possibilitam o calculo da chance de ocorrncia de certo

    resultado especfico de um

    espao

    amostral

    em um evento chamado

    experimentoaleatrio.

    Experimento Aleatrio

    aquele experimento que, quando repetido em

    iguais condies, podem fornecer resultados diferentes (dentro de um

    espao amostral), ou seja, so resultados explicados ao acaso.

    Espao Amostral

    o conjunto de todos os resultados possveis de um

    experimento aleatrio.

  • 5/20/2018 Aulas de Estat stica

    39/230

    2.1 O PROBLEMA DE MONTY HALLA questo a seguir, proposta originalmente por Marilyn Vos Savant, escritora e

    colunista da revista Parade estadunidense, que em 9 de setembro de 1990,

    talvez tenha se tornado o caso mais conhecido envolvendo sua coluna.

    Suponha que voc esteja em um game show, e dada a voc a escolha de trs

    portas. Atrs de uma porta est um carro, atrs das outros, cabras. Voc escolhe

    uma porta, por exemplo, a No. 3. O anfitrio, que sabe o que est por trs das

    portas, abre a porta No. 1, que tem uma cabra. E ele pergunta: Voc quer

    escolher a porta No. 2? vantajoso mudar a sua escolha de porta?

  • 5/20/2018 Aulas de Estat stica

    40/230

    Marilyn Vos Savant respondeu argumentando que a seleo deve ser trocar para a

    porta No. 2 porque ela tem 2/3 de chance de sucesso, enquanto a porta No. 3

    tem apenas 1/3. Esse clculo utiliza uma forma elementar do cmputo de

    probabilidade:

    Esta resposta provocou cartas de milhares de leitores, quase todas argumentando

    que as portas No. 2 e No. 3 cada um tem uma chance igual de sucesso. Uma

    coluna de sequncia reafirmando sua posio serviu apenas para intensificar o

    debate e logo se tornou um artigo na primeira pgina do The New York Times.

    Entre as fileiras dos argumentos contrrios quase mil PhDs escreveram cartas, e

    muitos deles eram professores de matemtica e pareciam especialmente irados.

    Um desses, que trabalhava no Instituto de Pesquisa do Exrcito dos Estados

    Unidos afirmou:

  • 5/20/2018 Aulas de Estat stica

    41/230

    Mas o fato que Marilyn estava certa, como pode ser visto no quadro a

    seguir.

    Considere que o participante sempre escolhe inicialmente a porta 2 e o

    apresentador abre uma das outras 2 portas, eliminando-a. A

    probabilidade de ganhar maior se fora dotada a estratgia de mudar

    de opinio.

    Esse acontecimento ilustra muito bem a nossa falta de capacidade de

    julgar apropriadamente sobre probabilidades se no houver um

    entendimento claro do espao amostral, bem como a estratgia do

    experimento realizado.

    2 2 EXEMPLO DE ESPAO AMOSTRAL E

  • 5/20/2018 Aulas de Estat stica

    42/230

    2.2 EXEMPLO DE ESPAO AMOSTRAL EDISTRIBUIO DE PROBABILIDADES

    Considere o experimento de lanamento de dados de forma aleatria. Todas os

    possveis resultados do lanamento de 1 dado so mostrados na tabela a seguir,

    comas suas respectivas probabilidades.

  • 5/20/2018 Aulas de Estat stica

    43/230

    Considerando que o dado no est viciado, de se esperar que o resultado dos

    lanamentos resulte na seguinte distribuio de probabilidades:

  • 5/20/2018 Aulas de Estat stica

    44/230

    2.3 O CASO DAS PROBABILIDADES METEREOLGICASIke: Contagem Regressiva para o Dia D um filme histrico retratando os 90 dias que

    antecederam a Invaso da Normandia em 4 de junho de 1944, durante a Segunda

    Guerra Mundial. O filme enfatiza as decises estratgicas e relaes polticas de

    Dwight Eisenhower, comandante supremo das foras Aliadas para batalhas europeias.

    Destacam-se no filme as relaes com o ento primeiro-ministro ingls Winston Churchill,

    com o general americano George S. Patton, com o general britnico Bernard

    Montgomery e com o presidente francs Charles de Gaulle. Dwight Ike Eisenhower

    interpretado por Tom Selleck e a grande qualidade do filme demonstrar o drama de

    um homem com o poder de colocar milhes de vidas em risco, bem como as

    dificuldades de organizar diferentes estratgias militares em uma mesma operao.

    Apesar de se ter conhecimento que as foras armadas so grandes utilizadores de

    estudos estatsticos, pode-se notar neste filme em particular como inmeras

    informaes so tratadas com muita seriedade, em funo da seriedade das suas

    consequncias.

    Destaque especial pode ser dado a cena onde o protagonista pergunta ao responsvel

    pelo comunicado de informaes referentes ao clima. Ao ouvir que h a uma

    possibilidade metereolgica, Eisenhower retruca que no pode tomar decises

    baseadas em possibilidades. Ele enfatiza que sejam reportadas a cada hora as

    probabilidades metereolgicas que o permitam decidir sobre o desembarque na

    Normandia, fator crucial para o sucesso da misso e da guerra.

    Destaque especial pode ser dado a cena onde o protagonista pergunta ao

  • 5/20/2018 Aulas de Estat stica

    45/230

    responsvel pelo comunicado de informaes referentes ao clima. Ao ouvir que

    h a uma possibilidade metrolgica, Eisenhower retruca que no pode tomar

    decises baseadas em possibilidades.Ele enfatiza que sejam reportadas a cada

    hora as probabilidades metrolgicas que o permitam decidir sobre o

    desembarque na Normandia, fator crucial para o sucesso da misso e da guerra.

    2 4 QUANTIFICANDO DADOS DISCRETOS E

  • 5/20/2018 Aulas de Estat stica

    46/230

    2.4 QUANTIFICANDO DADOS DISCRETOS EQUALITATIVOSFrequentemente temos a necessidade de analisar dados oriundos de

    situaes onde os dados gerados so discretos ou qualitativos, tambm

    chamados de dados categricos, onde sua escala pode ser ordinal,

    nominal, ou simplesmente nmeros inteiros.

    Dados discretos podem ser representados por quantidades, bem como

    taxas, ndices ou probabilidades, que podem ser representadas atravs

    de determinadas distribuies.

    As distribuies comumente utilizadas para representar dados discretos

    so a distribuio Binomial e a distribuio de Poisson.

  • 5/20/2018 Aulas de Estat stica

    47/230

    2.4.1 A DISTRIBUIO BINOMIAL

    A Distribuio Binomial uma distribuio discreta mostrando a probabilidade de um

    evento que pode assumir dois valores. (Exemplo: Cara ou coroa de uma moeda,

    PASSA/NO PASSA, produtos bons / defeituosos). As seguintes condies devem ser

    satisfeitas para que se aplique a distribuio binomial:

    1. Experimento Bernoulli - O resultado do experimento pode assumir somente dois valores,

    como o lanamento de uma moeda.

    2. Igualdade dos Experimentos - Uma srie de experimentos feita sob as mesmas

    condies.

    3. Independncia dos Experimentos - O resultado de um experimento no influencia nem

    influenciado por outros.

    4. Igualdade de Probabilidades - A probabilidade do resultado de um experimento a

    mesma probabilidade do mesmo resultado em qualquer outro experimento.

  • 5/20/2018 Aulas de Estat stica

    48/230

    Os parmetros da distribuio Binomial so:

    X = Nmero de resultados esperados aps n experimentos.

    (x pode assumir os valores 0, 1, 2, 3, ..., n)

    n = Nmero de experimentos

    p = probabilidade do resultado esperado de cada experimento individualmente

    Exemplo:

    Suponha que um hospital possui um ndice de absentesmo (faltas dos funcionrios)

    de 5%. Qual a probabilidade de que, em uma visita surpresa, o responsvel

    pelo hospital encontre presentes todos os funcionrios de um grupo de 10,

    escolhidos aleatoriamente?

  • 5/20/2018 Aulas de Estat stica

    49/230

    n = 10 ; x = 0 ; p = 0,0 5; P(x=0) = ?

    Resposta: A probabilidade de se no encontrar nenhum

    funcionrio ausente de 59,87%.

  • 5/20/2018 Aulas de Estat stica

    50/230

    Calculando o valor da probabilidade de outros valores de x temos o resultado

    apresentado na tabela a seguir:

    De acordo com os valores apresentados acima, o grfico da distribuio de

    probabilidades binomial desse evento pode ser observado a seguir.:

  • 5/20/2018 Aulas de Estat stica

    51/230

    Pode-se notar que, sendo uma distribuio discreta, no h valores

    de probabilidade entre os valores inteiros do eixo X.

    De forma alternativa, pode-se responder a pergunta:

    Qual a probabilidade de, nesse grupo de 10 funcionrios, ao

    menos 1 estar ausente?

    Nesse caso, procura-se a probabilidade P(x>0), que por ser uma

    distribuio discreta, o mesmo valor de P(x>1).

    Sendo P(x=0)=0,5987 pode-se encontrar P(x>0) da seguinte forma:

    P(x > 0) = 1 P(x=0) = 1 0,5987 = 0,4013 40,13%

    Pode-se ento concluir que, ao fazer essa visita surpresa, a probabilidade

    de se encontrar algum funcionrio ausente, em uma amostra de 10,

    de aproximadamente 40%.

  • 5/20/2018 Aulas de Estat stica

    52/230

    Em estudos estatsticos, normalmente toma-se decises com base em um

    valor de probabilidade igual ou superior a 80%.

    Nesse caso, sugere-se que haja um aumento no tamanho da amostra para

    uma lista de 32 funcionrios, o que daria o seguinte resultado:

    P(x = 0) = 0,1937 P(x > 0) = 0,8063

  • 5/20/2018 Aulas de Estat stica

    53/230

    2.4.2 A DISTRIBUIO DE POISSON

    A Distribuio de Poisson uma distribuio discreta mostrando a

    probabilidade de um nmero de ocorrncias de um evento em um

    intervalo.

    Alguns Exemplos:

    Nmero de clientes chegando loja, por hora;

    Nmero de acidentes de trnsito, por dia;

    Nmero de acertos de passes de um jogador, por partida;

    Nmero de falhas em um rolo de papel, por metro;

    Nmero de acidentes em uma estrada, por dia.

  • 5/20/2018 Aulas de Estat stica

    54/230

    A distribuio de Poisson se encaixa em eventos discretos que ocorrem de

    forma aleatria

    Os parmetros da distribuio de Poisson so:

    X = Nmero de resultados por intervalo (x pode assumir os valores 0, 1, 2,

    3, ...,

    = taxa mdia de ocorrncia por intervalo.

    Frmula:

  • 5/20/2018 Aulas de Estat stica

    55/230

    EXEMPLO:

    Esta a histria de um tcnico de um determinado processo. Em mdia

    trs chamados de inspeo acontecem por dia. Baseado em um

    levantamento anterior dois tcnicos podem atender a esses trs

    chamados. Se mais de trs chamados acontecerem em um dia temos

    que considerar a opo de aumentar o nmero de tcnicos.

    Encontre a probabilidade de que quatro ou mais chamados por dia

    aconteam.

  • 5/20/2018 Aulas de Estat stica

    56/230

    x = 4 chamados

    = 3 chamados por dia

    P (x4) = ?

    Sendo a distribuio de Poisson uma distribuio de dados discretos, a

    probabilidade P(X

    4) pode ser obtida da seguinte forma:

    P(x 4) = 1 [P(x =0) + P(x=1) + P(x=2) + P(x=3)]

    Atravs da equao de probabilidade de Poisson, os valores de P(X=0),

    P(X=1), P(X=2) e P(X=3) podem ser calculados.:

  • 5/20/2018 Aulas de Estat stica

    57/230

    Calculando o valor da probabilidade de outros valores de x temos o

    resultado apresentado na tabela a seguir:

    Tabela 2.2 Probabilidades de x seguindo uma distribuio de

    Poisson.

    Logo, a probabilidade de 4 ou mais chamados ocorrerem igual a:

    P(x 4) = 1 (0,0498 + 0,1494 + 0,2240 + 0,2240) = 0,3528

    Ou seja, 35,28%

    x 0 1 2 3 4 5 6P(X=x) 0,0498 0,1494 0,224 0,224 0,168 0,1008 0,0504

  • 5/20/2018 Aulas de Estat stica

    58/230

    O grfico mostrado na figura a seguir representa as probabilidades de

    Poisson para os valores de x igual a 0, 1, 2, 3, 4, 5 e 6:

    2 5 EXERCCIOS

  • 5/20/2018 Aulas de Estat stica

    59/230

    2.5 EXERCCIOS

    Estudo De Caso Binomial

    O seu fornecedor de materiais alega que est cumprindo com as exigncias

    contratuais de fornecimento com uma taxa de defeito no maior que

    1%. Suponha que durante uma auditoria no seu estoque, voc colha

    uma amostra de 20 itens, aleatoriamente. Considerando que a taxa de

    defeito 0,01 qual a probabilidade de que voc no encontre nenhum

    defeito nessa amostra de 20 itens?

  • 5/20/2018 Aulas de Estat stica

    60/230

    Estudo De Caso Poisson 01

    Tubos de plstico so produzidos com a mdia de um defeito (falha)

    a cada 30 metros. Se os tubos so cortados em tiras de 3

    metros, qual ser a proporo de tiras que contenham defeito?

  • 5/20/2018 Aulas de Estat stica

    61/230

    Estudo De Caso Poisson 02

    O Problema do Enfermeiro

    Em um determinado hospital, os enfermeiros trabalham em turnos de 8

    horas na enfermaria.

    Se h em mdia, 6 situaes de emergncia por dia, nos pacientes

    internados nessa enfermaria, e caso acontea, o enfermeiro fica em

    torno de 1 hora atendendo a emergncia.

    Quantos enfermeiros so necessrios, em qualquer turno, para que se

    tenha no mais que 1% de chance de uma situao de emergncia no

    ser atendida?

  • 5/20/2018 Aulas de Estat stica

    62/230

  • 5/20/2018 Aulas de Estat stica

    63/230

  • 5/20/2018 Aulas de Estat stica

    64/230

    3.0 A DISTRIBUIO NORMAL

    Exemplo: Observamos o peso, em kg, de 1500 pessoas adultas selecionadas ao

    acaso em uma populao.

    O histograma por densidade o seguinte:

    60

    45

    15

    30

  • 5/20/2018 Aulas de Estat stica

    65/230

    a distribuio dos valores aproximadamente simtrica em torno de 70kg;

    A anlise do histograma indica que:

    - a maioria dos valores (88 ) encontra-se no intervalo (55 - 85);

    - existe uma pequena proporo de valores abaixo de 48kg (1,2 ) e acima de 92kg

    (1 ).

    Vamos definir a varivel aleatria:

    A curva contnua da figura denomina-se curva Normal.

    Como se distribuem os valores da varivel aleatria X, isto , qual a distribuio de

    probabilidades de X ?

    X: peso, em kg, de uma pessoa adulta escolhida ao acaso da populao.

    A distribuio normal uma das mais importantes distribuies contnuas de

  • 5/20/2018 Aulas de Estat stica

    66/230

    probabilidade pois muitos fenmenos aleatrios comportam-se de forma

    prxima a essa distribuio.

    Exemplos de dados contnuos que obedecem a uma distribuio normal so:

    Medies do peso de pes;

    Peso de uma poro de carne;

    Comprimento de vrios lpis;

    Confirmao da real quantidade de suco em uma garrafa;

    Tempo de realizao de uma determinada tarefa;

    Tempo de resposta de certo exame;

    Consumo de gua de certa residncia.

    Em todos esses casos, se espera que os valores estejam em torno de um valor

    central, mas admite-se certa variabilidade em torno desse valor central.

  • 5/20/2018 Aulas de Estat stica

    67/230

    Considere o seguinte exemplo:

    Dados do consumo de gua, em litros por dia, em uma determinada residncia. Qual

    a estimativa mdia de consumo por dia? Qual a faixa de consumo mnimo?

    Qual a faixa de consumo mximo?

    Para responder essa pergunta, temos que distribuir esses valores em faixas, e para

    fazer essa distribuio, vamos utilizar a tcnica de distribuio que se aplica

    distribuio normal.

    Inicialmente tem-se que saber a quantidade total de dados, nesse caso 50 (n=50).

  • 5/20/2018 Aulas de Estat stica

    68/230

    Em seguida, encontram-se os valores mximo e mnimo dessa amostra, e a

    amplitude, que a diferena do valor mximo pelo valor mnimo. Nesse caso os

    valores so:

    Mximo = 47 Mnimo = 6 Amplitude = 41

    Ento se estima a largura de cada faixa a ser observada utilizando-se da seguinte

    equao:

    Largura de Faixa = Amplitude / raiz (n)

    Neste caso, a largura de cada faixa ser igual a [41/raiz(50)] = 5,80. Esse valor ser

    arredondado, por questes prticas, para 6. Nesse caso, tm-se ento as faixas

    de dados mostradas a seguir. Contando-se os valores dos dados

    correspondentes a cada faixa, utilizando a conveno de incluir os dados nos

    limites superiores das faixas, para que no haja contagem duplicada, tm-se os

    resultados apresentados na coluna de frequncia observada.

  • 5/20/2018 Aulas de Estat stica

    69/230

    Nesse exemplo de cmputo dos dados em cada faixa considerando o valor

    do limite superior na faixa na prpria faixa, chama-se, em notao

    matemtica, de intervalos abertos para o valor inferior da faixa e

    intervalos fechados no valor superior da faixa.

    Com os dados resumidos da tabela do consumo de gua, pode-se montar

    um grfico da distribuio do consumo como apresentado a seguir.

  • 5/20/2018 Aulas de Estat stica

    70/230

    Pode-se ento estimar que a faixa de consumo mdio entre

    18 e 24 litros, que a faixa de consumo mnimo at 6

    litros e que a faixa de consumo Mximo entre 42 e

    48litros de gua por dia nessa residncia em particular.

  • 5/20/2018 Aulas de Estat stica

    71/230

    Analisando os dados de consumo de gua atravs de uma estatstica

    descritiva, obtm-se os seguintes resultados.

    3 1 A DISTRIBUIO NORMAL PADRONIZADA

  • 5/20/2018 Aulas de Estat stica

    72/230

    3.1 A DISTRIBUIO NORMAL PADRONIZADA

    A distribuio Normal Padronizada representa uma distribuio normal

    genrica, com mdia no ponto zero ( = 0) e desvio padro unitrio (

    =

    1).

    Essa distribuio utilizada para que se faam estimativas relacionadas s

    distribuies de dados coletados, bem como comparaes entre

    distribuies diferentes.

    A v. a. tem distribuio normal com parmetros e

    2

    se sua funo

    densidade de probabilidade dada por

  • 5/20/2018 Aulas de Estat stica

    73/230

    Pode ser mostrado que:

    1. o valor esperado (mdia) de X ( - < < );

    2.

    2

    a varincia de X (

    2

    > 0).

    Propriedades de

    X~ N ;

    2

    )

    E(X) = (mdia ou valor esperado);

    Var X) =

    2

    (e portanto, DP(X) =

    );

    x= ponto de mximo de f (x);

    f x) 0 quando x

    - e + so pontos de inflexo de f (x);

    a curva Normal simtrica em torno da mdia

    .

  • 5/20/2018 Aulas de Estat stica

    74/230

    Considerando, atravs da estatstica descritiva obtida, os valores da mdia e desvio

    padro do consumo de gua como sendo 22,88 e 7,93, respectivamente, as

    faixas de + 1 desvio padro, +2 desvio padro e +3 desvio padro so:

  • 5/20/2018 Aulas de Estat stica

    75/230

    A Distribuio Normal Padronizada dividida em faixas, onde cada faixa

    tem o tamanho do desvio padro. Os estudos da distribuio normal

    estabeleceram a probabilidade de concentrao de resultados em cada

    faixa da distribuio. Essas probabilidades podem ser aplicadas a

    quaisquer distribuies de dados contnuos, desde que se verifique que

    eles obedecem s caractersticas da distribuio normal.

    Tomemos como exemplo os dados de consumo de gua anteriormente

    apresentados. Ao observar o grfico da faixa de consumo de gua,

    verificamos um formato muito semelhante ao formato da distribuio

    normal padronizada. Para ter-se certeza dessa afirmao necessrio

    que se faa um teste de hiptese de normalidade, mas vamos

    considerar que esse teste j foi feito e que os dados apresentados

    obedecem a uma distribuio normal.

  • 5/20/2018 Aulas de Estat stica

    76/230

    3 2 O TEOREMA DO LIMITE CENTRAL

  • 5/20/2018 Aulas de Estat stica

    77/230

    3.2 O TEOREMA DO LIMITE CENTRAL

    Para muitos estatsticos como o conceito mais importante de toda a teoria

    estatstica o teorema do limite central, ligao entre a distribuio

    normal e as distribuies de amostragem, considerado como a chave da

    estocstica.

    O teorema do lime central postula que, para quase todos os tipos de

    populao de dados, a distribuio das mdias das amostras pode ser

    aproximada por uma distribuio normal, desde que o tamanho das

    amostras seja suficientemente grande.

  • 5/20/2018 Aulas de Estat stica

    78/230

  • 5/20/2018 Aulas de Estat stica

    79/230

    Consideremos um exemplo prtico do teorema do limite central a anlise de uma

    populao de dados, cujo formato esperado de sua distribuio o de uma

  • 5/20/2018 Aulas de Estat stica

    80/230

    distribuio uniforme.

    Para confirmar isso, vamos realizar alguns lanamentos de dados, digamos 200, em

    20 sries de 10 lanamentos. O resultado desses lanamentos pode ser

    observado na tabela a seguir.

    Computando-se os valores dos resultados iguais a 1, 2, 3, 4, 5 e 6, temos na tabela a

  • 5/20/2018 Aulas de Estat stica

    81/230

    seguir o resumo das observaes.

    Representando graficamente as propores das observaes, pode-se ver que a

    distribuio da quantidade dos valores observados se aproxima de uma

    distribuio uniforme.

    Entretanto, ao avaliar a coluna representando a mdia de cada srie de 10

    lanamentos, tem-se o seguinte resultado:

  • 5/20/2018 Aulas de Estat stica

    82/230

    Desta forma, a distribuio da mdia das 20 sries de 10 lanamentos fica conforme

    o grfico da figura a seguir, o que notadamente se encaixa com o formato de

    uma distribuio normal.

    3 3 O HISTOGRAMA

  • 5/20/2018 Aulas de Estat stica

    83/230

    3.3 O HISTOGRAMA

    Suas aplicaes no se encerram na observao do formato da distribuio. Utiliza-

  • 5/20/2018 Aulas de Estat stica

    84/230

    se o histograma tambm para se observar algum padro que possa dar um

    maior entendimento do processo que originou os dados coletados. Alguns pontos

    de observao mais comuns podem ser exemplificados na figura a seguir.

    Entretanto, para melhor se observar as caractersticas dos dados representados no

  • 5/20/2018 Aulas de Estat stica

    85/230

    histograma, um adequado ajuste de escala deve ser feito. Esse ajuste de escala

    depende da faixa de valores utilizada para computar as frequncias observadas.

    Essas faixas so tambm chamadas de intervalo de classe ou w (do termo ingls

    width, que significa largura).

    3.4 EXERCCIOS

  • 5/20/2018 Aulas de Estat stica

    86/230

    1. Altura dos Alunos

    Com os dados do Exerccio de Estatstica Descritiva da Aula 01

    construa um histograma das alturas dos alunos da sala de aula.

    Comente os resultados.

  • 5/20/2018 Aulas de Estat stica

    87/230

    2. Produo de Leite

    Os dados relacionados a seguir, referem-se a produo diria de

    leite de vacas da raa Holandesa obtida em duas ordenhas, em

    Kg.

    Faa a Estatstica Descritiva e o Histograma desses dados. Comente

    os resultados.

    3. Tanques de leo

  • 5/20/2018 Aulas de Estat stica

    88/230

    Os dados que seguem (j ordenados) referem-se tonelagem (em milhares

    de toneladas) de grandes tanques de leo.

    a. Construa uma tabela de frequncias (absolutas, relativas e acumuladas) para

    esses dados utilizando sete classes e intervalo constante.

    b. Represente graficamente o conjunto de frequncias relativas.

    c. Indique no grfico o local aproximado da mediana e da moda.

  • 5/20/2018 Aulas de Estat stica

    89/230

  • 5/20/2018 Aulas de Estat stica

    90/2304.0 INTERVALO DE CONFIANA PARA A MDIADA POPULAO

  • 5/20/2018 Aulas de Estat stica

    91/230

    DA POPULAO

    Estimar qual a mdia da populao com base na mdia da amostragem

    um dos problemas mais comuns na estatstica inferencial. O fato de isso

    ser um problema corriqueiro e importante pode ser evidenciado por

    alguns dos cenrios apresentados a seguir, onde a obteno do valor

    mdio da populao pode ser invivel (por razes de custo ou tempo) ou

    at mesmo por ser impossvel.

    a) O gerente regional de uma rede de lojas necessita saber qual o tempo mdio de

  • 5/20/2018 Aulas de Estat stica

    92/230

    permanncia dos clientes nas filas dos caixas aps ter instalado um novo

    sistema de cdigo de barras nos produtos.

    b) Uma empresa area gostaria de saber qual o tempo mdio de vida dos trens de

    pouso das aeronavesde sua frota.

    c) Uma empresa preocupada com o nvel de estresse dos seus funcionrios quer

    estimar qual a presso sangunea mdiadeles.

    d) O departamento de trnsito gostaria de estimar o trfego mdio em um

    determinado horrio (em nmero de carros) de um importante cruzamento da

    cidade.

    e) Um gerente de frota de veculos de uma empresa de transporte coletivo gostaria

    de estimar o consumo mdio de gasolina dos nibusde sua frota.

    f) Um hospital particular gostaria de estimar a proporo mdia de atrasos nas

    cobranasem funo de erros do seu pessoal interno.

    g) Uma empresa de software gostaria de estimar o nmero mdio de desvios a cada

    1000 linhas de cdigo de programa.

  • 5/20/2018 Aulas de Estat stica

    93/230

    Vamos ilustrar agora como dados amostrados podem ser utilizados para

    estimar a mdia da populao. Consideremos o cenrio do

    supermercado apresentado anteriormente. Atravs de uma amostra

    aleatria de 36 clientes e do registro do tempo que permaneceram no

    caixa do supermercado, temos os dados presentados na tabela a seguir.

    Desses dados amostrados ns gostaramos de estimar a mdia da

  • 5/20/2018 Aulas de Estat stica

    94/230

    populao (), isto , a verdadeira, mas desconhecida, mdia de tempo

    de permanncia no caixa de todos os clientes. A mdia da amostra

    desses dados = 14 minutos, e certamente pode ser utilizada para

    se estimar a mdia . Este tipo de estimativa chamado de estimativa

    de ponto, porque um simples nmero utilizado para a estimativa.

    Com o conceito de distribuio da mdia das amostras do teorema do

    limite central, podemos quantificar o erro associado com a essa

    estimativa. Isso pode ser feito atravs do desenvolvimento de um

    mtodo chamado de estimativa de intervalo para a mdia da

    populao.

    O teorema do limite central postula que a distribuio de onde foi obtida a

    mdia = 14 minutos umcenrio de uma distribuio normal. Ento,

    a mdia da populao est no centro dessa distribuio, apesar de

    no sabermos o seu valor

  • 5/20/2018 Aulas de Estat stica

    95/230

    Dessa forma, intuitivamente foi estabelecida seguinte equao: =

    erro

    Onde esse erro, depende de algumas consideraes estatsticas. Aps

    algum desenvolvimento matemtico com base na distribuio normal

    padronizada, tambm chamada de distribuio Z, esse erro foi

    estabelecido como sendo:

    erro = Z . (

    /

    )

    Onde Z um valor padronizado em funo do nvel de confiana (chamado

    na estimativa, o desvio padro e n o tamanho da amostra.

    Essa estimativa de erro considera que o desvio padro

    da populao

    conhecido, entretanto, se o tamanho da amostra n maior ou igual a

    30, pode-se utilizar o desvio padro da amostra como estimativa do

    desvio padro da populao.

    A tabela a seguir mostra os valores de Zmais utilizados para a estimativa

  • 5/20/2018 Aulas de Estat stica

    96/230

    de intervalo, em funo do nvel de confiana

    .

    Estimativas de intervalo normalmente utilizam um desses nveis de

    confiana para

    .Caso seja necessrio um nvel de confiana diferente

    desses valores apresentados, deve ser consultada uma tabela

    detalhada dos valores

    e Z.

    Desta forma, considerando os 36 dados de minutos de permanncia dos clientes no

  • 5/20/2018 Aulas de Estat stica

    97/230

    caixa do supermercado, um valor

    de 95% de confiana, e considerando

    = 5,0

    como o desvio padro conhecido da populao, pode ser feita a seguinte

    estimativa de intervalo:

    = Z . (

    /

    )

    = 14 1,96 . ( 5,0 /36)

    = 14 1,63

    Dessa forma, podemos afirmar que a mdia da populao est entre o seguinte

    intervalo, com uma probabilidade de 95% = 12,37 < < 15,63

    Sabendo que o estabelecimento de uma probabilidade envolve variveis aleatrias,

    e um valor desconhecido, no uma varivel, os estatsticos preferem utilizar o

    termo

    confiana

    ao invs de

    probabilidade

    .

    Dessa forma, a declarao que pode ser feita nesse caso :

    4.2 INTERVALO DE CONFIANA PARA A MDIADA POPULAO ( DESCONHECIDO)

  • 5/20/2018 Aulas de Estat stica

    98/230

    DA POPULAO (DESCONHECIDO)

    O clculo do intervalo de confiana para a mdia da populao

    considerando o desvio padro

    da populao desconhecido, difere

    ligeiramente da condio anterior, com a substituio da distribuio Z

    pela distribuio t-student, conforme mostrado na equao a seguir.

    = t (n-1 ,/2) . ( s /)

    onde s o desvio padro da amostra, et o valor da distribuio t-student

    determinado em funo do grau de liberdade (n-1) e do risco /2)

    estabelecido para o teste.

    Considerando o mesmo exemplo da seo anterior, o clculo do intervalo de

  • 5/20/2018 Aulas de Estat stica

    99/230

    confiana fica da seguinte forma:

    t (36-1 , 0.05/2) = 2,34 (valor obtido de uma tabela ou software estatstico)

    S = 4,2

    = 14 2,34 . ( 4,2

    /

    36)

    = 14 1,64

    Dessa forma, podemos afirmar que a mdia da populao est entre o seguinte

    intervalo, com uma probabilidade de 95%.

    12,36 < < 15,64

  • 5/20/2018 Aulas de Estat stica

    100/230

    4.3 INTERVALO DE CONFIANA PARA APROPORO DA POPULAO

  • 5/20/2018 Aulas de Estat stica

    101/230

    PROPORO DA POPULAO

    Na seo anterior foi apresentada uma estratgia para se determinar

    estimativas da mdia de uma populao de dados contnuos. Quando

    os dados so discretos h interesse em estimativas da proporo

    da

    populao, com base na proporo p da amostra, pode-se utilizar a

    seguinte equao alternativa.

    Onde p a proporo da amostra e n o tamanho da amostra.

    Essa equao pode ser utilizada se n for

    suficientemente

    grande

    . Em

    termos prticos pode se considerar atravs da verificao se n.p > 5 e

    n(1-p) > 5.

    Considere o seguinte exemplo.

  • 5/20/2018 Aulas de Estat stica

    102/230

    Nas proximidades de uma eleio, certa empresa de pesquisa de opinio

    entrevistou 2.400 eleitores de forma aleatria e perguntou sobre as

    preferncias de voto, sendo computados 42% de inteno de votar no

    candidato que estava atualmente no cargo.

    Calcule, com um nvel de confiana de 95%, qual o intervalo de confiana

    para a verdadeira, mas desconhecida, proporo de votos que esse

    candidato pode ter.

  • 5/20/2018 Aulas de Estat stica

    103/230

    Resposta: Sendo p = 0,42 ; n = 2.400 e Z = 1,96, pode- se calcular

    4.4 TESTE DE HIPTESES

  • 5/20/2018 Aulas de Estat stica

    104/230

    Uma hiptese estatstica uma afirmao sobre algum estado real da natureza que

    no completamente compreendido. Alguns exemplos podem ser:

    a) A mdia de consumo de combustvel difere em funo do uso do tipo de

    combustvel A ou B;

    b) O tipo de analgsico determina a quantidade de alvio dor;

    c) A probabilidade de morte em acidentes de carro difere, dependendo se os

    passageiros utilizam cinto de segurana ou no;

    d) A filtragem de elementos txicos melhor se utilizar o mtodo 1 ao invs do

    mtodo 2;

    e) A variabilidade na espessura da pea depende do tipo de ferramenta utilizada;

    f) Estudantes oriundos de regies urbanas tem melhor desempenho na escola que

    estudantes oriundos de regies rurais;

    g) A fora de compresso de um determinado tipo de concreto est dentro das

    especificaes;

    h) A qualidade do produto depende do fornecedor de matria prima;

    Uma hiptese a ser testada consiste de duas afirmaes complementares sobre um

  • 5/20/2018 Aulas de Estat stica

    105/230

    estado real da natureza. Por exemplo, para um dado processo de medio de

    tempo de resposta de um grupo de alunos, as seguintes hipteses podem ser

    estabelecidas:

    Ho= O tempo mdio de resposta dos alunos igual a 20 minutos.

    H1= O tempo mdio de resposta dos alunosno igual a 20 minutos.

    Essas duas afirmaes complementares so definidas como hiptese nula (Ho) e

    hiptese alternativa (H1). Como o estado real da natureza raramente

    conhecido com 100% de certeza, essas duas afirmaes podem ser

    argumentadas e testadas.

    Uma analogia ao teste de hipteses pode ser feita com o sistema legal onde um

    acusado em julgamento pressuposto inocente at que os acusadores

    apresentem evidencias irrefutveis que convenam o contrrio. Nesse exemplo,

    as hipteses a serem testadas so:

    Ho = O ru inocente.

    H1 = O ru culpado.

    Independente da concluso do jri, eles nunca realmente tem certeza

  • 5/20/2018 Aulas de Estat stica

    106/230

    sobre o estado real da natureza. Concluir Ho: O ru inocente no

    significa que o ru de fato inocente. Uma concluso Ho simplesmente

    significa que no se tem evidencias suficientes para justificar sua

    condenao. Por outro lado, concluir H1 no prova que ele culpado,

    ao invs disso, implica somente que as evidencias so irrefutveis e d

    ao jri certo nvel de confiana em declarar o ru como culpado.

    Considerando que os vereditos so dados com menos de 100% de certeza,

    h uma probabilidade de erro em qualquer uma das duas concluses.

    Considere a tabela a seguir, a probabilidade de cometer um erro Tipo I definida

  • 5/20/2018 Aulas de Estat stica

    107/230

    como

    (0