estatistica aplicada 4

110
Prof. Valter de Senna, PhD [email protected] 1 Estatística Aplicada FACULDADE DE TECNOLOGIA SENAI CIMATEC

Upload: romer-simpson

Post on 05-Dec-2014

118 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

1

Estatística Aplicada

FACULDADE DE TECNOLOGIA SENAI CIMATEC

Page 2: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

2

Tópicos do Curso (sem stress)

Conceitos básicos de probabilidade e estatística;

Medidas de Posição (Média, Mediana, Moda);

Medidas de Dispersão (Desvio Padrão e Coeficiente de Variação);

Representação gráfica (histogramas, gráficos de setores);

Cálculo de Probabilidades;

Variáveis aleatórias e distribuições de probabilidade;

Distribuições Binomial e de Poisson;

Distribuições Normal, Exponencial e Weibull;

Intervalos de Confiança;

Controle de Processos;

Análise de Pareto, Diagrama de Causa e Efeito, Histogramas e Gráficos.

O que ocorrer

Page 3: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

3

Conceitos básicos

Contextualização histórica

Dificuldades conceituais

Problema de Monty Hall

Paradoxo de Bertrand

Paradoxo da troca

Page 4: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

4

Monty Hall (três portas)

Page 5: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

5

Monty Hall

Page 6: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

6

Tipos de Escalas

Nominal

Ordinal

Corresponde a variáveis onde temos categorias nas quais não há – ou não cabe – a noção de ordem. Por exemplo, sexo, cor, religião etc.

Corresponde a variáveis que se aplicam a situações onde há uma ordem, mas não se tem uma noção de distância entre os pontos da escala. Por exemplo, classe social, nível educacional, avaliações qualitativas etc.

Page 7: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

7

Tipos de Escalas

Intervalar

Temos nessa escala a noção de distância entre pontos, mas a posição da origem é arbitrária. Um exemplo freqüentemente citado é a temperatura medida em graus Centígrados ou Fahrenheit. Note que, quando na escala Celsius (centígrado) a temperatura passa, digamos, de 2º para 6º positivos, ela passa na escala Fahrenheit de 35,6º para 42,8º. Veja assim, que não tem sentido dizermos que ao passar de 2º para 6º, ficou três vezes mais quente.

Obs: a fórmula de conversão entre Centígrados e

Fahrenheit é 325

9 CF

Page 8: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

8

Tipos de Escalas

Razão

Nessa escala, a origem (zero) tem posição fixa. Temos assim, não só a distância entre pontos na escala como uma medida significativa, como também é relevante o valor relativo dos pontos na escala. Exemplos são: peso, altura, salário, idade, temperatura medida em graus Kelvin e outros. Veja que podemos dizer que um salário de R$6.000,00 é o dobro de um salário de R$3.000,00.

Page 9: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

9

Tipos de Escalas

Note que é preciso atenção,

com escalas cíclicas como dias da semana, pontos em uma circunferência e outros;

para que variáveis categóricas, por exemplo, ao serem codificadas em uma base de dados como 1, 2, 3 e sucessivamente, não sejam confundidas com variáveis em uma escala intervalar ou de razão;

com valores ausentes em uma base de dados. Podem estar ausentes porque não foram coletados ou porque não se aplicam ao indivíduo.

Page 10: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

10

Conceito de variação

• NÃO HÁ 2 itens produzidos pelo mesmo processo que sejam idênticos, devido às muitas fontes de variabilidade.

• A variação entre eles pode ser grande ou muito pequena.

Page 11: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

11

Distribuição

Valores individuais embora diferentes, como grupo tendem a formar um padrão.

Este padrão é chamado de distribuição.

Page 12: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

12

Caracterizações de uma distribuição

As distribuições podem diferir quanto à:

Localizacão Dispersão Forma

ou por qualquer combinação das três.

Page 13: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

13

Medidas de Tendência Central (localização)

Page 14: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

14

Medidas de Tendência Central

A Média Aritmética

A média aritmética, é a soma de todas as observações dividido pelo número de observações. Algebricamente, escrevemos:

xn

xx x x

nii

nn

1

1

1 2

Observe que, cx c xii

n

ii

n

1 1

Page 15: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

15

Média enganosa

2 cm 4 cm

Diâmetro médio 3 cmVolume “médio” 14,1 cm3

40 bolas 565,5 cm3

Diâmetro 2 cmVolume 4,2 cm3

20 bolas 83,8 cm3

Diâmetro 4 cmVolume 33,5 cm3

20 bolas 670,2 cm3

83,8 cm3 + 670,2 cm3 = 754,0 cm3

Page 16: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

16

Medidas de Tendência Central

A Mediana

A mediana é a segunda medida de tendência central em termos de popularidade. Suponha que a nossa amostra consiste de n observações. A mediana é definida como:

A razão da definição anterior é garantir que o mesmo número de observações se situa acima e abaixo da mediana.

Page 17: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

17

Medidas de Tendência Central

Em outras palavras, mediana é o valor abaixo do qual estão metade dos dados ou da distribuição. Se o número de observações é par, usualmente toma-se como mediana o ponto médio entre os dois valores (observações) centrais.

Obs.: é uma estatística robusta.

Page 18: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

18

Medidas de Tendência Central

A Moda

A moda é o valor mais freqüente entre as observações que compõem uma amostra.

Obs.: comentar abusos de linguagem, distribuições bimodais etc.

Page 19: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

19

Medidas de Tendência Central

A Média Geométrica

A média geométrica, como medida de tendência central, é útil para caracterizar distribuições de dados cujos valores são muito espalhados. Ela é dada pela formula:

Obs.: A média geométrica para dados distintos é sempre menor que a média aritmética.

Page 20: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

20

Medidas de dispersão (espalhamento)

A Amplitude

A amplitude é definida como a diferença entre a maior e a menor observação em uma amostra.

A amplitude amostral é uma medida bastante simples de calcular. Tem como desvantagens o fato de ser inteiramente dependente dos valores extremos e variar (aumentando) com o tamanho da amostra.

Page 21: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

21

Medidas de dispersão (espalhamento)

Quantil (percentil)

O p-ésimo percentil de um conjunto de dados é definido como:

i) A média entre as observações de número np/100 e (np/100 + 1)

na amostra ordenada, se np/100 é um número inteiro.

ii) A observação de número [np/100 + 1], na amostra ordenada, se np/100 não é um número inteiro. [x] significa “maior inteiro menor ou igual a x”.

A mediana corresponde portanto ao percentil 50.

Page 22: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

22

Medidas de dispersão (espalhamento)

A dispersão dos dados pode ser medida pela diferença

entre dois percentis. Podemos por exemplo utilizar a

diferença entre os percentis 90 e 10. Esta diferença é

menos sensível a valores extremos do que a amplitude

definida anteriormente. Também é bastante comum a

utilização da diferença entre os percentis 75 e 25

(chamada amplitude interquartílica).

Page 23: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

23

Medidas de dispersão (espalhamento)

A Variância e o Desvio Padrão

Page 24: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

24

Medidas de dispersão (espalhamento)

Coeficiente de Variação (CV)

Fornece uma medida da dispersão relativa dos dados ou da distribuição de probabilidade. É dado por,

CV =

Comentar: assimetria, curtose etc

onde σ é o desvio padrão e μ é a média.

Page 25: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

25

Visualização de Dados

A utilização de gráficos para visualização de dados é, sem dúvida, a ferramenta mais poderosa em estatística. Através de gráficos podemos tentar imaginar que tipo de processo pode ter dado origem aos resultados obtidos, bem como localizar resultados espúrios ou oriundos de contaminação do processo.

Page 26: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

26

Histogramas

Representam graficamente as distribuições de freqüências de ocorrências em um conjunto de dados.

Histogramas de freqüência: obtidos contando-se o número de observações que caem em cada intervalo (bin).

Histogramas de freqüência relativa: obtidos a partir de histogramas de freqüência, dividindo o total de observações que caem em cada intervalo, pelo total geral de observações.

Histogramas de densidade: obtidos dividindo a freqüência relativa pela largura de cada intervalo (em geral constante). Obtemos assim um histograma com área total igual a 1.

Page 27: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

27

Lei de Benford

Prob(mantissa < t) = log10t , 1 t < 10

Para os primeiros dígitos, d = 1, 2, ..., 9, isto significa,

Prob(primeiro dígito significativo = d) = log10(1+ 1/d)

Em geral, Prob(mantissa < t) = logbt , 1 t < b

Page 28: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

28

Tabela de probabilidade dos primeiros dígitos

Lei de Benford

Primeiro dígito

Probabilidade

1 30.1%

2 17.6%

3 12.5%

4 9.7%

5 7.9%

6 6.7%

7 5.8%

8 5.1%

9 4.6%

Page 29: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

29

Por quê a lei de Benford funciona?

• Amostras aleatórias de variáveis aleatórias

• Invariancia em escala implica na lei de Benford

• Invariancia em base implica na lei de Benford

Page 30: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

30

Exemplos

Fibonacci sequence

0.0%

5.0%

10.0%

15.0%

20.0%

25.0%

30.0%

35.0%

1 2 3 4 5 6 7 8 9

1st digit

Benford

Sequencia de Fibonacci e a lei de Benford:

Page 31: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

31

Histograma de frequência

415

municípios

Primeiro dígito da área (checar se é densidade populacional!) dos 415 municípios da Bahia e a lei de Benford:

Page 32: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

32

Histograma de frequência relativa e lei de Benford

Page 33: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

33

Como mentir estatisticamente

0

20

40

60

80

100

120

1995 1996 1997 1998 1999 2000 2001 2002

Ano

IPC

ac

um

ula

do

IPC acumulado em Salvador durante os governos FHC (PSDB)

Page 34: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

34

Como mentir estatisticamente

20

30

40

50

60

70

80

90

100

110

1995 1996 1997 1998 1999 2000 2001 2002

Ano

IPC acumulado em Salvador durante os governos FHC (PT)

Page 35: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

35

Como mentir estatisticamente

0

50

100

150

200

250

300

350

400

450

500

1995 1996 1997 1998 1999 2000 2001 2002

Ano

Valor do salário mínimo durante os governos FHC (PT)

Page 36: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

36

Como mentir estatisticamente

100

110

120

130

140

150

160

170

180

190

200

1995 1996 1997 1998 1999 2000 2001 2002

Ano

Valor do salário mínimo durante os governos FHC (PSDB)

Page 37: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

37

Como mentir estatisticamente

100

200

1995 2002

reais

reais

Crescimento do salário mínimo no governo FHC (PSDB)

Page 38: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

38

População da Região Metropolitana de Salvador

20000

25000

30000

35000

40000

45000

Po

pu

laçã

o

IBGE 2000R.M. Salvador

Mulheres

Homens

Page 39: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

39

População por sexo e faixa etária – R.M.S.

Pirâmide R.M. Salvador 2.000

0 20 40 60 80 100 120 140 160 180 200

0 a 4 anos

10 a 14 anos

20 a 24 anos

30 a 34 anos

40 a 44 anos

50 a 54 anos

60 a 64 anos

70 a 74 anos

80 a 84 anos

Faix

a Et

ária

População (mil pessoas)

Homens Mulheres

Page 40: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

40

Gráfico de Ramo e Folha

Foram introduzidos por Tukey em 1977, no livro Exploratory Data Analysis. As observações, compostas de pelo menos 2 dígitos, são separadas (cada uma delas) em duas partes: o ramo e a folha.

O ramo, é formado pelo dígito (ou dígitos) principal enquanto que o dígito restante (talvez após arredondamento) forma a folha. Por exemplo, a observação 25 teria ramo 2 e folha 5. O gráfico ramo e folha é interessante porque não só mostra a forma aproximada da distribuição dos dados como também fornece uma lista dos próprios dados.

Page 41: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

41

Gráfico de Ramo e Folha

Uma desvantagem do ramo e folha é que, ao contrário de histogramas, não é muito útil quando temos uma grande quantidade de dados, devido à “altura” que ficam os gráficos (por isso que tive que retirar, para o gráfico seguinte, uma sub-amostra de tamanho 100 dos dígitos dos municípios da Bahia).

Obs.: Discutir problemas nos histogramas associados à largura das faixas!

Page 42: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

42

Gráfico de Ramo e Folha

Page 43: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

43

Box Plot (box e whisker) ou “caixa e bigode”

Utiliza cinco parâmetros obtidos a partir do conjunto de dados:

Page 44: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

44

Box plot

Se chama maior valor adjacente ao maior valor dos dados que é menor ou igual ao limite superior, LS. Ele se torna uma das pontas do bigode. Analogamente, o menor valor adjacente é o menor valor dos dados que é maior ou igual ao limite inferior, LI. É a outra ponta do bigode.

Observações além das pontas dos bigodes são plotadas individualmente.

Page 45: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

45

Box plot

Page 46: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

46

Box plot: casamentos no Brasil, 1984 a 1998Casamentos Brasil, 1984 a 1998

J aneiro

Março

Maio J ulho

Setembro

Novembro

44410

54410

64410

74410

84410

94410

104410

Page 47: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

47

Casamentos no Brasil, mês a mês, de 1984 a 1998

Page 48: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

48

Nascimentos no Brasil, mês a mês, de 1984 a 1998

Page 49: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

49

Nascimentos no Brasil, mês a mês, de 1984 a 2003

Page 50: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

50

Em muitas situações, nos deparamos com dados, relativos

a um processo ou objeto caracterizado em várias

dimensões. Por exemplo, um processo industrial precisa

ser monitorado em vários aspectos. Um paciente internado

numa UTI, precisa ter varias de suas funções vitais

acompanhadas permanentemente. Ou, precisamos

identificar e agrupar objetos distintos, a partir de

características medidas, visando descobrir grupos

homogêneos quanto ao uso de recursos, entender o

resultado de intervenções ou mesmo comparar a

performance de unidades distintas.

Dados multivariados

Page 51: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

51

Significado das variáveis, por ordem nas tabelas

1. área da face

2. forma da face

3. comprimento do nariz

4. localização da boca

5. curva do sorriso

6. largura da boca

Page 52: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

52

Cães pré-históricos da Tailândia

Em escavações de sitios pré-históricos na

Tailandia foram encontrados ossos de cães

datados de 3.500 a.c. A origem desses cães é

incerta. Podem descender do chacal dourado ou

do lobo. Como o lobo não é nativo da Tailândia,

poderiam vir da China ou da India. Suspeita-se que

o dingo possa ter se originado na India e o cuon é

do sudeste asiático.

Page 53: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

53

Cuon, dingo, chacal dourado, lobo indiano e cão tailandes

Cuon Dingo

Lobo

Chacal Cão

Page 54: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

54

Variáveis medidas nos ossos da mandíbula

1. largura da mandíbula

2. altura da mandíbula abaixo do 1o molar

3. comprimento do 1o molar

4. largura do 1o molar

5. espaço do 1o ao 3o molar

6. espaço do 1o ao 4o pré-molar

Page 55: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

55

Faces de Chernoff para mandibulas de cãesMandibulas de caes

1 2 3

4 5 6

7

1. Cão moderno

2. Chacal

dourado

3. Lobo chines

4. Lobo indiano

5. Cuon

6. Dingo

7. Cão pre-

historico

Page 56: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

56

Gráfico de estrelas para mandíbulas de cãesMandibulas de caes

1 2 3

4 5 6

7

1. Cão moderno

2. Chacal

dourado

3. Lobo chines

4. Lobo indiano

5. Cuon

6. Dingo

7. Cão pre-

historico

Page 57: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

57

Variaveis medidas em taças escavadas na Tailândia

Page 58: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

58

Faces de Chernoff para taças pré-históricasCalices pre-historicos da Tailandia

1 2 3 4 5

6 7 8 9 10

11 12 13 14 15

16 17 18 19 20

21 22 23 24 25

Page 59: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

59

Noções de Probabilidade

Espaço amostral: conjunto de resultados possíveis de um experimento.

Eventos: são subconjuntos do espaço amostral.

Page 60: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

60

Diagramas de Venn

Espaço amostral com eventos A e B

Page 61: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

61

Diagramas de Venn

Eventos A e B não têm resultados em comum

A B

Page 62: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

62

Diagramas de Venn

Page 63: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

63

Diagramas de Venn

Page 64: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

64

Diagramas de Venn

Page 65: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

65

Exemplo

Sejam E, F, e G três eventos em um espaço amostral S. Encontre expressões para os seguintes eventos:

a) somente F ocorre

b) E e F ocorrem mas G não ocorre

c) pelo menos um dos três eventos ocorre

d) pelo menos dois dos três eventos ocorrem

e) todos os três eventos ocorrem

f) nenhum dos três eventos ocorre

g) no máximo um dos três ocorre

h) no máximo dois dos três ocorrem

Page 66: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

66

Solução

) ( ) ( )

)

)

) ( ) ( ) ( )

)

)

) ( ) ( ) ( )

)

a F E G F E G F E G

b E F G

c E F G

d E F E G F G

e E F G

f E F G E F G

g E F E G F G

h E F G

Page 67: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

67

Noções de Probabilidade

Probabilidade: é uma função definida sobre os eventos de um espaço amostral, com as seguintes propriedades;

Page 68: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

68

Noções de Probabilidade

Algumas consequências imediatas da definição acima são:

Page 69: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

69

Exemplo

Sessenta porcento da população bebe. 40% fuma e 50% pragueja. Somente 25% não tem nenhum destes hábitos e 20% tem os três. Além disso, 25% fuma e pragueja, e 40% bebe e pragueja. Qual é a probabilidade de um sujeito escolhido ao acaso beber e fumar? Beber e fumar mas não praguejar?

Page 70: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

70

Solução

Page 71: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

71

Noções de Probabilidade

Probabilidade Condicional: dados dois eventos A e B, a probabilidade condicional de A dado B é;

Page 72: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

72

Exemplo

Três jornais, A, B e C são publicados em uma cidade. Uma pesquisa de opinião revelou que 20% lê o jornal A, 16% lê o jornal B, 14% lê C, 8% lê A e B, 5% lê A e C, 4% lê B e C e 2% lê A, B e C. Se uma pessoa é escolhida ao acaso, encontre a probabilidade de que ela:

a) não leia nenhum jornal,

b) leia somente um dos jornais,

c) leia pelo menos A e B se se sabe que ela lê pelo menos um dos jornais.

Page 73: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

73

Resposta

Page 74: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

74

Noções de Probabilidade

Eventos independentes: dois eventos A e B são ditos independentes se P(A | B) = P(A).

Obs.: dois eventos são mutuamente exclusivos se não podem ocorrer ao mesmo tempo.

Page 75: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

75

Exemplo

Page 76: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

76

Solução

Page 77: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

77

Exemplo

Uma moeda é lançada N vezes. Seja A o evento "pelo menos 2 coroas" , e B o evento "uma ou duas caras". Mostre que A e B são eventos independentes para N=3 mas não para N=4.

Page 78: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

78

Solução

Page 79: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

79

Noções de Probabilidade

Page 80: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

80

Noções de Probabilidade

Teorema de Bayes:

Page 81: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

81

Exemplo

Cinco porcento dos aparelhos de televisão de uma linha de produção tem os controladores vertical e horizontal defeituosos. Em oito porcento, somente o controle horizontal é defeituoso. Se o aparelho tem o controle horizontal defeituoso, qual a probabilidade do controle vertical estar defeituoso ?

Page 82: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

82

Solução

V = vertical defeituosoH = horizontal defeituosoP(V∩H) = 5% e P(H∩Vc) = 8%

P(H) = P(H∩V) + P(H∩Vc) = 13%

Logo, P(V|H) = P(V∩H)/P(H) = 5%/13% = 38,5%

Page 83: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

83

Exemplo

Suponha que 0.1% da população está  infectada com uma certa doença. Num exame médico para essa doença, 98% dos infectados dá resultado positivo, e 99% dos não infectados dá resultado negativo. Se uma pessoa escolhida ao acaso é examinada e dá  um resultado positivo, qual a probabilidade desta pessoa ter a doença ?

Page 84: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

84

Solução

D = doença e P(D) = 0,1% = 1/1.000P(+|D) = 98% (sensitividade) e P(-|Dc) = 99% (especificidade)

P(Dc) = 99,9% e P(+|Dc) = 1%. Queremos P(D|+) = P(+|D).P(D)/P(+) e temosP(+) = P(+|D).P(D) + P(+|Dc). P(Dc). Logo, P(D|+) = = (98%x 0,1%)/(98%x0,1% + 1%x99,9%)) =

98/1097 = 8,8% < 10%

Page 85: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

85

Método das Respostas Randomizadas

•A ideia central é que o entrevistado responde a uma entre duas perguntas, escolhidas aleatoriamente.

•Uma das perguntas é totalmente inocente e a outra é uma pergunta embaraçosa.

•O entrevistador não sabe a que pergunta a resposta se refere.

Page 86: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

86

Modo de execução

• O entrevistado sorteia a pergunta a ser respondida (por exemplo, jogando uma moeda), sem que o entrevistador saiba o resultado do sorteio.

• Se, digamos, o resultado for cara ele responde a uma pergunta delicada que se quer apurar, algo como “Você já roubou da sua empresa?” Se der coroa, ele responde a uma pergunta inócua do tipo “Você nasceu em abril?”

Page 87: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

87

Um pouco de Matemática

p = proporção que já roubou da empresa1/12 = proporção de pessoas que nasceram em abrils = proporção de “sim” nas respostas.

Temos:

s = px 1/2 + (1/12) x 1/2 e portanto, a proporção que já roubou da empresa pode ser obtida, resolvendo a equação acima, como:

p = 2 x s – 1/12

Page 88: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

88

Exemplo

112 estudantes de uma universidade inglesa.

O questionário era sobre homossexualismo.

Uma pergunta era:

Eu não tenho interesse pelo sexo oposto

A outra pergunta era:

Meu último aniversário caiu num domingo

Page 89: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

89

Resultados

11 alunos responderam “sim”

Por analogia com o exemplo anterior, a proporção na turma é portanto:

gays = 2 x proporção de sim - 1/7

gays = 2 x (11/112) – 1/7 = 0,054 = 5,4%

Page 90: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

90

Variável Aleatória

Comumente estamos interessados em uma função do resultado de um experimento. Por exemplo, ao lançarmos dois dados podemos estar interessados na soma dos números obtidos. A essa função, definida sobre o espaço amostral, chamamos variável aleatória. Aos valores de uma variável aleatória temos associadas probabilidades, de uma maneira natural.

Page 91: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

91

Variável Aleatória: exemplo

Número de lançamentos de uma moeda até obtermos "cara". Chamando de N a variável aleatória ( a convenção é utilizarmos letras maiúsculas), temos:

P(N = 1) = p

P(N = 2) = (1- p)p

P(N = 3) = (1- p) p

P(N = n) = (1- p) p , n 1

2

n-1

onde p é a prob. do resultado ser "cara".

A variável N acima é dita uma variável aleatória discreta, porque o seu conjunto de valores possíveis é um conjunto discreto.

Page 92: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

92

Distribuição Acumulada

A distribuição acumulada F(x) de uma variável aleatória X é definida como:

( ) Prob[ ] para - <x<F x X x

A distribuição acumulada F(x) satisfaz às seguintes propriedades:

(i) 0≤F(x)≤1

(ii) F(x) é não decrescente, isto é, se 1 2 1 2então ( ) ( )x x F x F x

lim ( ) 0x

F x

lim ( ) 1x

F x

e (iii)

Page 93: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

93

Função massa de probabilidade

Além disso,

A função de distribuição F(x) acumulada é dada por:

Page 94: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

94

Exemplo

X uma variável aleatória discreta, com valores 1, 2, 3 e 4 que ocorrem com probabilidade 1/6, 1/3, 1/3 e 1/6

Page 95: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

95

Média de variáveis aleatórias

Page 96: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

96

Variância e desvio padrão

Page 97: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

97

Algumas distribuições discretas

Page 98: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

98

Algumas distribuições discretas

Page 99: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

99

Algumas distribuições discretas

Page 100: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

100

Exemplo

Assuma que a probabilidade de que um passageiro, com reserva, não compareça ao embarque é de 5%. Se uma companhia aérea vende 52 passagens para um avião de 50 lugares, qual a probabilidade de que todos que compareçam consigam embarcar?

Page 101: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

101

Solução

5052

0

52.0,95 .(1 0,95)x x

x x

51 1 52 052 521 .0,95 .(1 0,95) .0,95 .(1 0,95)

51 52

= 0,74 = 74% isto é, 26% de chance de confusão!

Page 102: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

102

Algumas distribuições discretas

Page 103: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

103

Algumas distribuições discretas

Page 104: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

104

Algumas distribuições discretas

Page 105: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

105

Exemplo

No jogo da Sena são sorteados 6 números em um conjunto de 50, sem reposição. Ganha quem acertar 4, 5 ou os 6 números. Além disso, é pago prêmio pela sena anterior e posterior. O jogador escolhe 6 números por cartão. Calcule a prob. de se ganhar algum prêmio, para cada cartão jogado.

Page 106: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

106

Solução

6 44 6 44 6 44

6 0 5 1 4 23

50 50 50

6 6 6

3x6,29x10-8 + 1,66x10-5 + 8,93x10-4 = 9,10x10-4 ≈ 1/1.000

Page 107: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

107

Algumas relações entre as distribuições discretas

Page 108: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

108

Algumas relações entre as distribuições discretas

Page 109: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

109

Exemplo

Use a aproximação de Poisson para calcular a prob. de que uma caixa com 100 fusíveis contenha no máximo 2 defeituosos, se 3% dos fusíveis fabricados são defeituosos.

Page 110: Estatistica aplicada 4

Prof. Valter de Senna, PhD [email protected]

110

Solução

3np

3 23 3

3

.3Prob( 2) 3.

2

.8,5 0,423 42,3%

eX e e

e